求問deep learning書中關於RNN反向傳播計算梯度的公式10 20和10 21?

時間 2021-06-03 02:24:18

1樓:lixing

10.21是錯的,在最新版的書中已經更正了。

diag應該在W^T和delta_h(t+1) L中間,大家參考一下這個資料,就會推了,大概可能要學習一兩天。我從接觸rnn到弄懂這一步,過去了三年,不禁感嘆如果當初沒有急功近利,慢慢學早就會推了吧。欲速則不達,見小利則大事不成。

另外補充一句,看一下這裡面的定理11,給出了非常優雅的形式,沒有上面那麼複雜,上面的答案推的有問題,jacobian矩陣中diag是W的左邊的。

2樓:浦東花澤類

我覺得這裡的公式推導有點把梯度和Jacobian矩陣給用混淆了。

按照一般的習慣,求梯度是用列向量偏導運算元,求Jacobian用的是行向量偏導運算元,也就是說梯度通常寫成列向量,Jacobian寫成行向量,二者互為轉置。

一般來說,用鏈式法則計算梯度資訊傳播用的是Jacobian,從左到右一項一項進行矩陣乘法,維數都是match的,對於公式(10.20)的第一項就是 ,這是個行向量。

而如果用梯度來表示,就要對其轉置,變成 ,其中 就是梯度(知乎好像打不出梯度符號),而 ,所以公式(10.20)的第一項應該是: , 也就是說diag這個因子應該寫在最左邊,不應該寫在最右邊。

而如果寫在最右邊,就不能是矩陣乘法,而應該是element-wise乘法,即 , 這裡是個列向量。

另外樓主在描述裡好像還有乙個問題,目標函式L是個一元實值函式,並不是y維,因此梯度 是h維列向量,不是y*h維矩陣。

3樓:徐義堯

其實就是10.8和10.9式加鏈式法則的計算。把對角陣移到梯度向量左邊就好。

10.9關於向量的函式是逐項計算,其他沒有難推的東西。知乎打公式忒麻煩,還要問建議複習下多元函式微積分(ω)

另外個人覺得計算機科學家隨性用記號,也不說採用愛因斯坦求和約定,導致的各種歧義和錯誤都是咎由自取2333

4樓:

diag 的確不恰當。

由於 tanh 是逐元素的,所以右邊的兩項應該先逐元素乘,再和 w^T 矩陣乘。

然後這塊和mlp的隱層差不多,都是仿射之後套啟用函式,你可以看看那部分怎麼講的。

養魚求問?

看魚這樣子,應該是水質酸化得太厲害了,一般這種室內的缸,就看勤快不勤快了,配乙個ph儀,每天測一次,水質低於6.5,就換水。 烏鴉君 過濾系統,是目前整個魚友屆都比較推崇的養魚方式。的確,過濾好的魚缸,省心,穩定。但是,如果足夠勤快,白棉 勤換水也可以解決。但是,養魚前水先放幾天,進魚後多次少量換水...

求問大神 想學習心理學 需要看什麼書?

婉如清揚 很多人都會讓我推薦心理學的書籍,我經常給他們推薦以下幾本,比較適合大眾的,通俗易懂,對我們幫助比較大的首先是 心理學與生活 這對了解心理學比較有幫助,是入門的基礎的,然後是 改變心理學的四十項研究 比較好玩,展示了四十項研究對心理學的拓展,也對我們生活的影響,然後就是阿德勒的 自卑與超越 ...

求書推薦

魏君子 兩類書吧,一類對專業有直接幫助的,一類其他的。描述一下自己的經歷吧,本人電子方向的測控。前一年半看看教科書,打打醬油。接觸到微控制器和實驗室後,當時比較流行的書一本郭天祥的 xx微控制器 這本書看看來做課程設計還行,但是也不推薦吧。還有譚浩強的 c語言xx 這本書怎麼說呢,我是看完之後也不會...