神經網路求導 computational graph 中涉及向量的求導問題？（cs231n作業為例）

1樓：

我當時做Assignment2的時候也有相同的疑惑，雖然從維數上和直覺上來看確實是這樣，通過簡單的特例推理也確實是要sum一下，但是始終沒找到更好的理論解釋來說服自己。

下面是我看過的兩個不錯的部落格

2樓：午後陽光

和相加，其實是乙個broadcast(NumPy refresher)操作，對於的每一行，都進行了加的操作，所以在backpropagation的過程中，dout的每一行都要加到dbeta上。更細一點，你可以把broadcasting這種操作看成computational graph中的一種操作，首先把1*D的beta「複製」m份，變成乙個broadcast過的矩陣，然後和逐行相加：

這樣就會發現，backpropagation的過程中，broadcasting這個節點其實有多個輸出，那麼自然回流的誤差（梯度）就需要求和了。

對於你的第二個問題，其實broadcasting在backpropagation的過程不難，關鍵就是「找責任」。在forward的過程中，找準變數a參與了哪些操作，通過這些操作影響到了哪些變數b,c,d...，那麼根據這個操作和影響到的變數b,c,d...

的梯度，就可以得到變數a的梯度了。

推薦幾個backpropagation的部落格：

1. Neural networks and deep learning

2. 我有寫關於computational graph的blog：Using Computation Graph to Understand and Implement Backpropagation 「 SUNSHINEATNOON 「 Madness between pain and boredom.

神經網路求導 computational graph 中涉及向量的求導問題？（cs231n作業為例）

卷積神經網路和BP神經網路的關係？

卷積神經網路（CNN）和迴圈神經網路 RNN 有什麼區別？

如何看待人工神經網路ANN和脈衝神經網路SNN的發展？

其他用戶還看了：

神經網路求導 computational graph 中涉及向量的求導問題 ？（cs231n作業為例）

卷積神經網路和BP神經網路的關係？

卷積神經網路（CNN）和迴圈神經網路 RNN 有什麼區別？

如何看待人工神經網路ANN和脈衝神經網路SNN的發展？

其他用戶還看了：

神經網路求導 computational graph 中涉及向量的求導問題？（cs231n作業為例）