一深度神經網路如果用zero initialized而不是random會怎樣?

時間 2021-06-02 14:23:48

1樓:

類似於「大腦一片空白」吧。畢竟權重為零的話,第一次向前傳播的時候是沒有問題的,儘管結果是零。但是開始反向傳播的時候,loss function計算的誤差會無法更新的,僵住了。

2樓:

sgd 到 mini batch gd 是為了提高計算速度,一定的資料量,單個array計算沒有matrix計算快。和引數初始化沒有關係。

引數初始化的目的是為了 (1) 便於模型更新、學習 (2) 減少variance。如果zero initialized會不利於學習,至少會導致學習更新更慢

3樓:Adia

這個在吳恩達的課程中講過。如果神經元全用同樣的值初始化的話,會造成同一層的所有神經元在反向傳播的時候全更新為一樣的值,也就是說同一層的所有神經元值一直是一樣的,這樣不管你的神經網路有多深,輸入和輸出一直是乙個線性的變換,這個神經網路也就廢了。所以要確保初始化的時候權重的值不一樣,偏置量初始化為0倒是沒問題。

至於batch gradient descent 和stochastic gradient descent,我感覺和你怎麼初始化沒什麼關係。

望指正。

multi task深度神經網路如何實現,優化?

知識達人 多工學習有很多形式,如聯合學習 Joint Learning 自主學習 Learning to Learn 借助輔助任務學習 Learning with Auxiliary Tasks 等,這些只是其中一些別名。概括來講,一旦發現正在優化多於乙個的目標函式,你就可以通過多工學習來有效求解 ...

是否可以用深度學習,人工神經網路來實現可控核聚變?

用deep learning 解決 AGI,然後 AGI 解決一切問題。這個想法是 Tomaso,Poggio 的。不敢貪功,可恥的匿了。 現階段機器學習可以做到將輸入和輸出自動關聯,也就是說必須有資料才能學習資料的特徵。這意味著現階段機器沒有憑空的創造力。以後人工智慧發展了,也許會有聯想的能力和創...

深度學習與神經網路有什麼區別?

徐佳逸 深度學習可以理解成用深度神經網路 DNN,Deep Neural Network 來進行機器學習,他倆的關係可以從這個定義中一目了然地看出來。深度神經網路 DNN 一般分為三種架構 樸素的DNN 就是一般性的神經網路往多層擴充套件,缺點很多包括訓練緩慢,用Backprop進行訓練梯度衰減得厲...