一深度神經網路如果用zero initialized而不是random會怎樣？

1樓：

類似於「大腦一片空白」吧。畢竟權重為零的話，第一次向前傳播的時候是沒有問題的，儘管結果是零。但是開始反向傳播的時候，loss function計算的誤差會無法更新的，僵住了。

2樓：

sgd 到 mini batch gd 是為了提高計算速度，一定的資料量，單個array計算沒有matrix計算快。和引數初始化沒有關係。

引數初始化的目的是為了 (1) 便於模型更新、學習 (2) 減少variance。如果zero initialized會不利於學習，至少會導致學習更新更慢

3樓：Adia

這個在吳恩達的課程中講過。如果神經元全用同樣的值初始化的話，會造成同一層的所有神經元在反向傳播的時候全更新為一樣的值，也就是說同一層的所有神經元值一直是一樣的，這樣不管你的神經網路有多深，輸入和輸出一直是乙個線性的變換，這個神經網路也就廢了。所以要確保初始化的時候權重的值不一樣，偏置量初始化為0倒是沒問題。

至於batch gradient descent 和stochastic gradient descent，我感覺和你怎麼初始化沒什麼關係。

望指正。

multi task深度神經網路如何實現，優化？

知識達人多工學習有很多形式，如聯合學習 Joint Learning 自主學習 Learning to Learn 借助輔助任務學習 Learning with Auxiliary Tasks 等，這些只是其中一些別名。概括來講，一旦發現正在優化多於乙個的目標函式，你就可以通過多工學習來有效求解 ...

是否可以用深度學習，人工神經網路來實現可控核聚變？

用deep learning 解決 AGI，然後 AGI 解決一切問題。這個想法是 Tomaso，Poggio 的。不敢貪功，可恥的匿了。現階段機器學習可以做到將輸入和輸出自動關聯，也就是說必須有資料才能學習資料的特徵。這意味著現階段機器沒有憑空的創造力。以後人工智慧發展了，也許會有聯想的能力和創...

深度學習與神經網路有什麼區別？

徐佳逸深度學習可以理解成用深度神經網路 DNN，Deep Neural Network 來進行機器學習，他倆的關係可以從這個定義中一目了然地看出來。深度神經網路 DNN 一般分為三種架構樸素的DNN 就是一般性的神經網路往多層擴充套件，缺點很多包括訓練緩慢，用Backprop進行訓練梯度衰減得厲...

一深度神經網路如果用zero initialized而不是random會怎樣？

multi task深度神經網路如何實現，優化？

是否可以用深度學習，人工神經網路來實現可控核聚變？

深度學習與神經網路有什麼區別？

其他用戶還看了：