深度學習，神經網路中，如何調節weight（以及其原理）？

1樓：陳瀚可

半年後的我終於有能力回答我自己沒水準的問題:

由於資料集非常大的緣故, 在 batch size 比較大的情況下梯度較於平緩. local minimum 實際上已經是乙個很不錯的 solution 了. 如果要跳出 local minimum, 可以使用 sin 形狀的 learning rate 或者由多個模型 ensemble.

2樓：Hongsheng

調參的問題就真的要具體問題具體分析了。

我個人的經驗是大概先確定個數量級，然後再細化分析。當然在確定數量級的時候，也可能陷入local maximum的窘境，不過我是不管了，乙個個搞過來還不慢死。

基本上就是：

1. 隨機在field上灑好多好多點（你能灑多少灑多少，盡量分散一點，最好不同數量級這樣）

2. 對每個點找local maximum （backpropagation）

3. 比較所有local maximum，取最大的（有的時候是minimum，反正演算法一樣）這也沒啥原理，反正就是盡可能找最優的嘛。

如果真的想要優化調參，唯一的辦法就是多練多做。

實在不行你可以去問問Andrew Ng。→_→

multi task深度神經網路如何實現，優化？

知識達人多工學習有很多形式，如聯合學習 Joint Learning 自主學習 Learning to Learn 借助輔助任務學習 Learning with Auxiliary Tasks 等，這些只是其中一些別名。概括來講，一旦發現正在優化多於乙個的目標函式，你就可以通過多工學習來有效求解 ...

深度學習與神經網路有什麼區別？

徐佳逸深度學習可以理解成用深度神經網路 DNN，Deep Neural Network 來進行機器學習，他倆的關係可以從這個定義中一目了然地看出來。深度神經網路 DNN 一般分為三種架構樸素的DNN 就是一般性的神經網路往多層擴充套件，缺點很多包括訓練緩慢，用Backprop進行訓練梯度衰減得厲...

一深度神經網路如果用zero initialized而不是random會怎樣？

類似於大腦一片空白吧。畢竟權重為零的話，第一次向前傳播的時候是沒有問題的，儘管結果是零。但是開始反向傳播的時候，loss function計算的誤差會無法更新的，僵住了。 sgd 到 mini batch gd 是為了提高計算速度，一定的資料量，單個array計算沒有matrix計算快。和引數初...

深度學習，神經網路中，如何調節weight（以及其原理）？

multi task深度神經網路如何實現，優化？

深度學習與神經網路有什麼區別？

一深度神經網路如果用zero initialized而不是random會怎樣？

其他用戶還看了：