深度學習,神經網路中,如何調節weight(以及其原理)?

時間 2021-06-14 22:10:56

1樓:陳瀚可

半年後的我終於有能力回答我自己沒水準的問題:

由於資料集非常大的緣故, 在 batch size 比較大的情況下梯度較於平緩. local minimum 實際上已經是乙個很不錯的 solution 了. 如果要跳出 local minimum, 可以使用 sin 形狀的 learning rate 或者由多個模型 ensemble.

2樓:Hongsheng

調參的問題就真的要具體問題具體分析了。

我個人的經驗是大概先確定個數量級,然後再細化分析。當然在確定數量級的時候,也可能陷入local maximum的窘境,不過我是不管了,乙個個搞過來還不慢死。

基本上就是:

1. 隨機在field上灑好多好多點(你能灑多少灑多少,盡量分散一點,最好不同數量級這樣)

2. 對每個點找local maximum (backpropagation)

3. 比較所有local maximum,取最大的(有的時候是minimum,反正演算法一樣)這也沒啥原理,反正就是盡可能找最優的嘛。

如果真的想要優化調參,唯一的辦法就是多練多做。

實在不行你可以去問問Andrew Ng。→_→

multi task深度神經網路如何實現,優化?

知識達人 多工學習有很多形式,如聯合學習 Joint Learning 自主學習 Learning to Learn 借助輔助任務學習 Learning with Auxiliary Tasks 等,這些只是其中一些別名。概括來講,一旦發現正在優化多於乙個的目標函式,你就可以通過多工學習來有效求解 ...

深度學習與神經網路有什麼區別?

徐佳逸 深度學習可以理解成用深度神經網路 DNN,Deep Neural Network 來進行機器學習,他倆的關係可以從這個定義中一目了然地看出來。深度神經網路 DNN 一般分為三種架構 樸素的DNN 就是一般性的神經網路往多層擴充套件,缺點很多包括訓練緩慢,用Backprop進行訓練梯度衰減得厲...

一深度神經網路如果用zero initialized而不是random會怎樣?

類似於 大腦一片空白 吧。畢竟權重為零的話,第一次向前傳播的時候是沒有問題的,儘管結果是零。但是開始反向傳播的時候,loss function計算的誤差會無法更新的,僵住了。 sgd 到 mini batch gd 是為了提高計算速度,一定的資料量,單個array計算沒有matrix計算快。和引數初...