1樓:陳瀚可
半年後的我終於有能力回答我自己沒水準的問題:
由於資料集非常大的緣故, 在 batch size 比較大的情況下梯度較於平緩. local minimum 實際上已經是乙個很不錯的 solution 了. 如果要跳出 local minimum, 可以使用 sin 形狀的 learning rate 或者由多個模型 ensemble.
2樓:Hongsheng
調參的問題就真的要具體問題具體分析了。
我個人的經驗是大概先確定個數量級,然後再細化分析。當然在確定數量級的時候,也可能陷入local maximum的窘境,不過我是不管了,乙個個搞過來還不慢死。
基本上就是:
1. 隨機在field上灑好多好多點(你能灑多少灑多少,盡量分散一點,最好不同數量級這樣)
2. 對每個點找local maximum (backpropagation)
3. 比較所有local maximum,取最大的(有的時候是minimum,反正演算法一樣)這也沒啥原理,反正就是盡可能找最優的嘛。
如果真的想要優化調參,唯一的辦法就是多練多做。
實在不行你可以去問問Andrew Ng。→_→
multi task深度神經網路如何實現,優化?
知識達人 多工學習有很多形式,如聯合學習 Joint Learning 自主學習 Learning to Learn 借助輔助任務學習 Learning with Auxiliary Tasks 等,這些只是其中一些別名。概括來講,一旦發現正在優化多於乙個的目標函式,你就可以通過多工學習來有效求解 ...
深度學習與神經網路有什麼區別?
徐佳逸 深度學習可以理解成用深度神經網路 DNN,Deep Neural Network 來進行機器學習,他倆的關係可以從這個定義中一目了然地看出來。深度神經網路 DNN 一般分為三種架構 樸素的DNN 就是一般性的神經網路往多層擴充套件,缺點很多包括訓練緩慢,用Backprop進行訓練梯度衰減得厲...
一深度神經網路如果用zero initialized而不是random會怎樣?
類似於 大腦一片空白 吧。畢竟權重為零的話,第一次向前傳播的時候是沒有問題的,儘管結果是零。但是開始反向傳播的時候,loss function計算的誤差會無法更新的,僵住了。 sgd 到 mini batch gd 是為了提高計算速度,一定的資料量,單個array計算沒有matrix計算快。和引數初...