為什麼多層的卷積神經網路訓練時不用深度學習方法訓練，難道誤差梯度不會逐層擴散和消失？

1樓：Monstarxtt

理論上講深度學習是通過稀疏自編碼求得有用特徵向量之後輸入網路中的。但目前這種非監督學習方法效能不夠好，所以像cnn這種深度學習方法其實也是通過分類監督學習的，優化方法跟普通神經網路差不多。無非網路比較大而已。

資料充足的情況下網路越大最終結果越好這一點也沒啥辯駁的。網路雖然很大但用bp後發現結果還不錯，所以也就這樣優化了。至於梯度擴散之類的問題肯定仍然存在的，解決方法主要通過四種途徑，增加資料量，，drop out(hilton真的是厲害)，L1，L2等

都在路上，繼續前進！

2樓：

梯度會衰減，誤差強度會乘上權重向後傳播，權重有的會越來越小，導致強度衰減，同是不是CNN沒關係。

實際上，最終效果好壞不單純由優化好壞，梯度強弱決定，還有模型表示能力，特徵提取等因素有關。另外資料+標籤多後，梯度導向性強，以至於你說到的深度學習方法（我猜是指基於無監督概率最大化那套初始化方案），那種早期的深度學習計算方法代價有點太大，提公升有限。

3樓：

1. 好的啟用函式 relu 一類

2. 進化版本的sgd

3. bn

4. dropout

5. 想起來了再補充

---這個世界在進步啊。

為什麼多層的卷積神經網路訓練時不用深度學習方法訓練，難道誤差 梯度不會逐層擴散和消失？