Layer Wise Training和Backpropagation有何本質區別？

1樓：Esparami

簡單說下我知道的，就是layer-by-layer在理論和應用上都差點兒。。

Deep learning without poor local minima 那篇文章

它在對data和label都有要求的的前提下主要證明的是deep linear network的極小值性質

沒有啟用函式的全連網路(deep linear network)跟現在常用的網路還是差很多了

證明的結論是區域性極小都是全域性最小，以及沒有完全平滑的saddle point

經驗工作表明，網路訓練難度來自於大量的saddle point(平滑區域)。而這裡的證明並不能降低訓練的難度，證明解的存在性，離找到解也是差很多了。最好也只能說，只要能找到乙個區域性最小，那就足夠好了，可找到它是很難的。

layer-by-layer training一直有人在做，會不會成氣候不知道，我個人覺的難

它方法上可以看成乙個大體量的對nonconvex的block coordinate descent，理論上來說，我知道的只有收斂到一階critical point的global convergence結果。也可以看成是多block的ADMM，收斂結果更弱。至於會不會收斂到區域性最小，還是個open question

在每一次迭代中，對被選到的區域性引數，需要用至少一定精確度的子問題的解去更新，才能達到最終全域性收斂的結果。那對神經網路來說，可能需要同時選擇參與優化的樣本和參與優化的引數層，實際效果可能不會很好

實際應用上，神經網路因為結構的疊加，需要優化的目標函式和一般的非凸函式還是很不一樣的。對傳統結構的神經網路，優化到後期，前置層的梯度會非常小。就是說，如果用layer-by-layer的方式，越到訓練後期，很多層提供的改進會越小，但是每一次訓練的複雜度是相對一樣的。

如果用saddle point來理解，到後期，每次所做的區域性更新，可能只是在乙個無法提供下降方向的空間裡折騰。。

使用layer-by-layer的好處可能就是，每次迭代只用更新很小一部分的引數，計算複雜度相對更新全部的引數會低很多。但是，現在的軟硬體技術已經可以足夠高效的同時訓練所有引數，再加上batch normalization，res-net這樣的大殺器，梯度更新已經是非常有效的了

說到底，還是要看效果說話的，不論是理論還是實際應用。。

Layer Wise Training和Backpropagation有何本質區別？

油松與樟子松有何區例？

iPhone 8 的無線充電和其他廠商有何區別？為何蘋果直到現在才使用無線充電技術？

微軟雅黑和微軟正黑的 UI 版與普通版有何區別？

其他用戶還看了：