Layer Wise Training和Backpropagation有何本質區別?

時間 2021-05-30 12:40:19

1樓:Esparami

簡單說下我知道的,就是layer-by-layer在理論和應用上都差點兒。。

Deep learning without poor local minima 那篇文章

它在對data和label都有要求的的前提下主要證明的是deep linear network的極小值性質

沒有啟用函式的全連網路(deep linear network)跟現在常用的網路還是差很多了

證明的結論是區域性極小都是全域性最小,以及沒有完全平滑的saddle point

經驗工作表明,網路訓練難度來自於大量的saddle point(平滑區域)。而這裡的證明並不能降低訓練的難度,證明解的存在性,離找到解也是差很多了。最好也只能說,只要能找到乙個區域性最小,那就足夠好了,可找到它是很難的。

layer-by-layer training一直有人在做,會不會成氣候不知道,我個人覺的難

它方法上可以看成乙個大體量的對nonconvex的block coordinate descent,理論上來說,我知道的只有收斂到一階critical point的global convergence結果。也可以看成是多block的ADMM,收斂結果更弱。至於會不會收斂到區域性最小,還是個open question

在每一次迭代中,對被選到的區域性引數,需要用至少一定精確度的子問題的解去更新,才能達到最終全域性收斂的結果。那對神經網路來說,可能需要同時選擇參與優化的樣本和參與優化的引數層,實際效果可能不會很好

實際應用上,神經網路因為結構的疊加,需要優化的目標函式和一般的非凸函式還是很不一樣的。對傳統結構的神經網路,優化到後期,前置層的梯度會非常小。就是說,如果用layer-by-layer的方式,越到訓練後期,很多層提供的改進會越小,但是每一次訓練的複雜度是相對一樣的。

如果用saddle point來理解,到後期,每次所做的區域性更新,可能只是在乙個無法提供下降方向的空間裡折騰。。

使用layer-by-layer的好處可能就是,每次迭代只用更新很小一部分的引數,計算複雜度相對更新全部的引數會低很多。但是,現在的軟硬體技術已經可以足夠高效的同時訓練所有引數,再加上batch normalization,res-net這樣的大殺器,梯度更新已經是非常有效的了

說到底,還是要看效果說話的,不論是理論還是實際應用。。

油松與樟子松有何區例?

苗山 油松與樟子松同為松科松屬雙維管束松亞屬油松組的樹種,親緣關係特近,兩者區別甚小。且試從產地 性狀等角度予以區分 一 產地 油松 為中國特有樹種,產於吉林 遼寧 內蒙古 河北 山東 河南等地 樟子松 產於黑龍江西北部和內蒙古北部,此外,蒙古和俄羅斯也有分布。二 樹皮 油松 樹皮裂縫及上部樹皮為紅...

iPhone 8 的無線充電和其他廠商有何區別?為何蘋果直到現在才使用無線充電技術?

葉劍飛 我是來吐槽的。首先我們看一下所謂的 無線充電 是一種什麼樣的過時技術。這就是所謂 無線充電 呵呵。就是乙個幾十年前的過時淘汰的充電技術,現在居然換個名字吹起來了。笑死人了吧。你特麼有種來個 遠端無線充電 啊!渣渣!外鏈 Quora上的相關帖子 https www. Yutong wu 主要是...

微軟雅黑和微軟正黑的 UI 版與普通版有何區別?

UI UI 顧名思義 就是專門用於系統介面上的 Microsoft YaHei UI。與 Microsoft YaHei 字型家族差別很小,字元部分幾乎沒有差異,僅一些度量引數有所不同。該版本新添了乙個擴充套件注音符號 Yave Yu UI 版跟之前的有數字字形 行距減小和引號擠攏的變化。不過光是 ...