深度學習中梯度的方差過大會有什麼影響?

時間 2021-06-01 06:12:06

1樓:Aquapolis

簡單想想的話,主要是後續bp計算(bpi過程走到更前面一層的梯度,和bpf過程走到當前層引數的梯度)方差也會很大。bpi姑且當初情景重現。只看bpf的影響的話

這一次引數更新動作(考慮步長影響)會非常大。以至於不收斂或者跳出合適的搜尋區域。

往小了說,梯度間房差大小差距過大也會影響後續的精度表示和學習率的規劃等等

2樓:

也來猜一下。梯度的方差,物理意義是什麼呢? 如果把網路對資訊的處理看作流體的流動,那麼權重應該對應流體的流速,是在切空間中,梯度則是流速的變化,那麼梯度的方差就是截面上流體流速變化率的差異,大致體現的是流體動動的不均勻性。

從這個角度看,如果認為網路是乙個大致均勻的介質(我們也希望網路是盡量均勻的,乙個結構嚴重不均勻不平衡的網路效能應該不會怎麼好,否則殘差網就不會大行其道了),那麼流體運動的平滑性均勻性就是乙個有良好性質的資訊流所希望的,而不均勻的流動性能應該就比較差。或者說如果把流體流動看作乙個流體的形變,均勻流動就對應乙個形變能量小的過程,不均勻流動是乙個形變能量大的過程。如果將這個影象與訊號處理中的影象配準進行對比,我們總是傾向使用更平滑的變換來配準兩幅影象,其核心思想也是在追求形變能量更小的變換,或者說複雜度更小的變換。

而網路的泛化效能,其實某種程度上就是在看乙個對映的平滑性,統計上,更平滑的對映的泛化效能會更好,所以梯度方差小的網路,其平滑性更好,泛化性也更好,同時,訓練收斂過程也更容易。

其實,網路設計和訓練其實就是找乙個和資料特徵匹配的盡量平滑的對映。長期以來我們很多關於網路訓練的各種trick,很多都是在試圖構造平滑的資訊流,BN如此,殘差網如此,各種初始化策略還是如此,他們要麼是從結構上要求平滑,如殘差網,要麼是初始化到盡量平滑,如基於隨機矩陣分析的 dynamical isometry條件, 要麼是盡量使用平滑的配置而放棄不平滑的配置,如BN。 如果你願意從這個角度看問題,我相信還會看到很多實際是為了保證對映的平滑性而採取的約束或者策略,雖然可能發明者自己沒有意識到這一點。

平滑,就是低能量,就是低複雜度,就是好的泛化能力,就是好的收斂效能。深度網路是在本質上不平滑的深度網路結構中去尋找最平滑的結果,寬而淺的網路雖然是平滑的,但是複雜度過高,還是玩不轉。所以,歸根結底,其實最終還是乙個複雜度。

另外,樓下奈米醬用 Anderson localization的思路來考察也是有道理的,個人感覺似乎用到網路對資訊處理的模式上可能也可以。比如GAN的生成器來生成影象,那麼如果輸入端或者中途有擾動,特別是會導致出現錯誤影象模式的擾動,生成器是有這個能力來消除這種錯誤模式的(周博磊的工作),這個錯誤模式的傳播不能到達網路的輸出端而會被抑制,這個倒是和Anderson localization也有點相似。另外一點,感覺把梯度流來做模擬不一定很合適,因為梯度是要改變網路配置的,所以整個系統是動態的,而 localization的背景是靜態的(雖然是隨機的),所以哪怕部分點的梯度消失了,其他點梯度帶來的配置改變還可能重新開啟梯度流的通道,所以網路梯度流應該更複雜一些。

另外,localization得到的穩定的負指數分布很有趣,感覺對理解Unruh效應有幫助,很好。

PS. 網路優化和最終的效能是被網路結構和資料共同構造的某個流形的曲率特徵所決定的,總體說,我們希望一切都發生在平滑的流形上而不是跌宕起伏的流形上,優化希望在平緩的地貌上進行,優化結果也希望構造的是平緩的地貌。從梯度角度來分析似乎有一點隔靴搔癢,只能有定性的粗略的觀察。

深度學習中的retrain是什麼意思?

1 Previous Models為訓練好的模型即Model Trainer的訓練結果。通常在實驗室環境中完成乙個模型並驗證其能發布到線上使用後,通過模型儲存扔到生產環境的這裡提供給線上系統使用。這裡就是你說的 訓練網路之後好像要載入模型 2 Model Trainer,模型訓練。只要訓練集準備好,...

深度學習中為什麼可以通過疊加的RBM提取出高度抽象的特徵?

賣糰子的小喵吉 修改之前的答案,之前說的也對,但是不全對。深層的dbn的w無法直接視覺化,但其實也是保留有特徵的,具體可以參考文獻 visualizing higher layer features of a deep network 爪機沒法給鏈結,抱歉。其實ng的課程也講過相關東西,之前理解不到...

深度學習中的mask到底是什麼意思?

Frank 基本定義 用選定的影象 圖形或物體,對待處理的影象 全部或區域性 進行遮擋,來控制影象處理的區域或處理過程。用於覆蓋的特定影象或物體稱為掩模或模板。光學影象處理中,掩模可以為膠片 濾光片等。數字影象處理中,掩模為二維矩陣陣列,有時也用多值影象。數字影象處理中,影象掩模主要用於 提取感興趣...