梯度消失問題為什麼不通過 gradient scaling 來解決?

時間 2021-05-14 14:07:42

1樓:

這就是實驗的trick,能解決部分優化問題。

但我覺得clip的方法很沒有理論性。梯度是loss的最速下降方向,你一部分梯度clip了,另一部分沒有,實際上已經改變了梯度的方向,當然可能能證明它還是收斂的,但肯定是走了彎路。

只能說深度學習,實驗為王,先有結果再想解釋。

2樓:[已重置]

梯度過小的時候,有兩種可能,一種是梯度異常消失,一種是到達區域性最優。如果不能區分這兩匯類情況,單純放大小的梯度有可能導致系統不收斂。

當然,這種人為的梯度放大可能可以用來跳出區域性極小,但是在沒有判決準則說明是那種情況的時候,無法判斷這種操作是有收益還是導致更糟糕的結果。

3樓:

我贊同 @Surreal Splinter 的回答,和我的直覺一樣。梯度不光有大小還有方向。當你梯度過大時,至少方向是很確定的,就好像你你滑雪時就是順著雪道往下衝,你只是不想衝的太快。

但梯度很小時,這個方向也很不可靠,你不能隨意在這個方向上進行縮放。就好比你在迷霧中找出路,感覺往哪邊走都差不多,那你就應該每步先走一點再看看,而不是憑著一次的感覺就往前跑。

4樓:

The truth is, once your gradient results've already too slight to be distinguished from other noise-disturbances, you scale up all the observable vibrations, you still cannot distinguish the correct gradient signals from noises.

So it's a different case from gradient explosion, in that case, we've already picked up the correct gradient direction, we just need to restrict the momentum to protect it from being NaN.

為什麼信用卡提額不通過?

玩卡者也 現在信用卡提額失敗是乙個很常見的現象,即使有推薦額度也可能會提額失敗。提額失敗的先看看自己有沒有進黑屋,最簡單檢驗的方法就是看看能不能做分期。如果還能做分期說明還是有提額的可能的,如果連分期都做不了的話,說明就是進黑屋了。進了黑屋就很難提額了,只有先出了黑屋再申請提額。進黑屋大多是因為嚴重...

請問為什麼天貓入駐初審不通過?

麋鹿不迷路 有很多商家想要入駐到天貓上開辦店鋪,但是天貓的入駐流程就難道了很多人,通不過審核的商家是比比皆是。審核會分為初審和複審兩個階段的,有些商家在初審階段就很容易失敗,被拒。一般初審階段天貓就是審核商家準備的資料這些,看資質是否滿足入駐要求,如果說入駐不通過,就需要去考慮一下是不是資料準備的不...

國家的承包土地責任制當初為什麼不通過工業上的巨大發展實現機械化生產呢?

一禾 當時農民離開土地就沒有就業機會,推行機械化會造成更多富餘農民。那個年代農民收入極為低下,沒有財力用得起農業機械。推行機械化必須尊重市場規律,尊重農民意願。誰都不是傻子,當機械比勞動力便宜,大家自然而然選擇機械。 玉樹銀花 當初?當初是指什麼時候?八十年代前後承包責任到戶的,為什麼這樣做,是因為...