為什麼SGD的learning rate要逐漸減小,而一般的梯度下降可以固定?

時間 2021-05-29 23:06:48

1樓:

也沒說一般GD都固定learning rate吧,只不過在目標函式是凸函式的情況下可以證明固定lr一定可以收斂。。

SGD相對普通GD更有特點的應該是momentum這種東西。

2樓:Martin Tan

懶得寫公式了,來說個直觀點的。

首先根據數學分析知識,我們知道乙個點列要收斂的乙個必要條件是前後兩個點之間的距離也會趨向於0。

我們也知道,乙個點是最優點意味著它梯度等於0,那麼對於比較光滑的函式,在最優點的附近,大體上來說離最優點越近梯度越接近於0。因此在梯度下降中,即使使用的是乙個固定的步長,這乙個性質自動的確保了我們邁著越來越小的步子收斂到最優點。

但SGD就不一樣了。SGD迭代時使用的是乙個隨機抽取的樣本(或者說是分函式)的梯度,除非是非常特殊的資料,目標函式的最優點與每個分函式的最優點往往是不重合的!也就是說即使非常靠近最優點,SGD使用的梯度往往都不會趨於0。

因此,如果不使用逐漸減小的步長,最終的結果肯定是發散。

為什麼要早睡,為什麼要戒菸,為什麼要對自己的行為進行約束?

不知 因為等你做到了這些,你才會發現這些才是真正的快樂!放縱自己的慾望帶來的快樂是虛假的快樂,就像抽菸,抽菸真的快樂嗎?我看未必,抽菸之所以讓你覺得快樂,是因為它暫時緩解了你的痛苦,只是暫時緩解,你抽的越多,你的菸癮就越大,沒煙抽的時候就越痛苦,玩手機也一樣,不玩就痛苦,玩了就停不下來,擼管也是一樣...

為什麼別人的東西總是好的,為什麼別人的形象往往和神一樣?

舊顏 打個比方,假如你是完美主義者,你就會覺得別人的東西都是好的,然後自己就會有很多缺點不足什麼的,同理,你也會覺得別人的東西好 兔子 可能是因為,一方面,我們的文化裡講究家醜不外揚,大家對外都只講光照的一面。另一方面,我們的文化裡講究不要亂評判別人,傳播的也都是別人好的一面。最後結果就是,看起來別...

為什麼女武神形象的角色的頭盔為什麼都帶個翅膀?有什麼說法嗎?

看了幾天這個問題沒人來答,這個頭盔上有翅膀,是不是這個樣子?Valkyrs 作者 Edli Akolli 來自DeviantArt 這種頭盔的原型是歐洲的 翼盔 winged helmet 最早的帶翼頭盔可以追溯到西元前300年的希臘邁錫尼文明 Mycenae Ancient Bronze Gree...