深度網路loss除以10和學習率除以10是不是等價的?

時間 2021-10-23 19:18:07

1樓:張覺非

看你用的什麼優化演算法。最樸素的梯度下降法就是梯度乘上學習率再從引數當前值中減去。損失前面乘個 1/10 係數的話,因為求導是線性算符,這個 1/10 係數可以扔到最外面,求出來的梯度是原損失梯度的 1/10 倍,兩者就是等價的:

對於那些原始梯度下降的變體,梯度出現在式子中時前面可能沒有乘學習率,1/10 不能轉移到學習率上,兩者就不一樣了。不過那些都很簡單,一看就明白。

2樓:張航

前面的7個回答沒有回答正確。用sgd的話,唯一的區別是weight decay,凱明老師的train imagenet in 1 hr裡面也分析過。我就不加公式了,很簡單,題主自己搜一下

3樓:弱雞

這完全是兩個概念啊!loss無論是crossentropy還是meansquareerror, 都不是關於learning rate 來scalable的

我都驚呆了,之前的兩個回答的人咋想的啊。

小馬過河說的對,各種意義上的對。

唯一不贊同的是,他竟然懷疑國內學生的基礎。這有啥好懷疑的啊!

深度學習中loss和網路結構對結果分別產生怎樣影響?

好比一台車。loss是方向盤,網路結構是車子的效能。怎麼拿好名次?好的效能加操控。方向盤控制車子往哪兒跑。loss控制網路學習什麼,網路結構決定了這種學習能力的大小。 RUSH 網路結構可以看乙個對映f,包含了引數P。損失函式cost function可以想象成乙個地形 先想象成2維,然後推廣到多維...

深度學習的多個loss如何平衡?

汪鵬飛 試試這個公式 出自Multi Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics,我應用的任務上能work 墨虺 參考 神經網路中,設計loss function有哪些技巧?劉詩昆的...

深度學習尤其是語義分割,Loss個數是不是設定的越多越好?

MrJ 多loss要根據網路的設計來弄的。比如加了邊緣檢測的loss輔助,加不同解析度輸出loss輔助。如果是相同原理的loss,效果應該差距不大。比如用L1 Loss和cross entropy一起去做二類分割,效果跟使用單loss去調權重是差不多的。 yan 我認為,神經網路的設計要遵守奧卡姆剃...