深度網路loss除以10和學習率除以10是不是等價的？

1樓：張覺非

看你用的什麼優化演算法。最樸素的梯度下降法就是梯度乘上學習率再從引數當前值中減去。損失前面乘個 1/10 係數的話，因為求導是線性算符，這個 1/10 係數可以扔到最外面，求出來的梯度是原損失梯度的 1/10 倍，兩者就是等價的：

對於那些原始梯度下降的變體，梯度出現在式子中時前面可能沒有乘學習率，1/10 不能轉移到學習率上，兩者就不一樣了。不過那些都很簡單，一看就明白。

2樓：張航

前面的7個回答沒有回答正確。用sgd的話，唯一的區別是weight decay，凱明老師的train imagenet in 1 hr裡面也分析過。我就不加公式了，很簡單，題主自己搜一下

3樓：弱雞

這完全是兩個概念啊！loss無論是crossentropy還是meansquareerror, 都不是關於learning rate 來scalable的

我都驚呆了，之前的兩個回答的人咋想的啊。

小馬過河說的對，各種意義上的對。

唯一不贊同的是，他竟然懷疑國內學生的基礎。這有啥好懷疑的啊！

深度學習中loss和網路結構對結果分別產生怎樣影響？

好比一台車。loss是方向盤，網路結構是車子的效能。怎麼拿好名次？好的效能加操控。方向盤控制車子往哪兒跑。loss控制網路學習什麼，網路結構決定了這種學習能力的大小。 RUSH 網路結構可以看乙個對映f，包含了引數P。損失函式cost function可以想象成乙個地形先想象成2維，然後推廣到多維...

深度學習的多個loss如何平衡？

汪鵬飛試試這個公式出自Multi Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics，我應用的任務上能work 墨虺參考神經網路中，設計loss function有哪些技巧?劉詩昆的...

深度學習尤其是語義分割，Loss個數是不是設定的越多越好？

MrJ 多loss要根據網路的設計來弄的。比如加了邊緣檢測的loss輔助，加不同解析度輸出loss輔助。如果是相同原理的loss，效果應該差距不大。比如用L1 Loss和cross entropy一起去做二類分割，效果跟使用單loss去調權重是差不多的。 yan 我認為，神經網路的設計要遵守奧卡姆剃...

深度網路loss除以10和學習率除以10是不是等價的？

深度學習中loss和網路結構對結果分別產生怎樣影響？

深度學習的多個loss如何平衡？

深度學習尤其是語義分割，Loss個數是不是設定的越多越好？

其他用戶還看了：