1樓:張覺非
看你用的什麼優化演算法。最樸素的梯度下降法就是梯度乘上學習率再從引數當前值中減去。損失前面乘個 1/10 係數的話,因為求導是線性算符,這個 1/10 係數可以扔到最外面,求出來的梯度是原損失梯度的 1/10 倍,兩者就是等價的:
對於那些原始梯度下降的變體,梯度出現在式子中時前面可能沒有乘學習率,1/10 不能轉移到學習率上,兩者就不一樣了。不過那些都很簡單,一看就明白。
2樓:張航
前面的7個回答沒有回答正確。用sgd的話,唯一的區別是weight decay,凱明老師的train imagenet in 1 hr裡面也分析過。我就不加公式了,很簡單,題主自己搜一下
3樓:弱雞
這完全是兩個概念啊!loss無論是crossentropy還是meansquareerror, 都不是關於learning rate 來scalable的
我都驚呆了,之前的兩個回答的人咋想的啊。
小馬過河說的對,各種意義上的對。
唯一不贊同的是,他竟然懷疑國內學生的基礎。這有啥好懷疑的啊!
深度學習中loss和網路結構對結果分別產生怎樣影響?
好比一台車。loss是方向盤,網路結構是車子的效能。怎麼拿好名次?好的效能加操控。方向盤控制車子往哪兒跑。loss控制網路學習什麼,網路結構決定了這種學習能力的大小。 RUSH 網路結構可以看乙個對映f,包含了引數P。損失函式cost function可以想象成乙個地形 先想象成2維,然後推廣到多維...
深度學習的多個loss如何平衡?
汪鵬飛 試試這個公式 出自Multi Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics,我應用的任務上能work 墨虺 參考 神經網路中,設計loss function有哪些技巧?劉詩昆的...
深度學習尤其是語義分割,Loss個數是不是設定的越多越好?
MrJ 多loss要根據網路的設計來弄的。比如加了邊緣檢測的loss輔助,加不同解析度輸出loss輔助。如果是相同原理的loss,效果應該差距不大。比如用L1 Loss和cross entropy一起去做二類分割,效果跟使用單loss去調權重是差不多的。 yan 我認為,神經網路的設計要遵守奧卡姆剃...