如果乙個神經網路的總loss loss1 loss2，那麼這個網路是如何反向傳遞更新loss1的呢

1樓：Tridu

現在大資料這麼離譜的嗎？希望是巧合。

剛出實驗室，剛批改的作業就是BP反向求導的習題，居然一開啟知乎就看到了這個問題。

建議題主看看相關網課ppt資料

這裡lecture18有個手寫求導pdf

2樓：貓頭嚶

我寫了一篇BP原理，你可以系統性的了解一下。

3樓：靈劍

感覺是沒有理解梯度下降的意義，我理解你的想法是既然是兩個loss相加，那我優化哪個loss不都可以嗎，怎麼知道該優化哪乙個？更進一步，網路引數那麼多，調整哪乙個都可以讓loss下降的話，要調整哪乙個呢？

的確如你所說，其實只是讓loss下降的話方法很多，但是要能快速收斂，我們總是希望它盡量下降得快一些。因為都是用函式的區域性特性在做優化，所以一次能調整的步長是有限的，我們想要的是相同步長情況下loss下降最大，那麼可以通過柯西不等式證明，當步長足夠小時，沿著梯度相反的方向走，單位步長下的下降幅度是最大的。

所以其實所謂反向傳播就是在計算梯度，那自然就知道該怎麼計算了，鏈式法則唄。

4樓：

你理解這個加的方式錯了，其實這個式子也是計算圖的一部分，網路裡梯度怎麼回傳這個loss的梯度就怎麼回傳給loss1和loss2。

5樓：壯哉我賈詡文和

假定權重是常數的情況下，多工學習的loss定義為：

引數更新公式為：

可以看到不同loss對於引數更新的貢獻為：

6樓：xxxxxxxx

loss現在由兩部分組成 1 和2 那麼通常如果用最簡單的sdg優化那麼就是希望loss變小如果loss只包含loss1那麼只要調整loss1就行了但是現在多了個loss2那麼就要兩個一起調整才能讓loss變小所以這樣就能影響loss1

7樓：

很懵逼啊。最基礎的錯誤反向傳播/偏微分？

loss＝loss1＋loss2，然後loss對loss2和loss1分別求偏導數為1，這個任何乙個大一新生都會的吧？

現在很多pipeline端到端/多工學習的lossn可能係數不同，相當於每個分支學習的快慢有區別。這有啥難理解的嗎？

8樓：閃電俠的右手

相當於是正則項吧，loss優化到更小也就相當於同時優化 loss1和loss2。而且也不會因為某乙個模組訓練出問題出現嚴重過擬合的問題。

9樓：Bertram Wang

從另乙個角度思考，直接用損失函式對兩部分的引數求導，然後就可以用導數反向更新了。

感覺可以參考wide & deep模型的兩部分loss組合形式，該模型的處理方式是使用兩種loss的優化器分別反向更新。

如果乙個神經網路的總loss loss1 loss2，那麼這個網路是如何反向傳遞更新loss1的呢

一深度神經網路如果用zero initialized而不是random會怎樣？

如果說神經網路是乙個函式擬合器的話，那它的輸入是什麼？

能否設計乙個神經網路實現類似FFT的功能？

其他用戶還看了：