如果乙個神經網路的總loss loss1 loss2,那麼這個網路是如何反向傳遞更新loss1的呢

時間 2021-05-06 21:08:05

1樓:Tridu

現在大資料這麼離譜的嗎?希望是巧合。

剛出實驗室,剛批改的作業就是BP反向求導的習題,居然一開啟知乎就看到了這個問題。

建議題主看看相關網課ppt資料

這裡lecture18有個手寫求導pdf

2樓:貓頭嚶

我寫了一篇BP原理,你可以系統性的了解一下。

3樓:靈劍

感覺是沒有理解梯度下降的意義,我理解你的想法是既然是兩個loss相加,那我優化哪個loss不都可以嗎,怎麼知道該優化哪乙個?更進一步,網路引數那麼多,調整哪乙個都可以讓loss下降的話,要調整哪乙個呢?

的確如你所說,其實只是讓loss下降的話方法很多,但是要能快速收斂,我們總是希望它盡量下降得快一些。因為都是用函式的區域性特性在做優化,所以一次能調整的步長是有限的,我們想要的是相同步長情況下loss下降最大,那麼可以通過柯西不等式證明,當步長足夠小時,沿著梯度相反的方向走,單位步長下的下降幅度是最大的。

所以其實所謂反向傳播就是在計算梯度,那自然就知道該怎麼計算了,鏈式法則唄。

4樓:

你理解這個加的方式錯了,其實這個式子也是計算圖的一部分,網路裡梯度怎麼回傳這個loss的梯度就怎麼回傳給loss1和loss2。

5樓:壯哉我賈詡文和

假定權重是常數的情況下,多工學習的loss定義為:

引數更新公式為:

可以看到不同loss對於引數 更新的貢獻為:

6樓:xxxxxxxx

loss現在由兩部分組成 1 和2 那麼通常如果用最簡單的sdg優化那麼就是希望loss變小如果loss只包含loss1那麼只要調整loss1就行了但是現在多了個loss2那麼就要兩個一起調整才能讓loss變小所以這樣就能影響loss1

7樓:

很懵逼啊。最基礎的錯誤反向傳播/偏微分?

loss=loss1+loss2,然後loss對loss2和loss1分別求偏導數為1,這個任何乙個大一新生都會的吧?

現在很多pipeline端到端/多工學習的lossn可能係數不同,相當於每個分支學習的快慢有區別。這有啥難理解的嗎?

8樓:閃電俠的右手

相當於是正則項吧,loss優化到更小也就相當於同時優化 loss1和loss2。而且也不會因為某乙個模組訓練出問題出現嚴重過擬合的問題。

9樓:Bertram Wang

從另乙個角度思考,直接用損失函式對兩部分的引數求導,然後就可以用導數反向更新了。

感覺可以參考wide & deep模型的兩部分loss組合形式,該模型的處理方式是使用兩種loss的優化器分別反向更新。

一深度神經網路如果用zero initialized而不是random會怎樣?

類似於 大腦一片空白 吧。畢竟權重為零的話,第一次向前傳播的時候是沒有問題的,儘管結果是零。但是開始反向傳播的時候,loss function計算的誤差會無法更新的,僵住了。 sgd 到 mini batch gd 是為了提高計算速度,一定的資料量,單個array計算沒有matrix計算快。和引數初...

如果說神經網路是乙個函式擬合器的話,那它的輸入是什麼?

王泓硯 你的理解沒有錯,神經網路模型就是擬合各種輸入特徵求得輸出類別的概率分布,輸入特徵包括顏色 紋理 輪廓等資訊,甚至還有文字描述資訊。與人理解的具有物理意義的認知層面的特徵不同,神經網路的特徵是多層資訊分布的模式,可以視為關鍵資訊相互依存的網路結構,是感知層面的資訊劃分。 Jack Stark ...

能否設計乙個神經網路實現類似FFT的功能?

cuimolei 其實FFT是DFT的快速實現,而DFT實際上就是卷積。DFT本質上就是乙個線性變換,所以用不帶非線性變換的卷積實現FFT是完全沒問題。而DFT有各項同性的特性,意味著其可以拆解為nx1,1xn卷積兩步實現,而FFT是針對DFT冗餘計算進行的優化。也就是從計算量講 多層卷積 單層nx...