pytorch輔助損失函式反向傳播的疑問

1樓：範汝超

這算是乙個多工吧，一般情況下會設定兩個loss的比例，作為乙個超引數進行調整。按問題中直接相加就相當於1:1。

拋開這個不說，如果操作得當，相加再計算梯度和分別算基本相同。為什麼說操作得當呢，因為pytorch裡面的.backward()缺省會釋放動態圖，如果你的兩個loss前向計算的動態圖裡面有重疊的部分，第乙個loss的梯度計算就會釋放重疊部分的動態圖，第二個loss計算梯度的時候對於重疊部分就沒有梯度了，造成重疊部分梯度更新不充分，運氣好的話依然會收斂，但是你完全不會注意到這個小錯誤。

而操作得當就是.backward的時候保留動態圖，同時梯度更新只進行一步。

所以，遇到這種情況直接按比例相加，再計算梯度準沒錯，不要搞那麼多花裡胡哨的東西。

2樓：未一

loss是目標函式, 優化問題求的就是目標函式的極值, 問題的數學模型就要求只有乙個優化目標

如果兩個loss分別訓練, 就是給問題兩個優化目標, 如果兩個loss的優化方向有差別, 可能導致優化結果波動, 或者出一些奇怪的問題.

pytorch輔助損失函式反向傳播的疑問

pytorch 發現反向函式中的grad variables引數是什麼意思？

Pytorch如何自定義損失函式（Loss Function）？

為什麼優化損失函式的上界可以優化損失函式？

其他用戶還看了：