policy gradients是通過什麼解決無法微分問題的？策略網路具體的反向傳播過程又是怎麼樣

1樓：jjccero

我們希望通過函式近似器來代替乙個決策，而環境需要的輸入是乙個動作，優化目標和環境執行動作後反饋的獎勵正相關。假設我們的策略是關於引數的神經網路。題中描述的應該是隨機策略梯度，從動作到獎勵的梯度卻被切斷了，因為環境是乙個和引數無關的馬爾可夫模型。

REINFORCE就是通過取樣動作概率，把損失和引數聯絡起來的，因為取樣動作的概率是關於引數的函式，某種程度上來說，損失是取樣動作概率乘以折扣回報的期望（不完全等價）。我們通過梯度上公升來最大化損失，因為所有動作概率和為1，網路學習的趨勢是低獎勵的動作概率小於高獎勵的動作概率。誤差詳細的計算，比如REINFORCE的對數技巧、蒙特卡羅取樣其他問題、部落格真的寫得特別詳細，這裡不細說。

確定性策略梯度應該是2023年左右提出的。它使用了函式近似器來表達Q函式，Q函式就是誤差。Q函式是關於動作的函式，策略網路直接輸出動作，Q就是關於引數的函式，那麼就可微分了。

不管輸出動作還是輸出概率分布，bp過程其實就是鏈式法則求導。

policy gradients是通過什麼解決無法微分問題的？策略網路具體的反向傳播過程又是怎麼樣

關於常微分方程有沒有什麼未解決的問題？

Shell 是用來解決什麼問題的？

哲學的本質是解決什麼問題？如何用哲學去解決處理身邊的事？那麼多哲學家為什麼最後都沒有好的結局？

其他用戶還看了：