policy gradients是通過什麼解決無法微分問題的?策略網路具體的反向傳播過程又是怎麼樣

時間 2021-10-15 19:21:01

1樓:jjccero

我們希望通過函式近似器來代替乙個決策,而環境需要的輸入是乙個動作,優化目標和環境執行動作後反饋的獎勵正相關。假設我們的策略 是關於引數 的神經網路。題中描述的應該是隨機策略梯度,從動作到獎勵的梯度卻被切斷了,因為環境是乙個和引數 無關的馬爾可夫模型。

REINFORCE就是通過取樣動作概率,把損失和引數 聯絡起來的,因為取樣動作的概率是關於引數 的函式,某種程度上來說,損失是取樣動作概率乘以折扣回報的期望(不完全等價)。我們通過梯度上公升來最大化損失,因為所有動作概率和為1,網路學習的趨勢是低獎勵的動作概率小於高獎勵的動作概率。誤差詳細的計算,比如REINFORCE的對數技巧、蒙特卡羅取樣其他問題、部落格真的寫得特別詳細,這裡不細說。

確定性策略梯度應該是2023年左右提出的。它使用了函式近似器來表達Q函式,Q函式就是誤差。Q函式是關於動作的函式 ,策略網路直接輸出動作 ,Q就是關於引數 的函式,那麼就可微分了。

不管輸出動作還是輸出概率分布,bp過程其實就是鏈式法則求導。

關於常微分方程有沒有什麼未解決的問題?

AfterPhilosophy 也來提乙個,具體不是很了解。Palis conjecture Every vector field can be accumulated either by hyperbolic vector fields or by ones with a homoclinic b...

Shell 是用來解決什麼問題的?

窗戶 一種方便的指令碼語言,用於將具體程式作為零件,利用各種重定向 包括管道 以及結構化程式設計裡的東西拼接在一起,以完成你的複雜任務,awk sed作為字元處理的經典在裡面比較常用,經常伴隨管道一起。可以說不寫一手shell很難說精通unix linux。值得擁有。 解決使用者如何使用計算機的問題...

哲學的本質是解決什麼問題?如何用哲學去解決處理身邊的事?那麼多哲學家為什麼最後都沒有好的結局?

楊學志 來,看看本質與日常是如何統一的 依照休謨的認識論,1 1 2的根據是什麼?楊學志的回答 知乎 https www. 袁立巖 哲學家們被生死所困,因為人的經歷決定思考的範疇。但在這些經歷形成之初,人是沒有記憶的。並且人的經歷源於身體對世界的解釋,身體作為與世界交流的媒介,所以人們的科學研究 哲...