強化演算法裡，狀態值函式V和狀態動作函式Q的區別

1樓：王先生

1. 狀態值函式V：從狀態x出發，使用策略π所帶來的累計獎賞；

2. 狀態-動作函式Q：從狀態x出發執行動作a後得到新的狀態x+1，使用策略π所帶來的累計獎賞；

2樓：小熊餅乾

對於行為價值函式Q，π對狀態s無約束，這裡的（s,a）為自變數，沒有成對的關係；而對於狀態價值函式V，π對於s有約束，因為在某一s下，下一步a的選擇需要根據π來選。

不知道這樣理解對嗎？

3樓：Genome

其中所以，在隨機策略下（stochastic policy）:

其中,即為在策略下的和 (所有動作下的期望價值)當為確定性策略時(deterministic policy)其實在參考[2] 中已經寫了

只影響，第三行中去掉右邊就等於

參考：https://

4樓：

理解正確。舉個例子：

如果現在的狀態s是距離終點一步的地方，每走一步的獎賞是-1.

假設我執行的policy是最優的π（π是朝著目標方向前進），所以：

Vπ(s)=1；因為我執行π，π告訴我要朝著目標走，走完這一步就到了。

Qπ(s,a)=3；因為我在s時執行了a，a告訴我朝反方向走一步，這個獎賞是-1。走完這一步，我就開始執行π，按照π，我先朝目標走一步（即返回到原來的s位置），這個獎賞是-1；然後再走一步到達目標，這個獎賞也是-1。所以是-3.

強化學習演算法中，PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法？

jjccero 不是。PPO是在TRPO的基礎上改進的，追溯到TRPO原文第2節裡的說法當策略發生變化以後，當前狀態以後的所有狀態的訪問概率會發生變化。為了保證on policy，應該對之後所有的狀態進行修正，而這在計算和實現上是比較棘手的。因此做了乙個近似，可以近似的原因是策略的改變很小不管你...

強化學習演算法如遇到瓶頸（bottleneck）的時候，增大網路size是否有幫助？

我也試圖回答一波吧我覺得大家說的都很有道理，reward，state和exploration我也認為非常的重要。但是這些更多的還是人為的一種設計。但是根據我的經驗，還有兩個東西我也認為很有意義。可能不是都和bottle neck相關 1 pretrain 有些model如果不能從乙個很好的init...

在優化問題裡，強化學習相比啟發式搜尋演算法有什麼好處？

震靈最大的好處就是神經網路的可塑性非常強，並且號稱具有遷移學習能力。舉乙個最簡單的例子，對於傳統優化問題來說，無論是貝葉斯優化還是啟發式演算法，對於每求解一組新問題，都需要針對每個例項例如乙個TSP路徑規劃例項執行一次完整的優化演算法。但是實際上這些問題的最優解可能有某種強關聯，對於這種情況，...

強化演算法裡，狀態值函式V和狀態 動作函式Q的區別

強化學習演算法中，PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法？

強化學習演算法如遇到瓶頸（bottleneck）的時候，增大網路size是否有幫助？

在優化問題裡，強化學習相比啟發式搜尋演算法有什麼好處？

其他用戶還看了：

強化演算法裡，狀態值函式V和狀態動作函式Q的區別