強化演算法裡,狀態值函式V和狀態 動作函式Q的區別

時間 2021-05-10 23:46:27

1樓:王先生

1. 狀態值函式V:從狀態x出發,使用策略π所帶來的累計獎賞;

2. 狀態-動作函式Q:從狀態x出發執行動作a後得到新的狀態x+1,使用策略π所帶來的累計獎賞;

2樓:小熊餅乾

對於行為價值函式Q,π對狀態s無約束,這裡的(s,a)為自變數,沒有成對的關係;而對於狀態價值函式V,π對於s有約束,因為在某一s下,下一步a的選擇需要根據π來選。

不知道這樣理解對嗎?

3樓:Genome

其中所以,在隨機策略下(stochastic policy):

其中,即 為 在策略 下的和 (所有動作下的期望價值)當 為確定性策略時(deterministic policy)其實在參考[2] 中已經寫了

只影響 ,第三行中去掉 右邊就等於

參考:https://

4樓:

理解正確。舉個例子:

如果現在的狀態s是距離終點一步的地方,每走一步的獎賞是-1.

假設我執行的policy是最優的π(π是朝著目標方向前進),所以:

Vπ(s)=1;因為我執行π,π告訴我要朝著目標走,走完這一步就到了。

Qπ(s,a)=3; 因為我在s時執行了a,a告訴我朝反方向走一步,這個獎賞是-1。走完這一步,我就開始執行π,按照π,我先朝目標走一步(即返回到原來的s位置),這個獎賞是-1;然後再走一步到達目標,這個獎賞也是-1。所以是-3.

強化學習演算法中,PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法?

jjccero 不是。PPO是在TRPO的基礎上改進的,追溯到TRPO原文第2節裡的說法 當策略發生變化以後,當前狀態以後的所有狀態的訪問概率會發生變化。為了保證on policy,應該對之後所有的狀態進行修正,而這在計算和實現上是比較棘手的。因此做了乙個近似,可以近似的原因是策略的改變很小 不管你...

強化學習演算法如遇到瓶頸(bottleneck)的時候,增大網路size是否有幫助?

我也試圖回答一波吧 我覺得大家說的都很有道理,reward,state和exploration我也認為非常的重要。但是這些更多的還是人為的一種設計。但是根據我的經驗,還有兩個東西我也認為很有意義。可能不是都和bottle neck相關 1 pretrain 有些model如果不能從乙個很好的init...

在優化問題裡,強化學習相比啟發式搜尋演算法有什麼好處?

震靈 最大的好處就是神經網路的可塑性非常強,並且號稱具有遷移學習能力。舉乙個最簡單的例子,對於傳統優化問題來說,無論是貝葉斯優化還是啟發式演算法,對於每求解一組新問題,都需要針對每個例項 例如乙個TSP路徑規劃例項 執行一次完整的優化演算法。但是實際上這些問題的最優解可能有某種強關聯,對於這種情況,...