DDPG方法怎麼處理離散空間問題

時間 2021-12-28 07:08:51

1樓:

我也嘗試使用DDPG解決離散動作空間問題,但查詢資料之後,我認為面對離散動作空間如果希望使用DDPG,那麼應當退回到DQN的演算法,這是由於DDPG是DQN在連續動作空間下的一種拓展。

DQN在面對連續動作空間問題時,存在兩個難點,即無法對動作空間中所有的a估計出Q(s,a),以及難以估計出使Q(s,a)最大的a(這在離散空間中比較容易)。

DDPG是對該問題的一種解決方案,即先使用乙個Actor網路估計出乙個a,再使用critic計算對應的Q(s,a)。事實上,DDPG所做的就是使Actor網路輸出argmax Q(s,a)的a。

具體在使用過程中,面對離散動作空間,即使像其他答主提到的gumble-softmax,也需要我們輸出乙個向量vec,再取樣得到one-hot向量來選擇某個動作,那麼乙個問題時,vec的每個位置數值的含義是否可以看作是一種Q(s,a)呢?因為我們在基於vec向量選擇動作時事實上也是數值大的位置對應的動作被選中的概率更大。所以,當面對離散動作空間時,應當退回到DQN演算法,而使用DDPG只會增加額外的複雜性,而效果並不會更好。

2樓:小黃梗

額… 你這離散空間是狀態的、還是動作的…

DDPG就想成是P(a|s)=1的特殊情況就行咯。此問題無解…

真想用Policy Gradient的方法做離散空間問題,ppo吧

3樓:張會文

預設你這裡指的是動作空間是離散的。理論上,DDPG無法處理離散動作空間的問題。因為在DDPG中,要求策略函式(輸出動作)相對於狀態是可導的。

如果是離散的動作,顯然不滿足。如果非要用,我想大概也只能擬合乙個連續函式來近似離散的動作。但是這個函式可能很複雜或者不光滑。

另外,DDPG本來就是為了解決連續問題開發的,相當於DQN 的連續版本。如果你非要用梯度的方法解決離散問題,不如試試PPO或者A3C。

媽媽經常問女兒要錢,該怎麼處理?

關鍵說兩句,就罵你白眼狼。別人家閨女都給的,白養了,我一月四千多給了五萬多了不滿意。兩個月沒給工資了,給她跟妹妹買禮物衣服她說我這是施捨,心情好才施捨給她的,說妹妹都該我養的我大她這麼多。這兩天我男朋友媽媽給乙個十萬一的見面禮就要全部拿走還錢,說她以後再還。我真的是太無語了。還詆毀你沒本事,你說她怎...

現任前女友又看他空間,我該怎麼處理?

寶湄 隨她看。秀恩愛就好了嘛。氣死她就拉倒。你要是小三上位,難免你會害怕,畢竟是搶來的,所以也怕別人搶走。如果他們正常分手,才和你談戀愛,有什麼可怕的。就算他吃回頭草,也不要難受,下乙個更乖 時間的朋友 他前女友看他空間,是你男朋友控制不了的,只要他跟你在一起一心一意,不受其他影響就可以了,如果是他...

機械人笛卡爾空間軌跡規劃時一般是怎麼處理奇異位型的?

AlmostHuman 直接進3.以下是我個人理解。這個是屬於機械人控制器來幹的事情,同樣舉個例子,使用者輸入了MOVEL指令要求機械人從當前位置P0直線運動到目標點P1。機械人控制器首先在P0P1直線段間做速度規劃,目的是保證執行平滑。速度規劃好後就知道了各個時刻上的位姿值,每個時刻對應機械人的乙...