DDPG方法怎麼處理離散空間問題

1樓：

我也嘗試使用DDPG解決離散動作空間問題，但查詢資料之後，我認為面對離散動作空間如果希望使用DDPG，那麼應當退回到DQN的演算法，這是由於DDPG是DQN在連續動作空間下的一種拓展。

DQN在面對連續動作空間問題時，存在兩個難點，即無法對動作空間中所有的a估計出Q(s,a)，以及難以估計出使Q(s,a)最大的a（這在離散空間中比較容易）。

DDPG是對該問題的一種解決方案，即先使用乙個Actor網路估計出乙個a，再使用critic計算對應的Q(s,a)。事實上，DDPG所做的就是使Actor網路輸出argmax Q(s,a)的a。

具體在使用過程中，面對離散動作空間，即使像其他答主提到的gumble-softmax，也需要我們輸出乙個向量vec，再取樣得到one-hot向量來選擇某個動作，那麼乙個問題時，vec的每個位置數值的含義是否可以看作是一種Q(s,a)呢？因為我們在基於vec向量選擇動作時事實上也是數值大的位置對應的動作被選中的概率更大。所以，當面對離散動作空間時，應當退回到DQN演算法，而使用DDPG只會增加額外的複雜性，而效果並不會更好。

2樓：小黃梗

額… 你這離散空間是狀態的、還是動作的…

DDPG就想成是P(a|s)=1的特殊情況就行咯。此問題無解…

真想用Policy Gradient的方法做離散空間問題，ppo吧

3樓：張會文

預設你這裡指的是動作空間是離散的。理論上，DDPG無法處理離散動作空間的問題。因為在DDPG中，要求策略函式（輸出動作）相對於狀態是可導的。

如果是離散的動作，顯然不滿足。如果非要用，我想大概也只能擬合乙個連續函式來近似離散的動作。但是這個函式可能很複雜或者不光滑。

另外，DDPG本來就是為了解決連續問題開發的，相當於DQN 的連續版本。如果你非要用梯度的方法解決離散問題，不如試試PPO或者A3C。

DDPG方法怎麼處理離散空間問題

媽媽經常問女兒要錢，該怎麼處理？

現任前女友又看他空間，我該怎麼處理？

機械人笛卡爾空間軌跡規劃時一般是怎麼處理奇異位型的？

其他用戶還看了：