強化學習演算法中，PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法？

1樓：jjccero

不是。PPO是在TRPO的基礎上改進的，追溯到TRPO原文第2節裡的說法：

當策略發生變化以後，當前狀態以後的所有狀態的訪問概率會發生變化。為了保證on-policy，應該對之後所有的狀態進行修正，而這在計算和實現上是比較棘手的。因此做了乙個近似，可以近似的原因是策略的改變很小（不管你是用KL散度還是比例裁剪，這是個假設），所以PPO並沒有採取像V-trace那樣複雜而嚴格的重要性取樣。

言外之意是，PPO可以使用舊策略的取樣，好處就是每條軌跡資料可以被反覆使用，這大幅提高了資料的利用率。

而A2C只學習一次取樣資料就丟棄，這區別可不僅僅是重要性取樣和梯度裁剪。

2樓：小錯

這種說法是不對的，PPO屬於policy gradient 方法，而A2C是典型的actor-critic方法，兩類方法不一樣的。actor-critic方法的策略提公升的梯度方向由Q網路(近似的Q函式)直接決定，而policy gradient 則不是。

強化學習演算法中，PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法？

強化學習演算法如遇到瓶頸（bottleneck）的時候，增大網路size是否有幫助？

強化學習裡面的演算法如果通過了Cartpole 是可以直接用於其他專案麼比如Atari遊戲？

分層強化學習演算法的思想更貼近解決複雜的環境，為什麼這個方向依然這麼冷門？

其他用戶還看了：

強化學習演算法中，PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法？

強化學習演算法如遇到瓶頸（bottleneck）的時候，增大網路size是否有幫助？

強化學習裡面的演算法如果通過了Cartpole 是可以直接用於其他專案麼 比如Atari遊戲？

分層強化學習演算法的思想更貼近解決複雜的環境，為什麼這個方向依然這麼冷門？

其他用戶還看了：

強化學習裡面的演算法如果通過了Cartpole 是可以直接用於其他專案麼比如Atari遊戲？