強化學習問題中，如果預計最優動作序列至少有幾萬個，每次從初始狀態到目標狀態的時間很長，該如何解決？

1樓：ngc

最優序列有幾萬個說明對任務的設計還不明確，比較直接的方法還是對任務優化，設計與任務高度相關的低維度連續獎勵函式。提高網路複雜度會比較麻煩，是另一種解決思路。

2樓：xiedidan

大概率不是網路尺寸，而是訓練方面的問題

首先是Reward、Advance的設定，幾萬步只靠Episode最終Reward就很難收斂，要做合適的Reward Shaping。

其次，如果可能的話，建議先把問題簡單化，解決乙個很小的子集，驗證你的Pipeline是可收斂的，沒有程式設計、資料等等方面的問題。

最後調參、隨機重啟多試幾把……比如題主的情況，重點關注折扣因子、更新間隔之類的，PPO是AC型別的，類似於GAN，是比較難訓的……

3樓：

提幾個思路：

1、設定稠密reward或者偽終態

2、簡化state的空間個數，簡化任務複雜度3、新增輔助任務促進主任務學習

4、上分布式演算法，大力出奇蹟

4樓：icelemon

可以試一下這個？

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

5樓：醉此江湖

軌跡優化這種問題，給的獎勵函式和初始特徵選取關係很大的，首先不能到達終點才獎勵，稀疏獎勵導致很難學到東西，而特徵選得不好不夠直接和充足也會導致識別不到關鍵特徵。其次就是演算法方面，探索方式和能力，歸一化，網路引數初始化，ppo的adv估計方式與準確性，啟用函式的選取，等等因素都會影響

6樓：

感覺關鍵在代價函式，軌跡優化這種問題，雖然路徑很長，但是代價函式或者說reward feedback不會是在軌跡末端才有的吧，中間過程完全可以有有意義的代價函式吧，這種情況下，即使軌跡很長，也應該並不是非常困難的那類學習。

當然，如果是機械人完成複雜任務的動作軌跡優化，那麼上面說的就可能有問題了，這時候恐怕首先要考慮hierarchical RL，或者是immutation之類的策略去縮小狀態空間，完全讓系統自己去探索空間肯定很困難了。