強化學習問題中,如果預計最優動作序列至少有幾萬個,每次從初始狀態到目標狀態的時間很長,該如何解決?

時間 2021-05-09 07:34:55

1樓:ngc

最優序列有幾萬個說明對任務的設計還不明確,比較直接的方法還是對任務優化,設計與任務高度相關的低維度連續獎勵函式。提高網路複雜度會比較麻煩,是另一種解決思路。

2樓:xiedidan

大概率不是網路尺寸,而是訓練方面的問題

首先是Reward、Advance的設定,幾萬步只靠Episode最終Reward就很難收斂,要做合適的Reward Shaping。

其次,如果可能的話,建議先把問題簡單化,解決乙個很小的子集,驗證你的Pipeline是可收斂的,沒有程式設計、資料等等方面的問題。

最後調參、隨機重啟多試幾把……比如題主的情況,重點關注折扣因子、更新間隔之類的,PPO是AC型別的,類似於GAN,是比較難訓的……

3樓:

提幾個思路:

1、設定稠密reward或者偽終態

2、簡化state的空間個數,簡化任務複雜度3、新增輔助任務促進主任務學習

4、上分布式演算法,大力出奇蹟

4樓:icelemon

可以試一下這個?

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

5樓:醉此江湖

軌跡優化這種問題,給的獎勵函式和初始特徵選取關係很大的,首先不能到達終點才獎勵,稀疏獎勵導致很難學到東西,而特徵選得不好不夠直接和充足也會導致識別不到關鍵特徵。其次就是演算法方面,探索方式和能力,歸一化,網路引數初始化,ppo的adv估計方式與準確性,啟用函式的選取,等等因素都會影響

6樓:

感覺關鍵在代價函式,軌跡優化這種問題,雖然路徑很長,但是代價函式或者說reward feedback不會是在軌跡末端才有的吧,中間過程完全可以有有意義的代價函式吧,這種情況下,即使軌跡很長,也應該並不是非常困難的那類學習。

當然,如果是機械人完成複雜任務的動作軌跡優化,那麼上面說的就可能有問題了,這時候恐怕首先要考慮hierarchical RL,或者是immutation之類的策略去縮小狀態空間,完全讓系統自己去探索空間肯定很困難了。

哪些問題不能用強化學習解決?強化學習有哪些侷限性?

shenghuo 強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法 已知模型轉移概率和獎勵模型 難以奏效,因此需要採用通過不斷與環境互動,獲取 s,a,r,s 資料組,並通過學習或手工設定獎勵函式...

強化學習值迭代收斂性怎麼證明(就是最優貝爾曼方程)?

小小何先生 在開始證明之前,我想說的是定理是證明給懷疑者,如果你對這個定理不懷疑,那麼你就不需要證明。接下來直觀感受一下強化學習中值迭代的收斂性。假設現在的Agent處於乙個state 下,想要去找乙個optimal state,那怎麼去找呢?就是遍歷所有的policy能夠使得當前的state 在遍...

請問深度強化學習可以處理可能的動作數量特別大的問題嗎?

這個問題解決了嗎?用dl不外乎就是神經網路擬合,輸出用softmax計算概率。答主是否有更好的辦法。樓上說的pca降緯方法在輸出資料集過大且線性的情況下不知道有多大作用。 Anticoder action作embedding,用較小維度的action embedding作為動作輸入或者輸出,之後再根...