強化學習DDPG訓練時,當actor和critic共享底層網路。如何訓練critic

時間 2021-06-27 12:25:45

1樓:Keavnn

首先,DDPG中的actor和critic網路很難共享引數,因為乙個是輸入是狀態,乙個輸入是(狀態-動作)對。

如果要共享也是可以的,如果狀態是影象輸入,那麼可以將CNN部分共享。

如果是向量輸入,也可以共享兩層全連線做特徵提取,然後把得到的隱藏特徵與動作進行concat操作。

至於梯度問題,一般只使用critic的梯度更新共享層,因為對於DDPG來說,Q函式基本收斂了policy才能基本收斂。當然也不一定,在使用RNN時,Q的損失不下降也能使policy提公升,只是會有波動。所以對於把Q函式當做Critic的演算法來說,如dpg,ddpg,td3,沒有V網路的sac等等,需要保證Q的學習效果才能保證策略提公升,然後策略提公升促進Q的正確值估計。

不使用Actor網路的梯度是因為它會改變共享層給Q函式的"特徵表達",頻繁改變會導致模型不穩定。

當然,Actor是可以傳導梯度到共享層的,不過一般都設定變數作用域,將梯度截斷了。

另外,對於PPO這種以V網路作為Critic的演算法,可以在共享層同時使用actor與critic的梯度更新,並且不影響收斂。而且,每個episode更新的演算法比每個step更新的演算法對於actor梯度更有包容性。

以上均來自長期實驗與經驗的結果。

哪些問題不能用強化學習解決?強化學習有哪些侷限性?

shenghuo 強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法 已知模型轉移概率和獎勵模型 難以奏效,因此需要採用通過不斷與環境互動,獲取 s,a,r,s 資料組,並通過學習或手工設定獎勵函式...

有研究強化學習(Reinforcement Learning)的不,強化學習的研究價值和應用前景如何?

劉景初 Short Answer 至少得了解一下,但全情投入需謹慎。Long Answer 之所以建議有基本了解,是因為強化學習涉及人工智慧的根本性問題,想要從事機器學習相關的專業研究,就算只是為了培養基本的intuition也不能對這個領域一無所知。謹慎的原因是強化學習的潛力是有層次的 基礎理論已...

什麼是逆強化學習?

梵笙 The main idea of inverse reinforcement learning is to learn the reward function based on the agent s decisions,and then find the optimal policy usi...