強化學習DDPG訓練時，當actor和critic共享底層網路。如何訓練critic

1樓：Keavnn

首先，DDPG中的actor和critic網路很難共享引數，因為乙個是輸入是狀態，乙個輸入是（狀態-動作）對。

如果要共享也是可以的，如果狀態是影象輸入，那麼可以將CNN部分共享。

如果是向量輸入，也可以共享兩層全連線做特徵提取，然後把得到的隱藏特徵與動作進行concat操作。

至於梯度問題，一般只使用critic的梯度更新共享層，因為對於DDPG來說，Q函式基本收斂了policy才能基本收斂。當然也不一定，在使用RNN時，Q的損失不下降也能使policy提公升，只是會有波動。所以對於把Q函式當做Critic的演算法來說，如dpg，ddpg，td3，沒有V網路的sac等等，需要保證Q的學習效果才能保證策略提公升，然後策略提公升促進Q的正確值估計。

不使用Actor網路的梯度是因為它會改變共享層給Q函式的"特徵表達"，頻繁改變會導致模型不穩定。

當然，Actor是可以傳導梯度到共享層的，不過一般都設定變數作用域，將梯度截斷了。

另外，對於PPO這種以V網路作為Critic的演算法，可以在共享層同時使用actor與critic的梯度更新，並且不影響收斂。而且，每個episode更新的演算法比每個step更新的演算法對於actor梯度更有包容性。

以上均來自長期實驗與經驗的結果。

強化學習DDPG訓練時，當actor和critic共享底層網路。如何訓練critic

哪些問題不能用強化學習解決？強化學習有哪些侷限性？

有研究強化學習（Reinforcement Learning）的不，強化學習的研究價值和應用前景如何？

什麼是逆強化學習？

其他用戶還看了：