DDPG演算法actor網路的輸出值固定在action的邊界值這是啥原因，和actor用tanh有關嗎？

1樓：醉此江湖

首先，ddpg是乙個16年的階段性演算法，如今sac td3甚至ppo都比它要好。然後出現這種情況一般就是預啟用值太大，導致的tanh飽和。要解決可以用個懲罰項，當預啟用的值較大時（達到飽和）給一點懲罰，促進預啟用變數活動在非飽和區

2樓：Papers

如果你用tanh函式啟用，發現輸出都是在邊界值，就說明在啟用之前就已經很大了。因此，建議看看網路引數是否有異常，或者太大。如果網路引數太大的話，看看在初始化網路的時候，能不能把初始引數調低一些，或者調一調其它的超引數，例如學習率什麼的。

3樓：哈哈哈

問題解決了，我的網路產生這個情況的原因是actor網路層次太深，最後一層用的啟用函式是tanh，導致了梯度消失，最後我把全連線層改成一層就沒這個問題了。

4樓：傲嬌的小花

更換啟用函式估計不能徹底解決，DDPG是需要手動設定控制探索的引數的，如果引數設定不好，導致探索力度不大或者過早停止探索，那麼actor網路的輸出就會趨於平穩了。所以可以檢查下是否是探索引數的問題。另外這個問題跟獎勵函式關係也挺大的，所以還可以考慮下是否是獎勵函式的問題