DDPG演算法actor網路的輸出值固定在action的邊界值這是啥原因,和actor用tanh有關嗎?

時間 2021-07-07 15:45:46

1樓:醉此江湖

首先,ddpg是乙個16年的階段性演算法,如今sac td3甚至ppo都比它要好。然後出現這種情況一般就是預啟用值太大,導致的tanh飽和。要解決可以用個懲罰項,當預啟用的值較大時(達到飽和)給一點懲罰,促進預啟用變數活動在非飽和區

2樓:Papers

如果你用tanh函式啟用,發現輸出都是在邊界值,就說明在啟用之前就已經很大了。因此,建議看看網路引數是否有異常,或者太大。如果網路引數太大的話,看看在初始化網路的時候,能不能把初始引數調低一些,或者調一調其它的超引數,例如學習率什麼的。

3樓:哈哈哈

問題解決了,我的網路產生這個情況的原因是actor網路層次太深,最後一層用的啟用函式是tanh,導致了梯度消失,最後我把全連線層改成一層就沒這個問題了。

4樓:傲嬌的小花

更換啟用函式估計不能徹底解決,DDPG是需要手動設定控制探索的引數的,如果引數設定不好,導致探索力度不大或者過早停止探索,那麼actor網路的輸出就會趨於平穩了。所以可以檢查下是否是探索引數的問題。另外這個問題跟獎勵函式關係也挺大的,所以還可以考慮下是否是獎勵函式的問題

現在的神經網路演算法能夠模擬的最複雜的生物腦是哪種?

孫天祥 不過話說回來,也可以從某些角度對比一下人工神經網路 ANN 和生物神經網路。例如從神經元的個數來看,ANN遠少於人腦,甚至比青蛙腦的數量級還要小不少。不過從每個神經元連線的神經元個數來看,可能和人腦差不太多。另外,現在有cnn rnn等等,用於處理不同任務,但在生物腦中,應該是一套演算法,有...

有哪些關於網路拓撲圖無失真壓縮演算法的研究?

Zhouxing Su 拓撲圖中存在很多重複的子結構。如圖 1 中乙個簡單的二分圖所示,節點 A B 均與節點 1 2 3 相鄰,反之亦然。圖 1 乙個可壓縮的簡單拓撲圖 那麼是否可以對鄰接表進行優化,從記錄所有相鄰節點,改為記錄相鄰的節點集合?通過合適的節點聚合或集合劃分,使得每個節點相鄰的節點集...

如何評估神經網路演算法的計算量,從而來確定需要多少GPU的投入?

GPU的投入有兩方面 視訊記憶體GPU計算量 視訊記憶體占用 模型所佔的視訊記憶體 乙個batch的訓練資料占用的視訊記憶體模型視訊記憶體占用可以通過計算模型中的矩陣大小乘以單個元素所佔位元組計算。訓練資料的視訊記憶體占用也可用類似方法計算。計算量的單位是flop,也就是乙個乘法和加法,例如計算兩個...