1樓:David 9
對於強化學習RL的一些新玩法和和新方向我總結了以下這些,基本可以涵蓋大部分創新:
RL強化學習的新玩法和新想象——談談強化學習突破效率的問題
2樓:一蓑煙雨
有朋友之前做過進化策略和強化學習結合的相關調研,我就結合他的調研結果稍微說下自己的理解吧。
進化策略類似於遺傳演算法,是一類模仿自然進化方法進行引數優化的黑箱優化方法,具有高效和易並行的特點且全域性搜尋能力優秀。而傳統強化學習演算法的缺點之一就是容易陷入區域性最優,很難搜尋到全域性最優的解。因此從這一點來看,兩者在某種程度上具有較好的互補性。
目前進化策略和強化學習主要有以下三種結合方式:
CEM-RL演算法[2]將進化策略和off-policy演算法DDPG或td3優勢互補,將二者高樣本利用率和穩定性結合,在mujoco控制任務上取得了更好的表現。
這類演算法主要的目的就是高效的超引數自適應調整,PBT演算法[3]利用種群進化的方式尋找表現最優的超引數,是目前比較流行的方法。
另外,除了強化學習訓練過程中的一些超引數例如learning rate,batch size可以搜尋之外,在強化學習各個子方向中,都可能有某些方法需要設計低維變數。也許可以將PBT這類方法結合進來,自動調整從而為變數選定合適的值。
雖然說這類結合工程性較強,但是個人認為用在合適的地方還是有一定價值的。不過需要提醒注意的是,往往進行這樣的搜尋可能耗時較長。
類似於利用進化策略尋找最優超引數,但是更加側重於進化策略和博弈論的結合。經典博弈論將關注點放在靜態策略上,而進化博弈關注策略如何隨時間演化繼而關注進化過程中最成功的策略。這方面的研究目前主要有DeepMind用聯盟賽制訓練出來的星際爭霸2智慧型體AlphaStar[4]和OpenAI動態訓練智慧型體捉迷藏[5]的工作。
同樣,進行這樣的進化博弈訓練,需要的硬體資源只有大公司才具備。
總的來說,將進化策略和強化學習結合並不是乙個很新的方向。不能武斷地認為這個方向就是水,確實可以通過這類結合訓練得到更好的策略,只不過近些年做出的成績主要來自於算力的提公升。個人或學生研究者還是要謹慎入坑!
3樓:索羅格
我說個和遺傳演算法和深度學習沾邊的領域吧, AutoML。
AutoML中的NAS(Network Architecture Search)一開始使用強化學習搜尋,但是強化學習搜尋的開銷太大了,後面的人為了減小開銷引入了遺傳演算法,效果看起來還不錯。題主有興趣的話可以了解以下。
4樓:張會文
遺傳演算法本質上是個搜尋優化演算法。MCTS也可以是看做基於樹的搜尋演算法。RL中基於梯度的也是種優化方法。
什麼意思呢,RL就是那麼個框架,目標就是最大化回報,怎麼做呢?這就需要優化演算法了。所以這些都可以上。
甚至,暴力搜尋也可能找到解。只是效率太低。所以遺傳演算法自然也是能用的。
你可以看看CMA-ES這個演算法。有點像遺傳演算法的意思。回到正題,我並不覺得遺傳演算法和DRL結合會怎樣。
因為我覺得遺傳演算法太笨了。
至於說基因,遺傳演算法真的就模擬基因的工作機制了嗎?也就是名字叫遺傳演算法而已。不搞生物,也不清楚基因到底攜帶了些什麼。
進一步的,基因如何影響人類學習和進化。我覺得從ML的角度理解,基因可以看成一種bias。這種bias會大大簡化對於特定問題的複雜度,提高求解效率。
當然這裡的bias一定要是一種合理的bias.
5樓:懷沙
遺傳演算法和深度強化學習是很好的互補配合方法,因為深度強化學習相比於其他的深度學習分支,更容易陷入區域性最優,而遺傳演算法可以很好的跳出區域性最優,所以他們配合其實是很不錯的。除此之外,遺傳演算法可以解決一些在實際業務中遇到的深度強化學習不太好解決的業務需求,組裡在做相關工作,不太好展開。
6樓:
雖然前面有人貼了
但是我還是想再貼一遍
這篇2023年的文章
是提出了演化神經網路嗎?
不這是一篇
review
2023年的review
"There has been a great interest in combining learning and evolution with artificial neural networks in RECENT YEARS" @ 1999
20年前
也就是上一波神經網路開始進入低谷的時候
7樓:
基於隨機取樣的統計梯度優化,可能是最終解決方案,但是如果走到這個方向,基本上科學的路也就到頭了,因為沒啥新鮮東西了,純粹大力出奇蹟了。
8樓:Daniel
首先我覺得這是個不錯的研究方向,但是如果你不在乙個大組,沒有超多gpu/tpu, 自身底層編碼能力又比較弱雞的話不要想著碰這個課題了。
結合遺傳演算法和深度學習需要耗費大量計算資源,目前也僅僅看到Google做了相關工作,當然可能其他組有人在研究我沒注意到,但是這確實是對計算資源要求很高的的方向。
9樓:宋俊瀟
OpenAI在17年3月有乙個使用進化演算法進行深度強化學習的工作。使用進化演算法優化策略網路的時候不用進行backpropagation,而且演算法天生可以並行,同時對於reward是否稀疏也不敏感。總的來說就是實現簡單,而且根據他們公布的實驗結果,在Atari遊戲和MuJoCo控制等傳統的RL演算法比較基準中,進化演算法的表現和基於策略梯度的演算法(TRPO)相當,甚至更優。
就我自己嘗試的體會來說,這個演算法實現起來確實很簡單;至於效果的話對於cartpole等簡單環境,確實是瞬秒;但對於pendulum環境,效果就不是很穩定,有時候跑了很久也收斂不到很好的結果。
詳細內容可參考OpenAI的官方blog:Evolution Strategies as a Scalable Alternative to Reinforcement Learning
10樓:JerryWind
基因編碼和現在的feed forward network有實質區別,主要是更新方式不同,乙個是依賴勉強算是貝葉斯的突變,乙個是鏈式bp反饋。。。。至於細胞編碼,大同小異。。。所以如何統一資訊反饋才是難點
深度強化學習與深度學習的的區別是啥?
Warren 深度學習做的是智慧型感知 通俗來講就是條件反射 屬於連線主義學派,優化目標大多連續函式 對應連續優化和隨機優化 強化學習做的智慧型決策,屬於行為主義學派,優化目標是離散函式 對應組合優化 深度強化學習就是做組合優化太讓人頭禿了,乾脆直接假設個模型去擬合,能有個近似最優也不錯,於是又回歸...
請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議?
關於RL中的sample efficiency問題,Shane Gu過去幾年做了很多相關工作。這是去年他的乙個talk Deep Reinforcement Learning for Robotics Frontiers and Beyond 中的一頁slides,我覺得解釋得比較清楚。白色區域是對...
使用強化學習做出的拆單和下單演算法,和傳統的下單演算法相比,有哪些優勢?
KevinHo 效能上有什麼優勢我目前還看不出來,但是marketing上的優勢已經顯而易見了 據我所知各大BB都有在做RL的algo,有幾家已經到了 公測 階段。但我看到的資料還不足以看出和傳統algo有什麼顯著不同。但是有些東西表面看似是個學術問題,內在其實是個business問題,是個飯碗問題...