分層強化學習演算法的思想更貼近解決複雜的環境,為什麼這個方向依然這麼冷門?

時間 2021-05-30 04:32:43

1樓:

分層強化學習演算法運用於自動化的交易是非常有效的,我現在就是用這種思路來設計模型的,關鍵是設計者自己對複雜度要有認識,自己的人腦當中要有分層的概念,否則會一團漿糊,越搞越複雜

2樓:

這是乙個好問題

不分層的強化學習,如果放在人身上,那就是每一時刻我們都要決定控制哪一根肌肉纖維收縮,因為控制肌肉纖維收縮是我們大腦發出的直接決策,不管是邁一下步子、動一下指頭、還是說乙個音節。然而在我們的思考中,想的是我要去哪、我要吃啥、我要說點什麼,已經遠遠脫離了控制肌肉纖維的層面。在強化學習中,將動作行為從最原始的動作,抽象到多層的動作,是分層強化學習的主要特徵。

分層的好處很明顯。如果我們的思維是直接控制肌肉纖維收縮,那麼吃一頓飯都會極其困難。分層後,我們在高層思維,需要考慮的動作不過是拿起筷子、加一塊肉、放進嘴裡。。。

這樣的決策,儘管每一步都會涉及大量的肌肉纖維的活動。

然而正是因為分層對於人(甚至有一定智商的動物)來說如此天然,我們並不清楚在我們的思維中是如何做到分層的,也就不清楚到底該如何實現分層。目前的分層強化學習方式都非常的原始,幾乎沒有可通用的模型。如果回到人工智慧,分層直接對應了概念的抽象以及在抽象層面進行推理。

這是目前人工智慧最缺乏的能力之一,一旦取得突破,人工智慧技術可能進入另乙個高度。也希望我們自己能在這一方向上有所貢獻。

3樓:Jing-Wen Yang

感覺分層強化學習一直都是前沿熱點啊,之所以FeUDal Network沒有引起熱潮,很大原因是因為這個方法依然太複雜了,很難調出理想的效果吧。另外一方面,在實際應用中,分層是一定有助於解決問題的,但是自動分層卻不一定是必須的(人工智慧,人工搞:))

強化學習演算法如遇到瓶頸(bottleneck)的時候,增大網路size是否有幫助?

我也試圖回答一波吧 我覺得大家說的都很有道理,reward,state和exploration我也認為非常的重要。但是這些更多的還是人為的一種設計。但是根據我的經驗,還有兩個東西我也認為很有意義。可能不是都和bottle neck相關 1 pretrain 有些model如果不能從乙個很好的init...

強化學習演算法中,PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法?

jjccero 不是。PPO是在TRPO的基礎上改進的,追溯到TRPO原文第2節裡的說法 當策略發生變化以後,當前狀態以後的所有狀態的訪問概率會發生變化。為了保證on policy,應該對之後所有的狀態進行修正,而這在計算和實現上是比較棘手的。因此做了乙個近似,可以近似的原因是策略的改變很小 不管你...

強化學習裡面的演算法如果通過了Cartpole 是可以直接用於其他專案麼 比如Atari遊戲?

gym環境是乙個通用的遊戲框架,輸入輸出過程量很好定義,而真正用在其他的環境的時候,要弄清楚它的API是什麼,指標以及輸入輸出是什麼。總之,演算法的思想是通用的,具體的實現差別很大。 Frank Tian 有過一些在mujoco和bullet上訓練的經驗,這兩者的特點是輸入比較簡單,往往就是數十個環...