分層強化學習演算法的思想更貼近解決複雜的環境，為什麼這個方向依然這麼冷門？

1樓：

分層強化學習演算法運用於自動化的交易是非常有效的，我現在就是用這種思路來設計模型的，關鍵是設計者自己對複雜度要有認識，自己的人腦當中要有分層的概念，否則會一團漿糊，越搞越複雜

2樓：

這是乙個好問題

不分層的強化學習，如果放在人身上，那就是每一時刻我們都要決定控制哪一根肌肉纖維收縮，因為控制肌肉纖維收縮是我們大腦發出的直接決策，不管是邁一下步子、動一下指頭、還是說乙個音節。然而在我們的思考中，想的是我要去哪、我要吃啥、我要說點什麼，已經遠遠脫離了控制肌肉纖維的層面。在強化學習中，將動作行為從最原始的動作，抽象到多層的動作，是分層強化學習的主要特徵。

分層的好處很明顯。如果我們的思維是直接控制肌肉纖維收縮，那麼吃一頓飯都會極其困難。分層後，我們在高層思維，需要考慮的動作不過是拿起筷子、加一塊肉、放進嘴裡。。。

這樣的決策，儘管每一步都會涉及大量的肌肉纖維的活動。

然而正是因為分層對於人（甚至有一定智商的動物）來說如此天然，我們並不清楚在我們的思維中是如何做到分層的，也就不清楚到底該如何實現分層。目前的分層強化學習方式都非常的原始，幾乎沒有可通用的模型。如果回到人工智慧，分層直接對應了概念的抽象以及在抽象層面進行推理。

這是目前人工智慧最缺乏的能力之一，一旦取得突破，人工智慧技術可能進入另乙個高度。也希望我們自己能在這一方向上有所貢獻。

3樓：Jing-Wen Yang

感覺分層強化學習一直都是前沿熱點啊，之所以FeUDal Network沒有引起熱潮，很大原因是因為這個方法依然太複雜了，很難調出理想的效果吧。另外一方面，在實際應用中，分層是一定有助於解決問題的，但是自動分層卻不一定是必須的（人工智慧，人工搞：））

分層強化學習演算法的思想更貼近解決複雜的環境，為什麼這個方向依然這麼冷門？

強化學習演算法如遇到瓶頸（bottleneck）的時候，增大網路size是否有幫助？

強化學習演算法中，PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法？

強化學習裡面的演算法如果通過了Cartpole 是可以直接用於其他專案麼比如Atari遊戲？

其他用戶還看了：

分層強化學習演算法的思想更貼近解決複雜的環境，為什麼這個方向依然這麼冷門？

強化學習演算法如遇到瓶頸（bottleneck）的時候，增大網路size是否有幫助？

強化學習演算法中，PPO演算法是不是就是加了重要性取樣 GAE和梯度裁剪的A2C演算法？

強化學習裡面的演算法如果通過了Cartpole 是可以直接用於其他專案麼 比如Atari遊戲？

其他用戶還看了：

強化學習裡面的演算法如果通過了Cartpole 是可以直接用於其他專案麼比如Atari遊戲？