哪些問題不能用強化學習解決?強化學習有哪些侷限性?

時間 2021-06-09 19:45:44

1樓:shenghuo

強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法(已知模型轉移概率和獎勵模型)難以奏效,因此需要採用通過不斷與環境互動,獲取(s,a,r,s')資料組,並通過學習或手工設定獎勵函式,來實現選取最大獎賞的策略。獎勵函式的設定與最終的目標是一致的,以此指導智慧型體學習出最優策略。

至於說哪些問題適合,考慮到應用場景,可以說,模型未知或很難建模、規則不明確的問題,是適合於強化學習的。比如說Alphastar,智慧型體的狀態空間和動作空間非常大,很難建立乙個精確的模型來進行模擬,且窮盡人類已知規則,很難找出最優策略,那麼就可以通過智慧型體不斷的與環境互動試錯,以學習到的資料來不斷改進策略,學習出最優策略。反之,如果可以通過規則等人類先驗知識可以求得最優解,或者通過建立模型獲取到高質量的資料,進而通過Planning來求解,也不必使用強化學習。

2樓:

強化學習的最大侷限是在訓練中需要實時取樣大量樣本和試錯。

所以答案很簡單:試錯成本高,取樣成本高的問題,不適合強化學習解決。

3樓:佛系智慧型化

強化學習應用範圍很廣很廣,看你的需求,以及根據需求如何構建你的問題,簡單來說你的建模能力,如何從複雜問題總結要點抽象成簡單問題

有研究強化學習(Reinforcement Learning)的不,強化學習的研究價值和應用前景如何?

劉景初 Short Answer 至少得了解一下,但全情投入需謹慎。Long Answer 之所以建議有基本了解,是因為強化學習涉及人工智慧的根本性問題,想要從事機器學習相關的專業研究,就算只是為了培養基本的intuition也不能對這個領域一無所知。謹慎的原因是強化學習的潛力是有層次的 基礎理論已...

什麼是逆強化學習?

梵笙 The main idea of inverse reinforcement learning is to learn the reward function based on the agent s decisions,and then find the optimal policy usi...

強化學習中的reward function為什麼要取期望?

首先明確三個不同的概念 reward,return 和 value。Reward的定義為 每個狀態下執行action後立即 從系統以外的環境 獲得的評價性響應,必須直接對應RL學習的最終目標。Return的定義為 累積的未來reward。式中含有衰減係數 Value的定義為 從狀態 開始,一直遵循p...