哪些問題不能用強化學習解決？強化學習有哪些侷限性？

1樓：shenghuo

強化學習是一種無模型的動態規劃問題，應用的特點是環境因智慧型體的動作而發生變化，獲取的資料沒有標籤，獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法（已知模型轉移概率和獎勵模型）難以奏效，因此需要採用通過不斷與環境互動，獲取（s,a,r,s'）資料組，並通過學習或手工設定獎勵函式，來實現選取最大獎賞的策略。獎勵函式的設定與最終的目標是一致的，以此指導智慧型體學習出最優策略。

至於說哪些問題適合，考慮到應用場景，可以說，模型未知或很難建模、規則不明確的問題，是適合於強化學習的。比如說Alphastar，智慧型體的狀態空間和動作空間非常大，很難建立乙個精確的模型來進行模擬，且窮盡人類已知規則，很難找出最優策略，那麼就可以通過智慧型體不斷的與環境互動試錯，以學習到的資料來不斷改進策略，學習出最優策略。反之，如果可以通過規則等人類先驗知識可以求得最優解，或者通過建立模型獲取到高質量的資料，進而通過Planning來求解，也不必使用強化學習。