強化學習的四要素中策略和模型的區別是什麼？

1樓：Frank Tian

在Sutton的書中，強化學習的四要素被認為是策略，收益訊號，價值函式和模型。

你對策略和模型的混淆，可能是因為兩者的共性：它們往往需要學習而來。

在Model-Based方法中，我們先學習乙個模型，然後通過這個模型規劃出乙個策略，這種方法被稱為間接強化學習。

而在Model-free方法中，我們直接讓agent和environment互動，從經驗中學習到策略，這種方法被稱為間接強化學習。

在MDP中，策略往往被認為是輸入狀態，輸出動作的函式。

而模型則提供了狀態轉移概率。

策略是強化學習的結果，而模型不是。換言之，模型對於強化學習不是必須的。

其他答主的答案可能會讓你產生誤解，在actor和critic的劃分中，actor確實代表策略，但是critic並不是代表模型，而是強化學習的四要素中的價值函式。

在傳統的Value-baesd方法，也就是你在Sutton的書上能看到的幾乎全部的方法，模型都沒有直接用來評估策略。

模型只能給出收益訊號reward，而我們的目標是最大化累計reward。如果你已經建立的模型，可以直接通過動態規劃的方法得到最大化累計reward的策略。

2樓：

actor與critic，生成模型與判別模型，都是與之類似的概念。

乙個是執行者，另乙個是對執行者的評估，幫助其進行改進。

3樓：1forssssrain

強化學習中的model指的是agent對環境的建模，並不是必須的，如果有了這個模型就可以規劃，相當於"思考",沒有的話，也可以與真實環境互動獲得反饋。

model其實包括兩部分，狀態轉移概率和行為的獎勵真實執行的環境不叫model，叫環境動力學，強化學習可以在與真實環境的互動中學習出model

當然model有時候也會比較簡單，比如圍棋，圍棋規則就是model，不需要學習，給定的，你可以根據規則進行規劃"思考"

4樓：yr15

策略是指的是智慧型體（agent）在不同的狀態（state）下選擇如何選擇動作（action）；

模型（model）是指描述馬爾可夫決策過程的五元組（狀態S，獎勵R，動作A，狀態轉移概率矩陣P，折扣因子gamma）。如果五元組完全已知，則認為這是model-based的方法，否則認為是model-free的方法，model-based方法可以通過直接矩陣求逆或動態規劃求解，model-free方法一般通過取樣進行估計求解。

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

笑話這要取決於題主做的是強化學習based的控制還是深度強化學習based的決策，這個很重要。目前來看強化學習有兩大派別，乙個是早在上世紀90 00年代就已經開始發展並成熟的，用強化學習的方法解最優控制問題的派別。主要的代表人物都是控制相關的比如東北大學張化光，還有Frank Lewis這些人。還...

強化學習中的reward function為什麼要取期望？

首先明確三個不同的概念 reward，return 和 value。Reward的定義為每個狀態下執行action後立即從系統以外的環境獲得的評價性響應，必須直接對應RL學習的最終目標。Return的定義為累積的未來reward。式中含有衰減係數 Value的定義為從狀態開始，一直遵循p...

強化學習的Actor Critic 與 Gan 的區別和聯絡是什麼？

runtimeerror 我從優化的角度說下個人理解的一點區別。Actor Critic可以寫成是求解乙個bilevel optimization problem，GAN可以寫成是乙個minimax optimization problem，而minimax optimization problem...

強化學習的四要素中 策略和模型的區別是什麼？

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

強化學習中的reward function為什麼要取期望？

強化學習的Actor Critic 與 Gan 的區別和聯絡是什麼？

其他用戶還看了：

強化學習的四要素中策略和模型的區別是什麼？