強化學習的四要素中 策略和模型的區別是什麼?

時間 2021-05-07 03:07:57

1樓:Frank Tian

在Sutton的書中,強化學習的四要素被認為是策略,收益訊號,價值函式和模型

你對策略和模型的混淆,可能是因為兩者的共性:它們往往需要學習而來

在Model-Based方法中,我們先學習乙個模型,然後通過這個模型規劃出乙個策略,這種方法被稱為間接強化學習。

而在Model-free方法中,我們直接讓agent和environment互動,從經驗中學習到策略,這種方法被稱為間接強化學習。

在MDP中,策略往往被認為是輸入狀態,輸出動作的函式。

而模型則提供了狀態轉移概率

策略是強化學習的結果,而模型不是。換言之,模型對於強化學習不是必須的

其他答主的答案可能會讓你產生誤解,在actor和critic的劃分中,actor確實代表策略,但是critic並不是代表模型,而是強化學習的四要素中的價值函式

在傳統的Value-baesd方法,也就是你在Sutton的書上能看到的幾乎全部的方法,模型都沒有直接用來評估策略

模型只能給出收益訊號reward,而我們的目標是最大化累計reward。如果你已經建立的模型,可以直接通過動態規劃的方法得到最大化累計reward的策略

2樓:

actor與critic,生成模型與判別模型,都是與之類似的概念。

乙個是執行者,另乙個是對執行者的評估,幫助其進行改進。

3樓:1forssssrain

強化學習中的model指的是agent對環境的建模,並不是必須的,如果有了這個模型就可以規劃,相當於"思考",沒有的話,也可以與真實環境互動獲得反饋。

model其實包括兩部分,狀態轉移概率和行為的獎勵真實執行的環境不叫model,叫環境動力學,強化學習可以在與真實環境的互動中學習出model

當然model有時候也會比較簡單,比如圍棋,圍棋規則就是model,不需要學習,給定的,你可以根據規則進行規劃"思考"

4樓:yr15

策略是指的是智慧型體(agent)在不同的狀態(state)下選擇如何選擇動作(action);

模型(model)是指描述馬爾可夫決策過程的五元組(狀態S,獎勵R,動作A,狀態轉移概率矩陣P,折扣因子gamma)。如果五元組完全已知,則認為這是model-based的方法,否則認為是model-free的方法,model-based方法可以通過直接矩陣求逆或動態規劃求解,model-free方法一般通過取樣進行估計求解。

強化學習和傳統的控制有什麼異同點,做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

笑話 這要取決於題主做的是強化學習based的控制還是深度強化學習based的決策,這個很重要。目前來看強化學習有兩大派別,乙個是早在上世紀90 00年代就已經開始發展並成熟的,用強化學習的方法解最優控制問題的派別。主要的代表人物都是控制相關的比如東北大學張化光,還有Frank Lewis這些人。還...

強化學習中的reward function為什麼要取期望?

首先明確三個不同的概念 reward,return 和 value。Reward的定義為 每個狀態下執行action後立即 從系統以外的環境 獲得的評價性響應,必須直接對應RL學習的最終目標。Return的定義為 累積的未來reward。式中含有衰減係數 Value的定義為 從狀態 開始,一直遵循p...

強化學習的Actor Critic 與 Gan 的區別和聯絡是什麼?

runtimeerror 我從優化的角度說下個人理解的一點區別。Actor Critic可以寫成是求解乙個bilevel optimization problem,GAN可以寫成是乙個minimax optimization problem,而minimax optimization problem...