強化學習中的reward function為什麼要取期望?

時間 2021-07-06 17:29:23

1樓:

首先明確三個不同的概念:reward,return 和 value。

Reward的定義為:每個狀態下執行action後立即(從系統以外的環境)獲得的評價性響應,必須直接對應RL學習的最終目標。

Return的定義為:累積的未來reward。

,式中含有衰減係數 。

Value的定義為:(從狀態 開始,一直遵循policy )Return的期望。

1、為什麼要取期望?

當policy是非確定性策略時——即面臨每個狀態,採取每個action都有可能,採取某個具體的action會有一定的概率。這時next state也不是確定的乙個狀態了,而是具有一定概率的多個狀態。因此,對於隨機變數需要期望的概念

2、為什麼目前state的reward和後一時態有關,還沒有到後一時態, 理論上說不能得到後時態的reward的吧?

首先明確乙個問題:只要給定乙個策略,s,a,r,s,a,r,s,a,r,... 就能一直進行下去(代表state, action, reward)。只不過此時的策略不是最優。

那麼演算法上是怎麼執行的呢:對於有「終止」的RL問題來說(如下棋),需要等到一次game終止後,一起計算value。這時對於Value(s_)來說,它所需要的reward(t=1,2,...

,Terminate)均已知(RL的訓練階段)。對於無「終止」的問題來說(如自動控制),由於return定義中衰減係數的存在,只要reward有界,return就可以保證有界,這樣就可以進行計算或估計。

PS:Sutton的RL Introduction書上(Chapter 3)有詳細的介紹,對於面向研究的初學者來說先明確基本概念會有很大助益。

祝樓主取得成功!

2樓:a88i99

這裡確實是reward function.

t+1的原因是,時間step在environment側加1。他在第一章有頁講了。R_t+1 對應的是t step的reward。

取期望的原因是,環境具有不確定性。你的問題描述中寫錯了乙個東西,是R_t+1, 不是R_s+1。

強化學習中,model based 方法與 model free 方法各有哪些優缺點?

躺平之王 以下個人觀點。優缺點1.mf.higher asymtotic performance 漸進性能 lower sample efficiency 2.mb.higher sample efficiency,lower asymtotic performance.造成這樣優缺點的原因是 2....

哪些問題不能用強化學習解決?強化學習有哪些侷限性?

shenghuo 強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法 已知模型轉移概率和獎勵模型 難以奏效,因此需要採用通過不斷與環境互動,獲取 s,a,r,s 資料組,並通過學習或手工設定獎勵函式...

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議?

關於RL中的sample efficiency問題,Shane Gu過去幾年做了很多相關工作。這是去年他的乙個talk Deep Reinforcement Learning for Robotics Frontiers and Beyond 中的一頁slides,我覺得解釋得比較清楚。白色區域是對...