強化學習中的reward function為什麼要取期望？

1樓：

首先明確三個不同的概念：reward，return 和 value。

Reward的定義為：每個狀態下執行action後立即（從系統以外的環境）獲得的評價性響應，必須直接對應RL學習的最終目標。

Return的定義為：累積的未來reward。

，式中含有衰減係數。

Value的定義為：（從狀態開始，一直遵循policy ）Return的期望。

1、為什麼要取期望?

當policy是非確定性策略時——即面臨每個狀態，採取每個action都有可能，採取某個具體的action會有一定的概率。這時next state也不是確定的乙個狀態了，而是具有一定概率的多個狀態。因此，對於隨機變數需要期望的概念

2、為什麼目前state的reward和後一時態有關，還沒有到後一時態，理論上說不能得到後時態的reward的吧？

首先明確乙個問題：只要給定乙個策略，s,a,r,s,a,r,s,a,r,... 就能一直進行下去(代表state, action, reward)。只不過此時的策略不是最優。

那麼演算法上是怎麼執行的呢：對於有「終止」的RL問題來說（如下棋），需要等到一次game終止後，一起計算value。這時對於Value(s_)來說，它所需要的reward(t=1,2,...

,Terminate)均已知（RL的訓練階段）。對於無「終止」的問題來說（如自動控制），由於return定義中衰減係數的存在，只要reward有界，return就可以保證有界，這樣就可以進行計算或估計。

PS：Sutton的RL Introduction書上（Chapter 3）有詳細的介紹，對於面向研究的初學者來說先明確基本概念會有很大助益。

祝樓主取得成功！

2樓：a88i99

這裡確實是reward function.

t+1的原因是，時間step在environment側加1。他在第一章有頁講了。R_t+1 對應的是t step的reward。

取期望的原因是，環境具有不確定性。你的問題描述中寫錯了乙個東西，是R_t+1, 不是R_s+1。