強化學習,方差比較大是說什麼的方差大,為啥方差比較大?

時間 2021-06-03 21:09:01

1樓:無非爾耳

你就記著,即使在同樣policy下,每回合的回報計算起來變化很大(回報與評估方式有關),那麼就叫方差大;如果回報均值與真實的策略回報的均值(這是上帝視角,就是已經有乙個完美的評估方式,mcmc也行)差異很大,就說偏差大。反之亦然。

總結,這裡的方差均值可以等同於單回合的回報的方差和均值(按照某種評估方式,可以是mcmc,也可以是value function)。

最後。瀉藥。還有,樓上幾個大佬,能問這樣問題的肯定都是和我這樣的菜雞,咱能不能深入淺出把事情說明白,說那麼多,真的會coding嗎,會拿手算嗎,會推公式嗎。。。

知乎誤人。。

2樓:MasterG

強化學習中不管是做值優化還是策略優化,如果使用基於梯度的優化方法,對目標函式的梯度基本都是關於狀態空間和動作空間的期望的形式,但是我們無法遍歷狀態空間和動作空間,只能使用取樣作為近似的梯度,每次取樣得到的梯度其實就是乙個隨機變數,是狀態和動作這兩個隨機變數的函式。所謂方差大,是指這個隨機變數方差大。

其實不是所有方法的梯度方差都大,通常在model-free演算法隨機策略的情況下方差會大,因為我們沒有model,梯度無法使用鏈式法則求解,另外策略是隨機的,如果不使用一些技巧(如重引數化)無法使用值函式對策略引數求導,同樣無法使用鏈式法則,最後只能用score function來變成乙個期望形式,因此得到的取樣梯度就損失了很多方向資訊,方差會大。從另乙個角度來看,正是因為鏈式法則無法使用,使得最終的梯度是更多的隨機變數的函式(如狀態+動作,甚至是歷史的整條軌跡的狀態+動作),這些隨機變數會以相加的形式構成梯度(如reinforce演算法),不嚴謹的假設他們之間不相關,最後的梯度方差也是這些變數方差的平方和,這就是為啥方差會大。

什麼是逆強化學習?

梵笙 The main idea of inverse reinforcement learning is to learn the reward function based on the agent s decisions,and then find the optimal policy usi...

強化學習和傳統的控制有什麼異同點,做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

笑話 這要取決於題主做的是強化學習based的控制還是深度強化學習based的決策,這個很重要。目前來看強化學習有兩大派別,乙個是早在上世紀90 00年代就已經開始發展並成熟的,用強化學習的方法解最優控制問題的派別。主要的代表人物都是控制相關的比如東北大學張化光,還有Frank Lewis這些人。還...

強化學習中 Backup 這個詞怎麼翻譯比較準確?

dodo 回溯圖的表述我覺得很到位,因為backup diagram繪製的就是根據bellman equation遞迴計算v s 的計算資料流向。backup也可以直譯為支撐,證據支撐結論的支撐。比如,從計算順序上來說,v s 依賴於v s 的successsor states,successor ...