強化學習，方差比較大是說什麼的方差大，為啥方差比較大？

1樓：無非爾耳

你就記著，即使在同樣policy下，每回合的回報計算起來變化很大（回報與評估方式有關），那麼就叫方差大；如果回報均值與真實的策略回報的均值（這是上帝視角，就是已經有乙個完美的評估方式，mcmc也行）差異很大，就說偏差大。反之亦然。

總結，這裡的方差均值可以等同於單回合的回報的方差和均值（按照某種評估方式，可以是mcmc，也可以是value function）。

最後。瀉藥。還有，樓上幾個大佬，能問這樣問題的肯定都是和我這樣的菜雞，咱能不能深入淺出把事情說明白，說那麼多，真的會coding嗎，會拿手算嗎，會推公式嗎。。。

知乎誤人。。

2樓：MasterG

強化學習中不管是做值優化還是策略優化，如果使用基於梯度的優化方法，對目標函式的梯度基本都是關於狀態空間和動作空間的期望的形式，但是我們無法遍歷狀態空間和動作空間，只能使用取樣作為近似的梯度，每次取樣得到的梯度其實就是乙個隨機變數，是狀態和動作這兩個隨機變數的函式。所謂方差大，是指這個隨機變數方差大。

其實不是所有方法的梯度方差都大，通常在model-free演算法隨機策略的情況下方差會大，因為我們沒有model，梯度無法使用鏈式法則求解，另外策略是隨機的，如果不使用一些技巧（如重引數化）無法使用值函式對策略引數求導，同樣無法使用鏈式法則，最後只能用score function來變成乙個期望形式，因此得到的取樣梯度就損失了很多方向資訊，方差會大。從另乙個角度來看，正是因為鏈式法則無法使用，使得最終的梯度是更多的隨機變數的函式（如狀態+動作，甚至是歷史的整條軌跡的狀態+動作），這些隨機變數會以相加的形式構成梯度（如reinforce演算法），不嚴謹的假設他們之間不相關，最後的梯度方差也是這些變數方差的平方和，這就是為啥方差會大。

強化學習，方差比較大是說什麼的方差大，為啥方差比較大？

什麼是逆強化學習？

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

強化學習中 Backup 這個詞怎麼翻譯比較準確？

其他用戶還看了：