如何理解增強學習中的eligibility trace？功能和優缺點是什麼？

1樓：LinLin

蟹妖。Eligibility Trace通常被大家翻譯為「資格跡」，咋一看還真的摸不著頭腦，而且大家習慣於用文字解釋，那就更為抽象了。所以我認為吃透它最好的方法是雙管齊下：通過數學公式為主和文字描述為輔來理解。

（本答案已預設各位具備強化學習中價值函式逼近與off-line λ-return演算法的知識。）

先來一遍文字解釋，有點感性認識：

TD(λ)是第乙個使用資格跡（Eligibility Trace）的演算法，其具有Backward的特點。Backward指的是，考慮過去價值對當前價值的影響。而在TD(λ)中就利用資格跡來實現Backward：

過往狀態的估計價值相對於價值逼近函式的引數權重w的變化率（梯度），對如何調整當前逼近函式權重向量的影響。λ是乙個可以人為調節這種影響的引數，，其越大，則TD(λ)越看重過去價值變化的影響。

那麼，該如何定義過往價值變化對如何調整當前影響呢？

我們首先定義乙個叫做資格跡（Eligibility Trace）的向量，其維度和逼近函式的權重向量一致。

那麼資格跡就可以根據過往價值變化對如何調整當前影響定義為：

這是乙個迭代式子，為當前的【估計價值相對於價值逼近函式的引數權重w的變化率（梯度）】，而為過往所有【估計價值相對於價值逼近函式的引數權重w的變化率（梯度）】的衰減迭代。

那麼 就可以作為價值函式逼近法中的梯度（比原來一般的逼近法多考慮了過往價值變化的影響），那麼價值逼近函式的更新公式就有

而最一般形式的逼近函式更新公式

兩個更新公式相比，可以看到差別就在於最後一項和。前者是考慮了過去的價值梯度對更新的影響，這也正是資格跡的真正意義；而後者並沒有考慮過往影響。

則是用來調節過去價值梯度對更新的影響程度。可以看到當，過往每個狀態的價值變化率都對有完整的影響，可以視為MC過程；而當時，過往每個狀態的價值變化率都對沒有任何影響，可以視為TD過程；當，過往的每個狀態呈衰減趨勢地對調整有影響，越大，影響越大。

我們把上面更新公式中的記為誤差，則可以用下圖形象表示。

（圖引用R. S. Sutton與A.

G. Barto於2023年1月1日發布的《Reinforcement learning: An introduction》第二版）：

[1] R. S. Sutton and A.

G. Barto. Reinforcement learning:

An introduction. IEEE Transactions on Neural Networks, 9(5):1054–1054, 2nd Version, 2018.

2樓：

信度分配吧（credit assignment) ，類似現在神經網路的bp。直觀上可以理解為你的某一段經驗experience對你過去某個時刻的喚起有多重要。

我覺得bp應該和credit assignment結合起來。互補。而且這方面理論還有待發展,是乙個很值得研究的點。