如何理解增強學習中的eligibility trace?功能和優缺點是什麼?

時間 2021-06-03 16:56:21

1樓:LinLin

蟹妖。Eligibility Trace通常被大家翻譯為「資格跡」,咋一看還真的摸不著頭腦,而且大家習慣於用文字解釋,那就更為抽象了。所以我認為吃透它最好的方法是雙管齊下:通過數學公式為主和文字描述為輔來理解。

(本答案已預設各位具備強化學習中價值函式逼近與off-line λ-return演算法的知識。)

先來一遍文字解釋,有點感性認識:

TD(λ)是第乙個使用資格跡(Eligibility Trace)的演算法,其具有Backward的特點。Backward指的是,考慮過去價值對當前價值的影響。而在TD(λ)中就利用資格跡來實現Backward:

過往狀態的估計價值相對於價值逼近函式的引數權重w的變化率(梯度)對如何調整當前逼近函式權重向量的影響。λ是乙個可以人為調節這種影響的引數,其越大,則TD(λ)越看重過去價值變化的影響。

那麼,該如何定義過往價值變化對如何調整當前影響呢?

我們首先定義乙個叫做資格跡(Eligibility Trace)向量,其維度和逼近函式的權重向量一致。

那麼資格跡就可以根據過往價值變化對如何調整當前影響定義為:

這是乙個迭代式子, 為當前的【估計價值相對於價值逼近函式的引數權重w的變化率(梯度)】,而 為過往所有【估計價值相對於價值逼近函式的引數權重w的變化率(梯度)】的衰減迭代。

那麼 就可以作為價值函式逼近法中的梯度(比原來一般的逼近法多考慮了過往價值變化的影響),那麼價值逼近函式的更新公式就有

而最一般形式的逼近函式更新公式

兩個更新公式相比,可以看到差別就在於最後一項 和 。前者是考慮了過去的價值梯度對更新 的影響,這也正是資格跡的真正意義;而後者並沒有考慮過往影響。

則是用來調節過去價值梯度對更新的影響程度。可以看到當 ,過往每個狀態的價值變化率都對有完整的影響,可以視為MC過程;而當時,過往每個狀態的價值變化率都對沒有任何影響,可以視為TD過程;當,過往的每個狀態呈衰減趨勢地對調整有影響,越大,影響越大。

我們把上面更新公式中的 記為誤差 ,則可以用下圖形象表示。

(圖引用R. S. Sutton與A.

G. Barto於2023年1月1日發布的《Reinforcement learning: An introduction》第二版):

[1] R. S. Sutton and A.

G. Barto. Reinforcement learning:

An introduction. IEEE Transactions on Neural Networks, 9(5):1054–1054, 2nd Version, 2018.

2樓:

信度分配吧(credit assignment) , 類似現在神經網路的bp。直觀上可以理解為你的某一段經驗experience對你過去某個時刻的喚起有多重要。

我覺得bp應該和credit assignment結合起來。 互補。而且這方面理論還有待發展,是乙個很值得研究的點。

如何理解元學習中的「元」字?

googol 如何理解 元 你可以理解為現在的神經網路無法抽取更深層次的 偽守恆性 所以要元學習,元元學習,元元元學習。所以問題回到了,這種被動的方法可以抽取更深層次的抽象嗎?效率高否?靈活否?否!一邊去。 天一神水 前面已經有很多解釋了,再來個偷懶的,wiki上給出的解釋 同時指出了元學習的幾個要...

如何用樹網來理解學習中的規律,比如記憶,理解等概念?

Kathy Zhao Janet Echelman 用網狀雕塑幫我們看見風之舞。http www.當我們學習時,資訊經過解碼,流入腦中,改變著神經網路。我們的神經網可能是世界上最複雜的 漁網 這個網持續不停地改變 跳著,震動著,產生著新的連線。可以用乙個動態網狀模型來模擬思考和學習過程。學習是關於將...

如何通俗地理解機器學習中的 VC 維 shatter 和 break point?

章浩 下面冗長無趣的分析,實在看不下去了。與其看看零碎的碎碎念,東拼西湊的我覺得。不如看林軒田大佬親自講的video來的系統 PAC可學習性,看p26 p29即可,30分鐘搞定 林軒田機器學習基石 國語 嗶哩嗶哩 乾杯 bilibili 如果對video理解感到困難的同學,可以參考下面這個同學寫的部...