經典的時間差分學習,比如Q學習,與動態規劃的本質區別是什麼?

時間 2021-06-07 03:29:45

1樓:

從有無準確模型上來劃分。Q-Learning可以基於model-free 或者 model-based 進行建模,建模手段比較靈活。而dp則是基於完全觀測下的model based方法進行建模。

這樣帶來的區別是,在partially observable MDP下,DP方法失效。

Q-learning 以及和Deep learning結合的 DRL方法能夠很好的解決Boot strap (自舉)方法下的值估計。成熟的演算法也有很多 actor critic, a3c, TPRO, etc.

2樓:jia wang

原文摘自Sutton 的書

The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision process (MDP). Classical DP algorithms are of limited utility in reinforcement learning both because of their assumption of a perfect model and because of their great computational expense, but they are still important theoretically.

DP 假設的是模型是已知(model-based)的. 就是知道轉移概率 (即我們採取a 動作從s轉換到s'的概率) 和期望的回報。DP通過遞迴解決最優策略或價值函式。

它需要馬爾可夫決策過程(MDP)或世界模型的知識,以便可以執行遞迴。劃重點:DP 是「規劃」而不是「學習」,因為已經知道MDP,只需要弄清楚該做什麼(最佳)。

TD是無模型的:TD方法(model-free)只需要採集一組樣本它不需要知道世界的模型。它是迭代的,基於模擬來引導學習。劃重點「這是學習」。

當然,可以在RL和DP之間進行混合方法。 從樣本中學習模型的方法,然後在學習過程中使用該模型。

求推薦一本經典的學習概率與統計的教材?

我覺著吧,有一定基礎這個不太清楚。首先就是國內數學系和非數學系的初等概率統計學的不一樣,好的數學系和一般的數學系學習內容也不一樣。我就推薦一下比較好的思路吧。1.永恆的一句話 好老師比你自學重要,一開始,自學開始最好有習題解答2.初等概率論 Sheldon Ross的 A first course ...

初三了學習特別差 800分的題考200多想好好逆襲考個好高中有可能嗎?求求大佬給個建議應該怎樣學

emmm 那就先把握好能學好的,保住優勢,英語就算棄掉也就一百來分把其他科抓好考個六百分應該沒問題 如果像你說的沒問題的話 慢慢來,如果還有剩下的精力就刷英語的閱讀理解專項訓練,看看解析什麼的,提公升最快 畢竟這個時候背單詞基本上已經來不及了 cool 要是這個分的話不建議在學校上課了,畢竟學校還是...

學習是否需要用你的全部精力與時間?

Smarty 累的視力下降,為了學習飯也不吃,每天睡5個小時,這樣的學習方式有效但是否推崇?略,個人感覺身體比較重要,然後學習效率比較重要 學生時代永遠是尖子生與永遠在中上游的人,步入社會後是否有過大的差距?差距,要看你怎麼定義了,差距是多元的,學習只是一方面。比如家庭環境好,雖然學習不好,但可以一...