經典的時間差分學習，比如Q學習，與動態規劃的本質區別是什麼？

1樓：

從有無準確模型上來劃分。Q-Learning可以基於model-free 或者 model-based 進行建模，建模手段比較靈活。而dp則是基於完全觀測下的model based方法進行建模。

這樣帶來的區別是，在partially observable MDP下，DP方法失效。

Q-learning 以及和Deep learning結合的 DRL方法能夠很好的解決Boot strap （自舉）方法下的值估計。成熟的演算法也有很多 actor critic, a3c, TPRO, etc.

2樓：jia wang

原文摘自Sutton 的書

The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision process (MDP). Classical DP algorithms are of limited utility in reinforcement learning both because of their assumption of a perfect model and because of their great computational expense, but they are still important theoretically.

DP 假設的是模型是已知（model-based）的. 就是知道轉移概率 (即我們採取a 動作從s轉換到s'的概率) 和期望的回報。DP通過遞迴解決最優策略或價值函式。

它需要馬爾可夫決策過程（MDP）或世界模型的知識，以便可以執行遞迴。劃重點：DP 是「規劃」而不是「學習」，因為已經知道MDP，只需要弄清楚該做什麼（最佳）。

TD是無模型的：TD方法(model-free)只需要採集一組樣本它不需要知道世界的模型。它是迭代的，基於模擬來引導學習。劃重點「這是學習」。

當然，可以在RL和DP之間進行混合方法。從樣本中學習模型的方法，然後在學習過程中使用該模型。

經典的時間差分學習，比如Q學習，與動態規劃的本質區別是什麼？

求推薦一本經典的學習概率與統計的教材？

初三了學習特別差 800分的題考200多想好好逆襲考個好高中有可能嗎？求求大佬給個建議應該怎樣學

學習是否需要用你的全部精力與時間？

其他用戶還看了：