強化學習中,model based 方法與 model free 方法各有哪些優缺點?

時間 2021-05-05 20:08:01

1樓:躺平之王

以下個人觀點。

優缺點1. mf. higher asymtotic performance (漸進性能), lower sample efficiency

2. mb. higher sample efficiency, lower asymtotic performance.

造成這樣優缺點的原因是

2. mb需要擬合dynamics model,目前用nn做近似的工作比較少,因為樣本數量少會過擬合,而不使用nn的話其實簡單模型不能很好擬合State.space, Action space維數比較大的dynamics,所以在複雜任務中,效能比不了mf,是樣本少和模型近似不夠完美造成的。

為什麼會覺得mb用的少,我提供一種觀點:mb在擬合dynamics後做trajectory optimization用的方法主要是傳統的control and planning,比如零階的cem,一階的LQR,能做的learning比較少。確實有相關工作比如Sergy Levine 的GPS,但是個人感覺已經飽和或者瓶頸,因此從演算法角度上大家近期研究mf更多,其實還是有dl熱潮和算力提公升的影響的,而mb由於上述原因,其實不能很好利用nn,所以研究少一些。

(其實最近是有一篇提議nn model uncertainty可以逼近mf效能的)

但mb不太有用這種觀點是不正確的,因為在某些setting下,mb更加適用。比如sim2real learning中有些工作希望simulation-learned policy transfer to reality,mb使用頻率比較高,因為現實環境樣本獲取成本高。再比如few shot learning這個setting,某些meta-rl演算法會利用mb,是因為他們假設variation由dynamics帶來,乙個直接想法就是在mb上加入uncertainty和inference。

2樓:

新入坑強化學習的一些酌見,並不完全,睡前隨便打的。明天再補充model-based

缺點:從環境模型中互動得到經驗軌跡,那麼對環境的建模存在偏差。模型一旦確立,訓練好之後,環境出現新的改變就會失效,泛化能力差。

優點:獲得的經驗能夠多次利用,資料樣本利用率高。更好設計rewards來引導智慧型體學習。知道狀態轉移概率能更準確估算價值

model-free

優點: 直接與環境互動, 不存在建模偏差。很多環境是沒辦法建立模型的。泛化能力強。

缺點: 待補充待完善

3樓:S候補

乙個簡單回答,基於最近看過了兩篇文章。

Model-free

效能好,但是需要大量samples

Model-based

Sample-efficient,但是estimator相對簡單,因為很多使用簡單的(linear)model去做系統辨識

[1]用model-based method to initialize model-free method,降低了樣本數量。

[1] Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Anusha Nagaband et al. 2018

4樓:

1. Model-free:

總體來說,model-free不需要太深度的環境刻畫和抽象。在model-free中,value-based和policy-based又有不同的優缺點。最大的缺點很多人有提到,是Sample Efficiency問題。

Model-free的方法需要大量的樣本去學習,學習時間成本高。Value-based 是單點迭代,不是gradient descent方法,而policy-based 是gradient方法,但是樣本效率很低,需要控制方差。 Value-based的目標是最小化擬合誤差,不是期望的最大reward。

在很多非線性的場景中不能保證一定converge。policy-based是利用gradient descent去converge的。在Value-based的設定中,我們通常都假設環境是full observed。

2. Model-based

相對於model-based來說,Sample Efficiency是個很大的有點。通常在model-based的環境中,動作都是連續的,比如機械人的學習。它的目標和value-based一樣,是最小化模型擬合誤差,但是會converge。

但是model-based的方法不能保證學習的best model = best policy。

我覺得model-based不被重視的原因可能是存在困難和評判標準:如何對環境進行有效地抽象建模,估計狀態轉移等等。

5樓:iostream

我理解的 model-based 和 model-free 的區別在於對於環境有無已知模型。基於模型的方法效率更高,因為智慧型體可以利用環境中的模型資訊,動態規劃進行求解。但很多情況下,比如遊戲或者機械人任務中,我們並不知道環境是怎樣的,只能使用無模型的方法,或者已知模型過於複雜,樣本數量太大,使用動態規劃無法求解,只能通過對智慧型體與環境的互動片段進行取樣來獲取經驗進而求解,時間差分方法中,通過抽樣,會首先擬合乙個MDP,然後求解,所以對於具有markov屬性的環境,TD利用了markov屬性,更加高效。

但對於非markov屬性的環境,時間差分就不一定能求解了,這時MC會更加高效,但求得的解也不一定是最優的。

6樓:小小何先生

從取樣角度看,model-free開始隨機採,效率低下,但是方法簡單,通用性強。畢竟model不是說能有就有地。

從生物上看,嬰兒就是生下來學習輸入輸出資料,比較符合人工智慧的初衷,model給多了慢慢就會變成知識圖譜了。

7樓:張會文

正如你描述的,model-based的方法最大的優點就是樣本效率高。但是理論比較複雜。對於model-free的方法自然樣本效率很低,但是簡單。

之所以model-free的近年來很流行,我覺得也得益於硬體提公升帶來的計算能力的提公升。我們甚至可以用多個GPU並行的訓練我們的agent,因此一定程度上弱化了樣本效率的問題。但也不能說model-based方法不被重視。

現在也有很多model-based的研究。Sergey Levine 和她的學生Chelsea Finn就是從model-based起家的,這可能和它們做機械人有關,只是後來做的比較雜。Chelsea Finn搞了個新的方向叫meta-learning,整的挺火熱。

他們最近還發了文章叫guided meta-policy search,還沒來得及看,但我感覺和基於模型的GPS肯定有些關聯。另乙個最近研究比較熱的就是vision-based model predictive control,也是用到了model-based的思想。AlphaGo在搜尋的時候,也是有用到model資訊的。

所以說model-based研究也挺多,我個人也比較贊成用model-based的方法,尤其是做機械人方向的研究。

強化學習中的reward function為什麼要取期望?

首先明確三個不同的概念 reward,return 和 value。Reward的定義為 每個狀態下執行action後立即 從系統以外的環境 獲得的評價性響應,必須直接對應RL學習的最終目標。Return的定義為 累積的未來reward。式中含有衰減係數 Value的定義為 從狀態 開始,一直遵循p...

哪些問題不能用強化學習解決?強化學習有哪些侷限性?

shenghuo 強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法 已知模型轉移概率和獎勵模型 難以奏效,因此需要採用通過不斷與環境互動,獲取 s,a,r,s 資料組,並通過學習或手工設定獎勵函式...

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議?

關於RL中的sample efficiency問題,Shane Gu過去幾年做了很多相關工作。這是去年他的乙個talk Deep Reinforcement Learning for Robotics Frontiers and Beyond 中的一頁slides,我覺得解釋得比較清楚。白色區域是對...