強化學習的Actor Critic 與 Gan 的區別和聯絡是什麼?

時間 2021-06-03 17:43:13

1樓:runtimeerror

我從優化的角度說下個人理解的一點區別。

Actor-Critic可以寫成是求解乙個bilevel optimization problem,GAN可以寫成是乙個minimax optimization problem,而minimax optimization problem實際上是bilevel optimization problem的特例,所以求解Actor-Critic的一些方法理論上可以移植到求解GAN,而求解GAN的方法則有可能不適用於求解Actor-Critic。

2樓:sdq

AC和GAN的架構類似,都需要訓練兩個模型,其中的乙個模型用於資料的生成,而另乙個用於評估生成的結果。首先,生成模型部分:在AC方法中,負責生成的叫做Actor,用於生成下一步需要進行的操作Action,而在GAN中稱之為Generator用於生成樣本資料。

其次,評估模型部分:AC方法中負責評估的是Critic,會根據當前設定的環境,給出當前策略特定狀態下對應的Reward,而GAN中的Discriminator會判斷輸入的結果是真實資料還是偽造的資料。

雖然整體的架構非常接近,但是從兩者希望解決問題上來看,其實是兩個不同的方向。AC方法隸屬於強化學習,目標是訓練得到乙個最優的策略模型,能夠在環境中獲得最優的決策序列。而GAN的目的則是期待以假亂真地模擬資料,希望生成器可以產生和真實資料分布一致的內容,從而可以完美地騙過判別器。

兩者因為都需要同時訓練兩個模型,所以還有乙個共同特點就是訓練都不太穩定,兩個社群的研究者對此都提供了很多寶貴的技術優化思路,可以互相借鑑[1]。

[1] Pfau, D. and Vinyals, O., 2016.

Connecting generative adversarial networks and actor-critic methods.arXiv preprint arXiv:1610.

01945.

3樓:

聯絡:gan和rl的關係可以見https://arxiv.org/pdf/1610.01945.pdf

,他們在結構上面非常相似。從概率分布的角度而言,都是在學乙個分布。特別是c51(distributional rl,這裡是q-learning的演算法)和wgan,他們都在最小化wasserstein distance,只不過分布的具體含義不一樣.

題主如果看看inverse rl 就會感覺這兩者幾乎是一樣的, 區別只是場景而已(reward還是discriminator)https://

arxiv.org/pdf/1603.00448.pdf

。區別:從收斂的角度說,ac要求critic的學習率和actor相差較大的數量級(two time scale learning rate).

gan 不一定需要,因為zero-sum game的性質比較好,同時gradient descent 和 ascent即可(當然實際角度講generator的訓練次數或者時間要小於discriminator,也有two time scale gan,主要還是因為他們是asymmetry的)。

總結:gan和inverse rl很像,和rl長得很像。

哪些問題不能用強化學習解決?強化學習有哪些侷限性?

shenghuo 強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法 已知模型轉移概率和獎勵模型 難以奏效,因此需要採用通過不斷與環境互動,獲取 s,a,r,s 資料組,並通過學習或手工設定獎勵函式...

強化學習中的reward function為什麼要取期望?

首先明確三個不同的概念 reward,return 和 value。Reward的定義為 每個狀態下執行action後立即 從系統以外的環境 獲得的評價性響應,必須直接對應RL學習的最終目標。Return的定義為 累積的未來reward。式中含有衰減係數 Value的定義為 從狀態 開始,一直遵循p...

強化學習和傳統的控制有什麼異同點,做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

笑話 這要取決於題主做的是強化學習based的控制還是深度強化學習based的決策,這個很重要。目前來看強化學習有兩大派別,乙個是早在上世紀90 00年代就已經開始發展並成熟的,用強化學習的方法解最優控制問題的派別。主要的代表人物都是控制相關的比如東北大學張化光,還有Frank Lewis這些人。還...