強化學習的Actor Critic 與 Gan 的區別和聯絡是什麼？

1樓：runtimeerror

我從優化的角度說下個人理解的一點區別。

Actor-Critic可以寫成是求解乙個bilevel optimization problem，GAN可以寫成是乙個minimax optimization problem，而minimax optimization problem實際上是bilevel optimization problem的特例，所以求解Actor-Critic的一些方法理論上可以移植到求解GAN，而求解GAN的方法則有可能不適用於求解Actor-Critic。

2樓：sdq

AC和GAN的架構類似，都需要訓練兩個模型，其中的乙個模型用於資料的生成，而另乙個用於評估生成的結果。首先，生成模型部分：在AC方法中，負責生成的叫做Actor，用於生成下一步需要進行的操作Action，而在GAN中稱之為Generator用於生成樣本資料。

其次，評估模型部分：AC方法中負責評估的是Critic，會根據當前設定的環境，給出當前策略特定狀態下對應的Reward，而GAN中的Discriminator會判斷輸入的結果是真實資料還是偽造的資料。

雖然整體的架構非常接近，但是從兩者希望解決問題上來看，其實是兩個不同的方向。AC方法隸屬於強化學習，目標是訓練得到乙個最優的策略模型，能夠在環境中獲得最優的決策序列。而GAN的目的則是期待以假亂真地模擬資料，希望生成器可以產生和真實資料分布一致的內容，從而可以完美地騙過判別器。

兩者因為都需要同時訓練兩個模型，所以還有乙個共同特點就是訓練都不太穩定，兩個社群的研究者對此都提供了很多寶貴的技術優化思路，可以互相借鑑[1]。

[1] Pfau, D. and Vinyals, O., 2016.

Connecting generative adversarial networks and actor-critic methods.arXiv preprint arXiv:1610.

01945.

3樓：

聯絡：gan和rl的關係可以見https://arxiv.org/pdf/1610.01945.pdf

，他們在結構上面非常相似。從概率分布的角度而言，都是在學乙個分布。特別是c51(distributional rl，這裡是q-learning的演算法)和wgan，他們都在最小化wasserstein distance，只不過分布的具體含義不一樣.

題主如果看看inverse rl 就會感覺這兩者幾乎是一樣的，區別只是場景而已（reward還是discriminator）https://

arxiv.org/pdf/1603.00448.pdf

。區別：從收斂的角度說，ac要求critic的學習率和actor相差較大的數量級（two time scale learning rate）.

gan 不一定需要，因為zero-sum game的性質比較好，同時gradient descent 和 ascent即可（當然實際角度講generator的訓練次數或者時間要小於discriminator，也有two time scale gan，主要還是因為他們是asymmetry的）。

總結：gan和inverse rl很像，和rl長得很像。

強化學習的Actor Critic 與 Gan 的區別和聯絡是什麼？

哪些問題不能用強化學習解決？強化學習有哪些侷限性？

強化學習中的reward function為什麼要取期望？

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

其他用戶還看了：