生成對抗網路GAN和強化學習RL有什麼緊密聯絡？

1樓：王雋

以下是個人粗淺的理解~

兩者相似之處：以RL中的actor-critic為例，actor和critic分別相當於GAN的generator，discriminator。critic/discriminator通過學習打分策略，對actor/generator的表現進行評價/判別。

兩者不同之處：RL中引入了環境（environment）的概念，critic根據環境反饋的獎勵（reward）來調整自己的打分策略，而獎勵則是通過actor產生，因此agent需要自主探索環境的內在狀態，學習如何和環境打交道。GAN中不涉及環境的概念，discriminator的打分策略直接從預先標註好的標籤值中學習，無需對環境進行探索。

2樓：蘇劍林

你這個問題其實算得上乙個偽命題~

如果你能理解強化學習是什麼、包含哪些內容，以及能理解GAN是什麼、包含哪些內容，你自然就能理解兩者之間有什麼聯絡。相反，如果這兩者你有乙個不大懂，那就算解釋了你也看不明白。

比如，我說GAN在理論形式上跟強化學習的分支模仿學習基本一樣，只不過一般說的GAN處理的是連續物件，而模仿學習處理的是離散物件。如果兩者之一你沒看過，你可能根本不明白我說什麼…

3樓：[已重置]

這麼說，是ＲＬ中的很多模型都可以用ＧＡＮ來理解，同樣ＧＡＮ來生成乙個分布的過程也可以認為是乙個ＲＬ過程。比如actor-critics，就可以理解為GAN，AlphaGo也是GAN，更多的例子可以看看李巨集毅的RL課程，裡面介紹過一點。

4樓：楊三豐

瀉藥個人理解，GAN是RL理論的一種實現。

RL是乙個理論框架，GAN是在RL理論上開發的一種模型訓練方法，但GAN更高明的一點是，生成式的網路和判別網路互為Environment，而RL則定義了機器根據環境的獎勵後改變模型，然後來決定下一步action，再得到獎勵來改變模型。所以GAN可以看成是一種雙向強化學習。

手機打字，不方便，簡單回答下，有問題再交流

生成對抗網路GAN和強化學習RL有什麼緊密聯絡？

生成對抗網路GAN如果只訓練乙個網路會有效果麼？

生成對抗網路 GAN 相比傳統訓練方法有什麼優勢

強化學習的Actor Critic 與 Gan 的區別和聯絡是什麼？

其他用戶還看了：