生成對抗網路GAN和強化學習RL有什麼緊密聯絡?

時間 2021-05-12 14:31:43

1樓:王雋

以下是個人粗淺的理解~

兩者相似之處:以RL中的actor-critic為例,actor和critic分別相當於GAN的generator,discriminator。critic/discriminator通過學習打分策略,對actor/generator的表現進行評價/判別。

兩者不同之處:RL中引入了環境(environment)的概念,critic根據環境反饋的獎勵(reward)來調整自己的打分策略,而獎勵則是通過actor產生,因此agent需要自主探索環境的內在狀態,學習如何和環境打交道。GAN中不涉及環境的概念,discriminator的打分策略直接從預先標註好的標籤值中學習,無需對環境進行探索。

2樓:蘇劍林

你這個問題其實算得上乙個偽命題~

如果你能理解強化學習是什麼、包含哪些內容,以及能理解GAN是什麼、包含哪些內容,你自然就能理解兩者之間有什麼聯絡。相反,如果這兩者你有乙個不大懂,那就算解釋了你也看不明白。

比如,我說GAN在理論形式上跟強化學習的分支模仿學習基本一樣,只不過一般說的GAN處理的是連續物件,而模仿學習處理的是離散物件。如果兩者之一你沒看過,你可能根本不明白我說什麼…

3樓:[已重置]

這麼說,是RL中的很多模型都可以用GAN來理解,同樣GAN來生成乙個分布的過程也可以認為是乙個RL過程。比如actor-critics,就可以理解為GAN,AlphaGo也是GAN,更多的例子可以看看李巨集毅的RL課程,裡面介紹過一點。

4樓:楊三豐

瀉藥個人理解,GAN是RL理論的一種實現。

RL是乙個理論框架,GAN是在RL理論上開發的一種模型訓練方法,但GAN更高明的一點是,生成式的網路和判別網路互為Environment,而RL則定義了機器根據環境的獎勵後改變模型,然後來決定下一步action,再得到獎勵來改變模型。所以GAN可以看成是一種雙向強化學習。

手機打字,不方便,簡單回答下,有問題再交流

生成對抗網路GAN如果只訓練乙個網路會有效果麼?

Chuang 這其實是乙個很有趣的問題。在實踐過程中,如果把判別器 Discriminator 訓練得太好了,看似能夠在對抗中更加有效的拒絕生成器 Generator 生成的假樣本,但是其實一樣會產生諸多問題。判別器最主要的作用就是為生成器提供下降梯度。如果判別器太差,則無法提供有效的梯度,同時判別...

生成對抗網路 GAN 相比傳統訓練方法有什麼優勢

主流生成模型 Ian Goodfellow,Tutorial on Generative Adversarial Networks,2017 可以看到GAN的本質屬性之一是implicit density。個人理解也就是隱式建模迴避了複雜建模過程,你可以全部交給Neural Nets去處理,缺點同樣...

強化學習的Actor Critic 與 Gan 的區別和聯絡是什麼?

runtimeerror 我從優化的角度說下個人理解的一點區別。Actor Critic可以寫成是求解乙個bilevel optimization problem,GAN可以寫成是乙個minimax optimization problem,而minimax optimization problem...