請問DeepMind和OpenAI身後的兩大RL流派有什麼具體的區別?

時間 2021-05-05 22:25:10

1樓:

這還不明顯麼?DeepMind做事要solid很多,有基於DQN的一系列成果,從Atari Game到AlphaGo。OpenAI就是個吹水的公司,行業泡沫的典型,做出來的東西也就能用在toy example上。

Peter Abeel在圈內的評價就是個「businessman」!

2樓:[已重置]

不是做這個的,但是有個直觀感覺,可以舉個例子。物理裡面做流體模擬,是可以用ML的,具體方案可能有兩種,乙個是引入流體力學的規律,沿著微分動力方程的結構去構建網路(至少這個網路的一部分是在使用這個結構,當然不會是完全重複數值模擬那一套,否則就和傳統方法沒區別了),還有一類是完全不理什麼微分方程直接弄個CNN進行資料訓練(好像這個思路效果還不錯)。個人感覺,前者在思想和結構上類似value-based,後者類似policy based,前者光明正大但進境慢,後者有點投機但是效率高,前者是全真派,後者是西域白駝山。

從可解釋性上,前者的可解釋性要好一些,更符合我們的經驗邏輯,後者有時候可能就是沒理由的可用,但是也不能說沒可解釋性。從挖掘系統內在資訊和規律上,前者可能更有優勢,後者相對會弱一些。

3樓:田淵棟

沒啥特別大的區別,共同點倒是很多。從代表性的大工作上來看,兩邊都相信暴力出奇蹟,end-to-end加大量模擬資料是王道,和其它做RL及Robotics的人有比較大的差別。有句話叫除了大公司其它人都在折騰小的模擬環境做做RL理論,這話確實挺對的。

常規發文上看,DM現在很大了,RL上各種方向的文章都有,有提出演算法的文章,有分析演算法的文章,有理論的文章(你看AlphaStar的blog裡面引了自己理論的文章,IMPALA也有V-trace的分析等等),也有大量的應用。OpenAI也有很多各種不同且有意思的文章,比如說最近ICLR做Exploration的有趣思路,也有Neural MMO這樣的多智慧型體框架(當然這篇文章的實驗真心寫得不好),等等。總的來說並沒有流派之分,還是往有效果的方向走。

4樓:王小惟

我並不覺得Value-based RL,Policy-based RL這個區分是主要區別。關於Tutorial或者課程上的組織,更多的是一種方式,可以從動態規劃出發,然後匯入TD,Q learning,然後引入連續action space挑戰,進而引入policy,這是實際的發展過程;同樣,也可以直接從RL的設定出發,從優化return的角度來引出Policy,這樣更直觀。而不能強行說是policy,value的區別。

其實,主要是UCB的robotics背景更深,他們更關心的是:連續動作空間。所以policy based自然是首選。

Q的話,不容易擴充套件到連續action space,特別是求max,比較異類的是NAF之類的做法。

然後我覺得主要的區別是:在DRL剛興起的時候,deepmind和ucb的代表演算法不同,DQN與TRPO,這使得中間的發展出現的一些偏差(比如deepmind有段時間工作的baseline根本不考慮trpo。。。)

5樓:

舉一兩個高讚提的所謂的流派分類的反例,不想大家被誤導Deterministic Policy Gradient Algorithms, Silver et al.

Asynchronous Methods for Deep Reinforcement Learning, Minh et al.

Reinforcement Learning with Deep Energy-Based Policies, Haarnoja et al.

如何申請NFT藝術家 NFTCN和opensea有什麼區別?

12月8日,加密市場開始流傳OpenSea CFO謀求將平台上市IPO的新聞 在市場已經逐步接受Web 3.0概念的當下,此舉無異於與整個加密社群宣戰,許多人認為該平台的公開上市是對自由精神的出賣以及無視使用者利益的表現。OpenSea也迅速出言澄清訊息並不副實,但是這也為OpenDao的出現埋下伏...

如何評價 DeepMind 和暴雪新開源的星際爭霸 2 機器學習平台?

貝殼 圍棋本身就是個抽象遊戲,可以很方便的轉換為乙個19 19的矩陣。星際要複雜的多。但是我感覺deepmind的野心過於強大了,非要用強化學習從0開始解決一切 我覺得還需要一些基本的,經濟 戰力 策略 戰鬥的基礎演算法然後綜合排程,而不是從0開始抽象所有這些。這個距離最終勝利的路徑太遠了。 LLL...

是否可以認為馬岩松和MAD抄襲了OPEN事務所的UCCA沙丘美術館

archixuan 第一,這東西和演算法沒關係,好像之前也沒人說跟演算法有關係。如果有人說了,說明他一點也不懂。但是倆個都是很好的建築。第二,和 抄襲 這兩個字一點關係都沒有。 聽說 這個作品好美。抄襲這東西,我還是不要評判了。社會的發展離不開前人的肩膀,只要事物向著好的方向發展,就行了。雖然偶爾會...