如何看待Deepmind將研發能玩《毀滅戰士1》的AI?

時間 2021-06-01 15:13:17

1樓:Naiyan Wang

說好的要來更新,拖延症了下-.- 先來分享下我上週組會的slides: Naiyan Wang - Miscellaneous。

幾點insight我願意在這裡再重複一遍:

1. 我個人理解這個文章的本質在於一套end to end learning的框架,通過CNN對原始高維的輸入影象進行自動降維和狀態定義。最後一層的fully connected layer就可以對應傳統Q Learning中的狀態。

只不過在傳統Q Learning中狀態需要人工定義,甚至對於每個不同的遊戲都需要改變。但是在DQN中,我們可以忘掉這些繁瑣的細節了,這一切都是自己學來的。

2. 為什麼DQN能成功?我個人認為在於"近乎無限的訓練資料"。因為所有的supervision都是來自電腦自動生成。沒有比收集這個任務的資料更簡單和低成本的了。

3. 如果仔細分析下DQN擅長和不擅長的遊戲就會發現,DQN能玩的好的都是拼手速的遊戲,比如桌面彈球,拳擊。玩好這類遊戲的決策只需要觀察短時間內的狀態。

例如,彈球遊戲只要球要落範圍,就觸動彈發。拳擊遊戲只要對手在攻擊範圍內,就攻擊。再來看看玩的不好的遊戲,吃豆子,還有某不知名策略遊戲。

這兩個都是需要某種程度上的長期的策略優化。回到上一點上,這也揭示了一些DQN在自動學習狀態定義中的問題:只能考慮相鄰數幀的輸入,不能考慮long term state。

其實如果能耐心看完上面的分析,題主原問題的答案我已經回答了。DQN的死穴在於long term memory.以現在DQN的能力,連吃豆子都比隨機操作強不了多少,離能玩3D遊戲差距太過遙遠。

當然作為解決short memory中最流行的LSTM,相信可以一定程度上緩解定義long term state這個問題,但我覺得可能也不會是最終解決方案。作為這一波LSTM復興中先鋒力量的DeepMind,我相信LSTM+DQN這個idea肯定已經在做,甚至已經完成。不過究竟能做到什麼程度,我們拭目以待。

如何看待 OPPO 未來三年研發將投入超 500 億元?

怡春老道 大力投入研發肯定是好事。但我有乙個疑問,OPPO研發這塊我唯一知道的訊息是前年說19年研發會超過40億,第二天更正說19年會投入100億上不封頂。具體今年投入了多少研發有誰能給個數,感謝。基於上面的言論我推測18年研發投入是不到40億的,不知道有沒有資料能告知我一下。就按18年是40億,1...

如何看待DeepMind再次挑戰星際爭霸專案?

柴小軼 剛剛看完,按照和MaNa的五場比賽,似乎在操作和初期運營上的區域性優化優於人類,在交戰選擇上也很強,但是在大局上還是略有差距。MaNa現場的那場更加確定了這點。但是同時AlphaStar也展現出了可以雙線的潛力。考慮到還有快1個月時間,我在這裡猜測Serral面對的將是可以抵禦多線進攻的更強...

如何看待 DeepMind 要挑戰星際爭霸 2 ?

233 個人認為不要扯什麼 星際爭霸,難道有人會認為狀態量會比圍棋的10的170次方更多?AlphaGo不需要理解什麼戰術 兵種克制問題,這種具備自我學習能力的AI和業餘愛好者輸入特定策略的AI根本不可同日而語。等等話。星際爭霸與圍棋最大的不同點就在於戰爭迷霧的有無。圍棋兩個人都看的清整個棋盤,而星...