如何看待Deepmind將研發能玩《毀滅戰士1》的AI？

1樓：Naiyan Wang

說好的要來更新，拖延症了下-.- 先來分享下我上週組會的slides: Naiyan Wang - Miscellaneous。

幾點insight我願意在這裡再重複一遍：

1. 我個人理解這個文章的本質在於一套end to end learning的框架，通過CNN對原始高維的輸入影象進行自動降維和狀態定義。最後一層的fully connected layer就可以對應傳統Q Learning中的狀態。

只不過在傳統Q Learning中狀態需要人工定義，甚至對於每個不同的遊戲都需要改變。但是在DQN中，我們可以忘掉這些繁瑣的細節了，這一切都是自己學來的。

2. 為什麼DQN能成功？我個人認為在於"近乎無限的訓練資料"。因為所有的supervision都是來自電腦自動生成。沒有比收集這個任務的資料更簡單和低成本的了。

3. 如果仔細分析下DQN擅長和不擅長的遊戲就會發現，DQN能玩的好的都是拼手速的遊戲，比如桌面彈球，拳擊。玩好這類遊戲的決策只需要觀察短時間內的狀態。

例如，彈球遊戲只要球要落範圍，就觸動彈發。拳擊遊戲只要對手在攻擊範圍內，就攻擊。再來看看玩的不好的遊戲，吃豆子，還有某不知名策略遊戲。

這兩個都是需要某種程度上的長期的策略優化。回到上一點上，這也揭示了一些DQN在自動學習狀態定義中的問題：只能考慮相鄰數幀的輸入，不能考慮long term state。

其實如果能耐心看完上面的分析，題主原問題的答案我已經回答了。DQN的死穴在於long term memory.以現在DQN的能力，連吃豆子都比隨機操作強不了多少，離能玩3D遊戲差距太過遙遠。

當然作為解決short memory中最流行的LSTM，相信可以一定程度上緩解定義long term state這個問題，但我覺得可能也不會是最終解決方案。作為這一波LSTM復興中先鋒力量的DeepMind，我相信LSTM+DQN這個idea肯定已經在做，甚至已經完成。不過究竟能做到什麼程度，我們拭目以待。

如何看待Deepmind將研發能玩《毀滅戰士1》的AI？

如何看待 OPPO 未來三年研發將投入超 500 億元？

如何看待DeepMind再次挑戰星際爭霸專案？

如何看待 DeepMind 要挑戰星際爭霸 2 ？

其他用戶還看了：