深度強化學習為什麼在實際當中用的比較少？

1樓：rxlqn

1、資料量少，取樣到的資料非平穩並且含有雜訊2、系統延時

3、state和action 空間維度過高4、現實環境約束導致不能有過於aggressive的探索策略5、實際應用建立的強化學習模型往往需要較高的時間和經濟成本參考An empirical investigation of the challenges of real-world reinforcement learning

2樓：若羽

data sampling的稀疏，造成資料獲取成本很高。所以推薦用得比自然語言處理多，機械人抓取，也就谷歌這種土豪能少。

算力消耗過大，AlphaGo、AlphaZero還有去年幹翻人類冠軍的星際機械人，都是上千塊GPU訓練的。

Exploration的智慧型，跟神經網路一樣，是弱人工智慧，缺乏可解釋性，而且通過經驗學習也只是人類智慧型的乙個邊腳。

好像一部分學者通過Game Theory的方法在Multi Agent裡面既合作又競爭，這種研究剛剛起步，無法投入使用。

RL need simulator，但送快遞可以，車廠敢用強化學習訓練無人車嗎？安全性問題無法解決（有Adversarial Sample問題），現在如無人駕駛領域，決策這一塊還是專家規則用得多。

利潤啊！資本是逐利的，DeepMind和OpenAI讓人驚豔的是遊戲上的應用，但在某一應用領域橫掃人類的機器，並不能讓老闆賺錢。

本答案隨著答主水平提公升，會做更新。

3樓：Hu Xu

因為supervised是人給標註。RL是人設計reward給機器用。實際應用場景經常過於複雜，沒有人能實時給出reward。

4樓：Zhenqiang Su

看了幾個答案都沒強調重點

重點就是沒有足夠的資料

RL需要極大量的資料來訓練以至於他目前只能存在於能通過模擬產生資料的地方像遊戲。

5樓：夢想做個翟老師

收斂困難，調參困難。

DRL演算法通常需要海量的Agent和環境的互動資料，而這些資料只有在模擬場景下（遊戲）才很充足並且廉價，想象一下自動駕駛和機械人領域，如果拿真的汽車和機械人去做Action，萬一是負獎賞的Action，那損失也太大點了。

獎賞函式需要定義的很準確，這其實很難。

最重要的是：很多應用，比較成熟的方法效果都不比DRL差，所以公司不願意去冒這個風險吧。

6樓：Xenophon Tony

引用電影Her中Samantha的一句話

It's like I'm reading a book and it's a book I deeply love. But I'm reading it slowly now. So the words are really far apart and the spaces between the words are almost infinite.

I can still feel you, and the words of our story...but it's in this endless space between the words that I'm finding myself now.

深度強化學習面對現實世界也是這種感覺╮（╯▽╰）╭（咦，可能歪了？

7樓：

不可控吧....就像上面說的，煉丹，砰!不知道出來個什麼..而且學習效率很低很低

最近也和老闆產生爭執，

我想做drl應用在任務型對話系統，解決複雜任務或者多領域，用到端到端方法也不錯，的確有點空對空的意思了。畢竟自己研究了一年半了，想達到畢業再說

老闆(希望解決真實問題)覺得這個東西放到工業界不可控，再加上任務型對話系統使用者目標明確，非常簡單，即使複雜任務拆開也簡單了，希望我去搞目標不明確的對話式推薦.(實在是不想做推薦，因為感覺推薦被做爛了)..或者聊天系統的對話策略(這個感覺不太行，評估網路還行，但是action和reward如何定義，希望有人告訴我，我的無知，我真不知道如何做(*))

可是推薦最要命的是，系統輸出的a如何改變關鍵狀態...

開會的時候也問了業界大佬，都說基本上是基於規則的，那些drl更適於用在目標不唯一或者說成功路徑很多，無法準確判斷是否成功的例子，比如推薦!!(抓頭髮，又是推薦)

如果有大佬給我些意見，感謝感謝

8樓：Alpaca

在微軟做過task-oriented dialogue和relevance ranking相關的工作，基本沒有用到過reinforcement learning，其他領域不知道怎麼樣。曾經老闆讓我們做個dialogue的原型出來，我們希望把reinforcement learning用在挑選skill上面，後來發現我們並沒有資料去訓練模型。而且我們希望使用者的query能被盡可能準確的被對應的skill處理，reinforcement learning並不能給我們帶來我們想要的高precision。

最後趕時間，我們用了rule-based ranker來挑選skill，效果出奇的好，不過那只是個原型，線上Cortana用的ranker要遠遠比這複雜。

9樓：

首先是強化學習自己的問題。出了名的不穩定，玄學。並且對於算力非常的飢渴，你的模型越複雜，強化學習需要的算力也同時增長。

對於實際的團隊來說，機器的開銷不能忽略，強化學習的ROI比較低。

再者，實際生產裡面，大多數team連有監督學習的調參的潛力都不能說完全窮盡，RL對他們來說缺乏實際意義。

在知乎上強化學習在廣告上比較多被提及，大概也是因為就算提高零點幾個點也是成百上千萬的收益才有動力去搞RL。

10樓：趙丹

強化學習需要在沙盒中訓練，現實環境很難用沙盒完整模擬。別說物理世界了，前段時間考慮用RL訓練網路攻防模型，最後還是沒搞成，根本原因就是影響網路安全的因素太多，作用機理太複雜，沙盒做不出來。

RL適合環境簡單，作用機制有限，但實體多，解空間很大的問題，例如19*19的圍棋，相互作用就是簡單的落子數氣。如果圍棋縮小成5*5的棋盤，那麼憑人力很容易找到必勝下法，就沒必要RL了。但是現實問題常常是涉及的實體數量不多，但是相互作用卻複雜且無法形式化，例如家庭中的人際關係，有情感，有利益，有協作，有競爭，每個人的狀態又受工作，居家，出行等過程中各種因素的影響，家庭關係沙盒如何做，就連思路都很難理清，更不用說實際做出來了

11樓：木易

覺得深度強化最大的問題之一是資料利用率太低(無模型強化學習)，而且資料還是需要通過執行去採集的，別人的資料還不大能用。實際過程中哪有那時間和財力去跑資料，搞不好還容易跑壞。

最大問題之二是理論基礎不牢固，跑一萬次不出錯也不能保證一萬零一次不出錯

12樓：範帝楷

因為還是煉丹術。

簡單說就是出了問題分析難度較大，而且有可能會有不可預知的問題…另一方面，這個需要掐表調參，以至於調參難度也不小…搞乙個無比困難的事情，泛化能力未知，可能有不可預知的問題，出了問題幾乎無從下手分析，對於實際應用來說成本還是高了點

深度強化學習為什麼在實際當中用的比較少？

深度強化學習與深度學習的的區別是啥？

深度學習或強化學習在組合優化方面有哪些應用？

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議？

其他用戶還看了：

深度強化學習為什麼在實際當中用的比較少 ？

深度強化學習與深度學習的的區別是啥？

深度學習或強化學習在組合優化方面有哪些應用？

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議？

其他用戶還看了：

深度強化學習為什麼在實際當中用的比較少？