深度強化學習與深度學習的的區別是啥?

時間 2021-05-30 00:45:36

1樓:Warren

深度學習做的是智慧型感知(通俗來講就是條件反射),屬於連線主義學派,優化目標大多連續函式(對應連續優化和隨機優化);

強化學習做的智慧型決策,屬於行為主義學派,優化目標是離散函式(對應組合優化);

深度強化學習就是做組合優化太讓人頭禿了,乾脆直接假設個模型去擬合,能有個近似最優也不錯,於是又回歸到連續優化。

2樓:孫公尺

深度學習一般指有監督和無監督地訓練深度神經網路,需要現成資料。深度強化學習是一種與環境互動的訓練神經網路方法,無現成資料,資料在與環境互動中產生。深度強化學習採用深度神經網路作為函式擬合器。

3樓:敲程式碼的quant

深度強化學習是強化學習結合了深度學習而延伸出的概念。

強化學習有agent、environment、reward、action等組成部分,就是乙個智慧型體(agent)在乙個未知的環境(environment)中,不斷摸索,將動作(action)作用於環境,環境反饋獎勵(reward)給智慧型體,然後智慧型體根據獎勵來更新這個產生動作的決策函式。當環境越來越複雜,這個決策函式進行決策和實現起來就越來越困難,而深度神經網路正好具有強大的擬合能力,所以可以將這個決策函式用深度神經網路來代替,這樣就形成了深度強化學習。

深度學習則主要是以神經網路增加隱層個數而形成深度神經網路來進行學習,它在學習時,學習的資料和環境都是已知的,所以只需學習如何去擬合函式就可以了。

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議?

關於RL中的sample efficiency問題,Shane Gu過去幾年做了很多相關工作。這是去年他的乙個talk Deep Reinforcement Learning for Robotics Frontiers and Beyond 中的一頁slides,我覺得解釋得比較清楚。白色區域是對...

深度學習或強化學習在組合優化方面有哪些應用?

苦中作樂tttt 其實很多基本組合問題用trick加很好的heuristic,可以優化很好了。當然實際應用中的組合優化問題,可能結構或者限制更複雜,許多漂亮的trick用不了或者對數學要求太高了。退而求其次,如果想稍微通用或者懶一點,可以考慮上神經網路。整數優化求解器的樹搜尋模組,比較重要的是pri...

請問深度強化學習可以處理可能的動作數量特別大的問題嗎?

這個問題解決了嗎?用dl不外乎就是神經網路擬合,輸出用softmax計算概率。答主是否有更好的辦法。樓上說的pca降緯方法在輸出資料集過大且線性的情況下不知道有多大作用。 Anticoder action作embedding,用較小維度的action embedding作為動作輸入或者輸出,之後再根...