深度強化學習與深度學習的的區別是啥？

1樓：Warren

深度學習做的是智慧型感知(通俗來講就是條件反射)，屬於連線主義學派，優化目標大多連續函式(對應連續優化和隨機優化);

強化學習做的智慧型決策，屬於行為主義學派，優化目標是離散函式(對應組合優化);

深度強化學習就是做組合優化太讓人頭禿了，乾脆直接假設個模型去擬合，能有個近似最優也不錯，於是又回歸到連續優化。

2樓：孫公尺

深度學習一般指有監督和無監督地訓練深度神經網路，需要現成資料。深度強化學習是一種與環境互動的訓練神經網路方法，無現成資料，資料在與環境互動中產生。深度強化學習採用深度神經網路作為函式擬合器。

3樓：敲程式碼的quant

深度強化學習是強化學習結合了深度學習而延伸出的概念。

強化學習有agent、environment、reward、action等組成部分，就是乙個智慧型體（agent）在乙個未知的環境（environment）中，不斷摸索，將動作（action）作用於環境，環境反饋獎勵（reward）給智慧型體，然後智慧型體根據獎勵來更新這個產生動作的決策函式。當環境越來越複雜，這個決策函式進行決策和實現起來就越來越困難，而深度神經網路正好具有強大的擬合能力，所以可以將這個決策函式用深度神經網路來代替，這樣就形成了深度強化學習。

深度學習則主要是以神經網路增加隱層個數而形成深度神經網路來進行學習，它在學習時，學習的資料和環境都是已知的，所以只需學習如何去擬合函式就可以了。

深度強化學習與深度學習的的區別是啥？

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議？

深度學習或強化學習在組合優化方面有哪些應用？

請問深度強化學習可以處理可能的動作數量特別大的問題嗎？

其他用戶還看了：