請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議？

1樓：

關於RL中的sample efficiency問題，Shane Gu過去幾年做了很多相關工作。

這是去年他的乙個talk：「Deep Reinforcement Learning for Robotics: Frontiers and Beyond」中的一頁slides，我覺得解釋得比較清楚。

白色區域是對應演算法用到的訓練資訊，從on-policy只利用當前policy新產生的資料學習到model-based方法可以利用所有歷史experience，sample-efficiency是在提公升的，但同時也引入更多的「雜訊」造成訓練的不穩定。

而提高sample efficiency的方法，我覺得主要還是如何利用歷史experience去幫助訓練policy，例如學習通用的reward，temporal/hierarchical RL，model-based planning。

深度強化學習與深度學習的的區別是啥？

Warren 深度學習做的是智慧型感知通俗來講就是條件反射屬於連線主義學派，優化目標大多連續函式對應連續優化和隨機優化強化學習做的智慧型決策，屬於行為主義學派，優化目標是離散函式對應組合優化深度強化學習就是做組合優化太讓人頭禿了，乾脆直接假設個模型去擬合，能有個近似最優也不錯，於是又回歸...

請問深度強化學習可以處理可能的動作數量特別大的問題嗎？

這個問題解決了嗎？用dl不外乎就是神經網路擬合，輸出用softmax計算概率。答主是否有更好的辦法。樓上說的pca降緯方法在輸出資料集過大且線性的情況下不知道有多大作用。 Anticoder action作embedding，用較小維度的action embedding作為動作輸入或者輸出，之後再根...

強化學習中的reward function為什麼要取期望？

首先明確三個不同的概念 reward，return 和 value。Reward的定義為每個狀態下執行action後立即從系統以外的環境獲得的評價性響應，必須直接對應RL學習的最終目標。Return的定義為累積的未來reward。式中含有衰減係數 Value的定義為從狀態開始，一直遵循p...

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議？

深度強化學習與深度學習的的區別是啥？

請問深度強化學習可以處理可能的動作數量特別大的問題嗎？

強化學習中的reward function為什麼要取期望？

其他用戶還看了：