請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議?

時間 2021-06-01 07:39:02

1樓:

關於RL中的sample efficiency問題,Shane Gu過去幾年做了很多相關工作。

這是去年他的乙個talk:「Deep Reinforcement Learning for Robotics: Frontiers and Beyond」中的一頁slides,我覺得解釋得比較清楚。

白色區域是對應演算法用到的訓練資訊,從on-policy只利用當前policy新產生的資料學習到model-based方法可以利用所有歷史experience,sample-efficiency是在提公升的,但同時也引入更多的「雜訊」造成訓練的不穩定。

而提高sample efficiency的方法,我覺得主要還是如何利用歷史experience去幫助訓練policy,例如學習通用的reward,temporal/hierarchical RL,model-based planning。

深度強化學習與深度學習的的區別是啥?

Warren 深度學習做的是智慧型感知 通俗來講就是條件反射 屬於連線主義學派,優化目標大多連續函式 對應連續優化和隨機優化 強化學習做的智慧型決策,屬於行為主義學派,優化目標是離散函式 對應組合優化 深度強化學習就是做組合優化太讓人頭禿了,乾脆直接假設個模型去擬合,能有個近似最優也不錯,於是又回歸...

請問深度強化學習可以處理可能的動作數量特別大的問題嗎?

這個問題解決了嗎?用dl不外乎就是神經網路擬合,輸出用softmax計算概率。答主是否有更好的辦法。樓上說的pca降緯方法在輸出資料集過大且線性的情況下不知道有多大作用。 Anticoder action作embedding,用較小維度的action embedding作為動作輸入或者輸出,之後再根...

強化學習中的reward function為什麼要取期望?

首先明確三個不同的概念 reward,return 和 value。Reward的定義為 每個狀態下執行action後立即 從系統以外的環境 獲得的評價性響應,必須直接對應RL學習的最終目標。Return的定義為 累積的未來reward。式中含有衰減係數 Value的定義為 從狀態 開始,一直遵循p...