請問深度強化學習可以處理可能的動作數量特別大的問題嗎?

時間 2021-05-30 06:23:20

1樓:

這個問題解決了嗎?用dl不外乎就是神經網路擬合,輸出用softmax計算概率。答主是否有更好的辦法。樓上說的pca降緯方法在輸出資料集過大且線性的情況下不知道有多大作用。

2樓:Anticoder

action作embedding,用較小維度的action embedding作為動作輸入或者輸出,之後再根據相似匹配具體某個動作

3樓:敲程式碼的quant

瀉藥,我明白你的意思,每個action都是以(a,b,c,...)作為乙個組合,導致最後的動作空間可能會很大。

傳統的強化學習在處理這種動作離散空間特別大的情景時,可能會存在查表速度慢或者記憶體空間不足,以及curse of dimensionality等問題。而深度強化學習,則會通過深度神經網路的途徑來擬合這個動作空間,所以離散和連續空間都可以處理。

但是,說一下我之前在做深度強化學習時,也遇到過這樣的情景,當時的組合可能沒有你說的那麼大,但是最後的訓練過程卻很同樣很漫長,而且還很容易陷入區域性最優,效果並不樂觀,另外訓練之前引數的初始化,合適的優化器的選擇也都極為重要。

建議可以pca降維、聚類或者其他quantity來代替原動作空間。

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議?

關於RL中的sample efficiency問題,Shane Gu過去幾年做了很多相關工作。這是去年他的乙個talk Deep Reinforcement Learning for Robotics Frontiers and Beyond 中的一頁slides,我覺得解釋得比較清楚。白色區域是對...

深度強化學習與深度學習的的區別是啥?

Warren 深度學習做的是智慧型感知 通俗來講就是條件反射 屬於連線主義學派,優化目標大多連續函式 對應連續優化和隨機優化 強化學習做的智慧型決策,屬於行為主義學派,優化目標是離散函式 對應組合優化 深度強化學習就是做組合優化太讓人頭禿了,乾脆直接假設個模型去擬合,能有個近似最優也不錯,於是又回歸...

深度學習或強化學習在組合優化方面有哪些應用?

苦中作樂tttt 其實很多基本組合問題用trick加很好的heuristic,可以優化很好了。當然實際應用中的組合優化問題,可能結構或者限制更複雜,許多漂亮的trick用不了或者對數學要求太高了。退而求其次,如果想稍微通用或者懶一點,可以考慮上神經網路。整數優化求解器的樹搜尋模組,比較重要的是pri...