請問深度強化學習可以處理可能的動作數量特別大的問題嗎？

1樓：

這個問題解決了嗎？用dl不外乎就是神經網路擬合，輸出用softmax計算概率。答主是否有更好的辦法。樓上說的pca降緯方法在輸出資料集過大且線性的情況下不知道有多大作用。

2樓：Anticoder

action作embedding，用較小維度的action embedding作為動作輸入或者輸出，之後再根據相似匹配具體某個動作

3樓：敲程式碼的quant

瀉藥，我明白你的意思，每個action都是以（a,b,c,...）作為乙個組合，導致最後的動作空間可能會很大。

傳統的強化學習在處理這種動作離散空間特別大的情景時，可能會存在查表速度慢或者記憶體空間不足，以及curse of dimensionality等問題。而深度強化學習，則會通過深度神經網路的途徑來擬合這個動作空間，所以離散和連續空間都可以處理。

但是，說一下我之前在做深度強化學習時，也遇到過這樣的情景，當時的組合可能沒有你說的那麼大，但是最後的訓練過程卻很同樣很漫長，而且還很容易陷入區域性最優，效果並不樂觀，另外訓練之前引數的初始化，合適的優化器的選擇也都極為重要。

建議可以pca降維、聚類或者其他quantity來代替原動作空間。