動態決策問題適用於強化學習做控制器嗎？

1樓：mozillar

強化學習三要素，狀態，動作，回報。這三點能夠比較完美地獲得，理論上就能用。但是，強化學習是需要試錯的，既需要大量樣本，又需要引入備用控制系統，防止不好的動作帶來的風險，所以很難實用化。

藥物這東西性命攸關，從控制角度講可靠性第一，優化是次要考慮的問題。

2樓：桂能

這個問題是個典型的強化學習過程，就是中間有一些過程你甚至不能觀察到，它最終會折算成乙個reward回來，這個問題其實一直有人研究的，典型的就是機械人嘛，給機械人乙個任務，但是這個任務是個複雜任務，它只有最後完成了才能拿到reward。

3樓：躺平之王

你的問題設定描述的非常不清楚，我不是這個問題的expert所以不能給你直接回答。

我需要的資訊是狀態空間和動作空間。對於你現在的問題我存疑的是：

1. 不同的人是不是不同的系統？如果相同系統，傳統的強化學習可能可以解決。這個問題依賴於你的mdp定義。

2. 系統的狀態轉移函式有沒有可能學出來？顯然你樣本只有現實病例的很少一點，同時狀態和動作也不太像是離散的tabular case，那麼model-free基本排除，就看你能不能用model-based了。

只能給個初步結論，iLQR+MPC，前者是開環的，後者給你乙個閉環solution