動態決策問題適用於強化學習做控制器嗎?

時間 2021-06-03 04:56:42

1樓:mozillar

強化學習三要素,狀態,動作,回報。這三點能夠比較完美地獲得,理論上就能用。但是,強化學習是需要試錯的,既需要大量樣本,又需要引入備用控制系統,防止不好的動作帶來的風險,所以很難實用化。

藥物這東西性命攸關,從控制角度講可靠性第一,優化是次要考慮的問題。

2樓:桂能

這個問題是個典型的強化學習過程,就是中間有一些過程你甚至不能觀察到,它最終會折算成乙個reward回來,這個問題其實一直有人研究的,典型的就是機械人嘛,給機械人乙個任務,但是這個任務是個複雜任務,它只有最後完成了才能拿到reward。

3樓:躺平之王

你的問題設定描述的非常不清楚,我不是這個問題的expert所以不能給你直接回答。

我需要的資訊是狀態空間和動作空間。對於你現在的問題我存疑的是:

1. 不同的人是不是不同的系統?如果相同系統,傳統的強化學習可能可以解決。這個問題依賴於你的mdp定義。

2. 系統的狀態轉移函式有沒有可能學出來?顯然你樣本只有現實病例的很少一點,同時狀態和動作也不太像是離散的tabular case,那麼model-free基本排除,就看你能不能用model-based了。

只能給個初步結論,iLQR+MPC,前者是開環的,後者給你乙個閉環solution

Redis HyperLogLog 適用於什麼場景 相比於Set和Sorted Set的優劣與決擇

簡單來說,UV統計一定要做,實時UV也是很好的需求,然後redis很貴相對 ECS,相對Mysql hyperloglog因為占用記憶體較少,結果就是比較省錢。如果你對redis有多貴沒有概念,可以上阿里雲去看一下資料結算而言,多維查詢是常見問題,這個也可以了解一下UV意義本身就是計數,夠了 懸衡 ...

資料結構適用於解決什麼問題

CNife 資料結構對於程式來說就像空氣和水,什麼時候用資料結構 不是個問題,用什麼資料結構 和 怎麼用資料結構 才是問題。資料結構是組織資料的方式,而程式也無非就是不同資料和邏輯的組合。你需要用什麼邏輯運算元據,就需要用什麼資料結構,這是自然而然的事情。比如經典的排序問題 如果資料量不大 數個元素...

肯德基適用於正餐嗎?

血的教訓告訴你絕對不可以。男孩不太清楚,作為女生在上小學三年級時吃了整整一暑假的肯德基,導致早發育,這個危害真的太大了!剛開始猛長個子,不長肉,後來停滯不長了。但如果是自然生長能長更高,而且現在患有PCOS,懷疑也是因為那年KFC吃多了的後遺症。 少荃 肯德基做正餐,可以不可以?我覺得是可以的。雖然...