關於強化學習中reward函式是多目標的評價機制?

時間 2021-12-19 19:15:02

1樓:就像陽光穿透黑夜

我一開始以為賦予不同target權重就可以,但是實際上要想獲得乙個穩定收斂的解這樣做不太合適。因為state和reward很難形成對映關係,這樣容易導致演算法的不穩定。所以還是建議看看頂會大佬們怎麼用多個reward和乙個RL模型來訓練的可能更靠譜一些。

2樓:鄭執

這個問題很好。據我的了解多目標RL是目前的乙個研究重點。眾所周知,所有優化問題帶上多目標就會很困難,因為多目標輸出的是乙個解集。

目前做多目標RL一般還是在用優化學最基本的分解加權方法(有時候會寫作多目標Qlearning),或者針對問題將解空間分割來探索。

3樓:晨曦中的小月牙

可以看看這篇?

[1] P. Zhang, X. Chen, L.

Zhao, W. Xiong, T. Qin, and T.

-Y. Liu, 『Distributional Reinforcement Learning for Multi-Dimensional Reward Functions』, 2021.

強化學習中的reward function為什麼要取期望?

首先明確三個不同的概念 reward,return 和 value。Reward的定義為 每個狀態下執行action後立即 從系統以外的環境 獲得的評價性響應,必須直接對應RL學習的最終目標。Return的定義為 累積的未來reward。式中含有衰減係數 Value的定義為 從狀態 開始,一直遵循p...

強化學習中,model based 方法與 model free 方法各有哪些優缺點?

躺平之王 以下個人觀點。優缺點1.mf.higher asymtotic performance 漸進性能 lower sample efficiency 2.mb.higher sample efficiency,lower asymtotic performance.造成這樣優缺點的原因是 2....

哪些問題不能用強化學習解決?強化學習有哪些侷限性?

shenghuo 強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法 已知模型轉移概率和獎勵模型 難以奏效,因此需要採用通過不斷與環境互動,獲取 s,a,r,s 資料組,並通過學習或手工設定獎勵函式...