該題使用強化學習演算法應該怎麼做?從哪些方面考慮?

時間 2021-06-17 07:38:34

1樓:一唯絳

首先捋清楚這個RL問題的state, action和reward是哪些;

a1和a2都是時間的函式,它們應當理解為state=(a1, a2),其中第一行的兩個式子分別對應這兩個狀態分量的轉移規律;

第二行式子給出了狀態的初始狀態,即state(0);

第三行式子則是間接給出了reward函式,reward = f(state, action),在這裡只有b是可調節的(我的理解),所以b應當對應著action,即action = b;

題目要求最小化這個cost,將之轉化為最大化問題的粗暴方法就是最大化1/(cost + 0.001(乙個極小的數字));

總結下來,可以看出該RL問題有以下特點:狀態的是連續的,動作也是連續的(題目沒有明確限定就暫且這麼認為)。考慮到這些特點,候選的RL演算法可以有很多,主要可以考慮策略梯度或者AC框架下的演算法,例如DDPG就不錯,適合狀態和動作都是連續的情況。

而價值迭代體系下的演算法,如Q-Learning,DQN等則不合適或效果沒那麼理想,考慮到它們適用於動作是離散的情況。

使用強化學習做出的拆單和下單演算法,和傳統的下單演算法相比,有哪些優勢?

KevinHo 效能上有什麼優勢我目前還看不出來,但是marketing上的優勢已經顯而易見了 據我所知各大BB都有在做RL的algo,有幾家已經到了 公測 階段。但我看到的資料還不足以看出和傳統algo有什麼顯著不同。但是有些東西表面看似是個學術問題,內在其實是個business問題,是個飯碗問題...

請教乙個演算法題,最優解應該怎麼做?

Yuanfei Bi 最優要看題目的具體情況。拓展下,如果是stream問題,即有新數字加入陣列的話,能不能很快找出新陣列的最大m個數?這時候可以用極小堆。 那羅延 先說結論,下面我要推薦的演算法,計算複雜度為 O n 這個計算複雜度可以秒殺排序演算法了,而且應該比select median要快 首...

請問化學實驗大題應該怎麼做?

飯小小同學 首先多選選題,把所有考點都寫在一張紙上,然後逐個去總結,比如說實驗裝置類,和要注意的地方,還有要注意物質的結構,狀態和先後順序,計算的話把所有量都算來,先用字母表示,再代數。 葉曉晨 以下是我對乙個相似問題的回答,用在這裡好像更合適。因為以下內容的重點在於 如何讓自己的答案達到得分點上。...