該題使用強化學習演算法應該怎麼做？從哪些方面考慮？

1樓：一唯絳

首先捋清楚這個RL問題的state， action和reward是哪些；

a1和a2都是時間的函式，它們應當理解為state=（a1, a2），其中第一行的兩個式子分別對應這兩個狀態分量的轉移規律；

第二行式子給出了狀態的初始狀態，即state(0)；

第三行式子則是間接給出了reward函式，reward = f(state, action)，在這裡只有b是可調節的（我的理解），所以b應當對應著action，即action = b；

題目要求最小化這個cost，將之轉化為最大化問題的粗暴方法就是最大化1/（cost + 0.001（乙個極小的數字））；

總結下來，可以看出該RL問題有以下特點：狀態的是連續的，動作也是連續的（題目沒有明確限定就暫且這麼認為）。考慮到這些特點，候選的RL演算法可以有很多，主要可以考慮策略梯度或者AC框架下的演算法，例如DDPG就不錯，適合狀態和動作都是連續的情況。

而價值迭代體系下的演算法，如Q-Learning，DQN等則不合適或效果沒那麼理想，考慮到它們適用於動作是離散的情況。

使用強化學習做出的拆單和下單演算法，和傳統的下單演算法相比，有哪些優勢？

KevinHo 效能上有什麼優勢我目前還看不出來，但是marketing上的優勢已經顯而易見了據我所知各大BB都有在做RL的algo，有幾家已經到了公測階段。但我看到的資料還不足以看出和傳統algo有什麼顯著不同。但是有些東西表面看似是個學術問題，內在其實是個business問題，是個飯碗問題...

請教乙個演算法題，最優解應該怎麼做？

Yuanfei Bi 最優要看題目的具體情況。拓展下，如果是stream問題，即有新數字加入陣列的話，能不能很快找出新陣列的最大m個數？這時候可以用極小堆。那羅延先說結論，下面我要推薦的演算法，計算複雜度為 O n 這個計算複雜度可以秒殺排序演算法了，而且應該比select median要快首...

請問化學實驗大題應該怎麼做？

飯小小同學首先多選選題，把所有考點都寫在一張紙上，然後逐個去總結，比如說實驗裝置類，和要注意的地方，還有要注意物質的結構，狀態和先後順序，計算的話把所有量都算來，先用字母表示，再代數。葉曉晨以下是我對乙個相似問題的回答，用在這裡好像更合適。因為以下內容的重點在於如何讓自己的答案達到得分點上。...

該題使用強化學習演算法應該怎麼做？從哪些方面考慮？

使用強化學習做出的拆單和下單演算法，和傳統的下單演算法相比，有哪些優勢？

請教乙個演算法題，最優解應該怎麼做？

請問化學實驗大題應該怎麼做？

其他用戶還看了：