使用強化學習做出的拆單和下單演算法，和傳統的下單演算法相比，有哪些優勢？

1樓：KevinHo

效能上有什麼優勢我目前還看不出來，但是marketing上的優勢已經顯而易見了

據我所知各大BB都有在做RL的algo，有幾家已經到了「公測」階段。但我看到的資料還不足以看出和傳統algo有什麼顯著不同。

但是有些東西表面看似是個學術問題，內在其實是個business問題，是個飯碗問題，歸根結底是錢的問題。Algo trading這些年越發同質化，也變的越來越像operation和sales。RL algo不論對內還是對外都是個非常好的marketing piece，老闆可以佔熱點要資源，員工也可以stay relevant，對誰都有利。

2樓：超級小約翰

這一類我們統稱Market Impact Algo，目的是在對市場產生最小的影響的情況下完成交易。

其實現在對這些Algo我們也會定期做Tuning，這樣的話，Reinforcement Learning的方法去優化就比較好理解了，我們純粹是在現有的架構下，調整Algo的引數而已。

打個比方，就等於我們車都做好了，現在讓電腦用Reinforcement Learning去學怎麼開車而已。

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

笑話這要取決於題主做的是強化學習based的控制還是深度強化學習based的決策，這個很重要。目前來看強化學習有兩大派別，乙個是早在上世紀90 00年代就已經開始發展並成熟的，用強化學習的方法解最優控制問題的派別。主要的代表人物都是控制相關的比如東北大學張化光，還有Frank Lewis這些人。還...

強化學習內動態規劃中的算例求解？

孫棟你好,我覺得這裡就是要通過策略迭代 policy iteration 求解乙個最優的策略 policy 這個過程被分解成策略評估 policy evaluation 和策略提公升 policy improvement 兩個環節,分別就是圖里的左欄和右欄.一般來講這兩個過程是個迴圈迭代的過程，t...

能否從演算法原理的角度解釋，為什麼強化學習演算法中，Q learning演算法比Sarsa演算法冒險激進？

質心從直觀上來說一下吧，這裡使用莫煩 Python 教程中的例子，初始狀態在左上角，目標獎勵在黃色區域，黑色區域為懲罰。Q learning的探索較為激進，Sarsa的探索較為保守。兩者的action策略都是e greedy，那麼差異就出在的Qtable Sarsatable 的更新策略上。在靠近...

使用強化學習做出的拆單和下單演算法，和傳統的下單演算法相比，有哪些優勢？

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

強化學習內動態規劃中的算例求解？

能否從演算法原理的角度解釋，為什麼強化學習演算法中，Q learning演算法比Sarsa演算法冒險 激進？

其他用戶還看了：

能否從演算法原理的角度解釋，為什麼強化學習演算法中，Q learning演算法比Sarsa演算法冒險激進？