強化學習和傳統的控制有什麼異同點,做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

時間 2021-05-10 03:04:41

1樓:笑話

這要取決於題主做的是強化學習based的控制還是深度強化學習based的決策,這個很重要。目前來看強化學習有兩大派別,乙個是早在上世紀90-00年代就已經開始發展並成熟的,用強化學習的方法解最優控制問題的派別。主要的代表人物都是控制相關的比如東北大學張化光,還有Frank Lewis這些人。

還有另外一類是深度強化學習based的決策,追求端到端的控制策略,想用深度網路來直接提取感測器特徵,訓練匯出控制策略,而忽略中間所有的數學證明和邏輯。兩種方法是各有利弊的,我簡單的說幾條供參考吧。

強化學習解最優控制這種路數,在本質上還是最優控制框架,只是用強化學習的方法可以學習不確定的引數以及未知的互相關項,非線性項之類的。因為是最優控制框架,好處是在滿足一定數學假設下,策略一般是可數學證明收斂的,這個就是控制的魅力。但是壞處也是顯而易見的,為了收斂證明,適用的範圍就很小,就那麼幾類簡單問題,可能不實用。

而且有些問題用自適應控制也能解,不像深度的強化學習的可塑性那麼強。並且在數學上收斂的東西,肯定不能直接處理感測器資料,那會亂套的,所以不是端到端的,這個是明顯的缺點。

但是就能說明深度的就好嗎?真的也不是。就像上面說了,深度最崩潰的在於他不能數學嚴格證明,這個就不能保證一定可靠。

比如障礙物環境導航,非常有可能就撞到障礙物不安全了,而且很可能兩次到達同乙個位置但是決策差別很大,魯棒性較差。再有就是深度的適用範圍廣,但是遷移能力差,導致每次不同的任務都要重新花大量時間重新訓練,而且也不一定有好結果。但是控制理論based的就做微調可能就完成了。

所以是各有利弊的東西,看題主具體想幹什麼任務,控制目標是什麼。。。都了解肯定是有好處的,畢竟現在這個領域不是壓倒性的learning就比控制理論好。。

2樓:Zhihao

從導航控制的角度來看,深度強化學習的優勢在於容易實現,是乙個端到端的過程,不需要太多理論知識,劣勢則是場景遷移能力比較弱,對訓練樣本的數量和質量都有較高要求。傳統控制方法的優勢在於完成控制與決策系統後,不會有太多發生意外的場景,劣勢在於實現精準的系統定位、障礙檢測、決策、控制,需要大量的技術積累。

如果要做控制,經典的控制理論還是必要的,比如model-based的強化學習方法還是要用到傳統控制的知識。單純的強化學習方法學習效率太低,需要大量的樣本。

使用強化學習做出的拆單和下單演算法,和傳統的下單演算法相比,有哪些優勢?

KevinHo 效能上有什麼優勢我目前還看不出來,但是marketing上的優勢已經顯而易見了 據我所知各大BB都有在做RL的algo,有幾家已經到了 公測 階段。但我看到的資料還不足以看出和傳統algo有什麼顯著不同。但是有些東西表面看似是個學術問題,內在其實是個business問題,是個飯碗問題...

生成對抗網路GAN和強化學習RL有什麼緊密聯絡?

王雋 以下是個人粗淺的理解 兩者相似之處 以RL中的actor critic為例,actor和critic分別相當於GAN的generator,discriminator。critic discriminator通過學習打分策略,對actor generator的表現進行評價 判別。兩者不同之處 R...

強化學習的四要素中 策略和模型的區別是什麼?

Frank Tian 在Sutton的書中,強化學習的四要素被認為是策略,收益訊號,價值函式和模型。你對策略和模型的混淆,可能是因為兩者的共性 它們往往需要學習而來。在Model Based方法中,我們先學習乙個模型,然後通過這個模型規劃出乙個策略,這種方法被稱為間接強化學習。而在Model fre...