強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

1樓：笑話

這要取決於題主做的是強化學習based的控制還是深度強化學習based的決策，這個很重要。目前來看強化學習有兩大派別，乙個是早在上世紀90-00年代就已經開始發展並成熟的，用強化學習的方法解最優控制問題的派別。主要的代表人物都是控制相關的比如東北大學張化光，還有Frank Lewis這些人。

還有另外一類是深度強化學習based的決策，追求端到端的控制策略，想用深度網路來直接提取感測器特徵，訓練匯出控制策略，而忽略中間所有的數學證明和邏輯。兩種方法是各有利弊的，我簡單的說幾條供參考吧。

強化學習解最優控制這種路數，在本質上還是最優控制框架，只是用強化學習的方法可以學習不確定的引數以及未知的互相關項，非線性項之類的。因為是最優控制框架，好處是在滿足一定數學假設下，策略一般是可數學證明收斂的，這個就是控制的魅力。但是壞處也是顯而易見的，為了收斂證明，適用的範圍就很小，就那麼幾類簡單問題，可能不實用。

而且有些問題用自適應控制也能解，不像深度的強化學習的可塑性那麼強。並且在數學上收斂的東西，肯定不能直接處理感測器資料，那會亂套的，所以不是端到端的，這個是明顯的缺點。

但是就能說明深度的就好嗎？真的也不是。就像上面說了，深度最崩潰的在於他不能數學嚴格證明，這個就不能保證一定可靠。

比如障礙物環境導航，非常有可能就撞到障礙物不安全了，而且很可能兩次到達同乙個位置但是決策差別很大，魯棒性較差。再有就是深度的適用範圍廣，但是遷移能力差，導致每次不同的任務都要重新花大量時間重新訓練，而且也不一定有好結果。但是控制理論based的就做微調可能就完成了。

所以是各有利弊的東西，看題主具體想幹什麼任務，控制目標是什麼。。。都了解肯定是有好處的，畢竟現在這個領域不是壓倒性的learning就比控制理論好。。

2樓：Zhihao

從導航控制的角度來看，深度強化學習的優勢在於容易實現，是乙個端到端的過程，不需要太多理論知識，劣勢則是場景遷移能力比較弱，對訓練樣本的數量和質量都有較高要求。傳統控制方法的優勢在於完成控制與決策系統後，不會有太多發生意外的場景，劣勢在於實現精準的系統定位、障礙檢測、決策、控制，需要大量的技術積累。

如果要做控制，經典的控制理論還是必要的，比如model-based的強化學習方法還是要用到傳統控制的知識。單純的強化學習方法學習效率太低，需要大量的樣本。

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

使用強化學習做出的拆單和下單演算法，和傳統的下單演算法相比，有哪些優勢？

生成對抗網路GAN和強化學習RL有什麼緊密聯絡？

強化學習的四要素中策略和模型的區別是什麼？

其他用戶還看了：

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

使用強化學習做出的拆單和下單演算法，和傳統的下單演算法相比，有哪些優勢？

生成對抗網路GAN和強化學習RL有什麼緊密聯絡？

強化學習的四要素中 策略和模型的區別是什麼？

其他用戶還看了：

強化學習的四要素中策略和模型的區別是什麼？