用馬爾可夫決策過程和傳統方法的路徑規劃有何不同？傳統的路徑規劃演算法有沒有考慮機械人初始位姿？

1樓：fly qq

1.在概率機械人這本書上看到馬爾可夫決策過程考慮了機械人運動的不確定性，在控制技術的控制下，已經可以比較準確的跟蹤參考路徑，並且控制器可以抑制外界的干擾，為什麼還會出現不確定性呢？

MDP中的不確定性是指給機械人下發乙個控制指令（Action），造成的狀態（State）變化可能存在一定的不確定性。

例如，我們讓移動機械人往 x 方向運動 1 公尺，由於只有編碼器反饋，由於車輪打滑、地面不平等各種原因，導致最後走了 1.01 公尺，這就是不確定性。但如果我們對這個動作做了更加準確的反饋控制，例如，我們有全域性雷射定位，最終可以保證機械人精準地運動到 1 公尺，那麼這種不確定性就不存在了，我們可以認為這個動作造成狀態轉移到 1 公尺位置處的概率就是 100%。

這種「沒有不確定性」的系統也是可以用 MDP 建模和求解的。書中只是強調，它可以處理不確定性，而且實際機械人大多都存在不確定性。

2另外，在書上考慮了機械人的初始位置和姿態，傳統的規劃演算法是否有考慮呢？

有考慮，不論是什麼方法，都是給定初始和目標狀態，去做規劃的。

3.利用馬爾可夫決策過程進行路徑規劃的優勢大不大？

其實，MDP 只是一種建模過程，求解 MDP 的很多演算法其實都可以在傳統演算法中找到類似的實現。

例如，Dynamic Programming，你仔細學看它的迭代過程；然後再去看傳統規劃演算法中的 Dijkstra 演算法實現。你會發現它們兩個長得好像，乙個是從起點開始，乙個從終點開始。

再例如，Monte Carlo，通過多次隨機取樣，不斷優化更新動作價值。然後你再去看運動規劃演算法裡的 RRT* 演算法，你會發現 RRT* 演算法可以算是 Monte Carlo 演算法的一種實現。

當然，MDP 建模的思想是從一種更加泛化的角度去建模問題，於是也就有了強化學習之類看起來非常有趣的研究領域。而傳統的規劃演算法大多從問題本身出發，利用幾何先驗知識去設計演算法，有時候可能不一定能夠抽象出某個通用演算法，但是對於解決特定問題，可能會有幫助。

兩種方法沒有優劣之分，甚至都可以看看。

2樓：baobing

1.3. 應對系統不確定情況的控制，有多種方法，比如H無窮控制，馬爾可夫決策過程應用的強化學習方法等。

馬爾可夫決策相關的控制方法，如強化學習方法，在問題的普適性方面具有優勢，但訓練的代價一般較大，並且不適用於可能造成破壞的問題。

2.不太明白問題的意思。

用馬爾可夫決策過程和傳統方法的路徑規劃有何不同？傳統的路徑規劃演算法有沒有考慮機械人初始位姿？

鞅過程與馬爾科夫過程是什麼關係？

隱馬爾可夫模型在金融領域應用前景如何？

如何用簡單易懂的例子解釋隱馬爾可夫模型？

其他用戶還看了：