用馬爾可夫決策過程和傳統方法的路徑規劃有何不同?傳統的路徑規劃演算法有沒有考慮機械人初始位姿?

時間 2021-06-03 20:53:27

1樓:fly qq

1.在概率機械人這本書上看到馬爾可夫決策過程考慮了機械人運動的不確定性,在控制技術的控制下,已經可以比較準確的跟蹤參考路徑,並且控制器可以抑制外界的干擾,為什麼還會出現不確定性呢?

MDP中的不確定性是指給機械人下發乙個控制指令(Action),造成的狀態(State)變化可能存在一定的不確定性。

例如,我們讓移動機械人往 x 方向運動 1 公尺,由於只有編碼器反饋,由於車輪打滑、地面不平等各種原因,導致最後走了 1.01 公尺,這就是不確定性。但如果我們對這個動作做了更加準確的反饋控制,例如,我們有全域性雷射定位,最終可以保證機械人精準地運動到 1 公尺,那麼這種不確定性就不存在了,我們可以認為這個動作造成狀態轉移到 1 公尺位置處的概率就是 100%。

這種「沒有不確定性」的系統也是可以用 MDP 建模和求解的。書中只是強調,它可以處理不確定性,而且實際機械人大多都存在不確定性。

2另外,在書上考慮了機械人的初始位置和姿態,傳統的規劃演算法是否有考慮呢?

有考慮,不論是什麼方法,都是給定初始和目標狀態,去做規劃的。

3.利用馬爾可夫決策過程進行路徑規劃的優勢大不大?

其實,MDP 只是一種建模過程,求解 MDP 的很多演算法其實都可以在傳統演算法中找到類似的實現。

例如,Dynamic Programming,你仔細學看它的迭代過程;然後再去看傳統規劃演算法中的 Dijkstra 演算法實現。你會發現它們兩個長得好像,乙個是從起點開始,乙個從終點開始。

再例如,Monte Carlo,通過多次隨機取樣,不斷優化更新動作價值。然後你再去看運動規劃演算法裡的 RRT* 演算法,你會發現 RRT* 演算法可以算是 Monte Carlo 演算法的一種實現。

當然,MDP 建模的思想是從一種更加泛化的角度去建模問題,於是也就有了強化學習之類看起來非常有趣的研究領域。而傳統的規劃演算法大多從問題本身出發,利用幾何先驗知識去設計演算法,有時候可能不一定能夠抽象出某個通用演算法,但是對於解決特定問題,可能會有幫助。

兩種方法沒有優劣之分,甚至都可以看看。

2樓:baobing

1.3. 應對系統不確定情況的控制,有多種方法,比如H無窮控制,馬爾可夫決策過程應用的強化學習方法等。

馬爾可夫決策相關的控制方法,如強化學習方法,在問題的普適性方面具有優勢,但訓練的代價一般較大,並且不適用於可能造成破壞的問題。

2.不太明白問題的意思。

鞅過程與馬爾科夫過程是什麼關係?

我來補充乙個通過馬爾科夫過程構造鞅過程的例子吧。給定乙個連續狀態馬爾科夫鏈 Markov Chain with Continuous State Space 我們定義轉移函式 測度論中稱為隨機核 為非零實數,如果乙個可測函式 滿足 並且 我們就稱函式 是相應於特徵值 的乙個特徵函式 線性代數中的特徵...

隱馬爾可夫模型在金融領域應用前景如何?

蘭花草 在簡單的HMM中的states為什麼總是2 3個呢,所以表面看起來模型簡單,因為放入狀態矩陣後n 2 n個引數,如果n 2,那就是2,如果n 3,就是6尚可接受。如果n 4甚至更多,求解困惑了 另外再加上其他的時間序列引數 Wier 我是新人學徒,可能有說不對的地方。但我覺得有幾個關鍵問題就...

如何用簡單易懂的例子解釋隱馬爾可夫模型?

wweewrwer 隱馬爾可夫模型 HMM 可以用五個元素來描述 1.隱含狀態 S 這些狀態之間滿足馬爾可夫性質,是馬爾可夫模型中實際所隱含的狀態。這些狀態通常無法通過直接觀測而得到。即扔的骰子序列 3.初始狀態概率矩陣 表示隱含狀態在初始時刻t 1的概率矩陣。因為第一次扔出骰子是沒有前乙個狀態的,...