單目視覺里程計算法深度資訊的提取？雙目的原理和單目的不同？

1樓：

單目視覺，通過對單一影象，所做出來的深度資訊，如果沒有一定引數進行限制，比如焦距，那麼永遠只是乙個預估量，不會是真實值。不過對於三維位置估測來說已經足夠了——因為有限空間中的各個位置都是相對的，只要這個相對關係是正確的，那就可以了。

總體來說，單目視覺有三種生成方式，一種是通過透視幾何來生成，參考消失點

一種是通過目標的位移來形成，這種生成的辦法是要有限制條件，比如相機固定，背景固定，人物的速度恆定，那麼目標的移動速度越快，他越接近相機。

還有一種是通過焦距。通過不同焦距對同乙個場景攝像的模糊效果來測定。這種方法對於生成的整幅影象來說效果還不是很好，但是數值卻比較準。

雙目視覺是依靠視差效果。這個效果是能夠形成三維立體感的主要原因。目前單目也主要是依靠通過尋找參照物，找到視差效果來生成三維深度資訊的

2樓：當頂

一般而言單目估算位姿是乙個structure from motion的問題，需要通過幀間移動來構成對應特徵點的三角幾何關係。三角幾何關係確立後，位姿和特徵點的三維座標是同時求解的，這個是經典的structue from motion問題。因此不存在先有雞還是先有蛋的問題。

sfm的解法有很多，最簡單可以通過估算essential matrix，然後分解得到相機的旋轉R和位移T。單目的侷限在於，首先，尺度是未知的，因此位移T和三維重建點座標是存在乙個尺度變化的。其次，兩幀之間如果位姿變化比較小，即基線較短時，所構成的三角幾何關係容易受雜訊影響，反推得到的資訊誤差較大。

基線太寬了又會導致匹配困難，連最魯棒的sift都會完敗。

另一方面，在雙目立體視覺中，由於基線是固定並已知的，因此是可以直接三角化得到特徵點三維座標的。然後幀間的運動資訊就是兩堆三維點之間的運動引數擬合。因此也可以理解為這是乙個先有了雞，再有了蛋的解法。

雙目的缺點是，由於基線是固定的，同時由於載體尺寸的限制，通常不會很寬。因此三角化重建的精度一般不太會很高。

用單目對雙目進行補充，我個人理解是，本身雙目是通過左、右檢視固定基線進行一次三角化。單目相當於用前、後兩幀的左圖對或者右圖對在前後兩幀移動構成的基線上再做一次三角化。假設誤差是均勻分布的，通過相互抵消來提高精度。