計算機視覺裡面的ground truth到底是指什麼？是怎麼獲得的？

1樓：Caroll

就是訓練集認為100%準確的標籤，也是一般來說，演算法想要盡量貼合的結果。這裡的標籤是乙個泛指：如果是識別任務，標籤就是資料集給出的label；如果是語義分割任務，標籤就是「絕對」［訓練集認為的絕對］準確的mask。

不同的任務標籤含義不同。

怎麼獲得的話，方法其實很多，技術發展，日新月異。我了解到的大類有兩個：一是場景本身就是合成的，直接輸出最準確的標籤［A就是A，B就是B，100%準確］，也就是GT，ground truth；二是人工標註，現在很多經常被拿來使用的大資料集都是人工標註的，說白了就是，比如語義分割，人工標註就是請真正的人對一副影象完成語義分割任務，人工輸出的這個結果被作為標籤，讓演算法來學習，盡量去模擬過程，還原結果。

英語有個詞叫ground zero，就是指最初最初的那個原點。百分之一百準確，百分之一百實實在在的東西：四維座標系的話，就是(0,0,0,0)；代數的話，就是1+1=2。

就是這種最基本的東西。

ground truth的話，從英文語義上，也可以理解為最基礎，最根本，最原初的真實。標籤，label，mask，ground truth。

計算機視覺裡面的ground truth到底是指什麼？是怎麼獲得的？

計算機裡面的計算機的算力能不能超越產生它的計算機

計算機視覺應該怎樣入門？

計算機視覺和語音識別

其他用戶還看了：