影象分割和檢測能夠統一起來做嗎？

1樓：青春沒有終點

0. 不嚴謹的基本概念

（1）Object detection，目標檢測，正如你所說，把物體用檢測框框出來。

（2）Two-stage detection，就是先做object detection，再把每個檢測框得到的sub-img輸入分類網路，得到物體類別。

這個就是你提到的detection+classification。

（3）End-to-end detection，端到端的檢測，是在乙個網路中，不但把物體檢測出來，還要得到這個物體到底是什麼。

與2stage相比，end2end是同時把detection和classification給做了。

（4）Semantic segmentation，語義分割，正如你所說，相比detection，會更精細一點，物體和背景的區分是畫素級的，比如0是背景，1是物體。

（5）Instance segmentation，不但區分前景和背景，還要標記出前景哪個畫素是什麼物體。

相當於在segmentation基礎上，還要用123456等區分不同物體。

1. 「這樣看起來，分割是比檢測更精細的，完成了分割自然就完成了檢測。那為什麼很多檢測演算法是先生成檢測框，再進行分類了？

直接生成影象的畫素分類圖豈不是一步到位了？這種做法會遇到哪些困難？（如果物體有重疊，這種方法也是可以給乙個位置打上多個標籤的）」

其實Instance segmentation和end-to-end detection都是一步到位的，但是為什麼很多場景不選擇seg呢。原因我可以總結兩個：

（1）seg的標註成本高，畫素級的標註啊，想想就累。

（2）所以呢，沒有必要這麼精細的場景，何必要這麼搞呢？比如行人檢測，人頭檢測，人臉檢測，車牌檢測等等，框起來就好，沒有必要畫素級分割。像ocr中的彎曲文字檢測，醫學影象癌細胞這樣的，才需要更小粒度的。

另外，在detection的選擇上，到底是用end2end還是2stage，是取決於場景和需求了，這裡不做談論。當前研究進展是，2stage雖然慢，最終效果會稍好一些，而且實際開發中檢測模型可多個專案復用；反之，end2end速度快。

3. 「所以，這兩者的關係是什麼樣的？統一為乙個任務會出現什麼問題了？」

這個回答見編號0。

4. 「難道是對於整張圖進行分割計算量太大了嗎？」

計算量大不大其實還是要看你網路的結構，並不是說seg就一定比dct複雜度高。

2樓：jun liu

簡單的做法就是把檢測和分割模型直接合併為乙個網路的兩個分支，然後統一訓練。然後使用的共享層越多，整個網路的計算量就越小，也就越能體現技術水平了。