如何處理（目標檢測）資料集中的ignore region？

1樓：赫拉迪克方塊

首先，我們想一下為什麼要標註 ignore region？

據我了解，很多資料集中標註 ignore region 是為了避免歧義或者降低標註成本，比如：

一大塊區域含有很多某個類別的物體，但是標註他們沒有太大的意義，比如遠處的人群

有可能產生歧義的物體，比如標註 human 的時候有一些容易混淆的人型雕塑

無論是針對哪種情況，如果不對這些 ignore region 進行處理，都有可能導致模型對於這些表觀資訊很強的「背景」非常迷惑，從而導致訓練效果變差

2. 其次，如何處理 ignore region？

乙個常見的處理方式是：計算 candidate 和這些 ignore gt 的 Intersection-over-candidate(簡稱為 IoA 吧)，如果 max IoA 高於某個設定的值 (例如 0.5)，說明 candidate 有較大部分位於 ignore region 中，那麼我們就可以將這個 candidate 的 label 設定為 ignore，這樣就不會對於訓練產生負面影響了

2樓：cookie

說一下實驗結果（主要做了下面兩個對比）

1、試過填充黑色，效果不好，會有下降，特別是當ignore區域較多的情況下

2、計算損失時候將其mask掉不計算損失，或者說ignore region的損失為0，這時候取得了正向提公升。

如何處理十萬級別的資料資訊？

要我的話就結構陣列二分法了滑稽當然map hash都可以，最方便的還是寫個xml json，然後上VSCode ctrl F，找到人工讀出來 easy 模式建一千個資料夾，每個資料的主鍵算個hash，對1k取餘，放進相應的資料夾裡。檔名是hash，內容是記錄。其實就是充分利用檔案系統。har...

基於hive的資料倉儲如何處理資料更新（update）問題？

tharvest 肯定不能使用hive更新，所謂的更新也是用增量資料merge歷史資料後儲存而替換歷史資料。如果對實效性要求不高，比如T 1，一般是按天分割槽，按天分割槽實際上已經儲存了一條記錄按天的變化維。按天同步資料存在乙個缺點，就是業務資料庫的一條記錄在一天內更新多次，只能取到資料同步時該記錄...

如何處理非正態分佈的使用者資料？

極道科技北京有限公司在資料處理過程中常常會遇到各種bug，在解決之前，需要知道形成的原因，然後再予以解決。所謂知己知彼，百戰不殆就是這個道理。造成非正態分佈的資料的原因有很多，包括從正態分佈資料轉變成非正態分佈的資料以及本身就不符合正態分佈的資料。下面就簡單說一說 1 受極端值的影響當...

如何處理（目標檢測）資料集中的ignore region？

如何處理十萬級別的資料資訊？

基於hive的資料倉儲如何處理資料更新（update）問題？

如何處理非正態分佈的使用者資料？

其他用戶還看了：