模型輸入的影象224x224畫素,實際拍攝3000x3000px,強制縮小會丟失細節,怎麼解決這問題?

時間 2021-06-06 20:53:19

1樓:公升F調練聲

想要用乙個畫素表現原來十幾個畫素的資訊?不可能的。

除非「取精華剔糟粕」——取主要特徵,比如輪廓,有明顯差異化的取樣點。典型應用就是人臉識別。但這樣取樣後的圖形只是區域性特徵的粗略,很難滿足你模型檔案的要求「不丟掉細節」。

而且這種抽樣需要人類干預。具體沒有章法,只能具體問題具體說。

2樓:CW不要無聊的風格

如果是分類問題,通常不需要太在意縮小後會丟失細節。因為影象分類大多數依賴於區域性特徵,相對來說,檢測、分割這類問題才更依賴於全域性空間的細節。

如果實在不想resize,可以將影象劃分成乙個個小的patch進行處理,再綜合每個patch的處理結果作為最終整圖的結果。

3樓:DLing

看這個分類任務所需要關注的特徵尺度,從兩個方面考慮。

第一,如果這個任務關注的特徵尺度很大,比如做貓狗分類這種需要關注全域性特徵就可以了的任務,而且目標在影象中的比例又比較大,即使你原圖6000*6000,那你縮放到64*64也照樣可以分類啊。

第二,如果這個任務關注的是細節特徵,比如一些細粒度分類任務,縮放的太多可能就會損失很重要的細節特徵。那就得注意:

1. 網路輸入尺寸不一定只有224*224啊,如果到這個大的時候,你關注的特徵已經沒有了,那就把影象再放大一些嘛。

2. 如果你關注的目標在影象中的尺寸沒那麼大,可以用檢測的方式做啊,如果目標間的區分不明顯,可以先檢測,再精分類。

3. 那麼關注細節問題,大致是細節會分類有很大影響,那麼在減小縮放倍數的同時,可以研究下細粒度分類的任務。

解決目標檢測中對輸入影象大小的限制方法?

ROI pooling 全連線層,是two stage檢測方法的標配。在one stage檢測方法中,以及在two stage檢測方法faster rcnn中的RPN中,都是用全卷積實現的。至於為什麼要用ROI pooling,是為了提取框內所有相關特徵,輸入到全連線層進行分類和回歸。由於全連線層是...

vgg中灰度影象輸入,會對結果有影響嗎

理論上沒有,實際上有!分兩種情況考慮,首先是直接呼叫現有模型,這個影響是必然的,因為 VGG 訓練時,輸入是 RGB 彩色影象,所以資料對的分布並不相同。其次,我們考慮自己訓練模型的情況,因為 Gray 灰度影象比 RGB 少了資訊,所以場景分布裡面有顏色不一,但灰度圖近似的資料會出現不容易區分的情...

影象復原中的先驗概率模型有哪些可以做的?或者說該怎麼做?

遨遊於天地 1 Levin A,Weiss Y,Durand F,et al.Understanding and evaluating blind deconvolution algorithms C Computer Vision and Pattern Recognition,2009.CVPR...