模型輸入的影象224x224畫素，實際拍攝3000x3000px，強制縮小會丟失細節，怎麼解決這問題？

1樓：公升F調練聲

想要用乙個畫素表現原來十幾個畫素的資訊？不可能的。

除非「取精華剔糟粕」——取主要特徵，比如輪廓，有明顯差異化的取樣點。典型應用就是人臉識別。但這樣取樣後的圖形只是區域性特徵的粗略，很難滿足你模型檔案的要求「不丟掉細節」。

而且這種抽樣需要人類干預。具體沒有章法，只能具體問題具體說。

2樓：CW不要無聊的風格

如果是分類問題，通常不需要太在意縮小後會丟失細節。因為影象分類大多數依賴於區域性特徵，相對來說，檢測、分割這類問題才更依賴於全域性空間的細節。

如果實在不想resize，可以將影象劃分成乙個個小的patch進行處理，再綜合每個patch的處理結果作為最終整圖的結果。

3樓：DLing

看這個分類任務所需要關注的特徵尺度，從兩個方面考慮。

第一，如果這個任務關注的特徵尺度很大，比如做貓狗分類這種需要關注全域性特徵就可以了的任務，而且目標在影象中的比例又比較大，即使你原圖6000*6000，那你縮放到64*64也照樣可以分類啊。

第二，如果這個任務關注的是細節特徵，比如一些細粒度分類任務，縮放的太多可能就會損失很重要的細節特徵。那就得注意：

1. 網路輸入尺寸不一定只有224*224啊，如果到這個大的時候，你關注的特徵已經沒有了，那就把影象再放大一些嘛。

2. 如果你關注的目標在影象中的尺寸沒那麼大，可以用檢測的方式做啊，如果目標間的區分不明顯，可以先檢測，再精分類。

3. 那麼關注細節問題，大致是細節會分類有很大影響，那麼在減小縮放倍數的同時，可以研究下細粒度分類的任務。

解決目標檢測中對輸入影象大小的限制方法？

ROI pooling 全連線層，是two stage檢測方法的標配。在one stage檢測方法中，以及在two stage檢測方法faster rcnn中的RPN中，都是用全卷積實現的。至於為什麼要用ROI pooling，是為了提取框內所有相關特徵，輸入到全連線層進行分類和回歸。由於全連線層是...

vgg中灰度影象輸入，會對結果有影響嗎

理論上沒有，實際上有！分兩種情況考慮，首先是直接呼叫現有模型，這個影響是必然的，因為 VGG 訓練時，輸入是 RGB 彩色影象，所以資料對的分布並不相同。其次，我們考慮自己訓練模型的情況，因為 Gray 灰度影象比 RGB 少了資訊，所以場景分布裡面有顏色不一，但灰度圖近似的資料會出現不容易區分的情...

影象復原中的先驗概率模型有哪些可以做的？或者說該怎麼做？

遨遊於天地 1 Levin A,Weiss Y,Durand F,et al.Understanding and evaluating blind deconvolution algorithms C Computer Vision and Pattern Recognition,2009.CVPR...

模型輸入的影象224x224畫素，實際拍攝3000x3000px，強制縮小會丟失細節，怎麼解決這問題？

解決目標檢測中對輸入影象大小的限制方法？

vgg中灰度影象輸入，會對結果有影響嗎

影象復原中的先驗概率模型有哪些可以做的？或者說該怎麼做？

其他用戶還看了：