CNN做影象分類，訓練集中的極少量樣本被貼上了錯誤的標籤，是否會嚴重汙染訓練集？對訓練結果影響大嗎？

1樓：YZ8888

@Hao Zhang 的第三段好像不是很準確。 @王贇 Maigo 和 @月光寶盒娛樂頻道的論述應該是對的，但是好像沒完全解答問題。

對問題本身的解答應該是，這種小的label的錯誤，會降低model的表現，但是不會「摧毀」model。而model表現的降低，應該和錯誤label的百分比基本成正比。參見rethink這篇的Fig1c就可以了

2樓：趙zhijian

最近剛做了乙個類似的實驗，得到的結論如下：

大學習率下，模型會首先學習有效樣本中的特徵資訊，然後再學習到髒資料中的資訊，並隨著髒資料的增加和迭代次數的增加在驗證集上，識別率出現斷崖式的下降

調小學習率的情況下，模型的學習會變得穩定許多且受到髒資料的影響明顯減少，也不容易出現斷崖式的下降，但是隨著髒資料的比例不斷的擴大，模型學習到的髒資料的資訊也會對於模型的推廣能力造成不可忽視的影響。

因此在帶有髒資料的資料集上學習，建議使用較小的學習率，同時保證驗證集的準確性，當發現訓練集識別率不斷提高，但是在驗證集上反而下降時，此時就可以懷疑時學習到了髒資料的資訊，及時停止訓練應該也可以得到不錯的效果

具體的實驗可以參考：

3樓：nihaowhut

我覺得不會，我們購買的語音識別的資料集只能保證錯誤率2%以下。2%比"極少數"要大很多吧。再說，很多標註本來就很模糊，很難判斷邊界。

4樓：

取決於你這100個標記錯誤的原因。是長得太像貓才標記錯誤的還是人為故意的

如果是第一種，影響不大，跟錯誤比例有關

如果是第二種的話就得找解決的方法了

5樓：桃花源中的法法

肯定會汙染，只是影響大小的問題

我覺得你可以淨化你的訓練集，用k-fold cross validation。如果你做了early stop，可以降低過擬合，把你訓練集裡的錯誤找出來。

6樓：王贇 Maigo

我的感覺也跟 @Hao Zhang 相反呢……不過只是感性認識，並沒有實驗支撐。

我覺得，如果模型的擬合能力不夠，那麼錯誤標籤影響不大。就像乙個差生，他對教材內容的消化能力有限，即使教材裡面有幾處錯誤，他也不會覺得這裡有問題，並且你告訴他的標準答案他也會當成耳旁風忽略掉。

反過來，如果模型的擬合能力很強，那麼錯誤標籤就會造成過擬合。就像乙個記憶力高超的學生，可以注意到教材中所有的細節，如果有些地方是錯的，他雖然會糾結一下，但最終也會原樣給你記住。

7樓：

不會，答案很簡單：隨機梯度下降用的mini-batch計算的梯度，是為網路對於單個樣本點梯度在mini-batch裡的平均。假設你有1%的樣本是mislabeled，那麼相當於你計算的梯度平均值裡有1%的梯度計算錯誤，該錯誤會被另外99%正確的梯度值平均掉，其影響至多是減緩演算法訓練速度罷了。

特別地，如果你用的優化演算法是RMSprop，那麼你計算的梯度在每次迭代時會被normalize，因此你每次迭代的步長從而也是有界的，此時理論上說就更不會出現1%的mislabled的樣本錯誤梯度的影響超過另外99%正確標註的樣本的情況出現。

8樓：十八度中灰

先說結論：按個人實際操作經驗來看，目前沒有發現很大的影響，而乙個訓練效果較好的網路能夠剔除出標籤錯誤的資料。

再說過程：本人所用資料集為自己採集的，資料量很小（train+val差不多160，test 80），其中因為一些原因（前期界定不清，分類不夠準確）導致部分資料標籤不當（訓練資料與測試資料均有），但是經過調參與網路結構的改進，使網路的識別精度達到90%+的時候，輸出錯誤識別樣本，發現其中有一部分就是將錯誤標籤的個體識別為了其原本屬於的類別。

（模型在caffe下搭建，視覺化借助DIGITS實現）用老闆的話說，我訓練的網路糾正了我前期分類出現的錯誤……

9樓：dengdan

經驗性的回答：不會。

對dog來說，只有0.1%錯誤label，99.9%都是正確的，在學習過程佔了絕對的主導地位。

並且，之前的回答也提到過，將少量正確的label改錯可以有一定的防止過擬合功能。

10樓：張皓

這個答案不是絕對的, 取決於你的模型現在處於過擬合還是欠擬合階段.

當你的模型處在欠擬合時, 模型對資料中的一般規律尚為習得, 錯誤標籤的資料通常會影響模型的整體效能.

而當你的模型處在過擬合時, 模型對資料中的一般規律已經學的很好, 並且模型將訓練資料自身的一些性質錯誤的當作了一般規律. 這個時候錯誤標籤的資料有時能起到緩解過擬合的作用, 比如GoogleNet在訓練時候故意標錯一部分資料就是這個道理.

順便說一句, 在整合學習中, 做輸出標記進行擾動是增強個體學習器的一種手段, 而個體學習器效能越高, 間多樣性越大, 整合效果越好.

當你在應用機器學習時你應該想什麼 - 知乎專欄

參考文獻

[1]. Szegedy, Christian, et al. 「Going deeper with convolutions.

」 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

[2]. Zhou, Zhi-Hua. Ensemble methods: foundations and algorithms. CRC press, 2012.

CNN做影象分類，訓練集中的極少量樣本被貼上了錯誤的標籤，是否會嚴重汙染訓練集？對訓練結果影響大嗎？

CNN只能用於影象分類麼？

在訓練cnn的過程中，訓練集準確率逐漸公升高，loss平穩下降，但是測試集動盪劇烈是什麼原因？

卷積神經網路訓練影象的時候，畫素值都是大於0的，那麼啟用函式relu還有什麼作用呢？

其他用戶還看了：