為什麼PCA不被推薦用來避免過擬合？

1樓：毛仁傑

很簡單，無監督PCA篩出的主因素只和你最開始的眾features有關(當然和sample也有關)，你一選完這新的features可以當作已經定了。

而Y到底是什麼東西是仍然可以隨意變的。(想象一下想分別診斷一百萬種不同疾病)

說白了接下來完全取決於Y的oracle函式，Y和這個新feature有關就有關，無關就無關，你後續的分析完全無能為力，損失的資訊已經損失了。

不過反過來看，如果你最最開始選features的時候，就很綜合全面地考量了和Y的關係(其實這就不太能算無監督了)，pre-process也做得很恰當，那麼就還能用PCA處理，這就是might work的原因。

但這樣工作就被搶走，那個專業的人隨便抓個pca包就行，要你幹啥（笑

2樓：雷天琪

PCA是一種無監督學習，其存在的假設是：方差越大資訊量越多。但是資訊（方差）小的特徵並不代表表對於分類沒有意義，可能正是某些方差小的特徵直接決定了分類結果，而PCA在降維過程中完全不考慮目標變數的做法會導致一些關鍵但方差小的分類資訊被過濾掉。

3樓：子楠

第八周筆記：聚類（clustering） - 機器學習筆記 - 知乎專欄

最後一段：由於PCA整個方案都沒用到y，所以過擬合問題並不能用PCA來降維攻擊，還是老老實實的用正則化吧……正則化簡單粗暴還不

為什麼說可以用但是不推薦呢？因為就算是無監督學習，你在聚類之後，也相當於給了乙個y，所以可以用。但是這個y相比於真實y有多可靠呢？所以不推薦。

順便說一下，安德魯的課非常適合入門，但是很多地方略過了，比如正則化的l1,l2 norm是什麼，比如正規方程推導等。建議學了ng的課以後，還是得學一下別的課，而且有了ng課的基礎，學別的課都很輕鬆。coursera上的話，推薦學哪個華盛頓大學的，雖然很多大神說它第一周的課很水，但是第一周本來就是科普性質的，其第二週以後的課做得還是很詳細認真，只不過沒有中文字幕所以很多人就沒去學……

4樓：

舉個極端的例子，某個有兩個取值（5、10）的特徵，直接決定乙個分類器，在你構造的樣本裡頭正負樣本各一半，則這個特徵方差還是很大的，pca後能保留。但如果你的樣本構成是99:1，那這個特徵的方差就很小了，在pca後被丟棄。

5樓：

pca只關注了輸入之間的correlation。(supervised) learning尋求的是輸入和輸出之間的聯絡。

想象乙個極端情況：輸入的snr很低且雜訊強相關，但是被學習的系統有超強能力完全忽略雜訊。如果使用pca，估計很可能只保留了雜訊。

如果想要強調輸入輸出之correlation，不妨試試partial least square regression.

6樓：

本質還是因為是unsupervised learning，不涉及Y.

pca就是對design matrix / data matrix做singular value decomposition，做完後得到的是低維度的原feature的線性組合。因為不涉及response Y，因此無法根據feature和response的關係來做變數選擇。它可以拿來做visualization看feature在哪個方向有較大的variation，但是沒法合理的做variable selection。

為什麼PCA不被推薦用來避免過擬合？

為什麼比亞迪那麼不被人推薦？

為什麼不被理解？

趙雲為什麼不被重用？

其他用戶還看了：