為什麼PCA不被推薦用來避免過擬合?

時間 2021-06-01 05:43:32

1樓:毛仁傑

很簡單,無監督PCA篩出的主因素只和你最開始的眾features有關(當然和sample也有關),你一選完這新的features可以當作已經定了。

而Y到底是什麼東西是仍然可以隨意變的。(想象一下想分別診斷一百萬種不同疾病)

說白了接下來完全取決於Y的oracle函式,Y和這個新feature有關就有關,無關就無關,你後續的分析完全無能為力,損失的資訊已經損失了。

不過反過來看,如果你最最開始選features的時候,就很綜合全面地考量了和Y的關係(其實這就不太能算無監督了),pre-process也做得很恰當,那麼就還能用PCA處理,這就是might work的原因。

但這樣工作就被搶走,那個專業的人隨便抓個pca包就行,要你幹啥(笑

2樓:雷天琪

PCA是一種無監督學習,其存在的假設是:方差越大資訊量越多。但是資訊(方差)小的特徵並不代表表對於分類沒有意義,可能正是某些方差小的特徵直接決定了分類結果,而PCA在降維過程中完全不考慮目標變數的做法會導致一些關鍵但方差小的分類資訊被過濾掉。

3樓:子楠

第八周筆記:聚類(clustering) - 機器學習筆記 - 知乎專欄

最後一段:由於PCA整個方案都沒用到y,所以過擬合問題並不能用PCA來降維攻擊,還是老老實實的用正則化吧……正則化簡單粗暴還不

為什麼說可以用但是不推薦呢?因為就算是無監督學習,你在聚類之後,也相當於給了乙個y,所以可以用。但是這個y相比於真實y有多可靠呢?所以不推薦。

順便說一下,安德魯的課非常適合入門,但是很多地方略過了,比如正則化的l1,l2 norm是什麼,比如正規方程推導等。建議學了ng的課以後,還是得學一下別的課,而且有了ng課的基礎,學別的課都很輕鬆。coursera上的話,推薦學哪個華盛頓大學的,雖然很多大神說它第一周的課很水,但是第一周本來就是科普性質的,其第二週以後的課做得還是很詳細認真,只不過沒有中文字幕所以很多人就沒去學……

4樓:

舉個極端的例子,某個有兩個取值(5、10)的特徵,直接決定乙個分類器,在你構造的樣本裡頭正負樣本各一半,則這個特徵方差還是很大的,pca後能保留。但如果你的樣本構成是99:1,那這個特徵的方差就很小了,在pca後被丟棄。

5樓:

pca只關注了輸入之間的correlation。(supervised) learning尋求的是輸入和輸出之間的聯絡。

想象乙個極端情況:輸入的snr很低且雜訊強相關,但是被學習的系統有超強能力完全忽略雜訊。如果使用pca,估計很可能只保留了雜訊。

如果想要強調輸入輸出之correlation,不妨試試partial least square regression.

6樓:

本質還是因為是unsupervised learning,不涉及Y.

pca就是對design matrix / data matrix做singular value decomposition,做完後得到的是低維度的原feature的線性組合。因為不涉及response Y,因此無法根據feature和response的關係來做變數選擇。它可以拿來做visualization看feature在哪個方向有較大的variation,但是沒法合理的做variable selection。

為什麼比亞迪那麼不被人推薦?

痛的是經不是心 1.人總要為自己的選擇買單,或者掩飾自己的選擇失敗。而這種情況的表現形式就是否定其他選擇。別說你要買比亞迪被噴,你買寶馬賓士奧迪他們一樣噴。2.比亞迪車主或者粉很大一部分都是有工科背景或者具備一定的跨度學習能力群體,他們會對自己需要入手或者感興趣的方面做功課了解,實際上是學習能力保持...

為什麼不被理解?

xixi li 每個人在心裡都有乙個共同的原則 平等。這個平等的概念是廣義的,比如付出要得到回報 同情弱者 受害者 反對種族歧視等等。出於這種心理,很多人都不願意主動做某些事。因此如果你想讓別人理解你,你必須先付出誠意。你會不會身處其境的為別人考慮呢?你會不會用別人的眼光看待事物呢?會不會用別人的思...

趙雲為什麼不被重用?

子龍 這要看跟誰比了。如果相對於演義裡的趙雲還有白帝託孤之二,正史當然算不上中用 如果算正史,赤壁之戰後,趙雲是桂陽太守,這個時候劉備一共只有武陵,長沙,桂陽,零陵四個郡。劉備定益州後,趙雲只看官職不高。但馬超是驃騎將軍,張飛是車騎將軍,馬超顯然高不過張飛。劉備伐吳的時候,秦宓勸阻結果是下獄了,趙雲...