高維度資料能否使用kmeans

時間 2021-06-07 11:30:58

1樓:Relu

高維空間中不建議直接使用kmeans聚類,因為在高維空間中樣本的分布範圍往往比較分散,這時再用樣本之間的距離來度量相似性往往不具有很強的說服力,常用的做法是先考慮使用PCA降維,然後再考慮聚類。

2樓:侯萌

不是高維資料能不能用kmeans的問題,是高維度資料在任何模型中都可能表現很差。

你肯定聽過乙個詞——過擬合。我們回憶一下過擬合的表象:模型在訓練集中表現優秀,但是在測試集中表現很差,原因是,你的模型太複雜了,複雜到把訓練集中的資料雜訊都學習進去了。

那麼模型的複雜度是跟資料的維度正相關的(對於大多數模型來說,資料維度就是正比於模型複雜度的)。

如果想要更深入的理解,建議查一下維度詛咒這個詞。會有文章詳細解釋這個現象究竟為什麼會產生。歸根結底是隨著資料維度的增長,樣本與樣本之間的距離變遠了,所有的資料都位於空間的邊緣,想要訓練出來理想的模型,就必須要以指數級增加訓練樣本個數。

所以題注為什麼對降維這麼反感呢?特徵工程和資料降維是資料探勘過程中最重要,也是最有技術含量的細節,為什麼不去學習呢?

高維度是否干涉不到低維度?

嘿嘿嘿 其實吧。偶覺得,三維便是能感知的最低維度 乙個點 乙個面,總是有體積 高的,只是單位需要非常小而已。所以人類是真的沒見過一維 二維的,所以也無從談起干涉它們。類推的話 高緯度也只能想象出低維度世界,但接觸不到,當然,應該也沒興趣 你對乙個點乙個面能有多大興趣? 薛丁格的彩票 目前沒有任何證據...

如何理解高維度空間?

小泉識 相當於一幢高樓,高樓前有一棵大樹,我們三維度的在三樓,其它維度的在更高的樓層,雖然從視窗看去都是同一棵樹,但是不同的樓層看到的樹的樣子是有所不同的,可以說,你的樓層越高,就越可以看到樹的全貌。 什麼叫 理解 為什麼要理解?乙個數學概念,計算的工具,會用就得了。還想要怎麼理解呢,會算不出錯就是...

從資料分析維度,如何判斷一款遊戲能盈利?

鄭金條 判斷一款遊戲的市場潛力其實是有邏輯的,包括 A,第乙個必須是產品的易用性 這個易用性包括題材,美術風格,玩法模型,使用者的上手模型,人機互動模型 這五個能快速判斷出一款遊戲的使用者滲透性到底好不好 B,第二個是遊戲的前期數值邏輯 這個前期的數值邏輯包括使用者的體驗流暢程度受限明不明顯,使用者...