機器學習中的維度懲罰 Curse of dimensionality 怎麼理解？

1樓：SBZH

比如有乙個PDE方程

傳統方法有：

1.譜方法：例如傅利葉級數、勒讓德多項式等2.有限體積法

3.有限元法

這些方法有個特點，那就是依賴網格，也即是時間和空間上的取樣。這樣一來，最多3維就已經需要使用並行運算。現在做磁流體的，三維基本上都得要上並行處理。

現代方法：

1.高斯過程

2.機器學習(高斯過程也屬於其中)

這些方法不再依賴網格，很多也不再依賴初始條件，這樣一來，維度災難就避免了

2樓：林高遠

特徵數量越多，越能將辨識目標描述得越仔細。

特徵數量＝模型的維度。

線是1D、面是2D、體是3D、幾個特徵就是幾D，接下去還可以無限多D。

模型是乙個（或多個）超平面，在 ND 空間劃出一道牆將不同類的樣本隔開。

樣本數量不變下，ND 空間的 N 越大，使得這道牆與樣本之間的空隙越大（其他回答所說的「稀疏」），這個空隙代表「未來(未知)樣本出沒的不確定性」，也就是越容易把牆築錯地方。

SVM 為什麼效果好？因為把牆築在空隙的正中間，這是把牆築對概率最高的位置，而 [邊緣樣本, 牆] 的距離就是 Support Vector。

3樓：Ivy YANG

這個首先有一部分是取決於你對距離的演算法，有時候距離採用kernel function 計算（簡稱K）但是K的形式是多種多樣的。當在高維空間中兩個點非常相近的時候你才可以用它臨近的其他資料點來平滑模擬這個點。如果在你給定的kernel function 的距離內而沒有找到臨近的點那就很尷尬了。

這種杯具隨著維度的增加會成指數倍的增長，所以在高維空間中，點就會比較疏鬆。這樣的話就不好進行回歸了。

4樓：

這兩天翻閱周志華《機器學習》，正好看到第10章，降維與度量學習，專門講了curse of dimensionality，他翻譯成了維災難。維災難泛指高維情形下出現的資料樣本稀疏，距離計算困難等問題，解決方法一般是降維和特徵選擇，常見的降維方法有PCA，embedding等

5樓：悟空

說些我剛剛學到的吧。

k近鄰演算法一般會出現維度災難的問題，這種演算法不具有可解釋性，且資料有高度線性的問題。

關於維度災難的問題，主要是由於k近鄰演算法是需要計算目標資料和周圍資料點的距離的，距離的演算法有歐式距離，曼哈頓距離，余弦相似度等，對於平面座標點只有兩個維度，對於（0，0）點和（1，1）點距離（都為歐式距離）為根號2（不知道根號該怎麼打），對於空間座標（0，0，0）和（1，1，1）的距離為根號3，隨著維度增加，如果增加到100維度，那麼對於非常近的兩個資料點的距離就會變得很大。就會出現維度災難的問題。

這是我前兩天做的筆記，大家湊過看看吧。

6樓：艾斯威.艾姆

你說的是維度詛咒吧，就是隨著維度的增加，有一些演算法的時間空間複雜度會指數上公升，導致難以計算。

簡單說機器學習裡面的取樣問題。很多時候需要取樣來獲取乙個概率分布的均值，乙個範圍是10的一維分布可能取樣10個點就差不多了，二維情況下要取樣100個點，三維就要1000個點。

機器學習中的維度懲罰 Curse of dimensionality 怎麼理解？

300條資料，12個維度，能做機器學習嗎？

機器學習中的hypothesis到底是什麼意思？

機器學習的梯度下降演算法中尋找最合適學習率「阿爾法」的意義是什麼？

其他用戶還看了：