「決策樹或k 均值的代價函式有平坦的區域」，究竟「平坦」是什麼意思？

1樓：孤單彼岸

「平坦」可以理解為區域內梯度為零，在基於梯度的方法中無法精準確定向某個方向前進。

為了找到代價函式的最小值，基於梯度的方法通常在當前點選取梯度下降最大的那個方向前進。

然而若代價函式存在平坦的區域，則演算法在此處無法判斷應該向哪個方向前進。

舉個不知道是否恰當的例子：

如圖，4個資料進行k=2的K-means聚類。Ground-Truth是A、B一類，C、D一類。

（1）初始時刻選擇的兩個聚類中心是A和B；

（2）根據K-means演算法，得到C與A一類，D與B一類，計算新的聚類中心為兩類質心e和f；

（3）再次迭代，發現依然是A和C一類，B和D一類，質心不變，演算法結束。

之所以演算法結束，是因為質心未發生變化，某種角度上講，可視為遇到了」平坦的區域「。

然而此時演算法並不應該結束，因為目前未達到「代價函式最小值」的目標。

所以在這種情況下，基於梯度的方法不適合K-means演算法使用。

至於K-means方法中為什麼選擇各簇的質心作為下一輪迭代的聚類中心，有一些理論的推導。首先，K-means方法使用誤差平方和（Sum of the Squared Error，SSE）作為聚類的目標函式，方法的目標是使目標函式的值盡可能小：

對第k個質心求解，即對上述目標函式求導，令導數等於0：

即：設為屬於聚類中心的樣本個數，則：

c_k = \frac\sum_x_k" eeimg="1"/>

因此最小化SSE的最佳質心是簇中各點的均值，即當前各簇的質心。

決策樹教程

維娜微辣現在買也來得及啊，才48歲，買夠15年，也就63歲，就可以拿退休金了。你媽媽在時間上虧一點點，你爸本來就60才能退休，差不多年紀啊。螞蟻社保CEO 一次性補繳15年養老保險，大概9萬多元，退休後每月領取大概1300多元養老金，是2011年之前的政策了。為了保證養老保險制度健康穩定發展，2...

決策樹如何對連續性特徵進行分段？

並不用考慮每乙個example,對第i個feature，首先以feature i 為key sort feature i,label i 然後將label 有變動的地方作為可能的劃分點，比如 label 為 1，1，0，0，0，1 只需要考慮兩個地方即 1，1 後面和 1，1，0，0，0 後面。對於...

如何最簡單通俗地理解決策樹演算法？

雲朵決策樹 Decision tree 是一種基本的分類與回歸方法，是一種非引數的有監督學習方法。決策樹是一種樹狀結構，它的每乙個葉子結點對應著乙個分類，非葉子結點對應著在某個屬性上的劃分，根據樣本在該屬性上的不同取值降氣劃分成若干個子集。其基本原理是通過遞迴切割的方法來尋找最佳分類標準，進而最終...

「決策樹或k 均值的代價函式有平坦的區域」，究竟「平坦」是什麼意思？

決策樹教程

決策樹如何對連續性特徵進行分段？

如何最簡單 通俗地理解決策樹演算法？

其他用戶還看了：

如何最簡單通俗地理解決策樹演算法？