「決策樹或k 均值的代價函式有平坦的區域」,究竟「平坦」是什麼意思?

時間 2021-06-06 01:13:02

1樓:孤單彼岸

「平坦」可以理解為區域內梯度為零,在基於梯度的方法中無法精準確定向某個方向前進。

為了找到代價函式的最小值,基於梯度的方法通常在當前點選取梯度下降最大的那個方向前進。

然而若代價函式存在平坦的區域,則演算法在此處無法判斷應該向哪個方向前進。

舉個不知道是否恰當的例子:

如圖,4個資料進行k=2的K-means聚類。Ground-Truth是A、B一類,C、D一類。

(1)初始時刻選擇的兩個聚類中心是A和B;

(2)根據K-means演算法,得到C與A一類,D與B一類,計算新的聚類中心為兩類質心e和f;

(3)再次迭代,發現依然是A和C一類,B和D一類,質心不變,演算法結束。

之所以演算法結束,是因為質心未發生變化,某種角度上講,可視為遇到了」平坦的區域「。

然而此時演算法並不應該結束,因為目前未達到「代價函式最小值」的目標。

所以在這種情況下,基於梯度的方法不適合K-means演算法使用。

至於K-means方法中為什麼選擇各簇的質心作為下一輪迭代的聚類中心,有一些理論的推導。首先,K-means方法使用誤差平方和(Sum of the Squared Error,SSE)作為聚類的目標函式,方法的目標是使目標函式的值盡可能小:

對第k個質心 求解,即對上述目標函式求導,令導數等於0:

即:設 為屬於聚類中心 的樣本個數,則:

c_k = \frac\sum_x_k" eeimg="1"/>

因此最小化SSE的最佳質心是簇中各點的均值,即當前各簇的質心。

決策樹教程

維娜微辣 現在買也來得及啊,才48歲,買夠15年,也就63歲,就可以拿退休金了。你媽媽在時間上虧一點點,你爸本來就60才能退休,差不多年紀啊。 螞蟻社保CEO 一次性補繳15年養老保險,大概9萬多元,退休後每月領取大概1300多元養老金,是2011年之前的政策了。為了保證養老保險制度健康穩定發展,2...

決策樹如何對連續性特徵進行分段?

並不用考慮每乙個example,對第i個feature,首先以feature i 為key sort feature i,label i 然後將label 有變動的地方作為可能的劃分點,比如 label 為 1,1,0,0,0,1 只需要考慮兩個地方即 1,1 後面和 1,1,0,0,0 後面。對於...

如何最簡單 通俗地理解決策樹演算法?

雲朵 決策樹 Decision tree 是一種基本的分類與回歸方法,是一種非引數的有監督學習方法。決策樹是一種樹狀結構,它的每乙個葉子結點對應著乙個分類,非葉子結點對應著在某個屬性上的劃分,根據樣本在該屬性上的不同取值降氣劃分成若干個子集。其基本原理是通過遞迴切割的方法來尋找最佳分類標準,進而最終...