請問如何用數學方法證明K means是EM演算法的特例?

時間 2021-05-30 14:46:59

1樓:霖霖霖丶

寫點個人的想法。總的來說,GMM與kmeans的關聯在於:

在權重一致、協方差矩陣為單位陣、硬分配的情況下,kmeans是GMM的乙個特例;

GMM通過soft EM推導,kmeans可通過hard EM推導;

由於協方差為單位矩陣,故kmeans聚類的形狀是球形的,而GMM是橢球型的。

2樓:趙易明

出現在我的動態裡,說說思路。Kmeans裡的中心(均值)可以當成狄拉克分布的中心,這樣其概率密度函式就是狄拉克 δ(x–μ) 分布的。

這樣只需要將GMM的EM推導過程中的高斯分布的概率密度函式替換成狄拉克函式的,這樣無論是中心點還是方差的更新權重都是非1即0的,也就是Kmeans裡出現的那樣,然後在新一輪的迭代中再次將概率密度函式簡化成狄拉克分布的。

3樓:史博

我覺得這個首先要理解為什麼說「k-均值用的hard EM演算法」。 再在這個基礎上理解, Hard EM演算法對應的是dirac delta 分布, 而這個分布是高斯分布的一種極限!

我在史博:EM演算法存在的意義是什麼? 對這種理解, 列為理解EM演算法的第3種境界。

EM演算法理解的九層境界

EM 就是 E + MEM 是一種區域性下限構造K-Means是一種Hard EM演算法從EM 到廣義EM廣義EM的乙個特例是VBEM廣義EM的另乙個特例是WS演算法廣義EM的再乙個特例是Gibbs抽樣演算法WS演算法是VAE和GAN組合的簡化版KL距離的統一

4樓:

我有個理解,不是特別嚴謹的『數學方法』,而是更 intuitive如果我們已知

1) GMM 可以用 EM 的框架來推導

2) Kmeans 是 GMM 的特例

那我們便可由 1)2) => 『Kmeans 也可以用 EM 的框架來推導』

鑑於1) 已知,所以我說下我所理解的Kmeans 和 GMM 的相似性(直觀理解,不含數學公式 )

我們知道,GMM 是假設樣本取樣自多個混合的高斯分布,而乙個高斯分布的等高面其實是個『超橢球』,樣本散落在這個超橢球的內部。我們可以把 GMM 的 μ、Σ 理解為是在描述超橢球的『球心、圓扁程度』,從而:

根據樣本到不同球心『距離』d的大小,再根據 exp(d/Σ) 計算他們屬於每個『超橢球』的概率,作為他們的『軟標籤』(即,樣本有屬於每一類的可能性)(E 步)

上面計算完成後,重新擬合『超橢球』(M 步)

基於上面的闡述,如果我們把 GMM 的『超橢球』退化為乙個『超圓球』(圓的,所以此時 Σ=單位矩陣);把 E 步『計算概率』簡化成直接計算『距離』d,然後把距離最短的作為他們的『硬標籤』(即,樣本只屬於某一類)。做了這兩個簡化之後,這樣一來,便是 Kmeans

P.S. 上面說的『概率』,更準確說是『概率密度』(PDF),不過因為不涉及數學公式,這裡不細究了

5樓:Yongmou Li

k-means是GMM的簡化,而不是特例。

我們先來看看一般形式的Gaussians Mixture model和k-means。

GMM的使用EM優化的是完全資料似然函式的期望:

其中為的期望,實際上也是屬於第k個component的概率。

k-means的目標函式:

其中表示所屬聚類,若屬於第k個聚類,則。

共同點:都是使用交替優化演算法,要優化的引數分為兩組,固定一組,優化另一組。

GMM是先固定模型引數,優化(實際上對隱變數的分布q(z)求極值,取極值時,隱變數的分布為);然後固定,優化。

k-means是先固定,優化聚類賦值;然後固定聚類賦值,優化。

k-means對GMM的簡化有:

,混合權重相等

,各個component的協方差相等,且固定為單位矩陣的倍數

分配給各個component的方式,由基於概率變為winner-take-all方式的 hard 賦值。

所以說GMM是更為flexible的model,由於大量的簡化,使得k-means演算法收斂速度快於GMM,並且通常使用k-means對GMM進行初始化。

參考PRML第九章 Mixture models and EM

PRML 9.3.2 Relation to k-means中,

令時,也能變成,但是覺得很沒有道理,為什麼要令,這樣會使完全資料似然的期望也是無窮的。感覺就是為了拉關係。。。

6樓:大黃說數

樓主要分清楚模型和優化演算法。

Kmeans是乙個聚類模型;

E-M演算法是乙個求模型引數的優化演算法;

兩者不是乙個東西,不能直接相比。

應該說,Kmeans模型是GMM混合高斯模型的特例。

7樓:

通過以下方式將乙個聚類問題轉化為乙個最大似然估計問題即可證明K-means是EM演算法的乙個特例。

聚類問題:給定資料點,給定分類數目,求出個類中心,使得所有點到距離該點最近的類中心的距離的平方和最小。

含隱變數的最大似然問題:給定資料點,給定分類數目,考慮如下生成模型,

\min_ ||x-\mu_k||_2 \\

\end" eeimg="1"/>

模型中為隱變數。

這個式子的直觀意義是這樣的,對於某個將要生成的點和他的類別號,如果不滿足「到中心的距離小於等於到其他中心的距離」的話,則不生成這個點。如果滿足的話,則取值就是這個「最近的」類中心的編號(如果有多個則均等概率隨機取乙個),以高斯的概率密度在這個類中心周圍生成點。

用EM演算法解這個含隱變數的最大似然問題就等價於用K-means演算法解原聚類問題。

E步驟

1、計算\min_ ||x_i-\mu_k^||_2 \\

\end" eeimg="1"/>,以及,這裡使用正比於符號是考慮到距離點最近的類中心可能不止乙個,下面推導為了表述簡單突出重點就假設只有乙個,並且該類中心的編號為。

這等價於K-means演算法中對於每乙個點找當前最近的聚類中心。

2、計算目標函式

因為我們的重點是的值,而不是目標函式本身的值,因此可以將目標函式替換為,,並把求最大值轉換為求最小值。

注意到這裡其實是根據當前引數求出來的,而且這個目標函式的已經是K-means的目標函式了。

M步驟:

找尋使得最小。

將指標集割為個,,則

由於求和的每一項都是非負的,所以當每乙個內層求和都達到最小時,總和最小。

此時,即求平均值。

這和K-means演算法中根據當前分配求新的聚類中心的操作是一樣的。

8樓:

不是特例。

抽象成一般形式後,km演算法每步給隱變數賦值使似然函式極大。而em演算法每步只更新隱變數的條件概率。以下性質也說明二者不等價。

不嚴格來說,當隱變數的邊際分布不受引數影響時,em演算法,在初始引數接近真實引數時會收斂到真實引數(相合性)。或者說真實引數是em演算法每次迭代的的不動點。

而km演算法不會。例如,針對高斯混合模型,將真實引數作為初始引數並用km演算法計算,第一步迭代得到的更新的引數和真實引數之間的距離是常數(不會隨樣本量增大而依分布收斂到0)。

上述兩條性質都很容易驗證。

ps:我這理解你說的特例的意思是當把em演算法應用於混合高斯模型時恰好得到km演算法。實際km演算法和em演算法都可以是一般性的演算法,km一般化後也不一定只用於混合高斯。

9樓:Marvin

你是想說kmeans是高斯混合模型的特例吧。

如果高斯混合模型中所有的協方差矩陣都為,且,就是kmeans了。

詳細的參考一下prml裡面mixture model那一章吧。

10樓:王贇 Maigo

k-means演算法與EM演算法的關係是這樣的:

k-means是兩個步驟交替進行,可以分別看成E步和M步;

M步中將每類的中心更新為分給該類各點的均值,可以認為是在「各類分布均為單位方差的高斯分布」的假設下,最大化似然值;

E步中將每個點分給中心距它最近的類(硬分配),可以看成是EM演算法中E步(軟分配)的近似。

我不知道你說的「特例」是什麼含義,想要的「證明」又是什麼樣的……

如何用數學方法證明出(ln 2) 1 3?

知乎上哪來的這麼多這種 nc 題?算到小數點後 100 位就是數學方法。別人是證明不等式,知乎是比較兩個確定的數的大小,醉了。 蘇打 由於 代入 得到 於是 從而 上述的表示式是 在 處 階帕德逼近的結果。帕德逼近是一種用有理函式 進行函式逼近的方法,具體措施是通過一系列的等式 來確定待定的係數,將...

這道智力題能夠用數學方法求解或證明嗎?

qfzklm 嘗試一些情況之後,無責任猜想 對於集合,施加上述操作後最終得到集合,其中m的最小可能值 n 1,trivial,m 1。n 2,無解。當時,可以構造性地證明,m不超過。不過m不小於這個部分怎麼弄還不知道。不過為了證明寫起來方便,還是利用歸納假設好了。假設時,可以將集合 變成 這個可以根...

如何用高中純數學方法求解拋物線任何一點曲率半徑

奧貝里斯克 0.引言 首先以圓和直線為例,簡要說明一下曲率和曲率半徑的意義。對於半徑為 的圓來說,圓周上任意弧段 的切線方向變化角度 等於半徑 和 之間的夾角 因為弧 所以曲線段 的平均曲率為 上式說明圓周的平均曲率是乙個常數,這個常數和它的半徑 有關。對於直線來說,直線任一點的切線與直線共線,因此...