已知相似度矩陣,如何用k means演算法進行聚類?

時間 2021-05-31 06:41:46

1樓:蔣蔣

可以使用譜聚類,譜聚類演算法的框架下後續任務需要用常規聚類演算法如Kmeans完成,具體可參見譜聚類(spectral clustering)原理總結

2樓:Alphacat

除了基於相似性的聚類方法如譜聚類以外,如果非要用kmeans也是可以的,需要kernel trick變換一下。具體可以參考

A unified view of kernel kmeans, spectral clustering and graph cuts.

3樓:dave hou

如果你希望用kmeans,可以先將similarity matrix 轉化成點的座標。

方法參見 Multidimensional scaling這裡也對multidimensional scaling 有乙個比較好的介紹

cn/teachers/yaoy/reference/book05.pdf如果不一定要用kmeans,可以用spectral clustering, spectral clustering就是在similarity matrix 上進行操作的。

4樓:王贇 Maigo

k-means 演算法裡有一步是「求各類的均值」,為此需要知道每個資料點的座標。

如果只有資料點之間的相似度矩陣,那麼有兩種做法:

通過某種演算法(如 t-SNE)將資料嵌入到某個空間裡面,得到座標,然後再使用 k-means;

直接使用基於相似度矩陣的聚類方法。我並不知道具體有哪些演算法,題主可以 Google「clustering with similarity matrix」搜尋一下。

如果有答主能對基於相似度矩陣的聚類方法做個簡單的綜述,就最好啦~

如何定義 相似度 ?

wai 我想到一種相對簡單易理解的辦法,就是假定部分的相似度大致反映整體相似度。具體來說,先測量樣本人群每個人鼻尖相對面部的高度,然後計算標準差 測量樣本貓群每只貓的鼻尖相對面部的高度,同樣計算標準差。因為人和貓塊頭不一樣,為了消除這一影響,可以把各自的標準差除以各自的體積 為了方便,可以用體重代替...

如何形象地理解矩陣的相似與合同?

張子凡 你不覺得相似與合同的定義很像麼?若C正交時,則有 即 由此可見,相似是合同當C正交時的一種特例。相似是線性變換的恰到好處。合同是線性變換的沒那麼完美,但也是有一些性質可用的。我的部落格 五塊蛋糕 相似是同乙個線性變換在不同基下的矩陣,這個好理解。下面說一下合同吧。合同是同乙個二次曲線 用二次...

如何提公升文字相似度匹配?

NLP問題的模型對語料的依賴非常大,通用的語料訓練出來的模型一般也就當個引數的初始化,需要結合自己領域的語料去做fine tune.既然要做文字相似,就要有標註的資料,包括相似語料的樣本,和不相似的語料樣本,然後可以通過triplet loss 的方式去進行fine tune.Google 公開的B...