哪種聚類演算法可以不需要指定聚類的個數,而且可以生成聚類的規則?

時間 2021-05-08 09:36:14

1樓:劉峰

如果你滿足於僅僅是利用工具軟體做聚類,對演算法本身也感興趣的話,可採用「模糊聚類」FCM(Fuzzy C-Means),可以不事先指定K,劃分成任意個類。

所謂模糊聚類,就是將參加聚類的記錄看做矩陣,將矩陣中的屬性值轉化為大於0小於1的小數(百分數)進行相似新計算,從而得到相似記錄的分類。

模糊聚類也分有劃分的FCM(Fuzzy C-Means)和無劃分的聚類,這裡只介紹無劃分的等價矩陣傳遞包聚類方法。其優點是,可以由細(多個分類,最細是每條記錄就是乙個分類)到粗(整個樣本集就是乙個分類)或由粗到細地進行分類,最重要的是,可以從多種分類中選擇最優分類。

具體步驟為:

步驟1:建立指標矩陣;

步驟2:資料標準化;

步驟3:建立相似矩陣;

步驟4:通過褶積計算,得到等價矩陣;

步驟5:用等價矩陣中不同的數值

取截等價矩陣,得到不同的聚類,也就是不同的類數量K。

步驟6:求解最優聚類,這一步可有可無。因為,最優聚類不一定有用,但有時可能有助於觀察資料。

2樓:黃纓寧

可以不指定個數,那就需要規則。

比如多近可以算作一類,這個指定了,類別數量也求解出來了。

沒有免費的午餐,必須要有某種先驗知識

3樓:

1.基於層次聚類演算法:

常見的有由下而上的兩步聚類,確定相似函式及相似度的ROCK聚類等2.基於密度聚類演算法:

常見的有基於最低信任值及最低n/N閥值的Dbscan3.基於神經網路的聚類:

常見的有把輸入變數離散到目標維度上的SOM4.基於統計學的聚類:

常見的有類似於變數迭代的方式,產出如同決策樹形式的COBWeb

4樓:Anika

Affinity Propagation可以,我試過,效果還不錯,需要設定引數來調整聚類效果。

具體參考FAQ for Affinity Propagation

scikit learn也實現了,可以直接測試使用。

5樓:孫曉東

6樓:Shu Matt

GMM cluster就完全不用指定聚類個數啊……可以用model evidence(簡單點就用BIC)確定聚類個數,或者用cross-validation的likelihood確定聚類個數。為什麼沒人回答這個……這個只是對很多問題效果不好而已,尤其是類別本身離Gaussian差很遠的時候。(但既然你覺得k-means可以用,那GMM cluster就不會差)

當然還是上面多人指出的Dirichlet Process才是王道,不過還是有個需要求的超引數alpha……

7樓:

MeanShift

Meanshift 是一種概率密度估計方法,所有點都會沿著梯度上公升方向收斂到它各自的mode(峰值)。收斂到同乙個mode的點為乙個類,最終有多少個mode,就有多少個類,不需要指定聚類個數。下面這張圖比較直觀,mode detection 自動確定有幾個類:

8樓:馬進

這個問題過去這麼久了。

9樓:Jayk

最簡單粗暴的辦法是在不同聚類數目使用Kmeans,利用Kmeans目標函式在不同聚類數目下的變化曲線確定聚類數目。

層次聚類不需要指定聚類數目,但需要乙個決定聚類停止的引數。

Dirichlet process可以,但需要指定先驗分布的超引數。

Affinity Propagation可以,但是實際中受初始化的描述「成為聚類中心的傾向」的引數影響很大。

此外 Self-tuning spectral clustering 也可以,但是計算量很大。

10樓:柴旭峰

聚類是聚類,規則是規則,別想著乙個演算法就能解決你想要的問題。

層次聚類會把你的記錄數從N聚稱乙個,不需要你事先制定聚類個數,但聚完後你得觀察,到哪個類結束,也就是你最終給他分類的個數。

聚類完後,後續需要決策樹提取規則,這個@wenyingge 已經提到過。

11樓:「已登出」

不要太相信有這種方法,一般都是將k轉化為別的引數。畢竟這是乙個如何防止過擬合的情況下得出最優解的問題。如果資源足夠豐富,可以考慮對不同的k賦予先驗的概率之後使用貝葉斯

順便推薦 Deciding the Number of Clusterings

12樓:

最近在看Mahout,你可以試試 Canopy Clustering 。

Canopy clustering algorithm

Thecanopy clustering algorithmis an unsupervised pre-clustering algorithm, often used as preprocessing step for the K-means algorithm or theHierarchical clustering algorithm.

13樓:

自動確定聚類個數的話,可以參考一下聚類穩定性(Cluster Stability)研究,2023年有個綜述(Clustering Stability: An Overview),說實話這方法有各種問題,但思路總是值得一試的。

作為無監督的聚類演算法,聚類的評價指標都需要用到標籤資訊嗎?

David 9 我來回答最後乙個問題影象聚類方法,牛津大學提出了乙個純神經網路方法,可以看看 初類 自問自答 經過這幾天的學習,如下幾篇文獻的方法挺好的,share it.1 Unsupervised Deep Embedding for Clustering Analysis DEC 2 Impr...

練599需不需要高抬指

高抬指僅作為一種單獨的手指力量訓練方式,如果整首曲子高抬指的話會非常難聽,手也會很累,所以彈曲子重要的是彈得好聽,手要自然 不需要。599為車爾尼所寫。他總結了浪漫主義以前的注重指力的鋼琴技巧,同時又指出了手臂重量的重要性,他在 鋼琴理論及演奏大全 指出 彈奏時,手的動作要藏起來,手指不可以抬得比必...

倉鼠可以不需要陽光嗎?

觀天的青蛙 每天定時餵食也是可以穩定生物鐘的,光線也可以用led燈檯燈之類的代替。但是倉鼠需不需要像人一樣利用Sunny合成維生素D,我就不太清楚了。 Emano 雖然倉鼠不是植物不需要曬太陽!但是一定的光線變化,還是有助於規律它的作息的。換個說法,如果長期分不清白天黑夜,還是有可能影響到健康噢。我...