用於資料探勘的聚類演算法有哪些,各有何優勢?

時間 2021-05-09 19:51:09

1樓:

對前面的回答有一些我自己的理解

所謂聚類,不過是我們人對一類演算法的人工分類,是我們人類起的名字,在某種情況下,這個詞非常好,在某種情況下,這個詞有一定的誤導或者偏頗性

我們可以管它叫聚類,也可以叫劃片,叫分組歸併,叫連線凝聚1樓上提到的K-means, 我更傾向於認為是劃片(舉個例子,你要把世界地圖分為兩個類,那日本基本會和中國劃在一起,但他們差異極大)

2樓上提到的層次聚類,我更傾向於認為是分組歸併3樓上提到的密度聚模擬如dbscan,我更傾向於認為叫連線凝聚比較合適

2樓:啊嗚一口甜甜

聚類是不知道成果會有多少類的,即可能聚成10個類也可能聚成100個類,只是依據某些相似性條件把資料聚合在一起,當然也有讓使用者自定義類數意圖聚類演算法,但這個數目也欠好定的。分類是已知一共有多少類,並清晰知道該類的特色,然後把不知道的按必定規矩分到某乙個類中聚類聚類的資料集要比較多,這樣才有東西聚成一堆一堆的。分類能夠多能夠少,當然資料量大才幹很好地闡明分類演算法的優異。

但實際上分類演算法在斷定某些規矩後,你能夠只要乙個不知道的資料也能夠把它分到某乙個類別傍邊,但聚類假如只要乙個不知道的資料怎麼聚啊。標準化/歸一化都是對變數進行scale的資料預處理根本方法,是否選用或選用哪種,徹底取決於你運用的資料剖析處理演算法的需求。

此類預處理主要有兩個意圖,一是使變數間標準接近,防止呈現計算差錯或影響如間隔之類度量的均衡性。二是使各變數值或樣本向量的度量值在演算法要求的區間內。

至於正態散布性,一般是演算法的適用假定,應該在演算法使用前或後做此查驗以保證可靠性,而不是要求用什麼改換方法把資料處理成正態散布。如差錯的正態散布假定是回歸無偏的根本條件,或某些根據類簇是正態散布的聚類演算法只要在問題的確契合這種形式下才幹得到正確成果。

當然,假如只是要將特定散布資料轉換成另一種散布仍是有方法的。但用處應該比較特別。

3樓:mathor

聚類的定義與目標:

聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。

聚類分析的目標就是在相似的基礎上收集資料來分類。

聚類演算法實際用處舉例:

現在很多軟體都可以進行「使用者畫像」,「使用者畫像」就是軟體根據使用者的日常行為將使用者分類的過程。而這其中無疑就需要用到聚類演算法。

聚類演算法種類與優缺點:http://www.

聚類演算法之我見:

聚類演算法是機器學習的乙個重要組成部分,但是我們要分清聚類與分類的區別,不能將二者混為一談。分類演算法肯定是需要有學習語料,然後通過學習語料的學習之後的模板來匹配我們的測試語料集,將測試語料集合進行按照預先學習的語料模板來分類;聚類演算法與分類演算法最大的區別是聚類演算法沒有學習語料集合。

比如KNN就是分類演算法,而k-means就是聚類演算法。具體的不再闡述。

4樓:new colour

聚類演算法有好幾種不同的分類方法,說三種常見的大類吧。

partitional clustering

Hierarchical clustering

Density-based clustering

最典型的就是K-means。原理就不說了。前面也有答主提到你可以使用不同的鄰近度函式。

優點:簡單、時間複雜度、空間複雜度低

缺點:隨機初始化的中心點對結果影響很大;

hold不住族之間的size或密度差別較大的情況,因為K-means的目標函式是距離和,導致最後必然出來一種很社會主義的結果:

(也有一些客服的辦法,初始的k可以取大一點,然後再合併)

同理,非球形形狀的族也hold不住

基本凝集層次聚類演算法:

計算鄰近度矩陣

repeat

合併最接近的兩個族

更新鄰近性矩陣

until 僅剩下乙個族

很像哈夫曼演算法,計算族的鄰近性的時候可以有MIN、MAX、組平均、Distance Between Centroids等方法(含義顧名思義),不同的鄰近性度量可能會產生不同的結果。也有各自的優缺點,比如MIN就會對雜訊或outlier很敏感

缺點:時間複雜度高啊,o(m^3),改進後的演算法也有o(m^2lgm),m為點的個數;貪心演算法的缺點,一步錯步步錯;同K-means,difficulty handling different sized clusters and convex shapes

優點:可解釋性好(如當需要建立一種分類法時);還有些研究表明這些演算法能產生高質量的聚類,也會應用在上面說的先取K比較大的K-means後的合併階段;還有對於K-means不能解決的非球形族就可以解決了

這個就是基於密度的聚類演算法了。要了解這個演算法首先要知道三個概念

core point:奴隸主

border point:奴隸

noise point:忽視它

首先我們先找core points(奴隸主),以奴隸主為中心,我們計算Density(number of points within a specified radius (Eps))。這裡我們設定MinPts=4,也就是說如果乙個奴隸主有大於等於4個奴隸的話,它就可以稱為一方諸侯(core points)了,它圈住的奴隸就是border point。即沒有成為奴隸或奴隸主的點我們就捨棄掉(border point)。

下面遍歷我們的奴隸主集,然後以奴隸主為中心,和它的所有奴隸一起劃為乙個lable,再遍歷下個core points,如果它還沒有lable,重複上面的動作,繼續。。。

優缺點:

5樓:greenmoon55

漫談 Clustering 系列 Free Mind http://

blog.pluskid.org/?

page_id=78

6樓:徐志強

可以參考下下面的文章,後續還會對各個類別的聚類演算法每一類中進行挑選介紹。

聚類演算法第一篇-概覽 - 徐志強的文章 - 知乎專欄

7樓:

。。。。 先放一下資料量吧, 過T的也就能整個層次聚類,或者改進的層次聚類。

如果小一點的話, 建議K-means。

如果是幾G這種的, 試試普聚類啥的, 有可能能跑。

如果再小的, 我覺得用規則直接人肉聚類吧。

如果再小, 建議手標。

至於其他的方法, 到了工業界, 貌似沒聽說過特別好使的。

有哪些好的大資料探勘演算法?

梁勇 必讀經典 1.Programming Collective Intelligence 作者 Toby Segaran 出版社 O Reilly Media,Inc.評語 近年出的入門好書,培養興趣是最重要的一環.2.Machine Learning 作者 Tom M.Mitchell出版社 M...

資料探勘中常見的 異常檢測 演算法有哪些?

大龍貓 發現了今年的一篇深度學習在異常檢測上的綜述,感覺還不錯 Deep Learning for Anomaly Detection A Survey yycc 分享乙個比較冷門而且比較玄幻的演算法,至今我仍沒能理解該團隊的想法 演算法名稱 HTM Hierarchical Temporal Me...

有哪些好用的機器學習和資料探勘工具?

BattlesNeo 免費的免費的 Rapid Miner IBM SPSS Modeler Oracle Data Mining Teradata Framed Data Kaggle Weka Rattle KNIME Python 謝冬梅 Daily Life imblearn,albumen...