做客戶分群時，怎樣科學的進行聚類

1樓：寶珠道人

其實題主已經在問題的詳情中說明了解決方案，即選擇特徵和選擇演算法。

首先回答一下特徵選擇的問題。可能這40個特徵並不是每個特徵都有用，例如：客戶的頭髮數量是奇數還是偶數，使用者有幾隻手（特殊領域除外，非歧視），這種特徵在有帶標籤資料時可以通過相關性分析去除掉與標籤相關性較小的變數。

40個特徵中還可能有些特徵是冗餘特徵，例如：使用者的身高是多少厘公尺和使用者的身高是多少英吋，這種特徵同樣可以在相關分析時，只保留兩個相關性較高的變數中的乙個，或者對二者做其他相關處理。這個例子中兩個特徵是線性相關的，有些特徵是非線性相關的，例如正方形的邊長和面積，這種冗餘的特徵可以通過流行學習的方法在降維時減少特徵的冗餘，乙個常見的例子是地球處於三維空間中，原本需要三個引數才能表達出某一點的座標，但我們經常用經緯度這兩個引數來表達。

如果經過了上述步驟後留下的特徵仍然很多，還可通過各種降維手段來降低維數以避免維數災難。

另外就是聚類演算法選擇的問題。常用的聚類演算法被分為三大類，基於密度的類，如：DBSCAN；基於原型的聚類，如：

k-means，LVQ，Mixture-of-Gaussian；層次聚類，如：AGNES。網上有大量的關於各種聚類演算法原理的解釋，但可能題主看完了之後仍然不知道需要選擇哪種聚類演算法。

實際上，各種聚類演算法有不同的使用場景，評價乙個聚類演算法的優劣是十分主觀的——就是看聚類的結果是否符合自己的期望或者是否具有較好的實際意義。比較客觀的評價聚類演算法的好壞的方法有兩大類：內部指標，如：

DB指數。外部指標，如：蘭德指數。

客觀的評價方法只具有參考意義，評價聚類演算法優劣還是要聚類結果來看，調參在聚類演算法的實現中也是關鍵的一步，對聚類結果的好壞起著決定性作用。

2樓：wei chris

如果單從模型的角度講，你還可以試試基於密度的聚類和層級聚類。但是基本上都需要設定超參。這些超參的設定沒有一概的方法。

關於特徵選取這塊，基於監督式的方法不太可能，除非你有監督資料，所以用一下特徵的相關性分析，去掉重複特徵就可以。

但是我很想說的是，特徵的選取在實際場景中需要考慮業務。例如你做乙個包含攝氏溫度和華氏溫度指標的聚類，這兩個特徵必然有乙個冗餘。你給美中國人做聚類最好用華氏，給中中國人聚類最後用攝氏。

聚類問題剛開始都是盲目的，有風險的，只能多次溝通迭代。

做客戶分群時，怎樣科學的進行聚類

銷售技巧，如果客戶是異性，對客戶做客情時，應該怎麼保持適當的距離？

TO B業務如何做客戶增長？

企業為什麼要做客戶體驗管理？

其他用戶還看了：