做客戶分群時,怎樣科學的進行聚類

時間 2021-06-01 14:35:16

1樓:寶珠道人

其實題主已經在問題的詳情中說明了解決方案,即選擇特徵和選擇演算法。

首先回答一下特徵選擇的問題。可能這40個特徵並不是每個特徵都有用,例如:客戶的頭髮數量是奇數還是偶數,使用者有幾隻手(特殊領域除外,非歧視),這種特徵在有帶標籤資料時可以通過相關性分析去除掉與標籤相關性較小的變數。

40個特徵中還可能有些特徵是冗餘特徵,例如:使用者的身高是多少厘公尺和使用者的身高是多少英吋,這種特徵同樣可以在相關分析時,只保留兩個相關性較高的變數中的乙個,或者對二者做其他相關處理。這個例子中兩個特徵是線性相關的,有些特徵是非線性相關的,例如正方形的邊長和面積,這種冗餘的特徵可以通過流行學習的方法在降維時減少特徵的冗餘,乙個常見的例子是地球處於三維空間中,原本需要三個引數才能表達出某一點的座標,但我們經常用經緯度這兩個引數來表達。

如果經過了上述步驟後留下的特徵仍然很多,還可通過各種降維手段來降低維數以避免維數災難。

另外就是聚類演算法選擇的問題。常用的聚類演算法被分為三大類,基於密度的類,如:DBSCAN;基於原型的聚類,如:

k-means,LVQ,Mixture-of-Gaussian;層次聚類,如:AGNES。網上有大量的關於各種聚類演算法原理的解釋,但可能題主看完了之後仍然不知道需要選擇哪種聚類演算法。

實際上,各種聚類演算法有不同的使用場景,評價乙個聚類演算法的優劣是十分主觀的——就是看聚類的結果是否符合自己的期望或者是否具有較好的實際意義。比較客觀的評價聚類演算法的好壞的方法有兩大類:內部指標,如:

DB指數。外部指標,如:蘭德指數。

客觀的評價方法只具有參考意義,評價聚類演算法優劣還是要聚類結果來看,調參在聚類演算法的實現中也是關鍵的一步,對聚類結果的好壞起著決定性作用。

2樓:wei chris

如果單從模型的角度講,你還可以試試基於密度的聚類和層級聚類。但是基本上都需要設定超參。這些超參的設定沒有一概的方法。

關於特徵選取這塊,基於監督式的方法不太可能,除非你有監督資料,所以用一下特徵的相關性分析,去掉重複特徵就可以。

但是我很想說的是,特徵的選取在實際場景中需要考慮業務。例如你做乙個包含攝氏溫度和華氏溫度指標的聚類,這兩個特徵必然有乙個冗餘。你給美中國人做聚類最好用華氏,給中中國人聚類最後用攝氏。

聚類問題剛開始都是盲目的,有風險的,只能多次溝通迭代。

銷售技巧,如果客戶是異性,對客戶做客情時,應該怎麼保持適當的距離?

呆瓜 首先,這只是工作,既然是工作就要看付出回報比 其次,要明白自己內心的底線,不要讓人踏過,不然就會變成無下限 當然這樣的人也挺可怕的 最後,客戶開始都是試探的目的,就看誰更高了。實在不行,世界那麼大,客戶何其多。 北北北 哎,一看你這樣就是你男友對你很在意。一句話,你要是幹銷售,你就別怕搞曖昧,...

TO B業務如何做客戶增長?

本叨 增長黑客只是一套基於科學推斷並測試,不斷迭代增長的理念,並不是一套固定的打法,不需要迷信 而對to b的業務來說,目前我並沒看到什麼一就用靈的神招 我研究過一些B2B行業優秀案例,各有各的優秀和側重點,但都有著相似的路徑 乙個是以內容營銷為王道,另乙個是注重細節和資料,不斷試錯迭代 ToB使用...

企業為什麼要做客戶體驗管理?

費怡 客戶體驗對於企業的價值,現在已經不用多說。在數位化如此發達的現在,真正可以讓企業持續盈利的關鍵就是時刻以客戶為中心,以客戶需求為導向進行產品以及服務策略制定。而此背景下,對於客戶體驗的管理,也變得越來越重要。企業做客戶體驗管理,主要有三方面的價值 1 明確體驗平的業差距 知己知彼,百戰不殆。通...