如何對使用者進行聚類分析?

時間 2021-05-11 22:51:09

1樓:

聚類是為運營服務的,當然要先確定你的業務目標有用的資料,其他維度都是為這個個服務的。比如訂單量,複購率,客單價,購物車,瀏覽類別,影響實際運營的操作是推薦品類,關聯銷售這些具體的動作。

買了這個東西的使用者後續還買了什麼,就是乙個挺實用的推薦演算法,要提前算好結果,這算不算聚類分析也不必計較,聚類只是一種工具,不能手裡有個錘子看什麼都像釘子。

2樓:

用spss和latentGOLD都做過聚類分析,感覺latentGOLD好一點,樣本量的話多有多的做法,少有少的做法,至少幾百吧,畢竟聚類是一種細分,樣本太少,也沒有太大的意義,方法的話大多數是定量,

3樓:金奇雋

需要蒐集使用者的哪些特徵?常用的使用者特徵變數有:

①人口學變數:如年齡、性別、婚姻、教育程度、職業、收入等。通過人口學變數進行分類,了解每類人口的需求有何差異。

②使用者目標:如使用者為什麼使用這個產品?為什麼選擇線上購買?了解不同使用目的的使用者的各自特徵,從而檢視各類目標使用者的需求。

③使用者使用場景:使用者在什麼時候,什麼情況下使用這個產品?了解使用者在各類場景下的偏好/行為差異。

④使用者行為資料:如使用頻率,使用時長,客單價等。劃分使用者活躍等級,使用者價值等級等。

⑤態度傾向量表:如消費偏好,價值觀等,看不同價值觀、不同生活方式的群體在消費取向或行為上的差異。

需要多少樣本量?沒有限制,通常情況下與實際應用有關,如果非要加乙個理論的限制,通常認為,樣本的個數要大於聚類個數的平方。

①如果需要聚類的資料量較少(<100),那麼三種方法(層次聚類法,K-均值聚類法,兩步聚類法)都可以考慮使用。優先考慮層次聚類法,因為層次聚類法產生的樹狀圖更加直觀形象,易於解釋,並且,層次聚類法提供方法、距離計算方式、標準化方式的豐富程度也是其他兩種方法所無法比擬的。

②如果需要聚類的資料量較大(>1000),應該考慮選擇快速聚類別法或者兩步聚類法進行。

③如果資料量在100~1000之間,理論上現在的計算條件是可能滿足任何聚類方法的要求的,但是結果的展示會比較困難,例如不可能再去直接觀察樹狀圖了。

應用定量方法還是定性方法?

1.聚類分析的定義與用途聚類分析(Cluster Analysis)是一種探索性的資料分析方法,根據指標/變數的資料結構特徵,對資料進行分類,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低。

2.聚類分析的方法①層次聚類法(Hierarchical),也叫系統聚類法。既可處理分類變數,也可處理連續變數,但不能同時處理兩種變數型別,不需要指定類別數。

聚類結果間存在著巢狀,或者說層次的關係。

②K-均值聚類法(K-Means Cluster),也叫快速聚類法。針對連續變數,也可處理有序分類變數,運算很快,但需要指定類別數。K-均值聚類法不會自動對資料進行標準化處理,需要先自己手動進行標準化分析。

③兩步聚類法(Two-Step Cluster):可以同時處理分類變數和連續變數,能自動識別最佳的類別數,結果比較穩定。如果只對連續變數進行聚類,描述記錄之間的距離性時可以使用歐氏(Euclidean)距離,也可以使用對數似然值(Log-likelihood),如果使用前者,則該方法和傳統的聚類方法並無太大區別;但是若進行聚類的還有離散變數,那麼就只能使用對數似然值來表述記錄間的差異性。

當聚類指標為有序類別變數時,Two-Step Cluster出來的分類結果沒有K-means cluster的明晰,這是因為K-means演算法假定聚類指標變數為連續變數。

3.聚類分析的步驟①確定研究目的:研究問題關注點有哪些、是否有先驗分類數…

②問卷編制:態度語句李克特專案、有序類別…

④聚類分析:聚類分析方法選擇、資料標準化方法、聚類類別數確定…

⑤結果檢驗:類別間差異分析、是否符合常理…

⑥聚類結果解釋:類別的命名、類別間的差異、結合定性資料解釋…

4樓:柴旭峰

需要蒐集使用者的哪些特徵?

答:哪些特徵要根據你的業務目標,雖然聚類是無監督學習,但任何挖掘都有背後的業務背景,根據業務背景挑選變數。

需要多少樣本量?

理論上聚類的樣本越大越好。

5樓:郝智恒

從統計學習的角度來看,聚類分析是一種無監督的學習過程。通過使用者的某種距離之間的遠近來確定哪些使用者被聚為一類。距離,不僅僅包括了常見的歐幾里得距離,還有馬氏距離,甚至夾角的余弦也能表示距離。

距離很大程度上是做分析的人本身來定義的。因此,對於第乙個問題,需要收集什麼特徵,這需要具體問題具體分析。需要樣本量,你有多少使用者做聚類就是多少。

聚類本身不需要估計引數,因此考慮樣本量是沒有意義的。但是對於用以聚類的距離,可能需要進行某些估計,但這就是另外乙個問題了。

6樓:MrSD

所謂聚類分析,其實是根據不同類別之間的親疏關係來進行歸類(親疏關係用距離來衡量。n多距離可以選做參考)。所以是定量的方法。

哪些特徵?

這個就不是方法能決定的,而是問題所決定的。比如對不同班級的學生成績做聚類。那收集不同班級的各科成績當然就是好的特徵,收集他們的身高,就不是很必要了(當然,你也可以認為成績和身高有關係。。

)樣本量這個,,功夫不到家啊,我還沒學,回頭查查資料,看能不能補上這一塊。

如何對自己進行心理分析?

於飛 心身症狀的背後是負面情緒,負面情緒的背後是對立和抗拒,抗拒的背後是不滿和怨恨,不滿的背後是情感需求。首先,症狀的背後是負面情緒。比如由擔心引發的焦慮或疑病症,由難過引發的抑鬱症,由害怕引發的恐懼症,以及焦慮 疑病和恐懼症的公升級版強迫症。也包括人際和親密關係 學習或工作 環境適應等一般的心理問...

如何通過應用統計進行使用者行為分析,在APP做到精細化運營?

小小木 通過對使用者行為資料的採集 分析,洞察使用者需求,明確使用者生命週期及價值!在適當的時間給適當的人群採取適當的營銷策略!例 通過對使用者行為資料的採集跟蹤以及與業務的結合。了解到一部分使用者正處在易流失階段,那麼根據歷史資料了解到使用者為什麼來,才能明確怎麼做使用者才不會走。簡單說就是通過資...

如何對財務舞弊案例進行分析?

Youngs Wang 談到舞弊,說明一定是主觀故意。用舞弊三角理論去分析就好!企業舞弊產生的原因是由壓力 機會和藉口三要素組成的,這三者也是美國最新的反舞弊準則 SAS No.99 提醒註冊會計師應該關注的舞弊產生的主要條件。壓力要素 1.壓力要素是企業舞弊者的行為動機。刺激個人為其自身利益而進行...