乙個無監督學習演算法，如何判斷其好壞呢

1樓：Shu Matt

如果你使用的是概率方法，那麼你有model evidence（或者它的近似，例如AIC，BIC）可以當做判據。另外你也可以使用cross-validation的likelihood當近似判據。

例如，以下方法是概率方法：

GMM cluster，PPCA

以下方法不是：

k-means，PCA

2樓：「已登出」

when in doubt, subsampling簡單來說你可以以 sqrt 或者更小的隨機subsampling出的樣本去聚類 m次，看看有哪些點分類不太一致；

這樣我們有了variance的估計

bias的話我也沒有辦法

不過如果你演算法不是非常線性或者樣本太少，你要自己算subsampling後如何改聚類演算法來算原聚類演算法的 variance（說多了是淚

3樓：

無監督學習演算法我就當是聚類了((●●))

簡單來說聚類演算法的優異性主要依靠分類結果的好壞來分級，類內越相近，類間越遠越好。

時間複雜度和空間複雜度是錦上添花，在前面的好壞程度差不多的兩個演算法之間可以用這兩個條件來做進一步區分。

不過畢竟我們的時間和空間都不可能無窮，所以一般根據自己的實際情況，來選擇對應的演算法，很多時候我們選擇犧牲一部分效能（這裡指結果的好壞程度）來提公升效率（指時間複雜度和空間複雜度，當然很多時候這兩者可以有互換，雖然程度依演算法而變）。

4樓：KevinSun

終於有人來問這個我最感興趣的話題了。不過是手機回覆，說來話長，我就長話短說了：把無監督學習的結果帶給乙個有監督的任務來衡量。直接看結果。針對你這個問題，就是一樓哥們說的咯

5樓：

最簡單的情況：用normalized mutual information

它可以度量同一組資料的兩種給標籤的方法之間的差異所以你可以選取有標籤的資料來訓練，先去掉標籤混到一起，用不同的演算法聚類，聚類之後再按照聚好的類打上標籤，然後分別計算標準標籤（就是原來的標籤）和聚好類之後的標籤之間的差異大小，跟標準標籤相差最小的標籤就是最好的

其他的你去google好了，我也不是專門學ML的，只知道這一種ref:

Mutual information

Evaluation of clustering