LDA主題模型，不是可以對文件直接分類？？

1樓：錯亂空時

你可以認為LDA是一種降維（並不是另一種LDA降維），降維之後再套模型，很自然的思路。本來要對文字進行分類或者聚類，但乙個文字裡有500個詞，有5萬個文字，雖有重複詞，就算50萬個詞吧，但也還是太多了，還有可能兩個文字意思一致但用詞不同，怎麼辦呢？LDA這時候就有作用了，我將文字分成50個主題，這樣我將原來50萬維的特徵變成了50維，大大減少了計算量，而且原來那些同義詞很可能在同乙個主題裡，某種程度上還提高了效果。

這時候又有問題了，既然LDA已經把文字分成了50個主題，那直接這樣不就分好了嗎？這是因為，並不是每個文件對應乙個主題，而是每個文字可能有1個到50個主題不等，那新樣本的種數可能有2∧50，遠超樣本個數50000個，而且主題之間還有一些聯絡，所以再以主題作為特徵，套用其他分類或聚類方法進行計算。當然，又有問題了，那可以取文字的特有主題作為結果嗎？

有些時候是可以的，但我們不能很好地控制LDA生成的主題，有些個主題沒有意義，而有些主題沒能提取出來，這樣只能得到小部分有意義的類。ps：有時候直接用字詞作為特徵分類或聚類，效果一級棒。

LDA主題模型，不是可以對文件直接分類？？

把LDA主題模型作為自己的碩士課題，有什麼可以做的？

LDA訓練出主題之後，怎麼再通過主題計算出一篇文件對於所有主題的分布呢？

LDA話題模型訓練，我有40萬個訓練文件，該如何預估所需的話題個數最合適呢？

其他用戶還看了：