LDA主題模型,不是可以對文件直接分類??

時間 2021-05-31 06:14:49

1樓:錯亂空時

你可以認為LDA是一種降維(並不是另一種LDA降維),降維之後再套模型,很自然的思路。本來要對文字進行分類或者聚類,但乙個文字裡有500個詞,有5萬個文字,雖有重複詞,就算50萬個詞吧,但也還是太多了,還有可能兩個文字意思一致但用詞不同,怎麼辦呢?LDA這時候就有作用了,我將文字分成50個主題,這樣我將原來50萬維的特徵變成了50維,大大減少了計算量,而且原來那些同義詞很可能在同乙個主題裡,某種程度上還提高了效果。

這時候又有問題了,既然LDA已經把文字分成了50個主題,那直接這樣不就分好了嗎?這是因為,並不是每個文件對應乙個主題,而是每個文字可能有1個到50個主題不等,那新樣本的種數可能有2∧50,遠超樣本個數50000個,而且主題之間還有一些聯絡,所以再以主題作為特徵,套用其他分類或聚類方法進行計算。當然,又有問題了,那可以取文字的特有主題作為結果嗎?

有些時候是可以的,但我們不能很好地控制LDA生成的主題,有些個主題沒有意義,而有些主題沒能提取出來,這樣只能得到小部分有意義的類。ps:有時候直接用字詞作為特徵分類或聚類,效果一級棒。

把LDA主題模型作為自己的碩士課題,有什麼可以做的?

菜菜的蘋果 嗨,題主,你現在做的怎麼樣了,我也是馬上要開題了,再想要不要做LDA,我現在對LDA也只是有個簡單的了解,怕最後做不出什麼東西,畢不了業啊。所以想問問LDA有哪些方面可做呢 靈性 題主你好,請問你的開題進行的怎麼樣了?我現在也是研二,最近還有不到1個月要開題了,打算在LDA上搞點東西,但...

LDA訓練出主題之後,怎麼再通過主題計算出一篇文件對於所有主題的分布呢?

樓主好,想請教你問題具體怎麼做的。是不是把詞表以及word topic矩陣當做初始向量放進LDA模型裡,然後輸入待遇測的文字矩陣,一切處理與直接執行LDA模型類似,只是不更新word topic矩陣。依然有幾個細節不知道該怎麼處理 1 待遇測的文字矩陣是否需要和訓練文字矩陣一起輸入?2 待遇測文字裡...

LDA話題模型訓練,我有40萬個訓練文件,該如何預估所需的話題個數最合適呢?

40w文件不重要,LDA記憶體取決於 k times vocab size 就是說估計記憶體占用你應該使用 CountVectorize 看看 vocabulary size 是怎麼樣的,再乘以主題數k,再乘以每個字串的記憶體占用,這樣得出來的大小才是 LDA 能跑成功的基本記憶體。然後才能開始計算...