LDA訓練出主題之後,怎麼再通過主題計算出一篇文件對於所有主題的分布呢?

時間 2021-05-10 05:32:56

1樓:

樓主好,想請教你問題具體怎麼做的。

是不是把詞表以及word-topic矩陣當做初始向量放進LDA模型裡,然後輸入待遇測的文字矩陣,一切處理與直接執行LDA模型類似,只是不更新word-topic矩陣。

依然有幾個細節不知道該怎麼處理:

1、待遇測的文字矩陣是否需要和訓練文字矩陣一起輸入?

2、待遇測文字裡如果有訓練文字矩陣沒有的文字該怎麼處理?

請求樓主解答!

2樓:

如果你用的是基於變分推斷(Variational Inference)而不是Gibbs Sampling,可以參考我的答案。

訓練過程中,我們訓練了兩類分布,主題在詞上的分布,是全域性變數,和文件在主題上的分布,區域性變數。運用EM思想,不斷迭代的過程中,總是先固定全域性變數,更新區域性變數,然後反過來固定區域性變數,更新全域性變數。

當你已經訓練出主題在詞上的分布,也就是固定了優秀的全域性變數,想要獲得一篇文件的主題分布,也就是區域性變數,用訓練過程中對應的部分實現,就是很自然的事情了。

更進一步,如果你用的是OnlineLDA,那就是更自然的事情了。因為Online的思想就是,每遇到一篇文件,我就利用現有的主題在詞上的分布,變分推斷一遍,得到該文件的主題分布。然後在此過程中可以利用獲得的新資訊,去優化已經擁有的主題在詞上的分布,或者不優化,隨意。

3樓:Xiaoxi

實際上用collapsed Gibbs sampling對模型進行inference的時候,最終估計的結果就是phi,所有單詞在主題上的分布,和theta,所有主題在文件上的分布。

理解collapsed Gibbs sampling的關鍵點在於理解這個取樣過程到底是在對什麼東西取樣。沒錯,就是z向量,也就是生成語料庫所有詞的隱含主題。因為隱含主題z和詞是一一對應的,所以很容易就能夠用z向量推算出phi和theta了。

4樓:雨落

根據大家的回答和我自己的理解,ldamodel可以得到P(w}t),也就是每個topic的詞分布

那麼多將詞和主題反過來,可以得到每個詞在不同topic中出的分布,這樣就可以得到p(t}w),但是這個貌似有點問題,比如乙個詞在所有的topic的詞分布中都不高,那麼也就是這個詞對於每個topic的分布都比較低嗎?也有可能這個詞只是在這個主題下才出現,但是對這個主題來說,這個詞也不是重要的,那麼這種請看貌似就比較難區分『

另外我再提個問題,gensim計算完之後,我怎麼得到一篇文件中每個詞對應的topic的分布?應該是跟整個document相關的吧?

5樓:Claire Chen

你模型訓練好之後應該可以得到乙個可以計算概率分布的輸出,比如每個topic下面每個詞出現的次數,然後你就可以估算每個詞在每個topic下面出現的概率,套一下貝葉斯公式就可以用來計算一篇文件在每個topic下面的概率

6樓:

樓主這麼一說忽然想到一問題。。。

lda算的是文件中主題分布的分布(P(theta|alpha, beta, D, d))。。。(theta是主題的分布,alpha是它的prior, beta是P(word|topic)的prior, D是training data, d是要拿來分析的doc。。。)

那當我們試圖用乙個theta表徵一篇文件時究竟用的什麼?theta的期望值還是什麼?這合適嗎?

用起來有沒有什麼要注意的?做inference的時候可是直接用P(theta|blahblah)的。。。

沒錯。。。我就是傳說中的借樓同問的。。。

使用過類固醇 再自然訓練可以練出比較好的體型嗎?

雲我無心 當然可以了。藥物分為三大類 類固醇 生長激素 胰島素 訓練破壞你的肌肉纖維,類固醇相當於修復肌肉纖維的工人,平常人只有十個,你用了類固醇可以有1000個。但正常人只能用到500個,這時候就要用生長激素了可以讓你肌肉纖維變多你就可以用1000個了。超強的恢復能力可以讓你一周十二練,增肌速度自...

小孩子是怎麼訓練出絕對音感的?

從小學鋼琴的話應該是有幫助的。小時候學琴我的老師有要求說要一邊彈一邊唱的,但是我有點害羞不太敢唱出來。就會一邊識譜一邊在腦子裡過固定音高就當我唱過惹。小學開始上視唱練耳課以後發現自己有絕對音高,而且當時並不能理解為啥別人不能聽懂。我自己的感覺是辨別樂器的音高就像聽懂別人講話一樣的。是後來才知道有首調...

扒譜的技能是怎麼訓練出來的?

多聽,自己多去嘗試 先從旋律扒起,之後扒伴奏,一步一步來 建立起和弦的概念會相對來說容易一些 伴奏一定要分清聲部 我在扒Mystery of love的伴奏的時候就太吃虧了,沒有乙個聲部乙個聲部釐清,結果因為太笨花了兩三天才扒明白 蒙特內哥羅大魔王 這種能力仰賴於對音程及其連線方式的熟練掌握,專門做...