目前有比 Topic Model 更先進的聚類方式麼?比如針對短文本的 加入情感分析的?

時間 2021-05-12 03:56:08

1樓:

各種embedding的方法,比如word2vec,glove以及一些深度學習相關的embedding演算法。把文字向量化之後,再用經典的聚類演算法。

2樓:

對於模型本身來說,只有對於特定任務的適用或者不適用,而沒有先進不先進只說。

我看到的這個問題是「目前有比主題模型(topic model)更先進的文字分類/聚類方式麼?」——我的理解是,主題模型在哪些任務上適用,哪些不適用。

首先是以文字表示為基礎的文字相似度分析,我認為這個可以代表不同文字表示在一般文字分類任務上的能力水平。眾所周知,TF-IDF、LDA、word embedding是三種主流文字表示方式。根據Topical Word Embeddings 的報告可知,在文字相似度的評測中結合LDA和word embedding的TWE-1能夠取得最好效果。

作者的方法是,先訓練LDA,然後將每個詞和詞對應的topic一起作為中心詞進行訓練。從結論可以看出,適當的結合topic model的稀疏性,能夠得到state-of-the-art的文字表示方法。特別要注意的是,「適當」在這裡不是一句空話,因為這個文章還提出了TWE-2,TWE-3兩個模型。

這兩個模型更深的結合了topic model的稀疏性,但是效果並不理想。

然後是文字聚類任務,這點請首先看樓上霍華德博士的觀點。主題模型的主要優點是不會像判別模型一樣,由於labels太多導致效能迅速下降。因為在判別模型中,labels判別的基礎是二分類模型。

而labels對於documents,符合齊普夫定律,即大量的labels只被賦予了很少數的documents。這樣,二分類模型面對的情況就是陰性資料和陽性資料數量極端不平衡,導致效能下降。

3樓:陳運文

主題模型認為每個文件都有對應都主題,每個主題對應一些單詞,所以可以根據文字中包含的詞劃分其所屬主題,來實現文字的分類聚類

以新聞主題分類任務來舉例,如某個文件中大量出現「范冰冰」、「楊冪」等詞,該文件很大可能屬於「娛樂類」。而另一篇文件大量出現「庫里」、「鄧肯」之類的詞,則表示該文件很大可能屬於「體育類」。

常用的分類模型有:詞袋模型,LDA,LSI,SVM文字分類需要CNN? No!fastText完美解決你的需求(前篇)

此外,深度學習在文字分類方面的應用也是乙個新的嘗試。

如CNN、RNN等都是現在使用較多的方法。

CNN可參考:

Understanding how Convolutional Neural Network (CNN) perform text classification with word embeddings

Understanding how Convolutional Neural Network (CNN) perform text classification with word embeddings

RNN可參考:

NLP相關:

陳運文:達觀資料:如何用深度學習做好長文字分類與法律文書智慧型化處理

4樓:粉嘟嘟的豬小屁

短文本首推fasttext,速度快,效果比肩深度學習

當然,分類最重要的是做特徵工程,特徵提取得好,用SVM也能有很好的效果

5樓:

首先,你這是兩個點,分類和聚類。

簡單說說分類好了,傳統方法來講,將文字通過tfidf、word2vec、glove等各種花式取詞向量或句向量。通過傳統分類器,如svm,lr等,簡單暴力,可做為base model,可達到一定的效果。

近幾年吵得火熱的深度,效果就更為顯著了。首先就是14年Kim大神提出的text-cnn, 簡單的神經網路,卻達到了顯著的效果。然後就是各種LSTM, 單向,雙向什麼的。

CNN呢,就是卷積層和池化層不停做文章。當然不得不提attention, 加attention顯然理論上效果更好。補充一句,簡單粗暴的話,首推fasttext。

大二生目前有存款4000,如何能讓錢變得更多?

農場主的兒子 可以在學校附近租個小店面開奶茶店,當然資金估計不夠,可以找人合夥。平時空閒時間可以自己看店,再從學校招幾個兼職的同學幫忙就夠了。奶茶的利潤還是很高的,注意多搞活動宣傳,期末的時候可以開設通宵自習等等 怎麼開好店這種手段可以參考別的店,我也沒開過就多提了,網上應該也能搜到 講一下我身邊真...

我們這個社會目前有多冷漠?

羽項 這個世界一直都是沒有變的。人類那麼文明過去了。窮人還是那群窮人。比如像你,你的父親的父親的父親的父親那麼窮,到你這一代還是那麼窮。因為窮本身是一種毒藥。傳染性極高。而窮人在這個社會層面,本身就是沒有既有。對他們來說能吃飽就已經算不錯了,別談情緒,要開心又要快樂,不可能。只是這一代的年輕人讀書讀...

hdmi2 1 目前有必要嗎?

仙魚 如果是新買電視,推薦買HDMI 2.1電視 如果用的是老電視,建議等等再公升級。PS5的HDMI 2.1介面,雖然能提供32Gb的頻寬,但是受限於GPU效能,3A大作跑4K 120HZ幾乎不可能,也跑不滿32Gb的頻寬,所以使用HDMI 2.0的電視也能有95 的PS5體驗。HDMI2.1和2...