對微博這種短文本進行分類或者聚類,會有什麼前景嗎

時間 2021-05-30 18:30:23

1樓:Charlie

沒有理解lz說的前景是指什麼。我可以這樣理解lz的意思嗎:對微博這種段文字進行分類聚類,是有用的嗎?

分類和聚類是資料探勘當中最常見的兩個任務。只要我們有這樣的需求就可以對目標進行分類聚類。

那我們有對微博進行分類聚類的需求嗎?明顯是有的,所以對微博進行分類和聚類是有用的。

微博的挑戰性和難點

微博上的挖掘不同於一般文字的挖掘。微博段文字挖掘主要的難點在於:用於不規範;文字過短而導致的特徵向量十分的稀疏;無用資訊特別多,雜訊是很大的;

對於分類

主要是克復文件的稀疏性。可以使用一些擴充套件特徵維度的方法。比如LDA。可以使用SVM,用核函式的方法擴充套件特徵空間(但是這樣一來整個特徵空間都被擴充套件了)。

對於聚類

微博是一種社會網路。可以使用傳統的社會網路聚類方法進行聚類。這樣得到的社群或者聚簇往往是從社交關係這個層面上的。

如果從微博文本上進行聚類的話,就可以得到字面上(使用傳統基於相似度的方法進行聚類),甚至是語義上的潛在的社群成員之間的內在聯絡(使用主題模型進行聚類)。

對於微博分析的前景

如何看待微博對阿里系競品進行限流?

叫我花花 其他不說,微博的商業氣息真的是越來越濃厚了,微博熱搜廣告位真的太多了。這麼說吧,她想讓我們看到什麼就出來什麼,不想讓我們看到的我們也沒辦法看到。這次停更一周也不知道有沒有什麼變化,真的希望有關部門能夠好好整頓一下。 周瑩 能怎麼看?商業巨頭阿里開始牽制網際網路了唄!反正我覺得吧,這種限流現...

微博上看到的,如何評價這種觀點?

這頭豬還宰不宰 這哪是婚姻,這是找了個能發生性關係的室友。僅此而已。如果把平權理解成對半分,那就永遠不可能分的平。哦,等到男人也能分娩,女人可以無性繁殖那天,也許就實現了。 向特特 以為什麼都對半分就平等了?如果結婚的時候有一方就是拿不出那麼多錢來達到對等,怎麼辦?不結婚了?結婚以後,因為各種原因,...

微博實名制對新浪微博來說是福是禍?

微博強制索要個人身份資訊,雖然出發點是為了清理微博環境,讓微博上的人負責任發言,然而我個人的感受是不舒服的。這樣下猛藥會對很多老實發言使用者的使用體驗產生衝擊,導致很多使用者棄博。我覺得微博以前的定位就是讓人能夠暢所欲言,給人的交流營造乙個放鬆的環境,現在則是讓人帶著鐐銬起舞。微博實名制並索要個人資...