做文字挖掘是否需要了解自然語言處理?

時間 2021-05-11 21:56:15

1樓:網感至察

網感至察:TML KnowledgeCloud如何實現「小知識+大資料=大知識」

網感至察:網感至察發布「認知雲」新產品——提供一站式知識圖譜服務

網感至察:知識圖譜如何助力輿情監控公升級為商業智慧型

2樓:林中鹿

完了,我發現我做了這麼久的輿情分析,竟然搞不清文字挖掘和自然語言處理之間的關係。有人說文字挖掘是資料探勘+自然語言處理的產物;有人說文字挖掘止於句法,自然語言處理識別語義,自然語言處理是文字挖掘+計算語言學+機器學習的產物。

我之前一直以為二者是等同的,我現在很懵。

3樓:

其他答案都已經說的很好了,我也是剛入門沒多久,以前關注的也是資料探勘方面,最近開始研究文字挖掘。我的理解是文字挖掘可以等價於自然語言處理加資料探勘。因為資料探勘需要的是資料,而文字提供的是文字,所以文字挖掘需要通過自然語言處理技術,提取文字特徵,往往是乙個向量表示,特徵提取也有很多模型,提取特徵以後,就可以進行資料探勘。

所以,文字挖掘肯定是需要自然語言處理技術的。

4樓:Bill

從本質上來講,自然語言處理是文字挖掘的基礎,學好自然語言理解能夠更有效地設計出完美的文字挖掘的應用演算法。但是,從學術領域講,自然語言處理和文字挖掘是平行的,二者有交集,也有不同的地方。自然語言處理顧名思義更側重於語言學,涉及詞彙、語義、語法等方面的知識,而文字挖掘更側重於技術手段,包括演算法時間複雜性、演算法空間複雜性、基於網路的應用、資料的儲存等方面的內容。

5樓:竹葉青

了解一下還是好的,我覺得現在資料探勘的問題在於:演算法學習的太多,卻不能夠有效的解決自己面臨的問題和持續優化,演算法和問題之間是存在很大的溝壑的

6樓:還剩下些鱷魚

同意@駱逸的說法,資料探勘的說法太大了,關鍵看你要做什麼,自然語言、推薦系統、影象處理等都可以叫資料探勘,關鍵看你要做什麼

7樓:王浩

這個問題有點大。

文字挖掘、NLP包括的細分領域都非常非常的寬闊。工作中,實際使用的領域,比較有限,因此乙個人沒有那麼多精力把所有這些細分領域都搞清楚搞明白。

既然如此,不如針對工作中實際是用的文字挖掘或NLP領域的某個細分方向,搞熟悉、搞透徹,玩明白。總比大而泛的學習,要好一些。

8樓:Eagle

兩者的關係就是當你在做文字挖掘的時候想要達成一些目的而想不到很好的辦法的時候

可以去NLP裡找多半能找到不錯的思路

從最基本的切詞到最上層的語義理解都算NLP的要解決的問題

9樓:yafeng deng

關於鄭鈞的回答,我覺得涉及的點很好,但是有些知識不是很準確;

map/reduce 是一種分布式計算的框架,TIIDF可以看作是一種特徵表示方法;統計方法比較常用的包括,樸素貝葉斯,最大後驗概率,EM演算法,CRF(比如用於分詞)等;

SVM不是聚類方法,而是分類回歸方法; VSM應該是vector-space-model吧,是向量空間模型,是文字表示的基本模型;常見的聚類方法分為兩類,層次聚類和扁平聚類,扁平聚類的代表演算法是經典的KMean演算法。分類方法也用的很多,比如SVM和決策樹。

NLP本身有一點比較特別的是語言模型;

10樓:劉文心

貴不在多,首先在於能真正了解文字挖掘的過程,以及中間涉及到的技術及應用場合。然後根據你的需求,對其中某乙個分支領域(比如是特徵抽取,還是句法分析等等)或者某乙個演算法(是貝葉斯還是SVM?)進行鑽研...

11樓:駱逸

作文本挖掘需要學習NLP,因為你需要處理文字,提取出你感興趣的資訊。如果你對機器學習熟悉,學習statistical NLP還是比較容易的。另外,也需要補充一些語言學基礎知識。

12樓:鄭昀

當然需要。

既然是「文字挖掘」,自然語言處理最基本的功能點肯定都要做:

新詞發現、分詞、詞性標註、分類、自動提取標籤、實體自動發現和識別。

最基本的這些功能點做了之後,可以用統計方法完成簡單文字挖掘應用,統計方法比如:

TF/IDF、Map/Reduce、貝葉斯。

再深入一些,就需要:

聚類(層次聚類、SVM、VSM)、情感趨勢分析。

再想提高:

語法分析、句式判斷。

但一般做到NLP最基本功能點+統計方法即可搞定一般的網際網路應用。

做策劃需要了解哪些東西?

許先森 有好的策劃方案很重要!好的方案,得配上好的工具,才能產生出更大的威力。禮品不只是單純的物品,禮品的本質在於傳情達意,它還承載著禮節,並牽涉到儀式。送禮表達了自己的感情 加深與別人間的溝通和交流,是一種感情和意義上的互通交融。禮品的價值在於送禮者的善意和心意,禮品是人品的延續,是社交的紐帶 送...

做地產文案策劃需要了解和具備哪些東西?

活動盒子 做地產文案,可以看看萬科是怎麼做的!2003年,珍視生活品質 系列最溫馨的燈光一定在你回家的路上 如果人居的現代化只能換來淡漠和冰冷,那麼它將一文不值,我們深信家的本質是內心的歸宿,而真誠的關懷和親近則是最好的人際原則。多年來,我們努力營造充滿人情味的服務氣質和社群氛圍,贏得有口皆碑的讚譽...

乙個好的作者,是否需要了解很多很多生僻詞語?只用常規字能否寫出好文章?

Arthur Wang 我感覺上面兩個兄弟理解錯了,題主的問題焦點在 生僻詞 而非 生僻字 差別是,生僻詞的字可以是大家都認識的字。乙個好的作家,生僻詞恐怕不會常用,因為作品要表達讓讀者能夠理解的意境 否則自言自語也就是了。所以好文章對詞的需求是 準確 即不是生僻,也不是biger高 當我們稱讚乙個...