自然語言處理任務中標點和停用詞到底該不該去掉?

時間 2021-05-31 05:51:58

1樓:SunnyCareer

停用詞一般是沒有語意表達的一些詞彙,作為一種雜訊,是應該去掉的。但是標點符號,另當別論了,一些標點符號能表達語意,比如!,?

,...等,不適合去掉。還有一些表情包符號,也不宜去掉。

總體來說,還是要看應用場景中是否需要它們。

樣本資料中雜訊資料太多,模型的泛化能力會受到嚴重影響,也就是通常所說的過擬合。

2樓:陳運文

標點及修飾詞的重要性諸位已經說了,建議先去掉,然後根據自己的理解學習再逐步加上。

通過去掉標點、冗餘修飾詞的方式,達到減少構造特徵雜訊,可以在樣本量很少的情況下,簡單快速準確的實現幾個效果。

例如情感分析,剛開始的時可以只進行判斷消極、積極,掌握了基本技巧後,再進行判斷喜怒哀樂等稍微複雜的特徵。這時,自然就會想到把原有的修飾詞、標點新增回來,模型構造特徵也逐步變得複雜。

在學習nlp的過程中,循序漸進,可以分階段分層次去實現目標。

3樓:atom Native

去掉省空間,平衡詞頻分布。不然構造特徵(比如BOW)的話雜訊太大

不去掉的話同樣是因為得利用停用詞和標點的資訊,甚至可能是需要利用這些冗餘內容中的資訊,反過來去平衡原有文字中的分布。至於怎麼利用,就需要構造和設計方法了。

@呼廣躍 說的我也試過,確實有一定的效果,但是這需要結合你的任務來看(比如情感類任務可能會有效果,不過可能也只是從標點和停用詞中翻出一點特徵來,他們中的大部分還是要捨棄的)。畢竟這些東西占用儲存太大,與他們能產生的效益相比價效比多數時候都比較低。

4樓:

個人感覺深度學習的話不需要去,去的話可能還會一定程度破壞輸入的連貫性,傳統機器學習的方法比較依賴特徵工程,可能需要去掉。另外,可以通過去標點去停用詞達到資料增強的作用。個人見解 = =

5樓:小龍太子

不算回答的乙個想法,nlp的任務型別挺多的,具體可能得根據具體任務來。我倒是覺得在某些任務上也許可以把標點作為一種特殊的資訊加進去。

自然語言處理NLP中,Attention機制和Memory機制的優缺點各是什麼?

哈啾路亞 attention本質還是選擇附近時序序列的資訊,window attention就是非常好的例子。長距離下attention也會失效,這個是由softmax函式的特性決定的。畢竟當需要 注意 的面積太廣的時候,也就沒有 注意 的必要了。memory,主要指外部記憶,一旦被controll...

自然語言處理(NLP)和計算語言學之間的區別和聯絡是什麼?

RUBY 一方面,從學科劃分而言,計算機語言學是在語言學領域,一般國內的院校都劃入了人文學院中文系下面,而自然語言處理多在計算機學院 另一方面,兩門學科的應用場景是不一樣的,計算語言學,追求的是乙個統一的模型,能夠解釋語言的生成,探求人腦對語言理解的過程 自然語言處理其根本出發點是為了讓機器能夠理解...

自然語言處理的研究意義是什麼?

所追尋的風 讓機器理解自然語言是人類的夙願,而讓機器處理自然語言是生產力發展的必然要求。自然語言是什麼?從通訊的角度看,語義從乙個人的大腦到另乙個人的大腦也是經過了編碼解碼的過程。自然語言就是人類對大腦中的語義的編碼。這是人類所特有的。那麼能不能讓機器去處理甚至理解自然語言呢?自然語言處理的歷史可以...