1樓:張懷文
如果要使用工具的話,現在可選的工具有很多,比如Hanlp,jieba,斯坦福的nlp包等等。
如果是思路的話,簡單想兩個思路。
多分類的思路
給每個字打乙個類別標籤,然後訓乙個多分類器,來分名詞和形容詞。
但是有乙個問題,就是乙個字的詞性應該跟它處的上下文有很大關係,而多分類沒有很好的刻畫這個事。
序列標註的思路
為了利用乙個詞的上下文,可以考慮序列模型。
那麼,最簡單可以用HMM的統計模型,直接求解,或者上CRF如果對深度學習有要求,可以用深度學習來提點特徵。
2樓:tiandao011
如果有訓練語料的話就上詞性標註模型:crf,bilstm+crf,HMM
如果沒有訓練語料,直接jieba分詞,jieba分詞在一般的領域效果都不差
3樓:Macropodus
中文普通任務直接用分詞工具就夠了,jieba、Hanlp、Ansj、Standfore。
2. 自己準備語料,HMM、CRF,現在神經網路訓練的話一般就是CRF++工具(可以構建特徵)、CNN-LSTM(簡單些)、Bi-LSTM+CRF(用得最多)、或者是BERT+BiLSTM+CRF(新)吧
4樓:智勇香腸番茄怪
詞性標註可以看作多分類問題或者序列化標註問題。分別對應著分類演算法,如樸素貝葉斯,和序列化標註演算法如HMM。具體state of the art演算法是哪個針對不同資料集看,很籠統的說,一般準確率在99及以上。
有許多開源的方法可以呼叫,針對不同語言不同型別文字都有。簡單的呼叫可以了解nltk,它的詞性標註是基於最大熵。
水(H2O)可以從空氣中提取嗎?
空氣取水,主要通過低溫液化的方式實現,例如除濕機。空調工作時產生冷凝水也是同樣道理。這種方式獲取的水來自於空氣中的水蒸氣,屬於物理變化,空氣濕度極低的話就不行了。提取O和H來造水這就是化學變化了,題主有沒有考慮過氫元素從哪來?空氣中78 是氮氣,21 是氧氣,0.94 是稀有氣體,0.03 是二氧化...
如何在啤酒中提取高純度酒精?
黃珂 第一步,搞個小精餾塔,先預熱放出二氧化碳,這個芬芳的二氧化碳建議收據起來,以後再繼續用,調解ph,再進塔板粗提取酒精和其他揮發性物質,做到75 左右的酒精,ph為中性,這樣塔比較矮,容易過審批。此時你的啤酒已經吊打市面上絕大部分的酒了,如需暢飲請衝二氧化碳。第二步,搞個滲透汽化膜裝置把水含量降...
c語言怎麼從字串中提取自己想要的字元?
如果僅限英文本母數字等鍵盤上打的出的符號,那問題在於 你想要 的字元是啥,怎麼定義想要 滿足什麼條件 條件複雜可能還要用到正規表示式,甚至自己寫parser 坑是無窮無盡的,一切取決於你想要啥 如果包含中文等等世界各國語言的字元,還需要去學習 字元編碼 utf 8 gbk utf 16le utf ...