關於標準位址庫的分詞演算法研究,應該如何入手?

時間 2021-06-03 16:52:12

1樓:王泓硯

該問題還有兩個疑點:

一是拿到的就是位址,還是在全文本捕獲?

二是標準位址是否已經分詞了,規範了?

這兩個問題決定了你的方案。

2樓:tujie

之前的一些回答很不錯,但是還有一些問題需要注意:

1、位址原始資料不準確,需要進行調優前處理

2、如果有其他資料,比如位置座標,可以輔助進一步調優

3樓:彭強兵

位址分詞和傳統的NLP有很大區別。基於位址分詞和詞性標註,可用在倉儲物流系統,實現AI自動化,也可用在標準位址庫建設中,實現位址標準化。

傳統NLP技術用在位址分詞上正確率和召回率都很低,對於位址「河北省石家莊市中山西路398號白求恩和平醫院伽馬刀中心」,傳統分詞器切分結果如下,如果進行位址分詞和詞性標註,正確率是很低的。而專門的位址分詞和詞性標註系統能達到非常高的準確率:河北省|石家莊市||||||中山西路|||398號|白求恩和平醫院||||||||伽馬刀中心| 。

word分詞器的分詞結果:河北省石家莊市中山西路 398號白求恩和平醫院伽馬刀中心

Stanford分詞器的分詞結果:河北省石家莊市中山西路 398 號白求恩和平醫院伽馬刀中心

Ansj分詞器的分詞結果:河北省石家莊市中山西路 398號白求恩和平醫院伽馬刀中心

HanLP分詞器的分詞結果:河北省石家莊市中山西路 398 號白求恩和平醫院伽馬刀中心

smartcn分詞器的分詞結果:河北省石家莊市中山西路 398 號白求恩和平醫院伽馬刀中心

FudanNLP分詞器的分詞結果:河北省石家莊市中山西路398號白求恩和平醫院伽馬刀中心

Jieba分詞器的分詞結果:河北省石家莊市中山西路 398 號白求恩和平醫院伽馬刀中心

Jcseg分詞器的分詞結果:河北省石家莊市中山西路 398 號白求恩和平醫院伽馬刀中心

MMSeg4j分詞器的分詞結果:河北省石家莊市中山西路 398 號白求恩和平醫院伽馬刀中心

IKAnalyzer分詞器的分詞結果:河北省石家莊市中山西路 398號白求恩和平醫院伽馬刀中心

4樓:

問題一:就是分詞技術,IK等是通用分詞,你可以自己擴充POI相關的詞典,或者自己實現乙個POI領域的分詞引擎,這個在技術上也不是很難,比較成熟,搞個CRF,效果不會低於95%;

問題二:類似於詞性標註任務,只是把詞性換成你說的位址要素;

問題三:分詞、詞性標註等本質上的序列標註問題,有基於統計的方案和基於規則的方案,當前技術都已經成熟,搞學術的喜歡用統計模型,不管怎樣,乙個好的詞典非常重要

為什麼標準庫的map要insert pair key,value 而不是insert key,value ?

淇漯草 在C STL的內部,map的實現方式是rb tree即紅黑樹,紅黑樹接受五個引數,分別是Key Value KeyOfValue Compare Allocator。對於map而言,使用rb tree作為底層容器,Value的實現很有意思,是pair,Key為Key。此時,就造成了 叛逆者 ...

以下我關於虛擬位址與實體地址的理解是正確的嗎?

the gc 虛擬位址指的是ip暫存器的值。cs暫存器裡儲存的乙個選擇子。通過選擇子可以到GDT或LDT表裡得到乙個基址,然後加上ip的值,得到線性位址,線性位址才是分成頁目錄,頁表,偏移三個部分,線性位址再通過頁目錄,頁表資訊得到實體地址。 北極 1,除錯程式用到的都是虛擬位址。虛擬位址轉化成實體...

c 怎麼讓自己寫的庫像標準庫那樣只需include標頭檔案就可以使用而不需要把實現原始碼加入工程裡?

沒辦法像標準庫那樣。標準庫可以只include標頭檔案是因為編譯器會預設鏈結標準庫的實現。其它回答裡面說的header only library,是把實現也一起寫在標頭檔案裡面了。不需要另外的cpp而已。如果你的目的是讓庫方便使用,就做成header only library,或者退一步,提供乙個標...