中文分詞有比較新的語料嗎?

時間 2021-06-05 00:48:39

1樓:

可以提供給題主兩份相對較新的中文分詞語料:

第乙份是SIGHAN的漢語處理評測的Bakeoff語料,從03年起首次進行評測,評測的內容針對漢語分詞的準確性和合理性,形成Bakeoff 2005評測集,包含簡、正體中文的訓練集和測試集,訓練集有四個,單句量在1.5W~8W+。內容比較偏向於書面語。

後面05 07年分別對中文命名實體識別和詞性標註給出了評測。

Bakeoff 2005中文分詞熟語料傳送門:

Second International Chinese Word Segmentation Bakeoff

第二份語料來自GitHub作者liwenzhu,於14年發布於GitHub,總詞彙量在7400W+,可以用於訓練很多模型例如Max Entropy、CRF、HMM......,優點是這份語料在分詞基礎上還做了詞性標註,至於準確性還有待考究。

傳送門:

liwenzhu/corpusZh

有比較私密的社交軟體APP推薦嗎?

我以前一直不理解玩交友軟體幹什麼要私密的,漂亮的小姐姐是不香嗎?直到有一天我在某探匹配到了我同學,第二天班上所有女生看我的眼神都帶上了顏色。所以,你們可以完全相信我這個過來人 聲昔 純語音的社交軟體,放心,沒有要求頭像,私密性極強,聲控福音。麥池 顏值最高的一款了,私密性也很強,可以隱藏位置和賬號,...

有比 愛彼迎 更適合 Airbnb 的中文名字嗎?

糾結於發音的話,愛比鄰 愛彼鄰 愛彼臨 但感覺念起來和愛彼迎一樣拗口,不接地氣 不糾結發音的話,我想了乙個名字 若比鄰 海記憶體知己,天涯若比鄰。 古云 當然有更好的名字。他的問題就在於沒有擺脫音譯的限制,想著在音譯的前提下創造點意義出來,可是問題在於Airbnb這個英語本身讀起來就不是朗朗上口的,...

我會中文和英文,如果想自學新的語言,各位比較推薦哪種語言?

諾小花 我大學的時候學過幾個月的法語,有兩個感覺 乙個是太難了!ma ta sa,mon ton son,背了半天啥也沒記住。這種性狀格特別多的語言我覺得特別難。誰是陰性誰是陽性,感覺需要背的東西特別多!第二個是跟英語很容易混。當然如果法語學得好了,基本上英語的長難詞對你都不成太大問題。但如果學不好...