做中文 NLP 的時候,大家為啥不用拼音?

時間 2021-05-05 17:03:36

1樓:諱莫如深

1、如果不考慮音調,給漢字注音完全沒難度。

2、拼音可以很大程度的解決語音識別出現錯誤時的錯字(多音字)問題,你大可以把拼音作為乙個vector和漢字的vector直接concat到一起。

3、這麼多答主死揪著分詞乙個task不放,我只想說不分task就開始吐槽的都是流氓,誰說中文就必須要分詞?非常多task直接漢字level也能取得很好的效果,各位分析問題都預設必須要分詞,眼界這麼狹隘真的好嗎?

2樓:xxxx

Unicode的資料庫好多錯誤。尤其是拼音和異體字部分。只好自己整理了新的資料庫使用。後來看了文件作者,發現是個日本人。

證據如下:

那個日本人好像叫做小林劍的

3樓:

當然是有的,參考今年新鮮出爐的 Which Encoding is the Best for Text Classification in Chinese, English, Japanese and Korean? 比較了所有你能想到的level,包括拼音,字形

4樓:qing

[1703.01898] Generative and Discriminative Text Classification with Recurrent Neural Networks

這個裡面也提到了

5樓:沈磊

因為拼音和字並不是一一對應的,乙個拼音對應多個字,乙個字也可能有多個拼音(多音字)。如果出了拼音的結果,怎麼把拼音轉化成字又是乙個問題,這裡就變成了兩道程式,乙個問題變成了兩個問題。所以我認為還是直接用字比較簡單。

如果只需要發音,不需要出文字結果,沒準使用拼音更加簡單。但這裡又涉及到了tts的流程問題,就不再展開了。

6樓:

1 假設可以完美的為漢字注上拼音。

2 對拼音進行分詞。

3 將拼音轉化為漢字。

我目前還不知道這樣做會有什麼好處,也許題主可以實踐一下,看看會不會有什麼意想不到的好處。 (逃

7樓:雷隱隱

現在主流的英文處理方法之所以不能直接套用到中文中,最主要的原因肯定不是漢字拉丁化。

語義計算目前所依賴的embedding方法,是把詞語換成向量,在這一點上漢語和英語是一樣的,乙個詞就是一串數字而已。何苦非得先拉丁化再向量化,直接向量化就行了啊。

而漢語處理的第乙個大問題就是分詞,這個是拉丁化解決不了的,你換成拼音了這些字還是粘在一起,分不開就不能像英文那樣直接處理。

那你準備怎麼分詞?

而且考慮到漢語的多音字問題,換成拼音只會平白無故引入大量雜訊,使得本來就不怎麼樣的分詞效果更加慘不忍睹。

拉丁化的好處得不到,反而弄巧成拙。

而且就算你解決了分詞問題,面對漢語這種話題式的意合語言,英語nlp裡的規則系統肯定統統都不好使,統計系統估計要跪一大片,基於深度學習的方法沒準有用,但是語料是不是拉丁字母就無關緊要了,反正在NN看來扔進來的都是渣渣。

漢語的獨特屬性更多的是體現在語言本身而不是書寫系統上,你的書寫系統再複雜,計算機也是處理一堆數字,至於顯示在螢幕上的符號長什麼樣,機器是一點都不關心的。

其實最能提高效率的事情是統一漢字編碼標準,如果所有平台通用唯一一種漢字編碼標準,那麼我在轉碼這個坑上就不會耗費那麼多時間。

我開組會的時候也省得挨罵了。嘖嘖。

為啥我做蛋糕打發蛋清的時候打到了濕性發泡但是混合的時候總是發現軟了很多?

千巖雪 濕性發泡是不夠穩定的,但你也不要為了穩定打到乾性發泡,因為你是做蛋糕卷,蛋白打到乾性發泡卷的時候容易斷。你可以在每次加蛋白霜前用蛋抽把蛋白霜再攪幾下讓它恢復到之前打好的狀態 胖胖麵包小綠 1,做蛋糕卷把蛋白發到七分發就可以,具體狀態是傾斜打蛋盆蛋白不流動,提起打蛋頭蛋白呈乙個三角形。打太硬卷...

大家平時不用嘴說話的時候大腦裡會一直在講話嗎?

王燾 我也是這樣的,我只要不說話在想事情或者打字,總是有聲音在讀白!我不知道這是為什麼,而且也不知道是否大家都是這樣我有聲音就無法繼續 Marsunson 醫學的角度說來,腦中不斷的聲音,不斷的話,是大腦的預設網路結構的工作模。和前皮質額葉功能上相互抑制。當預設網路模式無法控制時,人的主觀情緒會認同...

痛經的時候真的可以轉移注意力嗎?為啥我做不到?

無名 疼痛和工作有優先順序嗎?或者說有可比性嗎?如果潛意識裡這件事真的很重要那麼理論上來說可以至於具體因人而異就要靠你自己思考了對於你來說什麼事情可以重要到打敗你的4級疼痛呢?但是還是不要做危險的事安全第一 Hmm 初二的時候我媽給我報了乙個英語班,那天我姨媽來了疼的不行,我咋說我媽都逼我去,說這老...