做中文 NLP 的時候，大家為啥不用拼音？

1樓：諱莫如深

1、如果不考慮音調，給漢字注音完全沒難度。

2、拼音可以很大程度的解決語音識別出現錯誤時的錯字（多音字）問題，你大可以把拼音作為乙個vector和漢字的vector直接concat到一起。

3、這麼多答主死揪著分詞乙個task不放，我只想說不分task就開始吐槽的都是流氓，誰說中文就必須要分詞？非常多task直接漢字level也能取得很好的效果，各位分析問題都預設必須要分詞，眼界這麼狹隘真的好嗎？

2樓：xxxx

Unicode的資料庫好多錯誤。尤其是拼音和異體字部分。只好自己整理了新的資料庫使用。後來看了文件作者，發現是個日本人。

證據如下：

那個日本人好像叫做小林劍的

3樓：

當然是有的，參考今年新鮮出爐的 Which Encoding is the Best for Text Classification in Chinese, English, Japanese and Korean? 比較了所有你能想到的level，包括拼音，字形

4樓：qing

[1703.01898] Generative and Discriminative Text Classification with Recurrent Neural Networks

這個裡面也提到了

5樓：沈磊

因為拼音和字並不是一一對應的，乙個拼音對應多個字，乙個字也可能有多個拼音（多音字）。如果出了拼音的結果，怎麼把拼音轉化成字又是乙個問題，這裡就變成了兩道程式，乙個問題變成了兩個問題。所以我認為還是直接用字比較簡單。

如果只需要發音，不需要出文字結果，沒準使用拼音更加簡單。但這裡又涉及到了tts的流程問題，就不再展開了。

6樓：

1 假設可以完美的為漢字注上拼音。

2 對拼音進行分詞。

3 將拼音轉化為漢字。

我目前還不知道這樣做會有什麼好處，也許題主可以實踐一下，看看會不會有什麼意想不到的好處。（逃

7樓：雷隱隱

現在主流的英文處理方法之所以不能直接套用到中文中，最主要的原因肯定不是漢字拉丁化。

語義計算目前所依賴的embedding方法，是把詞語換成向量，在這一點上漢語和英語是一樣的，乙個詞就是一串數字而已。何苦非得先拉丁化再向量化，直接向量化就行了啊。

而漢語處理的第乙個大問題就是分詞，這個是拉丁化解決不了的，你換成拼音了這些字還是粘在一起，分不開就不能像英文那樣直接處理。

那你準備怎麼分詞？

而且考慮到漢語的多音字問題，換成拼音只會平白無故引入大量雜訊，使得本來就不怎麼樣的分詞效果更加慘不忍睹。

拉丁化的好處得不到，反而弄巧成拙。

而且就算你解決了分詞問題，面對漢語這種話題式的意合語言，英語nlp裡的規則系統肯定統統都不好使，統計系統估計要跪一大片，基於深度學習的方法沒準有用，但是語料是不是拉丁字母就無關緊要了，反正在NN看來扔進來的都是渣渣。

漢語的獨特屬性更多的是體現在語言本身而不是書寫系統上，你的書寫系統再複雜，計算機也是處理一堆數字，至於顯示在螢幕上的符號長什麼樣，機器是一點都不關心的。

其實最能提高效率的事情是統一漢字編碼標準，如果所有平台通用唯一一種漢字編碼標準，那麼我在轉碼這個坑上就不會耗費那麼多時間。

我開組會的時候也省得挨罵了。嘖嘖。