為何谷歌翻譯對日本漢字的發音處理基本正確,但對羅馬字轉寫常常有誤?

時間 2021-06-01 17:14:13

1樓:吳建民

不是很清楚G家翻譯TTS的pipeline,一般來說在文字處理階段老老實實走形態素解析的路子的話,是可以把讀音給注上的,畢竟10年前的mecab-ipadic也不會犯這種錯誤

$ echo '女子高生' | mecab

女子高名詞,一般,*,*,*,*,女子高生名詞,接尾,一般,*,*,*,生,セイ,セイ

EOSbtw, mecab的作者在Google已經做了好些年,不知道看了會不會默淚

羅馬字注音的話,本來懷疑是找了份不靠譜的詞典用最大正向匹配的,手賤自己在Google翻譯的輸入介面加點人工邊界看了一下,orz

女子高生 Mesukōsei

女子高生 On'na-ko kōsei

女子高生 Joshi kōsei

女子高生 Joshikō-sei

如果改成【女子大生】直接就沒結果了

大概,詞典裡真的有那麼一條完整粒度的【女子高生=Mesukōsei】吧。。。

2樓:凌南絮

めす(mesu)是雌性的意思。

翻譯軟體在翻譯的時候,不像人一樣先理解整體句子意思然後再翻譯,而是按詞來翻譯,最後拼出一句比較符合正常語境的翻譯。所以龐大的語料庫和準確的分詞是十分重要的,另外還有深度學習和神經網路之類的技術。

女子→jyoshi,onnanoko,女→onna,mesu,emmm選哪個好呢?語料庫裡說是這個,但是好多人建議修改成那個耶,但到底是哪個嘛!算了不管了,先給乙個再說→mesukousei。

所以用翻譯軟體翻出bug並不是什麼稀奇的事情啊……

3樓:田月

大概語音和拼音不是同乙個系統做的吧

TTS(文字轉語音)是一套系統

標羅馬字拼音是另一套系統

而不是先轉換成拼音,再轉成語音。這麼做反而容易失去停頓、重音等朗讀必需的資訊。

補充說明為什麼可能會需要兩個不同系統:

要生成TTS,除了字的發音以外,還需要編碼抑揚、連讀、重音、速度變化等等資訊,否則輸出的聲音就會像醫院叫號系統一樣像個機械人。而做羅馬字的系統完全無法提供這些附加資訊,所以如果是我,肯定不會先把日語轉為羅馬字再轉為語音。

TTS的訓練語料也相對好找,只要找個人對著文字念就是了,現成語料也多,幾乎是在不停地生產;相反,轉羅馬字的訓練語料需要專門找人生產,還需要一定的專業性,還不是社會生活中會自然產生的。

古代日本南韓,為何要使用漢字?

朱雀牌薄荷糖 整個東亞文化圈除開中國,都是只有語言沒有文字的尷尬曾經一直籠罩在日朝中南半島各國的頭上。朝貢體系給漢字的普及鎖上了一把高質量的差速鎖 喵 所以你就多多少少能夠摸到一點頭緒了吧親 朱利安 南韓直到世宗大王發明訓民正音之前,都是沒有自己的文字的,但是訓民正音的目的,主要是為了普及識字率,讓...

為何用谷歌翻譯將中文翻譯為印地語和泰公尺爾語時無法顯示譯文?

梁海 網頁上的任何文字原則上都需要本地的字型來顯示。如果本地沒有對應的字型,那當然就顯示不出來 就像一些西方的電腦裡沒有中文字型所以顯示不了網頁裡的中文一樣 除非通過 web font 之類的技術來用伺服器端的字型。印地語使用天城文 Devanagari script 泰公尺爾語使用泰公尺爾文 Ta...

為何同為日本的前殖民地,南韓和台灣對日本的感情差距這麼大?

楊楊 南韓本來就是美國用來平衡日本的棋子,比如晶元原來沒有南韓的事,美國打壓,通過市場技術扶持南韓,幾乎打垮日本晶元行業。從這個角度,南韓越反日越有利。另外乙個原因是朝鮮,政治上反日是朝韓共同點,也是同民族共同利益,南韓也沒必要把這個帽子丟掉。台灣不一樣,台灣是配合日本牽制中國大陸的,完成島鏈封鎖,...