計算機自動化翻譯為什麼還是這麼差?

時間 2021-06-05 19:37:07

1樓:元寶Prince

如何實現計算機自動化翻譯涉及到計算機理論方面的很多領域,包括自然語言處理,人工智慧,概率論,隨機演算法等等方面,而機器翻譯不準確的原因正是因為這些領域結合在一起要做好很困難。雖然我不是研究自然語言處理領域的,但是在我看來比較困難的原因有幾點:

漢語之類的語言沒有天然的分詞法則。漢語不同於英語,在兩個詞之間沒有空格,因此漢語的分詞非常困難。比如「南京市長江大橋」可以是南京市的長江大橋,也可以是南京的市長叫江大橋。

這種人處理起來很容易的分詞對於機器來說,一旦沒有了上下文資訊,就會變得非常困難。在分詞方面,起初的模型多使用基於規則的方案,分析語法,總結語言生成規則,匹配規則翻譯成目標語言,就像你學程式語言差不多的感覺。而自從IBM提出了基於統計的模型之後,機器翻譯的效果已經提高了很多,但是還遠遠沒有達到令人滿意的程度。

事實上,統計模型是基於馬爾科夫假設的。簡單來說,在漢語環境下,「我們」這個詞中,「們」出現在「我」這個字後面的概率很大,而別的字,比如「元」,「寶」等出現在「我」之後的概率比較小,所以可以根據概率大小來確定句子意思,一旦完成精準的分詞,可以說翻譯工作已經完成不少了。那麼接下來的問題是,如何獲得語言中不同詞彙之間的銜接的概率,這就是語料庫幹的事。

語料庫越大,越完整自然分詞的結果可能越好。但是根據上面的所述你也可以想想看,就算你有所有的語料庫,你還是不可能像得到像人工處理一樣的分詞結果,因為這裡面還有很多其他的問題需要考慮。

馬爾科夫假設是有缺陷的。因為當前計算能力的問題,在分析乙個句子的時候,不可能去分析整個的環境,甚至在分析乙個詞的時候不能去分析整個句子。這帶來的問題就是沒辦法獲取整個上下文資訊。

為什麼人能夠精確地翻譯,是因為人能夠通過常識,先驗知識,上下文環境的結合,準確的得到資訊。要想讓機器做到這點,不僅僅是演算法和模型上面的問題,而是當前計算能力的問題。

其他需要考慮的問題。就算當前的計算能力允許在翻譯乙個句子的時候獲取整個上下文,那麼仍然有很多很多複雜的情況進行考慮。舉個簡單的例子,星爺的電影裡經常會出現各式各樣的倒裝句,比如「你先走」,星爺會說「你走先」,再比如航母style中的「走你」,可能在機器的語料庫中根本就沒有這樣的詞,也就是說,機器模型訓練之後,「先」在「走」字後面的概率為0.

「你」在「走」字後面的概率也為0,那麼機器根本就沒辦法識別出這樣的句子的意思,要求機器給出準確的翻譯方案是不是已經有點天方夜譚。此外,經常還會出現模型不能涵蓋所有語境的情況,也就是說你為了提高某些語言元素的翻譯修正了模型,這反過來會導致其他的一些語言元素的翻譯有產生了偏差。你想想看語言是多麼博大精深,想要涵蓋所有的方面,需要機器擁有怎樣的智慧型。

當然我說這些不代表機器翻譯就不能實現,不能得到應用,恰恰相反,現在的一些軟體已經有比較好的自動翻譯能力了,這都是自然語言處理領域的學者們共同努力的結果。其實李開復以前在CMU的時候就是研究這個的,而且在這個領域也做出了不少的貢獻。

另外我是自然語言處理領域的門外漢,不甚專業,只有比較淺薄的解釋。深刻理論只能專門的學者來回答了^-^

我該選擇自動化還是計算機?

life free 自動化出來如果走的是控制類或者微電子方向可以說研究的就是計算機。然而沒辦法計算機專業知識面太寬泛了無論是軟體還是硬體單憑本科四年都很難學的全更別說軟硬兼通。 本來想說點什麼,仔細一看是大清學子,瞬間沒了底氣。在下東北某以控制科學為優勢的末流高校畢業生,關係好的同學要麼繼續深造,要...

自動化,電氣自動化和計算機類選哪個?

VangZHE 知乎推薦計算機。本人電力電子碩,認為,如果想去好城市得高薪,對程式設計沒牴觸就報計算機。想做硬體報電氣,想在家電網過安穩日子選電氣。自動化一般做演算法,控制,也有硬體部分。 卡特加特的王 最重要的看你自己喜歡什麼。自動化專業選擇麵很寬,所以一定要找準乙個方向,可以參考我的回答。自動化...

女生 自動化與計算機選哪個

老大笑老二 我記得轉專業好像需要你現專業成績排名在專業的前百分之幾,好像有的學校有這個限制,這種情況不建議轉,辛辛苦苦把成績排到專業很靠前的位置去轉到乙個相對陌生一點專業,又要重頭開始,說真的挺苦的。 nana 一定是計算機,我是乙個學自動化畢業的學姐,親身經歷告訴我選錯專業對就業是多大的影響,現在...