為什麼 Google 翻譯只重演算法不重語言學的語法結構和規則?

時間 2021-05-12 02:25:14

1樓:Jassie

語言學的語法結構沒法解決的問題有:

1.一詞多義。這類情況特別需要聯絡上下文,才能理解語境。所以說,機器翻譯裡真正起到作用的是統計學。關於這一點推薦看下《數學之美》,講的很詳細。

2.句子實際不完整,但不妨礙閱讀。

比如「下雨了」,缺少主語;」我要去超市,你想去(超市)嗎?「,缺少賓語。但這都不妨礙實際的閱讀。

所以語言學解決的問題是有限的,而這些能夠靠統計學——即用大量語料訓練機器,來解決。

2樓:Daniel

所謂的語法規則也是語言學家總結出來的規律,可以看出是人類的經驗, 既然人類能夠總結這些規則,我們有理由相信人工智慧演算法也能學習到這些規則。而且在機器翻譯中,也不能確定或否定這些演算法已經學習到了語法規則(我倒是相信演算法可以發現單詞之間潛在的依賴關係)。但是如果把這些語法規則作為先驗,可能會生成更加像人說的話。

3樓:

因為人類的語言屬於自然語言。如果你用規則去做分析的話,規則會被搞得非常非常麻煩。可能要分析乙個很簡單的句子都要幾十條規則,用大型計算機都跑不出來。

當然,現在不行不代表永遠不行。或許量子計算機可以解決吧。類似過去的波粒二象性研究。

4樓:atlantisufo

在下才疏學淺,從不那麼專業的角度看,任何語言都是資訊的不同編碼,既然是編碼後的資訊,那數學就一定夠用了,畢竟,破譯ENIGMA的圖靈,也不會德語(大霧)

5樓:吳旭峰

就我粗淺的理解,語言學的規則是在語言層級之上的,它不是語言的基石,而是語言抽象提煉的產物,或者說是一種更高階的語言。事物總是由簡單到複雜,由低階到高階。基於統計和演算法的機器翻譯就是我們現階段能找到的在計算機中模擬出人類語言的基石。

從根基開始好好生長,比本末倒置的只要空中樓閣要可行的多。

6樓:yleehuw

機器翻譯大致可以分為兩種方法:理性主義和經驗主義。

理性主義方法主張由人類專家觀察和歸納不同自然語言之間的轉換規律,將其表述為翻譯規則的形式,讓機器按照規則執行翻譯。換句話說,人類專家需要手把手「教」機器如何翻譯。這種方法面臨許多挑戰:

1. 人力成本高。理性主義方法對於人類專家的要求很高:至少精通兩種語言,同時熟悉語言學和電腦科學,需要非常嚴謹、細緻和耐心地雕琢精緻複雜的翻譯知識庫。

2. 開發時間長。建立乙個實用的基於規則的翻譯系統需要數以月計甚至數年的時間。

3. 規則庫維護難。當規則庫達到數千乃至數萬條規則後,維護對於翻譯專家而言就是噩夢:如何保證新的規則與原有的規則不衝突?如何體現最新的語言用法?如何擴充套件到新的領域?

上世紀九十年代之前,理性主義方法佔據主流,之後經驗主義開始佔據上風。經驗主義方法主張利用數學方法從平行語料庫中自動發現語言轉換的規律。換句話說,就是讓機器自動從資料中學習。

這種方法具有以下優點:

1. 人工成本低。人要做的主要工作是收集和整理資料,不需要具有精深的語言學知識。

2. 開發時間短。只要有資料,任何語言對、任何領域都能在數天至數週內搭建乙個翻譯系統。

3. 系統維護容易。所有的翻譯知識都是概率分布,即使衝突也沒有關係。

因此,選擇基於經驗主義方法對於Google來說簡直是天然的選擇:大資料+雲計算。論資料規模和計算能力,以搜尋引擎起家的Google在世界範圍內絕對領先。

語言學知識是否還對經驗主義翻譯方法有意義?答案是肯定的。Google的翻譯系統並不像大家想象那樣忽視語言學知識,比如基於依存分析樹的預調序對於提公升流利度非常重要。

事實上,利用統計方法分析語言的深層結構是2005至2023年經驗主義方法的研究熱點,各種同步文法(上下文無關、反向轉錄、樹替換、樹鄰接等)層出不窮,將語義引入經驗主義方法也得到關注。

2023年之後?深度學習時代來臨,人的參與度進一步降低:不要artificial的翻譯pipeline了,不需要特徵設計了,一切都成為端到端翻譯的黑盒子。

當然,人的主要工作變成調超引數。

儘管如此,語言學知識仍不應被摒棄,純資料驅動的方法的缺陷是無法利用先驗知識(如語言學知識、常識或知識圖譜)。如何將資料驅動的模型與先驗知識相結合將成為未來的關鍵方向之一。

7樓:

grammatical rules 能夠保證翻譯結果的一致性,但是無法處理exception。而在natural language中有太多exception。例如 :

E-C x of y結構規則是x和y交換,EN:Use of service--MT: 服務的使用; 但是下面這個exception就無法處理:

EN:which type of Auto-delivery content, MT: 自動交付內容的哪種型別。

更加idiomatic的翻譯HT:哪種型別的自動交付內容。 但是Corpus base也存在很大問題--sparse data。

所以雖然號稱演算法,很有可能也使用了一些基本的linguistic rule

8樓:

在現階段,谷歌翻譯的目的並不是為了取代人工翻譯,也不可能取代。

它現在通過機器學習和大資料來「不精確」的進行翻譯,而不去理會語言學的規則,確實可以一定程度提高翻譯的精準度。但是,這是有瓶頸的,如果它想更進一步提高翻譯的質量的話,不理會語言學本身而只靠大資料是不可能的。

其實從google的眾多行為來看,它總認為技術可以決定一切,希望它以後不會栽到這裡。

9樓:鍾典

我每開除一名語言學家,我的語音識別系統錯誤率就降低乙個百分點。

賈里尼克

這句話我也在吳軍的《數學之美》中看到過。

其實人們自然而然的都會想到用語法規則來優先處理語言識別問題。畢竟它是語言,有語言就有語法,而且我們在自然語言語法中走的時間更長、深度更大。

所以在語言識別界的最初,科學家們都試圖採用這種方法。但是後來他們就發現語法規則很難用數學或者說程式語言描述,而且英語全部總結起來或許有超過十萬條規則,他們的應用範圍還都不一樣。所以這會導致識別系統的臃腫和錯誤率高。

後來科學家們發現了統計和概率應用到這上邊來省心而且效果不錯,所以就導致了現在的局面。

當然未來的發展趨勢,應該還是以演算法為重。不過也有其他的可能性。

10樓:

Google試圖用演算法來代替語言學家。

語言學家儘管水平高超,但是仍然難以用人的有限智力窮舉出乙個完備的規則體系用於處理自然語言。

可以考慮計算機語言做個比較。計算機語言是非常規範的描述力受限的語言。就是這樣的語言,定義語言規範都是很麻煩的事情,一本列印出來的c++語言規範就是一本比史記還厚的書。

因此,由人類自己定義自然語言的規範是幾乎不可行的。所以,我們訴諸於統計學和機器學習理論,把這些複雜的語言細節隱藏在相對簡潔的模型裡。

11樓:

Google沒有語言學家就是"不重語言學的語法結構和規則"?Google有乙個專案就是和各大圖書館合作掃瞄圖書。此專案對於Google來說一舉三得:

建立Google圖書專案;為驗證碼提供資源;以及最重要的,建立其他公司無法匹敵的語料庫

12樓:stupidjoey

推薦看一下吳軍的《數學之美》的幾個章節,大致把語言識別研究的發展給概述了一下,還講了基於概率的模型是如何神奇的提高正確率的,當然不可能完全識別。60、70年代的時候主要是做語言的語法、結構分析,但是當乙個句子逐漸變得複雜以後,就很難再用語法分析了,不可能針對每乙個句子都寫一條語法的。

13樓:Bryan Zhu

翻譯不僅是一門科學,還是一門藝術。

舉個簡單的例子,谷歌什麼時候能把下面的詩翻得哪怕有一句能要也行。

不要迷信機器的力量,增強藝術欣賞能力才是翻譯發展的正途。

這也是谷歌這樣做的根本原因,因為谷歌翻譯本身的定位並非取代人工翻譯,而只是為了做低階參考。

14樓:

如果語言學的規則可以窮舉或者接近窮舉的話,那麼也不用Google實現了.Google做的應該是基於統計和機器學習等技術訓練和積累出一套語言學的規律,不精確,但是大部分情況下是合理的,並且會通過知識積累和演算法改進不斷增強.

15樓:何云

說實在話,現在的階段,用語言學解決Google的問題確實不大現實。

語言是智慧型的包裝,因為語言一定程度上決定了乙個人思考問題的方式。現在的智慧型的模擬主要還是採用概率模型。但是概率說白了是對問題的近似,也就是說我無法直接解釋某些問題,只能用概率來近似乙個結果,所以說人工智慧離解決還很遙遠。

同樣的,作為智慧型的包裝,語言,離解決也非常遙遠。在這種情況下,用語言學來進行Google的業務不大靠譜,只能用概率模型來繞個彎獲得好的結果。

16樓:Rockeymen

因為語言學的語法結構本身也是人為從大量語言樣本中總結出來的。所以只要演算法足夠強大或者魯棒,效果是一樣的,甚至比人為更靈活些

Google 為什麼不提供 Google 的介面給微軟?

目前Google 的API 是比較有限的,只能獲取資訊 https Note The Google API currently provides read only access to public data而微博的的API 是比較全面的 http 首頁。應該是微軟不願意放出Windows 8 後被...

Google 為什麼要把 Android 下面的三個按鍵規範為虛擬按鍵?

滄浪 我對虛擬鍵沒有意見,虛擬按鍵有個好處就是手機息屏之後手機的正面的一體性非常好看,如果息屏技術足夠好的話。但是能把那三個虛擬按鍵做的好看一點嗎?我真心覺得那三個虛擬按鍵好笨重啊 盧Alpha 其實大家不是不能接受 喜歡 虛擬鍵,只是不喜歡一直傻傻佔著一條螢幕空間的虛擬鍵而已。如安卓4.3和之前。...

你為什麼愛 Google(谷歌)?

Michael Li 其實我用的大多是 Google search和 chrome.這裡只評價Google Search.Google Search也不是萬能的,也不能保證每次都有我想要答案。但是甩其他搜尋引擎幾條大街沒問題。精準!2.廣告沒那麼亂,而且搜尋結果裡沒有那麼多被植入廣告的軟文。乾淨!3...