自然語言處理為什麼從規則轉到統計的方法？

1樓：

我是乙個完全不懂自然語言處理的門外漢，但是我想說一點兒自己關於「語言學習」的看法。

我倒是覺得在人「自然地」學習一門語言的過程中主要還是靠大量的語料輸入，說穿了也就是統計學。

而語法頂多在一些細節上給予一定的修正和微調，就像我們在中學語文課上做的一些改病句的題那樣，其實是層次比較高的東西。很容易理解：沒有誰學習母語的時候是直接通過「語法」來學習的，大家都是輸入、接受了許多語料之後「總結」出了一套自己的「語法」。

在學習外語時通過語法來學習，實際上是一種比較取巧的做法，因為畢竟省去了「自己總結」的步驟；但是也正因如此，若單靠這樣去學習而沒有足夠語料（以句為單位）的支援，往往會犯將中文機械地對映到目標語言而造成用詞不當的錯誤。

而靠豐富的語料建立起來的語言學習要更加自然，這樣做的結果是，即便不合「語法」的句子，往往也是「地道」的，想想那些改病句的題目裡很多不就是「慣用的錯誤」嗎？雖然「錯誤」，但是「慣用」，所以反而比那些「語法正確而不地道」的句子要來的「自然」「容易理解」。

但相應的，時間成本和語料質量的要求也會更高，我們對母語的學習中這兩個因素都不構成問題，而在學習外語時則都是難以解決的重要問題，所以我們在學習外語時需要結合「規則主義」（語法資料/詞典…）和「統計學/經驗主義」（外文書/外文電影/外文歌曲…）的辦法。

而對高效能的計算機來說，時間成本不是問題。

而且：畢竟，從根源上看：語法是人們根據實際語言總結出的、描述實際語言特徵的規則；而不是從天而降，必須時刻遵照的一套法則。

語法也是要讓步於人們的實際語用的。「錯誤」的句子廣泛傳播後也會被語法接受而成為新的語法。不光語法會變，字/詞的意思以至於詞性、語音…整個語言處於不斷的變化中。

當新的變化出現之後，舊的規則就不靈了。所以問題恐怕還在現在的計算機雖然效能足夠高，但「智慧型」不足以「總結規則」吧。

我想，如果計算機的智慧型可以接近以至於超越人腦的話，要理解人類的語言自然也要採取人類學習語言的方式來進行吧。

以上是我的一些不成熟的想法。

2樓：宋爺

去看看第乙個統計語言模型的實施者Jelinek說的話：

「我每開除一名語言學家,我的語音識別系統錯誤率就降低乙個百分點。「

這可能是從規則到統計的最根本原因。

3樓：

簡短點來說，我的觀點如下。

1 基於完善的規則的效果，我願意相信它是優於基於概率的效果。

2 現實是完善的規則多到無法完成（或者說還沒有人完成），所以現實中目前還沒有完善的規則，只有未完善的規則。

3 得益於計算機的發展，目前基於概率論（或者說基於某種信仰）得出的效果，優於基於未完善規則得出的效果。

所以很多人都用基於概率的實現了。

4樓：Zpaisley

我覺得這個問題本身有很大問題。

NLP領域，從規則到統計，只是上世紀70年代~90年代業界的「潮流」。

很多領域研究的初期，「統計」做出的結果都比「規則」出的結果更好。

你看，Google前不久開源了SyntaxNet，也沒有再以統計為核心了吧。

從規則到經驗的路上，不得不提MIT的Claude Shannon、Noam Chomsky（寫《Syntactic Structures》那位，上面有個答主也提到了此人）和IBM Watson實驗室的Frederick Jelineck三位科學家。

做出最實質性貢獻的應該還是Jelineck，正是因為此人所做的關鍵推進，趕走語言學家，用統計做自然語言處理和語音處理，出的結果奇好無比。不用等到90年代，就在70年代，Jelineck基於統計做出的成就就已經在自然語言處理和語音識別上大放異彩了。

沒寫完，挖個坑暑假再來填。

5樓：

碰巧正在寫關於nlp方面的文章，以下是逼人拙見：

因為制定規則周期長，而且質量過高有過擬合問題，除此之外，還有新詞大量出現，特別是在資訊時代各個領域的新詞層出不窮，如果是基於規則分詞，估計要累死語言學家。

然而統計不需要太多的規則，只要採取一定的演算法策略來解決分詞問題。並且當下並行運算的能力提公升，使得大規模資料處理成為可能，因此基於大規模語料庫的統計方法是可行的。在相同情況下，統計方法比規則方法的能節約更多的時間，人力和物力。

不過早在90年代初期開始，這兩種方法就一直以相輔相成的形態呈現，雖然目前來講統計方法是要優於規則方法，但如果要對特定人群提供資訊，則要以相同的統計策略為基礎新增相應的分詞規則。

順便說句題外話：鄙人認為alphago圍棋這是乙個典型的理性與經驗的雙主義pk，在這個世界性的比賽中，經驗主義戰勝了理性主義。

因為，alphago並沒有按照常規的「專家系統」學習，而是通過某種策略去計算勝率最大的地方。不知道我這樣理解是否正確。

6樓：

除了統計和語法規則。自然語言處理沒有別的辦法了嗎？數學之美說飛機不是模仿小鳥的翅膀拍打起飛的，不是靠仿生學而是因為空氣動力學而研製成飛機。

機械人對自然理解也不應該是仿生學，而是數學。

感覺挺靠譜的，但是我並不服氣，我覺得除了統計學和語法規則，我覺得應該有第三種研究方法。。期待。

7樓：EricD

我也看過數學之美，大家都回答已經足夠了。

我想說的是，樓主說

學英語不都是從詞性，語法結構開始學嗎

我想說，這就是為啥中中國人英語學不好。學語言類似機器學習，要不斷重複不斷迭代。我覺得先別管神馬語法，重複念，重複刺激大腦，才能學好。

8樓：

。更新一下啦，有的時候呢，並不是說規則的東西不好，而是如果少人力的情況下，統計的方法要價效比高一些，如果人夠多，能力夠屌，每個人cover一些特徵，效果也不會差。

9樓：

你覺得你學英語從詞性從語法結構開始學很對麼，你現在英語熟練不？

經常跟人講英語，經常閱讀，效果是不是更好？這就是統計學習嘛。

基於規則的方法，只能說是一種重要的補充和比較低成本的認知路徑，但絕不是熟練掌握的更佳方法。機器跟人相反，機器最擅長做機械的事情，統計學習是機械的，對它來說是低成本的，只要樣本多起來了，統計學習就是必然盛行的。

10樓：xia hong

自然語言是乙個複雜系統，複雜系統的意思是在層次上，在組織形式上，有很大的自由度。這與形式語法是不同的，這種複雜根源於物質世界的複雜與語言表達的需求。當然自然語言也保留了基本的語言規則核心。

所以不能簡單地用數學分析之類去做，而要面對許多複雜的物件，就要用資料處理，機器學習的方式。

統計的方法好用，是因為統計本身就是處理資料的。但是語言學的方法並沒有被拋棄，這恰恰說明了現代機器學習能力不能完全勝任語言知識表達。所有模型都可以變成統計的呀，我們也可以基於例項的呀。

這裡統計在於從大資料中概括了可能性，然而它並沒有在小的粒度上描述語義,包括每個規則每個語義可能性，理解的過程，這些都是需要繼續用機器學習實現的，即NLP完整的機器理解與生成。

僅供參考，只會Yy

11樓：

昨天看了《數學之美》，今天就恬不知恥回答問題。

1950s到1970s，這時候科學界都在鼓搗規則分析自然語言。比如:

The pen is in the box.

很簡單個句子，主謂賓語法清晰明顯，機器翻譯簡單明瞭。

The box is in the pen.

這個怎麼翻譯啊？這盒子怎麼在鋼筆裡啊？這……當然機器不會跟我似的想太多，來吧主謂賓語法清晰明顯，直接翻譯即可（比直男還直）。

這個時候大家就覺得這條路越走越黑啊。

1970s IBM（吧）有實驗室鼓搗基於統計學的自然語言處理，沒多會兒就把整個之前20年的成果都給超越了。然後人們豁然開朗，就從這條路上摸索前進了。

原諒我詞彙量不足，講不出動人的故事，但我願意推薦一本好書。

《數學之美》。

12樓：SCADA

在自然語言處理上,，有乙個意義深遠的里程碑式的轉折，那就是從小規模受限語言處理，走向大規模真實文字處理（例如google），語料庫方法和統計語言模型是處理後者的最佳方案，且統計模型可以滿足非常廣泛的應用需求，例如掃瞄字元、手寫字元的識別、語音識別詞語切分、詞性標註、英語介詞短語消歧、機器翻譯、資訊抽取、智慧型檢索和過濾、文字分類和聚類、作品風格與作者的鑑定等等，因此統計方法越來越流行。

自然語言處理技術有理性主義與經驗主義之分，理性主義指傳統的基於語言學和人工智慧方法的自然語言處理技術，經驗主義指基於語料庫和統計語言模型的自然語言處理技術，目前的技術現狀是經驗主義和理性主義方法並存，尤其是在機器翻譯領域。

13樓：趙丹

現在是統計和規則並存，二者有不同的特性，適用不同的應用場景。

統計並沒有取代規則，但早先根本沒有統計，因為語料太少，統計不出什麼。現在統計能解決大量實際問題，那些問題大多數本來規則也解決不了，說不上是替代。

規則的適用範圍：封閉集，高準確度

統計的適用範圍：開放集，中等準確度

自然語言處理為什麼從規則轉到統計的方法？

自然語言處理的研究意義是什麼？

從語言學或自然語言處理角度如何看待」程式設計師男朋友都是怎樣的「的提問下，都是男朋友而沒有女朋友？

為什麼相比於計算機視覺 cv ，自然語言處理 nlp 領域的發展要緩慢？

其他用戶還看了：