為什麼要用深度學習deep learning做自然語言處理NLP？

1樓：「已登出」

順便一說什麼資訊檢索和圖表式學習都是可以用深度學習的那些才是真的離散

大部分這種離散資料最後都有embedding的過程embedding的方式很多有用矩陣分解的，也有用word2vec node2vec還有很多很多blabla2vec的方法

之後再deeplearning

表示學習了解一下

2樓：知雲學堂

深度學習出現以後，「影象視覺」、「自然語言處理」、「自動駕駛」、「機械人控制」等很多領域都取得了突破性的進展。這些領域很多問題都比較模糊，可能面臨的情況極其多，用傳統程式設計方式做這樣的事情，到後面往往不堪重負。也就是說rule-based的rule太多了，到最後寫不過來，而且在自然語言這樣的領域，rule和rule之間都有可能互相衝突。

深度模型和傳統的演算法，可以說存在著根本的差異。深度學習模型和傳統演算法模型比起來，不僅方便而且更有效，這都得益於深度神經網路強大的變換能力。

其實不管是「影象」還是「語言」，不管是「連續的」還是「離散的」，不管是「範圍相關」還是「序列相關」，在經過深度神經網路的變換空間後，「有效」的資訊往往可以獲取到，甚至可以「生成」我們想要的東西。

讓人不可思議的是，深度神經網路的變換，是由一些最簡單常見的「線性」和「非線性」變換組成。也就是說我們在深度學習中，我們僅僅取樣了最簡單的基礎模型，讓這些基礎模型組合起來就可以解決極其複雜的問題。

3樓：程式碼律動

首先要說的是，第一原因還是Deep Learning 確實 work，而且效果還很好。這很重要，畢竟誰都不想說我搞了半天還沒傳統方法結果好。

第二，剛開始深度學習的確沒有在 NLP 中流行起來，深度學習剛開始的熱點領域在影象分類、語音識別等方向。主要的轉折點是2013 年 word2vec 的誕生，詞向量恰好與神經網路偏好的稠密的輸入非常契合。區別以往傳統的類似語言模型 LM、句法分析之類的操作都是針對以單詞/詞為單位，輸入非常稀疏。

詞向量將深度網路和人類文字很好地結合起來，是神經網路能夠『理解』文字的關鍵一步。因為人類的文字本質上是乙個序列，傳統的 LM 很難做到長序列的記憶與處理，一般都是用 bi-gram，tri-gram 之類的，而 RNN 理論上可以實現無限長的記憶處理（雖然還實際中還是有記憶衰退問題，不過這是另乙個話題了），所以後來在大多數 NLP 領域中，深度學習最終能佔了上風。

第三是深度學習自身所帶來的優點，即不再需要手工篩選特徵，一切變成了乙個黑箱，實際上很多 NLP 領域的前置知識都不需要了。門檻降低了，誰都可以玩一下。所以喜聞樂見地，很多領域一窩蜂用上深度學習了。

第四點就是，很多問題我可以套用 End2End 模型了，End2End 模型免去了非常多的複雜操作與專業知識，並對擁有大量資料的企業是巨大優勢，比如 google 的 NMT 模型，還有很多對話系統方面都上了 End2End，只要用現有資料就能得到乙個效果極佳的結果，何樂而不為呢？

[1] Deep Learning for Natural Language Processing (NLP): Advancements & Trends | Tryolabs Blog

[2] Promise of Deep Learning for Natural Language Processing

4樓：運動碼農

比如要提取一句話的兩個實體，還要分出這兩個實體的1、2順序，提取出實體後，規則很難刻畫兩個實體的前後順序，

這時NER後弄個前面實體是實體1 以及前面實體是實體2 的二分類器訓練就行了。

機器翻譯的話，

走規則，我們要翻譯10萬句話就要寫10萬句話的規則，要翻譯30萬句話就要寫30萬句話的規則，

如果用神經網路，可能要翻譯30萬句話就要有10萬句話的語料就行了。

5樓：

不知道「影象是連續的，只能用神經網路做」這個說法從何而來。12年以前的視覺任務中用得最多的大多還是基於經典SIFT、HOG等手工特徵外加常見基本分類器的解決方案，並沒有深層網路什麼事兒。

然後回答題主的主要疑問。

正經回答：深層神經網路的表示能力不是固定結構的淺層對數線性模型（包括低階CRF）能做到的。很多任務目前在標準資料集上達到當前最優水平的架構，基本都是多層（雙向）RNN的各種變體。

語言模型、機器翻譯等很多任務已經具備大規模有標記訓練資料或平行語句對，而放眼工業界各種任務的可用訓練資料級別更是超乎想象。這些都只有表示能力足夠強的結構才能更好地擬合。過擬合訓練資料了？

沒關係啊我們要的不就是這個效果嘛，再結合各種正則化思路多想想就解決了，總比欠擬合好吧……此外，即便是有標註資料規模不那麼大的任務，也可以把從海量無標註語料中訓練得到的詞向量拿來用，獲得比經典布朗詞聚類得到的離散向量更能刻畫語義接近性的資訊。哪怕有些詞或表達方式在有監督訓練語料裡沒見過，但因為它在無標註語料中學出的表示同另乙個常見詞接近，神經網路很容易將那個常見詞的判別性質遷移過來。經典方法想利用海量無標註語料來如此做半監督學習並沒有這麼容易。

不正經回答：現在剛進NLP圈的有相當一部分都很弱菜（比如我）。除了入門級機器學習以外，基本不怎麼懂NLP經典方法，有很多同學甚至可能連基本的漢語或英語語感都沒有，所以也根本沒有結合具體文字資料的性質嘗試手工設計特徵的靈感。

那還要吃NLP這塊大蛋糕怎麼辦？當然是上萬能黑盒子啊……我不會提特徵我難道還不會玩拼圖？什麼任務一來直接先拿雙向RNN或者編碼器-解碼器過來套一套，求導都不用自己求；再適當觀察輸出中存在的表面缺陷，給外面適當加點儲存或者層次化注意力機制之類的新結構，調個SotA結果出來就拿去投ACL了，運氣好了再被沒見過世面的審稿人一審，覺得結構上有創新外加結果不錯，接收！

國安民樂，豈不美哉？

為什麼要用深度學習deep learning做自然語言處理NLP？

如何評價深度學習領域聖經「花書」Deep Learning的中文版？

為什麼目前的深度學習 Deep Learning 只是比較成功運用到影象語音上？

為什麼深度學習需要使用 GPU？

其他用戶還看了：

為什麼要用深度學習deep learning做自然語言處理NLP？

如何評價深度學習領域聖經「花書」Deep Learning的中文版？

為什麼目前的深度學習 Deep Learning 只是比較成功運用到影象 語音上？

為什麼深度學習需要使用 GPU？

其他用戶還看了：

為什麼目前的深度學習 Deep Learning 只是比較成功運用到影象語音上？