如何看待自然語言處理未來的走向

1樓：atom Native

短回答：ACL系列 + NeurIPS + AAAI Tutorial/Invited Talk

Evaluation則是human-out-of-loop，不過這是永恆的話題。

至於昂貴的預訓練模型，其實只佔自然語言處理中的一小部分。

當然坑是挖得不小了，一波引發各種魔改加可解釋。畢竟引數多，挑挑揀揀更容易找到可以解釋的部分（逃，而且模型強勁使得解釋有意思（逃

而且，向蒜粒看齊，向本質看齊，不是ELMO/BERT出來才有的，也不是自然語言處理才有的。

也許有的人會對於現狀表示悲觀，個人認為這沒有必要。事實上，如果把模型看作資料，而把人看作模型的話，當千帆過盡，人對於自己和世界的認識都深刻了很多。當人們訓練模型時，被訓練的不是只有模型；當你凝望深淵時，深淵也在凝望你。

從這個角度說，這個領域一直有生命力。

（長回答僅當胡言亂語）

2樓：景初

談一下自己的一己之見。

和CV等領域的融合越來越密切，多模態研究成為熱點。融合知識的預訓練模型系統。

1.多模態研究是未來重要的研究方向

多模態研究之前主要是CV的研究者在研究，投的期刊會議大都是CV領域。從Image Caption到後來的Visual Commensense Reasoning，CV領域的很多任務其實都是多模態的，需要考慮自然語言文字等特徵。這些任務傳統的解決辦法主要是使用影象編碼器（ResNet等），文字編碼器（RNN等），再加上一些其他的技巧如注意力機制，模型的架構和思路沒有很多突破。

從大規模預訓練語言模型出現之後（BERT等），多模態研究迎來了新的發展熱潮。基於Transformer架構的編碼器具有強大的編碼能力，近兩年來很多關於多模態預訓練的工作也開始展開。多模態預訓練模型也是基於多層Transformer架構，文字和影象一起輸入模型，通過多頭注意力機制讓模型充分地學習文字和影象的關聯依賴。

模型（VL-BERT等）在多模態下游任務上也取得了SOTA的效果。

多模態預訓練的工作幾乎都是用來解決多模態任務的（或者說一些和自然語言有關的CV任務），很少有工作探索通過多模態預訓練幫助自然語言處理任務。EMNLP 2020復旦大學的一篇工作做出了一些探索《Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive Learning》，通過解耦的結構，通過多模態資料的預訓練，幫助解決自然語言理解任務。通過多模態資料幫助自然語言處理會是邁向大一統模型的必經階段。

聊到多模態，就不得不提到OpenAI的幾個工作（Image-GPT，CLIP，DALLE）。DALLE的效果驚豔，但仍然是基於Transformer結構的，採用自回歸損失函式的預訓練模型。DALLE通過使用單獨的生成模型（VQVAE）幫助生成影象。

本質上和上面的多模態預訓練模型沒有架構上的突破，但是DALLE往前邁了一步，即可以直接通過自然語言生成影象。OpenAI進一步豐富了大家的想象力，結合多模態資料的自然語言處理必將成為未來發展的重要方向。

2.融合知識的預訓練模型系統

手機碼字比較慢，之後再更。。。

3樓：Thinkwee

亂答一波。

未來的NLP模型：

1. 能從文字（或者多模態）中學習世界知識，實現世界知識和自然語言之間的編譯碼轉換。

2. 能從自己處理後的自然語言資料中繼續總結學習。

3. 從與人互動中學習。畢竟NLP最特別之處在於，模型的輸入或輸出是以人類可理解可教授的自然語言形式存在，如果有某種方式，人類能通過自然語言直接指導模型，那應該會取得和資料驅動的模型很不一樣的結果。

4樓：Swaggy Zhang

謝劉老師邀~

私以為，是不是應該重新考慮語言學知識在自然語言處理中的地位？最近的研究貌似過多依賴統計學而減弱了語言學的重要性。。

胡言亂語而已~

5樓：王泓硯

NLP的研究物件語言是智慧型體的心理產物，語序的鋪陳反映了人的心理結構和思維過程，這也意味著語言這種資料除了相對「客觀」的語言材料和認知經驗，還夾雜著「主觀性很強」的框架式的邏輯私貨（起承轉合、語態語調），這種能力勢必讓語序的整體特徵超越了單層資料主流的分布特徵（臨時性的功能擴充套件或語義引申），它的解碼需要智慧型體的心理結構，以便「創造性」地設計立體的圖式和衍生新的解釋，比如，「邏輯偶聯」、「生態與成態」，「符號屬性表徵」，「實體屬性表徵」等。

6樓：柯東

靠黑箱和算力野蠻破解的nlp，注定是會被淘汰的。

必須結合認知科學和神經科學，才能真正實現可解釋、小資料大靈活、小算力大技能的自然語言理解和生成。

通用人工智慧（agi）走了一條不跟傳統路線一樣的路，個人認為這個比主流ai有出息。

以上，也稍微提到了nlp和agi的走向。

7樓：運動碼農

在乙個小領域內實現通過圖靈測試，

定義一些基礎知識，作為基礎常識，而不是讓機器從零學習，這些基礎知識最好是100%正確的，

human-in-loop中可以讓模型持續和改正自己進而學習的演算法，這是最難的部分，個人認為即讓機器可以從無限次和人類互動中學習，即基於「self-correct-network」的「人監督學習」，模型可以識別人類進行的改正引導。

評估方法，通過human-in-loop在對話任務正確率最終逐漸達到99%以上，因個人認為對話任務最難，為何最終要達到99%以上？因為個人認為因現在對話資料訓練集太小，導致覆蓋對話範圍有限，正確率難以提高。

和標註了無限訓練資料的區別？沒區別，只要這無限訓練資料自身的正確率為100%。

8樓：HANS

作為乙個初學者，不敢看待，只敢大膽設想

希望未來能有基於經驗（深度學習）+推理（圖結構）+感知（多模態）共同發展，相輔相成的類智慧型體

看看哪天出來個用self-attention結構把上面三種功能統一的模型

9樓：

基於遠端監督的Text2Action，語義結構的深度挖掘讓使用者執行一些操作，用規範化的過程把這些操作記錄保留下來，再請使用者說點什麼給這串操作命名。

未來不在學界，不在企業內，在普通使用者。誰能讓普通使用者參與進來，解決使用者的認知成本，誰就能創造真正的未來。

而規則+統計的方法最大的好處就是猴子也能懂

如何看待自然語言處理未來的走向

如何在自然語言處理方向學習？

人類如何去用自然語言描述自然語言的本質

自然語言處理NLP中，Attention機制和Memory機制的優缺點各是什麼？

其他用戶還看了：