為什麼相比於計算機視覺 cv ，自然語言處理 nlp 領域的發展要緩慢？

1樓：

我覺得計算機視覺的進展也很緩慢……雖然已經能解決一些問題。

自然語言處理的問題很複雜，複雜到計算機視覺的規模僅僅是自然語言處理的乙個子模組。

計算機視覺早晚也會遇到自然語言處理一樣的瓶頸，而且必須依靠自然語言處理的進步來實現。

2樓：特里在納舍科技

語言在於上下文不一樣，會有不一樣的意思，比如「波」，在訊號處理裡面可能指代sin正玄波， cos余弦波，在物理可能是能量波，聲波，以及其他。

另外就是和時事相關，比如陳老師，在陳冠希的事情之前，陳老師就是就是學校的陳老師。

另外和文化習俗也有關，比如廣州人說問候你全家福貴，那可不是全家富貴的意思。

然後就是抽象的層次不一樣，比如說fMRI，在不知道這個簡寫的含義之前，你可能只會把這個當做字母，做乙個淺層的解釋，而不是去想其他。

非常難。

3樓：Mr.Memory

把這個過程分為採集和表述。客觀採集和匹配做的很好，因為人與機器都是在描述客觀世界，只是採集和描述方法不同，但是易於理解。語言屬於客觀世界的再加工，屬於表述。

機器只採集表述，人卻多維度採集客觀世界，很難理解到同一層面，表現就是覺得發展慢。其實只是雞同鴨講而已。怎麼辦？

必須把表述與客觀存在進行鏈結，機器表述結果才會易於理解。要帶個採集器滿世界轉，分析描述和客觀世界聯絡，理論上可以有突破。一般公司哪有這個財力和資源。

4樓：

自然語言處理，一直在做相關的處理，基礎理論比較紮實，應用較少。計算機視覺，識別，分割，重建、線面提取等等，大多數集中在一些看起來很容易取得成果（忽悠人）的淺層應用層面，基礎理論並沒有前者發展深入，現如今cv理論仍然寬泛不成體系，很多理論借鑑了nlp。

5樓：dhName

按照雜訊通道模型從輸入端到輸出端的理論，機器翻譯的統計思想就是在已知輸出端去最大似然輸入端資訊，中間又涉及到輸入端的語言模型的最大化。深度的nlp還要去學習word embedding，word sequence，synthetic，semantic的資訊，這也就最近以bert為信仰的預訓練語言模型大火的原因，同時結合大規模知識圖譜的embedding讓機器去擁有常識。

這太難了…

6樓：飯飯

我對於這個問題的看法，覺得CV和NLP存在更深層次的區別。自然語言是人類獨有，準確地說是人類文明發展起來之後獨有的產物，是人類後來發展出來的交流符號。影象，則是廣泛存在於自然界的資訊。

這兩者從資訊量上看是完全不同的。CV的資料量顯然要比NLP大得多得多。

另外，不認為NLP應用很少，也遠不是Toy，搜尋引擎就是典型。但不可否認的是，一些新的技術點是先在CV爆發，後來遷移到NLP的。包括利用大規模資料Pretrain Model也是。

但大規模Pretrain Model中，利用Unsupervised和Self-Supervised Learning技術的BERT等等走得反而比較前。所以不完全同意更慢一說

7樓：大資料小學生

計算機視覺和NLP（自然語言處理）都擅長處理某些限定任務。儘管如此，他們都在以相當慢的速度前進，而NLP領域甚至比計算機視覺更小。想知道為什麼？

下面，我們精心挑選了與NLP相比更快的計算機視覺推進的主要原因。

計算機視覺的成熟速度更快，因為：

1. baseline更高。許多基本的計算機視覺問題，更不用說物體檢測和人臉識別，已經得到了很好的準確解決。

2. 無處不在的產品覆蓋範圍。像面部識別工作的Facebook和從事物件檢測的Google Goggles這樣的大品牌幫助計算機視覺技術變得更加成熟。

4. 硬體進展。硬體，例如，具有更大畫素覆蓋範圍的深度相機，如Kinect中的那個。事實上，今天我們的相機可以很容易地將人與背景分開。使得資料質量更高

當然，我們不能說自然語言處理也一直停滯不前。在NLP領域已經做了很多任務作，與計算機視覺不同，最近精確度已經提高了好幾倍，NLP的準確率一直在80-90％。此外，NLP社群在製作能夠訓練有監督的機器學習演算法的大量注釋資料集方面做得很好。

其實計算機視覺和NLP（自然語言處理）最近都發展得不錯。但是，與NLP相比，計算機視覺的發展速度更快，首先，由於計算機視覺的巨大興趣和巨大的科技公司，如Facebook和谷歌的支援。希望深度學習的最新進展可能很快就會徹底改變NLP的狀況。

至關重要的是要知道目前計算機視覺和NLP都遠未有一半人類的表現程度，因此在兩個方向上還有很多任務作要做。如果一起應用，它們具有難以想象的潛力。順便說一下，他們已經成為乙個新的跨學科領域，到目前為止已經獲得了很多關注，並且在未來肯定會有。

8樓：Vincent

從本質上自然語言處理解決的問題要更深刻，相對應就更難一些。自然語言處理解決的是人的思維與認知過程，而計算機視覺解決的是人的表象與知覺過程。

從心理學的角度來講，認知過程是高階心理過程，主要是認識過程，如注意、知覺、表象、記憶、創造性、言語和思維等。你會發現知覺其實是最基礎的認知過程。

舉個簡單的例子來講：

計算機視覺中的目標識別，其實對應就是自然語言處理中的命名實體識別與語義消岐。基本可以發現所有的視覺領域的基礎任務都能對應到自然語言處理中，但是自然語言處理中的基礎任務就無法對應到計算機視覺領域了。

比如，文字摘要生成，在計算機視覺領域就應該叫：八分鐘帶你看完一部電影。顯然現在的計算機視覺領域還不能從一部電影中選取八分鐘讓你理解整部電影。

說白了，計算機視覺是滿足的感覺層面的資訊。而自然語言處理在滿足你認識層面的資訊。這個領域更抽象，所以顯得發展更慢。

9樓：時鐘創客

語言本質上是乙個符號系統。符號本身沒有什麼含義，其含義都是人類定義的。乙個詞在不同時期，不同人的眼中其含義都不盡相同。

因而有很大的歧義性。語言是人類在社會實踐中高度概括出來的符號，要想徹底理解語言，就必須理解社會中事物的含義，以及事物之間的關係。而這些讓機器做到是很難的。

現在的知識圖譜正在構建乙個這樣的體系。或許會對機器理解語言有幫助。計算機視覺中的訊號是沒有經過人類抽象的數值表示。

不具有歧義性。也更適合計算機的計算特點

10樓：石頭

所謂「自然語言」其實並不自然，語言是人類獨有的，並不是自然產生的，其中規律都是由人自身決定的，很難完全用統計學規律表現。但視覺是自然而然產生的，不但人類有視覺，其他動物也有視覺，其中規律是可以完全由光的物理規律或者生物學規律來表現的。但我並不太認同直接說「CV比 NLP」簡單這種說法，，從廣義的語言來講，CV是不是也是語言的一種表達方式，目前的CV發展比較快，是指的感知層面的視覺識別，目標檢測這些比較成熟了，，但是，視覺理解呢，還遠遠沒有成熟，（模擬一下，機器現在可以認得貓貓狗狗，但機器可以看懂電影嗎？？

）甚至還不如NLP發展快，。所以不要簡單的認為 CV就比NLP簡單！！！

11樓：CHAN.K

我來舉個例子，手機裡有語音助手和相機，大家用哪個更多一點呢？答案恐怕是相機吧……對於計算機視覺和自然語言處理哪個發展更快的問題，我想大家應該心裡有數吧…畢竟人從出生一墜地接觸的並不是會不會說話，而是睜開眼睛看世界！所以，應用範圍決定了這兩個方向的發展。

12樓：Liyuan Liu

只有非常少的生物發展出了文字

而幾乎所有常見動物都有視覺

所以我覺得直觀來說NLP 需要更多時間

(雖然CV 和NLP 都很難，想做好沒有容易的)

13樓：足球AI量化分析

計算機的工作原理決定了擅長處理影象，而語言是人造符號，機器不喜歡符號，尤其不喜歡推理。最明顯的現象是各種智慧型音箱壓根答非所問。

14樓：點點明天事兒

vision現在只在學習correlation，還遠遠不能reasoning，而NLP已經可以做一些簡單的reasoning，所以NLP 是走在vision 前面的。

15樓：賈式某人

我是做CV的，確實NLP比CV難做一些。

NLP的難體現在它的抽象上，語言離人更近，影象離計算機更近。

從人的進化歷史上也能很清楚地看到這一點，不要說人了，大部分動物都有視覺，能處理視覺內容，但語言卻是人進化到一定程度才出現的。

16樓：大隱隱於市

勉強了解些相關知識就NLP與CV而言 CV要更難 NLP已經發展到乙個很高的程度了各個處理方法向量化方法什麼的基本上已經趨向於成熟穩定而CV現在還停留在能夠入門階段現在只在很小的應用場景下能夠看到CV落地的影子不過個人感覺最後限制CV發展的可能不是一些演算法什麼的而是現在計算機的處理能力

17樓：邱錫鵬

NLP和CV都已經是很大的領域了，很難總體上說哪個更難。NLP領域中也很多比較容易的問題，CV領域也有很多很難的問題。

直觀感受上，NLP在工業界應用很少，不成熟。但實際情況也並非如此。比如拼音輸入法，幾乎每個人都在用吧，其背後就是NLP的統計語言模型。

每個大廠背後都有很多NLP的技術支撐。大廠對NLP工程師需求一點都不亞於CV工程師。

但為什麼感覺上NLP不成熟呢？主要有兩個原因：

1 預期太高。NLP的技術發展永遠落後於人們對他的預期。人們對NLP的預期等同於對科幻片中對AI的預期。

NLP技術的難度和人們理想中的NLP水平很不一樣。比如人們會認為實現類似SIRI的日常對話系統的難度低於專業領域的問答系統，但是實現難度可能剛好相反。

2 不能標準化。像語音識別、影象識別可以是相對比較標準化，輸入和輸出特別明確。這種可以利用大資料的優勢，通過機器學習演算法相對容易。

而NLP應用的大部分場景都是非標準化的，輸入資料十分「dirty」，需要大量的預處理，輸出也和場景結合十分緊密，沒有統一標準。比如NLP中就連最底層的分詞，也沒有統一的標準，不同場景對分詞的標準要求都不一樣。這樣就帶來乙個問題，NLP的大部分應用場景都缺少足夠規模的標註資料，並且標註成本也非常高。

因此準確率通常也不會很理想。同樣道理，CV中涉及個性化的應用場景其實也都非常難。

另外，感覺上NLP在工業界的應用比較少，是因為大部分NLP的應用還都是在後台，為搜尋、推薦等應用作為乙個技術支撐，前台看不見而已。

18樓：

語言遠比影象來的抽象。動物也可以識別敵友和顏色，但是就算是對於智力最高端的人類，對於語言的掌握也就十萬年的時間。

具體點兒的說，影象有天然的符合神經網路的處理習慣的可differentiable的連續表示，乙個WxHx3的張量就是處理這一張影象所需要的全部資訊。而語言呢？只能湊合著去用詞向量，和一些間接的語言模型去獲得表示。

就算獲得了表示，這個表示是否真的有代表性和通用型，也是沒個說法，興許換個任務就不好使了。

為什麼相比於計算機視覺 cv ，自然語言處理 nlp 領域的發展要緩慢？

計算機視覺（CV）的演算法有哪些，具體都有哪些特點？

計算機視覺（cv）下哪個小方向目前更有發展前途？

現在投身於計算機視覺是否明智？

其他用戶還看了：