如何看待SQuAD比賽中，阿里 MSRA機器閱讀理解準確率超越人類？

1樓：路遙遠也要一起走

值得可喜可賀，但同時需要清醒的認識到，考試成績與實際能力之間並不是完全對等的關係，尤其是閱讀理解這樣一種從感性中尋找理性的過程，其複雜程度超乎想象，對自然語言深層的歸納推理仍然需要進一步努力。

2樓：David Dong

很多人已經說了，現有的模型不足以準確完整的評估認知能力。

話說，如果真的能設計出準確完整的可量化的模型來評估閱讀理解甚至認知的能力，整個問題就已經解決一大半了吧?

我現在是不覺得人類智慧型有什麼足夠特別的地方是無法用機器實現的。這個模型本身不能夠完整表達閱讀理解這種認知能力，不過至少算是乙個區域性的模型，是通往強人工智慧的路上的一步。接下來應該需要設計新的評估模型，然後找新的資料集，用舊的或者新的演算法去刷，慢慢AI的能力就越來越像人，甚至比人更強了。

其實即使是現在的程度，我覺得在輔助進行閱讀理解上應該也有很多可以應用的地方吧?

3樓：wei chris

基本上，只要有測試集合來考核人工智慧的水平，在實際應用的時候都要打折扣。

機器總可以不斷的刷分公升級。

君不見，現在一些影象識別競賽的頭名竟然有保險公司。只有你想刷，總還是有的。

哪天直接到現實中，隨機比一下，才更有說服力。

4樓：Real Eldorado

NLP的任務基本上分為兩類, 一種極為簡單,一種極其困難. 我想這個成績還是主要說明這個task可能是過於簡單了,只需要syntax就可以解決,類似於cnn/dailymail ?

如何看待在辯論比賽中完全抄襲論點？

嘿嘿嘿這抄沒什麼啊，關鍵是抄完你自己能不能講出來，很多辯論剛入門的孩子都是由師兄師姐灌論打的，打得好才是重點，哪怕是一模一樣的論，不同人講出來都是不一樣的，讀稿也是這樣。至於思辨什麼的，抄論點本身就是個開拓視野的過程，抄完就能feel到，哦，原來還有這種操作，甚至視野一開啟，腦洞一晃，就是條面目...

如何看待阿里雲在Sort Benchmark 2023年排序競賽上打破記錄和其意義？

桂能這麼多機器，100t,可以塞進記憶體去了，我覺得阿里應該還能做的更快點的，比如用bsp跑跑，但是估計阿里會慢慢玩這個遊戲，一直霸榜尼不要逗了與其一群人在這兒猜測，不如我們去官網看一下資料。我這裡只擷取了Gary測試集。首先看下節點數目，阿里飛天使用了3134個節點，2014年的Triton...

如何看待籃球比賽中的墊腳行為？

沒有閃電依然雷鳴我曾經打球也踩到別人腳上傷到過，當時直接腳背半邊全紫，差不多恢復了半年才好！到大學打球時，在場上就和熟人打，陌生人會保守點，摸清情況再說。對於墊腳行為，如果是為了比賽勝利，我覺得就不配擁有勝利，因為競技本來就應該靠實力。如果是為了報復，那這種人就不應該在場上，打球難免磕磕碰碰，大家...

如何看待SQuAD比賽中，阿里 MSRA機器閱讀理解準確率超越人類？

如何看待在辯論比賽中完全抄襲論點？

如何看待阿里雲在Sort Benchmark 2023年排序競賽上打破記錄和其意義？

如何看待籃球比賽中的 墊腳 行為？

其他用戶還看了：

如何看待籃球比賽中的墊腳行為？