如何評價浪潮發布的2457億引數源1 0智慧型大模型?與GPT 3相比如何?處於AI模型領域什麼水平?

時間 2021-12-19 23:18:47

1樓:

以後珊貼倥評都不用人來做,直接交給AI。比如你在平台上跟人吵了半天,其實它是個不喝水不吃飯只耗電的AI?挑撥離間也不用請水軍,直接AI搞定?

2樓:喵小皮

這些搞AI的,有沒有研究過能源消耗和碳排放?

乙個人的大腦耗能才是多少?對比一下,你們的研究方向是不是走歪了,越來越大,越來越耗能,不講武德啊!

3樓:小狐濡尾

在碼農界有句名言:窮玩兒車,富玩兒表,屌絲玩兒電腦。

看來這句話將成為歷史。

人工智慧進入乙個新階段。在個人電腦上調參,跑演算法的時代即將過去了,以後的演算法不是屌絲們能隨便玩兒的起的了

4樓:如初

到現在為止應該是最大的模型了吧,比起美國的GPT-3,中國人工智慧「源1.0」的引數規模比美國領先40%,訓練資料集大了將近10倍呢

5樓:Zero

我恰好對這個新鮮出爐的大模型有點研究。源1.0所聚焦的自然語言處理(NLP)模型堪稱人工智慧CROWN上的明珠,相比於機器視覺、語音識別等感知智慧型,自然語言處理模型屬於更具難度的認知智慧型,聚焦在理解、思考問題,並給出合適答案。

6樓:偏愛

我來和大家科普下背景。浪潮的模型名為Yuan1.0,用來生成中文文字。

該模型可以處理2457億個引數(GPT-3可以處理1750億個),同時也通過了圖靈測試,並在成語閱讀理解任務中擊敗了人類。

7樓:堅定

記得去年GPT-3發布的時候,整個AI圈都轟動了,比GPT-2的引數值提高了100倍不止,號稱有史以來功能最強大的語言模型。但很快,GPT-3創造的記錄就被浪潮的源1.0大模型打破了,僅僅用了1年多的時間,規模更大,技術更牛,厲害了。

8樓:張小美美

資料是最好的證明。

源1.0大模型引數規模為2457億,訓練採用的中文資料集達5000GB,相比GPT3模型1750億參數量和570GB訓練資料集,源1.0引數規模領先40%,訓練資料集規模領先近10倍。

9樓:aaa

雖然漢語是我們的母語,但對於許多外中國人來講,漢語一直被稱為世界上最難學的語言。所以,源1.0大模型的問世不但在引數規模上超越GPT-3很多,在語言本身也克服了數倍於GPT-3的難度。

比如多音多義只是漢語最基礎的特色,大家可以腦補一下「方便」這個詞的各種場合的應用。還有相比英語,漢語沒有空格分隔字詞,對於人工智慧來說也是一大挑戰。

10樓:呵呵噠

對比了下其他如智源悟道、華為盤古等大模型,源1.0智慧型大模型真的挺厲害的,尤其是在語言智慧型方面,獲得中文語言理解評測基準CLUE榜單的零樣本學習和小樣本學習兩類總榜冠軍。在零樣本學習榜單中,「源1.

0」超越業界最佳成績18.3%,在文獻分類、新聞分類,商品分類、原生中文推理、成語閱讀理解填空、名詞代詞關係6項任務中獲得冠軍;在小樣本學習的文獻分類、商品分類、文獻摘要識別、名詞代詞關係等4項任務獲得冠軍,簡直是乙個科科都是高分的全才。

11樓:張成月

瀉藥!根據之前了解過的阿里M6及其他一些模型,源大模型能解決很多問題,比如在開發層面,AI模型開發成本高,周期長,而大模型不需要開發使用者再進行大規模的訓練,使用小樣本就可以訓練自己所需模型,能夠大大降低開發使用成本;在應用層面,當前AI模型往往專用於特定領域,應用於其他領域時效果不好。而大模型能一定程度上解決這個問題,以為諸多應用任務泛化支援提供統一強大的演算法支撐,廣泛地應用於自然語言處理的各個領域,解決AI應用碎片化問題。

源1.0大模型作為全球最大規模的AI巨量模型,應用價值可想而知。

12樓:平庸之人

「源」乙個模型就可以在不做改動或者很小調整的情況下,直接應用到各種場景中去。相比其他專用模型,「源」這種通用大模型能夠節省很多任務作,也能夠解決人工智慧推廣的難題。

13樓:小鬼

大模型是當下公認的最有可能實現通用人工智慧的技術。而源1.0大模型將引數從之前GPT-3的1750億引數,提高至2457億,大幅度的提到了AI巨量模型的規模,這本身就是最大的突破。

14樓:阿肆

不邀自來。從技術層面上來講,像源1.0這種巨量模型訓練本身是乙個技術門檻特別高的研究工作,不僅需要在大規模集群上進行訓練,還要求發揮大規模集群最好的效能。

因此需要在模型分布式計算等各個層面上進行協同方面的一些設計、優化,才能實現技術上的突破。

15樓:財經小諸葛

AI圈裡人應該都知道,自然語言處理(NLP)當中Transformer結構是近年來被廣泛應用的一種主流模型。從2023年至今,專家學者們提出了大量基於Transformer的變體來提公升模型效能。不過其中大多數變體在應對不同的任務和部署方式時,都缺乏足夠的通用性。

但是大量實踐積累的資料經驗也證實了Transformer結構的效能表現與模型尺度、資料集規模和訓練過程中消耗的計算量呈現出穩定的正向關聯,比如T5模型通過增大基礎Transformer結構的規模(110億引數)在多項NLP任務中重新整理此前的最好成績。

里程碑模型GPT-3誕生單體模型效能凸顯

2023年,OpenAI發布了具有里程碑意義的1750億引數的GPT-3模型。它在零樣本(zero-shot)和小樣本(few-shot)學習方面取得了巨大的進步,無需進行微調就可以在這些任務上表現出良好的效能。一改此前相關研究在大型無標籤資料集上使用無監督學習對模型進行預訓練,然後對特定任務進行微調的行業慣例。

GPT-3模型可以直接應用於更廣泛NLP任務,也讓研究者們看到了增大模型規模的更多可能。在GPT-3提出之後,研究者通常使用以下兩種方式增加模型尺寸:

單體模型:增加模型的層數和每層的寬度。代表性工作有GPT-3和PanGu-α。

混合模型:採用稀疏門限訊號控制混合專家系統(Mixture of Experts,MoE)。代表性工作有GShard、Switch Transformer、Wudao和M6等模型。

每乙個專家模型(Expert)都是乙個擁有近百億引數的單體模型。目前採用MoE策略的模型已經成功突破10000億引數。

儘管單體模型和MoE都能有效地增加模型的規模,但是在零樣本和小樣本學習場景中,他們的表現差異顯著。目前尚沒有MoE模型被應用於處理零樣本或小樣本學習任務,而單體結構的模型在零樣本和小樣本條件下都表現出了良好的效能。

不過訓練超過千億引數規模的單體模型需要非常龐大的計算資源。以1750億引數的GPT-3為例,它的訓練過程使用了由10000張GPU組成的計算集群。這種龐大規模的計算需求對於多數研究人員來說是難以企及的,這也使得採用相似的方法進行模型訓練的道路舉步維艱。

浪潮「源1.0」突破單體模型訓練瓶頸

最近浪潮推出了他們的「源1.0」單體模型,為研究者們提供了一種新的訓練思路。浪潮將大規模分布式訓練效能納入模型結構設計,並採用該方法使用數千張GPU資源訓練出了「源1.

0」。它包含2457億引數,是目前為止NLP領域規模最大的單體語言模型。

「源1.0」在目前主流的NLP測試任務中表現出色,在多項任務中達到了業界最高水準。為了訓練「源1.

0」,浪潮還設計了一套高效資料處理方法,並基於該方法構建出目前業界最大規模的高質量中文語料庫(> 5TB)。與此同時,「源1.0」還表現出非常強大的文字生成能力,在人機對比測試中,「源1.

0」生成的文字與人類撰寫的文章難分伯仲。

有了成功案例的指導與鼓舞,相信研究者們可以採用將大規模分布式訓練效能融入模型結構設計的方法攻克單體模型訓練的瓶頸,研發出更多效能優異的、適用於零樣本學習和小樣本學習的自然語言處理模型。

16樓:佐伊

大模型這幾年一直很火,有些概念行業外的人可能不是很了解,2023年引起全球轟動的GPT-3曾以1750 億的參數量、45TB預訓練資料量傲視群雄,震驚學術界及產業界。

從OpenAI的GPT-3的1750億引數大模型開始,陸續有Google Switch Transformer 1.6萬億混合模型,微軟英偉達Megatron-Turing的5300億引數單體模型等,國內的企業與機構同樣在大模型路上蠢蠢欲動。今年6月,阿里巴巴宣布其多模態通用大模型M6問世,模型引數是萬億級;幾個月後的雲棲大會上,阿里巴巴宣布其大模型M6的引數已經從原來的萬億級上公升到10萬億級,規模超越此前谷歌發布的1.

6萬億Switch Transformer模型。與此同時,北京智源人工智慧研究院宣布推出大模型「悟道2.0」,智源研究院表示,悟道2.

0具備大規模、高精度、高效率的特點。在規模上,「悟道2.0」的引數達到1.

75萬億,是OpenAI GPT-3的10倍。

AI大模型如雨後春筍,不斷湧現。

事實上,在尋求更接近於通用人工智慧的道路上,不同的公司、不同的科學家們,正在尋找更接近的路徑。浪潮最近新發布了乙個大模型「源」,據說此模型有超大規模的2457億引數,超過了1750億引數的GPT-3,成為全球最大的人工智慧巨量模型。

這麼看來,那麼是不是模型越大越好?阿里、智源與浪潮之間的模型究竟誰更大?事實上,阿里與智源的大模型屬於混合模型,而浪潮的模型是單體模型也稱巨量模型,GPT-3也是單體巨量模型。

混合模型和單體巨量模型有著本質區別,用乙個比喻,應該會好理解一點,混合模型就像一群小山,而單體模型(即巨量模型)就是珠穆朗瑪峰,小山雖然也秀美層巒疊嶂,但珠峰仍令人魂牽夢繞,只有攀上最高的山,才能見所未見,一覽眾山小。

單體巨量模型最核心、最有潛力的能力在於零樣本和小樣本學習能力,它指向了高層次的認知問題,也是從很少的標籤中學習、分類和推理的能力,能夠降低現有演算法對資料集的依賴和標註的壓力,有利於提公升機器視覺技術的親和力及部署效率。 諸如「源」這種大模型乙個很主要的特點就是小樣本甚至零樣本學習的能力,能夠實現乙個模型通用到多個場景。簡單來說,「源」乙個模型就可以在不做改動或者很小調整的情況下,直接應用到各種場景中去。

相比其他專用模型,「源」這種通用大模型能夠節省很多任務作,也能夠解決人工智慧推廣的難題。

而阿里M6和智源悟道都屬於混合模型,混合模型(Mixture-of-Expert ,MoE)是將大模型拆分成多個小模型,對於乙個樣本來說,能夠對專門領域的問題做出分析,無需經過所有的小模型去計算,而只是啟用一部分小模型進行計算,雖然混合模型整體參數量可以很大,但真正執行某次任務的專家(expert)參數量可能不足100億。

在大模型的賽道上,算力公司、演算法公司、資料公司,研究機構正在展開新一輪競賽,前半程才剛剛開始,後半程誰會跑得更快呢,唯有時間能給出答案。

如何評價iPresst的發布?

已重置 ipresst是小孩玩的,prezi也方向不對,都是鬧騰一時的東西。都像是做美國大片用的,光看得人心驚肉跳,實際用處並不大。做幻燈片是為了方便交流,快速表達,最重要的是講述內容,光看著炫,弄的人頭暈是沒有意義的。要知道,好多匯報場合已經禁止做這種風格的 PPT 了。好多學校畢業答辯做成這樣都...

如何評價羅翔在B站掀起學刑法的浪潮?

芝麻醬 我特別理解,特別支援 我們學食品的,學營養的,總覺得大眾怎麼啥也不知道啊,看到網上誤解和謠言大行其道,實在是太糟心了,恨不得每件事都給他糾正過來 想盡辦法做科普 很多善良的專業的業內人士看非業內人士都一樣 這些人不懂的東西好多啊,我得趕緊告訴他。雖然有時候會陷入說教,惹人討厭 有另一些人,他...

如何評價東野圭吾的《新參者》

作者別出心裁的地方在於,一是從看似與案件不相關的地方入手,讓讀者帶著 到底是誰殺了她 的閱讀慾望和要記住一大堆名字的苦惱繼續讀下去 二是並沒有簡單結束這場 稅務師做假賬被發現殺人滅口 的案件,如果在這裡結束,那就顯得有點平庸了 進一步深化主題,談到父母教育子女問題。對於這條街道 這附近的人,加賀警官...