國外的人工智慧領域,資料標註是怎麼做的?

時間 2021-05-14 18:50:11

1樓:倍賽

M-Turk的質量大家有所了解小倍不再多說。單說眾包這塊,確實不容易保證專業性和標註質量,所以不是所有標註工作都適合用眾包這種方式。海外客戶非常注重質量,現在一些企業已經開始找優質資料公司。

我們的海外客戶就很多,包括伯克利大學著名的自動駕駛產業平台Berkeley DeepDrive承擔了其90%以上的自動駕駛資料業務。

2樓:牛牛資料

訓練樣本和測試樣本需要達到一定準確率方能滿足機器學習的需要,AI人工智慧公司第一訴求是資料精準度。

明顯,M-Turk 的標註員並不能滿足資料精準度的訴求。

有的AI公司會考慮自己招標注員來進行標註,這是出於資料精準度的考慮,也有一些公司會把標註工作轉給一些專業的資料公司,這是出於成本的考慮同時又不放心眾包團隊的採集效果。

無論是國內還是國外的一些專業性的資料公司,為了能迎合人工智慧公司的需求,都會千方百計提高資料精準度,除了前期招聘高質量的標註員,對標註員進行培訓外,都會把同乙份標註任務同時分給多個標註員進行標註,已經處理過的資料也會進行校準,比如牛牛資料有3層校準機制,第一層由標註員互審,第二層由專案經理審查,除此之外,在標註過程中會和需求方多次溝通,確保資料樣本都能滿足訓練的需求。

當然,每個公司都是要追求利潤的,很多國內號稱專業的資料標註公司,實際最終來完成標註工作的還是一些外包的小團隊,這樣成本可以得到控制,當然資料質量不敢恭維。

無論是國外還是國內的人工智慧公司都會有資料標註外包需求,更準確點是對高精準度,大批量,低成本資料產生源的需求同時還要能保障資料安全性和對資料方向保密 。

如果有資料公司能滿足人工智慧公司的這些訴求,那人工智慧公司為什麼不外包呢?

3樓:

M-turk確實不是太準確,組裡乙個同事的日本小孩(10歲)就靠著用自己媽媽的賬號上m-turk標註日語掙錢給自己買switch和遊戲。。。

但感覺依然是窮組(鄙組)眾包用的最多的工具,但是像eye-tracking,driving simulate或者是需要錄音的就會在學校裡發廣告招母語使用者,大概是乙個小時8-10歐的樣子。

4樓:薈萃

國外很多都是通過Mturk這些人工眾包平台標註,然後自己去做質檢審核環節,平台的中立性導致互相扯皮的事情時有發生,我們是眾包標註和員工審核兩手抓,既能通過眾包降低資料標註成本,也能通過員工審核保證資料質量,目前看效果還不錯,已經得到幾家知名AI公司的認可,^_^

5樓:張航

我在美國做視覺相關的科研,資料標註一直領域內比較重要的工作,因為目前深度學習還主要集中在監督式的學習。在美國因為勞務費用通常很高,學校的科研專案通常不會聘用專門的標註人員(大公司除外),目前確實很依賴Am-Turk。通常Am-Turk那邊的工作人員在印度,人工比較廉價,而且懂英文,這樣在資料庫蒐集上提供了很大的方便。

當然也存在提問者擔心的資料質量問題,小小的建議:

1. 問題的描述,以及標註方法盡量詳細,例舉全面,當然英語要恰當簡潔易懂,符合語法習慣。

2. 設定好reject機制,在標註資料中隨機加入已經校驗過的資料,從而判斷在某一時間段內當前工作人員標註的可靠性,並且reject差的資料。

3. 適當採用多人標註,畢竟Am-Turk的成本相對較低,這樣做可以得到更為可靠的資料。

我只是回答了國外大學裡資料標註的普遍方法,但是具體要看應用的領域,以及對資料可靠性的要求。去年暑假在 NVIDIA 自動駕駛組實習,我們組特別重視資料的質量,畢竟人命關天,我們通常是技術人員自己標註,而且雇用並且培訓了幾位專門的標註人員,所以用什麼方法很大程度上也是取決於預計投入多少成本的。

6樓:小二黑

其實如果眾包平台有自己的質檢環節的話,也不是不可以的啊,畢竟眾包平台也是有團隊在背後運營的。我反而覺得有質檢環節的眾包平台對於資料採集,標註會更加有幫助。

人工智慧中的資料標註任務,如何監控標註質量?

史越 孩子成長過程中營養至關重要,不同的成長階段有著不同的需求。人工智慧的發展也是如此,依靠海量資料餵養的它們已經逐漸成長。AI企業在落地過程中發現,所需要的資料維度和複雜度也越來越高,高質量的資料服務行業火熱起來。當對於資料標註的規模和質量有一定標準要求時,單單依靠對標註員的管理優化無法從根本上解...

大資料行業 人工智慧行業 資料標註員發展職業線是怎麼樣的?

曼孚科技 資料標註員職業發展線是 標註員 質檢員 專案經理。資料標註員的工作是借助標註工具對資料進行標註,產出滿足機器學習的標註資料集。在資料標註行業中,標註員是最基礎的崗位。隨著標註員業務能力水平的提公升,標註員可以提公升至質檢員。相比於標註員,質檢員對於標註業務能力要求比較高,對於標註文件的理解...

在描寫人工智慧領域的作品中,除《銀河帝國》外,還有哪部作品能夠超越狹義的範疇,提供更廣泛的社會學思考?

智慧型風暴 頭號嫌犯 講述的是 馬克 赫利俄斯在漢堡經營一家頗具前景的軟體公司,他的公司準備憑藉新近開發的智慧型通訊系統 蒂娜 登上成功巔峰。可是蒂娜的首秀卻徹底失敗 在向投資者展示蒂娜的時候,軟體莫名其妙出現錯誤。沒過多久,他公司裡的兩名員工被殺,而馬克成為了頭號嫌犯 閱讀書中情節,電腦裡的智慧型...