大資料競賽決定最終成績的要素是什麼?

時間 2021-05-11 18:00:04

1樓:朱祺

演算法的準確率,一般是根據你提供的測試集結果和實際結果比對,成績計算的方法很多,每個比賽有所不同,但是本質上就是準確率,包括測準率,召回率,F1等等。

2樓:

- 既然是競賽,國際慣例按成績說話。除非主辦方對解決方案有明確要求,比如一定要用特定演算法,但是需要事先定義清楚。規則模糊甚至修改規則是主辦方的失職,不應該由參賽者承擔責任。

- 僅僅從題目描述來看,降名次的理由太好好笑了。「依賴於資料集」,「需要調參」,「可遷移性比較差」,這些非常明顯是主辦方失職的表現。既然希望模型generalizable,那主辦方為什麼不多辦乙個提供多資料集的比賽?

想要non-parametric model,或者auto ml framework,那也應該在規則裡面說明,並且對所有參賽者一視同仁?

- 建議以後不參加這類主辦方的比賽。

3樓:天吶你真高

首先,9月比賽結束,11.4才答辯,乙個多月的時間,想認真準備突擊英語答辯也是來得及的。

都知道這種會議有workshop環節,雖說中中國人為主的會議講英文確實有一點扯,但是人家會議就這麼規定了。

11.4相當於預選,桑榆一口中文去答辯,你覺得評委會怎麼想?其次PPT過於俏皮化,這麼嘻嘻哈哈的去workshop,怕是評委臉上也掛不住。

雖然歐老師當時確實有一點抬槓,但是他有一句話說的不錯,你不能讓每乙個人都有這麼好的調參手藝。作為工種首先要有普適性,模型至少可以讓手藝一般的人也能跑出乙個不錯的結果。

實際上,老王桑榆為代表的規則神教,也酣戰了五年了,你們沒發現規則派的成員一直很少嗎?絕大部分的人都是規則+模型派或者純模型派。規則培養成本過高,靠靈感和經驗。

模型派至少調包俠也能玩的起來。

回到剛才的話題,乙個水平不錯的模型派的培養成本遠低於規則派的成本。也就是說,歐老師當時不能接受規則調參流也是說的通的。

4樓:

題主這個問題很簡單,決定大賽的要素就是成績。在這上,我也認為CIKM比賽上江離團隊確實遭到的不公正的待遇。

但是,我個人揣測不公正的待遇主要是很扯淡的答辯不使用英文,而第二天要參加cikm workshop分享。而不是那一堆規則、通用性差的問題。

我個人的分析如下,首先他們拿第一的track在他們後面的其實大部分都是規則系統。整乙個track大部分演算法都是停留在itemcf的規則構造。所以你們說的評委喜歡深度學習,你們沒有所以把你們降權了,似乎原因不太成立。

第二,你們覺得nn什麼的沒用,但在另外乙個track,排在前幾的用的就有NN。而你們排在後面,所以也沒因為NN導致你們答辯排名改變。這個鍋NN不背。

除開比賽之外,對於江離說我的人腦強於模型,喜歡肉身梯度下降優化模型引數。我也贊同評委的說法,現在之所以把ai稱作第三次工業革命,主要的原因是AI的自動化能大大提公升人的生產力。舉個例子,乙個模型假設能對10個領域通用,而裡面的引數足夠的簡單,似乎每一次只要找個人run起來就行了,然後人就能做別的事情。

而你們的模型,似乎也並不只你們口中說的4個引數,背後的一些關於時間上的超參,平滑的引數,這一坨的東西,是你自己寫死的。似乎如果來個別的分布,別的時間相關的東西,突發的情況,是不是你們也得自己親自調整。這並不是你們封裝不封裝的問題。

你們提出的是逆潮流的專家系統》模型學習。

個人感覺上這個比賽首先在設計上就很不合理。比賽實際上是在做乙個小型的推薦系統,背後實際上有超級複雜的背景知識,而且要很大的碼量。面向沒有機器的學生和玩家十分不友好。

例如,召回階段上,高效推薦的比賽中,用向量召回的人少之又少。提及annoy,faiss這種高效能召回庫的也很少,大部分停留在用規則構造物品相似性。所以像youtube model這種工業界加比賽雙加持的模型也看不見。

但我認為這樣的失誤導致了,主辦方主辦比賽得不到自己想要的結果,過失在於主辦方,不能把自己的過失轉給參賽選手。參賽選手辛苦4個月的比賽,確實不該被答辯給降次。不管是評委給出什麼理由,這都十分可笑。

5樓:

說實話,得看你有沒有人。

資料探勘這個圈子很看 social 水平,我們國家自己人很擅長來這套,於是也湧現出了很多大佬(顯著地比其他圈子多)。

並不是說大佬的工作不好,只是有時候大家的東西中誰都行的時候,優勢就來了。

如果有人不信?那你肯定沒中過 KDD 吧 (偷笑)

6樓:健步俠阿杜

我覺得題主其實已經知道答案了,當然是最後的成績或者performance,其實看看kaggle或者業界的應用,會發現一年nips cvpr acl各類會議那麼多文章真正用的上的沒幾篇。計算機或者人工智慧方向畢竟是乙個工程學科,不能真正解決工程上的問題,又有啥意義呢

參加天池大資料競賽是怎樣一種體驗?

前兩個月參加過一次,感覺最重要的制勝因素是擁有足夠多的GPU,靠著計算資源碾壓對手。那些技巧在計算能力面前不值一提。我的貢獻 一台裝了4塊2080Ti的機器 隊友的名字暫時打碼了 充當分母的路過,從2014年的第一屆開始,蜻蜓點水般地參加了2014和2015的幾個比賽,總體結果 沒有很投入 沒有全程...

什麼是大資料的主流框架?

成都加公尺谷大資料 1 Hadoop Hadoop 是採用了 Map Reduce 的一種分布式的計算框架,它是根據 GFS去開發了 HDFS 分布式檔案系統,還有根據 Big Table 開發了 HBase資料儲存系統。可以了解到的是,Hadoop 的開源特性成為了分布式計算系統事實上的國際標準。...

大眾眼中的大資料是怎樣的?

最近正在接受大資料課程的聯合培養,我覺得大資料更多地是一種思維方式,是一種從資料出發,尋找內部的相關關係,去發現一些直觀觀察並不容易發現的結論的思路。這種思維方式並不是現在才有的,但是在過去因為硬體 計算能力等限制並不能充分發揮作用。當代的電子商務,移動網際網路等每天都會產生有價值的大量資料,而計算...