如何評價谷歌提出的有20億引數的ViT G 14模型在ImageNet達到新的SOTA 90 45 ?

時間 2021-06-27 21:57:04

1樓:Vinking

30億資料,就是牽條狗來也能學的差不多了,窮人才會改變結構,調整方法,富人直接加資料。data is all you need.

2樓:

建議Google搞乙個新的會議專門發他們這種文章:International Conference on Extremely Large Models

3樓:

看了一眼目前負面評價居多啊?我覺得這TPU廣告拍的挺好啊(狗頭這種燒錢的工作一律可以稱為上月球。你說砸錢造大火箭大飛船上月球有實用價值嗎?

對我們這些做竄天猴的人有什麼幫助嗎?我說暫時沒有。但是上月球可以給你夢想。

做理論的人經常會做假設嘛。假設理想的情況,假設資源無限多,假設真空中的球形雞。這個工作就是告訴你,不需要假設,真的有近乎無限多的資源的時候,可以做出什麼程度的模型。

這樣大家才可以想象,硬體迭代十年二十年之後,手上的竄天猴可以飛到什麼高度。也可以反思,現在的方法有什麼問題。為什麼明明堆了這麼多資源,只能飛上月球,不能飛的更遠。

4樓:李聰

Google現在這麼喜歡整這些毫無意義、力大磚飛的東西了?

聽說這次是JTF 3B了。。。。

大組不做些真正有意義的工作、挖些有意義的坑,天天就是巨型資料集+TPU去overfitting刷SOTA很有趣嗎

5樓:

20億引數是可以單卡inference的,實際上100億以內都可以。應用價值應該還是挺強的。

就是訓練起來要的資源有點多。

很快就有國內對著刷的工作了吧,說不定已經做好了只是還沒掛arxiv而已。

6樓:

而且我也不全是情緒抒發,我是真覺得這種研究毫無意義,用天量資源堆出來幾個點的提公升。既無法運用於產業界,又不能作為社群絕大部分研究者進一步研究的基礎。無法加入研究社群的正反饋中。

完全是「針尖上數天使」型的工作,和走進死胡同的西方經院哲學一樣的敗相

7樓:Yuxin-CV

之前在YOLOS裡面嘗試從已有的heuristic去探索這個問題。YOLOS是把長、寬、解析度作為scale的巨集觀變數,反觀人家Google把資料,訓練時間和模型大小作為巨集觀變數。至於長、寬、解析度什麼的直接random search。

可以說重新整理了我的cv觀吧,資源限制了我的想象力...這個東西只有Google能做,用GPU是做不動的。

「我看不懂,但我大受震撼」

如何評價浪潮發布的2457億引數源1 0智慧型大模型?與GPT 3相比如何?處於AI模型領域什麼水平?

以後珊貼倥評都不用人來做,直接交給AI。比如你在平台上跟人吵了半天,其實它是個不喝水不吃飯只耗電的AI?挑撥離間也不用請水軍,直接AI搞定? 喵小皮 這些搞AI的,有沒有研究過能源消耗和碳排放?乙個人的大腦耗能才是多少?對比一下,你們的研究方向是不是走歪了,越來越大,越來越耗能,不講武德啊! 小狐濡...

如何評價谷歌大腦的EfficientNet?

發乙個自己用tensorflow2.0實現的EfficientNet calmisential EfficientNet TensorFlow2 Kerr.Wu 在自己的task 醫療影像 上做了一下finetune,用的是官方release的B5的引數 B6B7目前沒放出來,from scratc...

如何評價谷歌開源的 Mesh TensorFlow?

靈魂機器 Mesh Tensorflow的靈感來自於目前廣泛使用的資料並行 data parallelism data parallelism可以看做是把tensors和operations 在 batch這個維度上進行分割。Mesh Tensorflow則順勢把這個點子推廣到所有維度。Mesh T...