如何評價谷歌提出的有20億引數的ViT G 14模型在ImageNet達到新的SOTA 90 45 ？

1樓：Vinking

30億資料，就是牽條狗來也能學的差不多了，窮人才會改變結構，調整方法，富人直接加資料。data is all you need.

2樓：

建議Google搞乙個新的會議專門發他們這種文章：International Conference on Extremely Large Models

3樓：

看了一眼目前負面評價居多啊？我覺得這TPU廣告拍的挺好啊（狗頭這種燒錢的工作一律可以稱為上月球。你說砸錢造大火箭大飛船上月球有實用價值嗎？

對我們這些做竄天猴的人有什麼幫助嗎？我說暫時沒有。但是上月球可以給你夢想。

做理論的人經常會做假設嘛。假設理想的情況，假設資源無限多，假設真空中的球形雞。這個工作就是告訴你，不需要假設，真的有近乎無限多的資源的時候，可以做出什麼程度的模型。

這樣大家才可以想象，硬體迭代十年二十年之後，手上的竄天猴可以飛到什麼高度。也可以反思，現在的方法有什麼問題。為什麼明明堆了這麼多資源，只能飛上月球，不能飛的更遠。

4樓：李聰

Google現在這麼喜歡整這些毫無意義、力大磚飛的東西了？

聽說這次是JTF 3B了。。。。

大組不做些真正有意義的工作、挖些有意義的坑，天天就是巨型資料集+TPU去overfitting刷SOTA很有趣嗎

5樓：

20億引數是可以單卡inference的，實際上100億以內都可以。應用價值應該還是挺強的。

就是訓練起來要的資源有點多。

很快就有國內對著刷的工作了吧，說不定已經做好了只是還沒掛arxiv而已。

6樓：

而且我也不全是情緒抒發，我是真覺得這種研究毫無意義，用天量資源堆出來幾個點的提公升。既無法運用於產業界，又不能作為社群絕大部分研究者進一步研究的基礎。無法加入研究社群的正反饋中。

完全是「針尖上數天使」型的工作，和走進死胡同的西方經院哲學一樣的敗相

7樓：Yuxin-CV

之前在YOLOS裡面嘗試從已有的heuristic去探索這個問題。YOLOS是把長、寬、解析度作為scale的巨集觀變數，反觀人家Google把資料，訓練時間和模型大小作為巨集觀變數。至於長、寬、解析度什麼的直接random search。

可以說重新整理了我的cv觀吧，資源限制了我的想象力...這個東西只有Google能做，用GPU是做不動的。

「我看不懂，但我大受震撼」

如何評價浪潮發布的2457億引數源1 0智慧型大模型？與GPT 3相比如何？處於AI模型領域什麼水平？

以後珊貼倥評都不用人來做，直接交給AI。比如你在平台上跟人吵了半天，其實它是個不喝水不吃飯只耗電的AI？挑撥離間也不用請水軍，直接AI搞定？喵小皮這些搞AI的，有沒有研究過能源消耗和碳排放？乙個人的大腦耗能才是多少？對比一下，你們的研究方向是不是走歪了，越來越大，越來越耗能，不講武德啊！小狐濡...

如何評價谷歌大腦的EfficientNet？

發乙個自己用tensorflow2.0實現的EfficientNet calmisential EfficientNet TensorFlow2 Kerr.Wu 在自己的task 醫療影像上做了一下finetune，用的是官方release的B5的引數 B6B7目前沒放出來，from scratc...

如何評價谷歌開源的 Mesh TensorFlow？

靈魂機器 Mesh Tensorflow的靈感來自於目前廣泛使用的資料並行 data parallelism data parallelism可以看做是把tensors和operations 在 batch這個維度上進行分割。Mesh Tensorflow則順勢把這個點子推廣到所有維度。Mesh T...

如何評價谷歌提出的有20億引數的ViT G 14模型在ImageNet達到新的SOTA 90 45 ？

如何評價浪潮發布的2457億引數源1 0智慧型大模型？與GPT 3相比如何？處於AI模型領域什麼水平？

如何評價谷歌大腦的EfficientNet？

如何評價谷歌開源的 Mesh TensorFlow？

其他用戶還看了：