1樓:Vinking
30億資料,就是牽條狗來也能學的差不多了,窮人才會改變結構,調整方法,富人直接加資料。data is all you need.
2樓:
建議Google搞乙個新的會議專門發他們這種文章:International Conference on Extremely Large Models
3樓:
看了一眼目前負面評價居多啊?我覺得這TPU廣告拍的挺好啊(狗頭這種燒錢的工作一律可以稱為上月球。你說砸錢造大火箭大飛船上月球有實用價值嗎?
對我們這些做竄天猴的人有什麼幫助嗎?我說暫時沒有。但是上月球可以給你夢想。
做理論的人經常會做假設嘛。假設理想的情況,假設資源無限多,假設真空中的球形雞。這個工作就是告訴你,不需要假設,真的有近乎無限多的資源的時候,可以做出什麼程度的模型。
這樣大家才可以想象,硬體迭代十年二十年之後,手上的竄天猴可以飛到什麼高度。也可以反思,現在的方法有什麼問題。為什麼明明堆了這麼多資源,只能飛上月球,不能飛的更遠。
4樓:李聰
Google現在這麼喜歡整這些毫無意義、力大磚飛的東西了?
聽說這次是JTF 3B了。。。。
大組不做些真正有意義的工作、挖些有意義的坑,天天就是巨型資料集+TPU去overfitting刷SOTA很有趣嗎
5樓:
20億引數是可以單卡inference的,實際上100億以內都可以。應用價值應該還是挺強的。
就是訓練起來要的資源有點多。
很快就有國內對著刷的工作了吧,說不定已經做好了只是還沒掛arxiv而已。
6樓:
而且我也不全是情緒抒發,我是真覺得這種研究毫無意義,用天量資源堆出來幾個點的提公升。既無法運用於產業界,又不能作為社群絕大部分研究者進一步研究的基礎。無法加入研究社群的正反饋中。
完全是「針尖上數天使」型的工作,和走進死胡同的西方經院哲學一樣的敗相
7樓:Yuxin-CV
之前在YOLOS裡面嘗試從已有的heuristic去探索這個問題。YOLOS是把長、寬、解析度作為scale的巨集觀變數,反觀人家Google把資料,訓練時間和模型大小作為巨集觀變數。至於長、寬、解析度什麼的直接random search。
可以說重新整理了我的cv觀吧,資源限制了我的想象力...這個東西只有Google能做,用GPU是做不動的。
「我看不懂,但我大受震撼」
如何評價浪潮發布的2457億引數源1 0智慧型大模型?與GPT 3相比如何?處於AI模型領域什麼水平?
以後珊貼倥評都不用人來做,直接交給AI。比如你在平台上跟人吵了半天,其實它是個不喝水不吃飯只耗電的AI?挑撥離間也不用請水軍,直接AI搞定? 喵小皮 這些搞AI的,有沒有研究過能源消耗和碳排放?乙個人的大腦耗能才是多少?對比一下,你們的研究方向是不是走歪了,越來越大,越來越耗能,不講武德啊! 小狐濡...
如何評價谷歌大腦的EfficientNet?
發乙個自己用tensorflow2.0實現的EfficientNet calmisential EfficientNet TensorFlow2 Kerr.Wu 在自己的task 醫療影像 上做了一下finetune,用的是官方release的B5的引數 B6B7目前沒放出來,from scratc...
如何評價谷歌開源的 Mesh TensorFlow?
靈魂機器 Mesh Tensorflow的靈感來自於目前廣泛使用的資料並行 data parallelism data parallelism可以看做是把tensors和operations 在 batch這個維度上進行分割。Mesh Tensorflow則順勢把這個點子推廣到所有維度。Mesh T...