如何評價谷歌大腦的EfficientNet？

1樓：

發乙個自己用tensorflow2.0實現的EfficientNet：

calmisential/EfficientNet_TensorFlow2

2樓：Kerr.Wu

在自己的task（醫療影像）上做了一下finetune，用的是官方release的B5的引數（B6B7目前沒放出來，from scratch試了一下但是效果比較差），accuracy大概和Densenet201差不多，比Nas-L低了接近兩個點，看了看文章感覺引數的坑太多就沒仔細調，總的來說還是可以接受吧，就是覺得文章的insight沒有讓人很眼前一亮的感覺

3樓：Softmax

前天晚上在ICML見到了作者本人。很踏實的乙個研究者，對觀眾問題有問必答。我問了一下在小網路（b0)上搜出的最佳阿爾法，貝塔和伽瑪，隨著網路引數的增加，不一定是最優解吧？

作者的回答是有可能不是最優解。但是直接在b7規模的網路搜尋需要太多的計算資源，Google的算力也不是無窮的啊！

4樓：Lyken

大家現在提到到的好幾個點，其實或多或少再以前的文章都有提到過。例如 @bearbee 提到的 large kernel MBConv，其實在 MNasNet Sec 4.1 Eq 4 就已經提到過了：

MBConv 上乙個 5x5 的 FLOPs 比兩個 3x3 要小。同樣的現象的在 ProxylessNAS 裡面也有被觀察到：在追求 efficiency 的時候，large kernel MBConv 會比 small kernel 更好。

再者是 @Rundong Li 吐槽的 training setting，其實這個是從 MNasNet 那直接繼承來的，2.4 epoch 對應 imagenet 差不多三百萬張圖，不算太 tricky。至於 Resolution 那一塊，從 Inception v3 和 NASNet 起谷家的研究員就一直在強調，也算是老生常談了。

MNasNet ImageNet training setting.

這篇文章最值得商榷的地方在於不公平比較，即圖一中 EfficientNet, AmobaNet, ResNet / DenseNet 的 training setting 是完全不一樣的。AutoAugment 是乙個非常強的 augementation，這套 learning rate schedule 也是針對 MBConv 專門設計的。去掉以後，用 ResNet 那一套 setting 去訓練 EfficientNet 後 (120 epoch, 30 epoch decay by 1/10），b0 的 accuracy 從 76.

7 直接掉到不到 74 （ResNet-34, MobilenetV2-1.3 的水平）。這麼一比，在小模型的上優勢就不是那麼明顯了。

紫色是按照標準 ResNet 那一套 setting 訓練的結果。

這篇文章最大的 novelty，在我看來不在於小模型上的 efficiency，而是告訴大家 MBConv 是可以被 scale 到 non-mobile settings 的。MBConv 自被提出以來就一直侷限在 light-weight model，而在拼點的 task 上，大家都還停留在之前的 ResBlock + SE 那一套。 EfficientNet 通過實驗告訴了大家 MBConv 也可以做 large setting（印象中應該是第乙個？

），並且還十分有效。

5樓：健步俠阿杜

在https://www.

這個比賽中試了下efficientnet-b3的遷移學習，效果並不好，比在imagenet同樣準確度的其他模型的分數降低了2%-5%。我覺得乙個解釋是深度學習模型引數越多泛化越好，而efficientnet引數少自然不好使，還乙個可能就是需要使勁調參我沒有費太大功夫在這

6樓：風鈴港

調參/NAS大家說的挺多了。

個人以為最大的貢獻：用實驗證明Depthwise Separable Conv被scaling到large model，依舊非常有效；Depthwise Separable Conv較於Regular Conv有更好的representative power。Depthwise Separable Conv自MobileNet/Xception提出，一直在light weight model領域被探索，推廣到large model的工作不多。

（印象中Xception/ShuffleNet v2涉及到large model對比）

就如下圖所示，用基於Depthwise Separable Conv的EfficientNet與基於Regular Conv的ResNet等model進行對比，未免有些勝之不武，雖然這樣畫出來的圖非常驚豔。

7樓：Bluebear

最優超引數的搜尋本來就該是暴力搜尋搞定的，結果現在讓很多人工去幹了，NAS本身應該是解放人，讓人去設計更有創造性地層結構也好，代價也好。

調參俠的末日來了。

8樓：

思想上很樸素，就是尋找適當的對網路進行尺度變換的方法，感覺其尋找的在各個維度上進行尺度變換的引數，可能和問題本身的複雜度型別直接相關吧，直接體現了資料本身的結構特徵。

另外如果把網路當作乙個在不同尺度的資料空間中的連續變換流來看，這種結構化的尺度變換某種程度上就是保持了這個變換流的形狀，這可能可以增加魯棒性吧。

如何評價谷歌大腦的EfficientNet？

如何評價谷歌開源的 Mesh TensorFlow？

如何評價谷歌推出的 ARCore？

如何評價谷歌的積木手機

其他用戶還看了：