如何看待無監督學習在vision transformer上的應用前景？

1樓：安靜的太陽

我對transformer不是很了解，但感覺大量資料的自監督預訓練是對的路子。產生這個想法的原因有二（但並不嚴謹）：1）人類實際上從出生開始就在持續接收大量資料，幾乎每分每秒我們都在看/聽/讀。

直觀上先用大量資料預訓練得到乙個general model，再在具體下游任務上fine-tune也更符合人類的「學習」過程。 2）在accuracy之外，目前一些robustness相關的問題（粗略定義為當模型在inference階段遇到不服從training distribution的sample時能否給出合理的輸出）的最好解決辦法都是要麼引入了更多的資料量，要麼基於strong data augmentation。比如adversarial robustness要減小generalization gap需要更多的資料，比如ImageNet-C目前最好的貌似是DeepAugment+AugMix。

這些指向了「大量資料」。同時在CNN上已經有很多人發現pre-training和self-supervised learning可以幫助robustness的提公升。相比於提公升accuracy，他們結合在一起之後對robustness的幫助我覺得可能會更顯著。

2樓：皓波

從多工自監督的角度分享乙個自己的想法。

單任務的自監督真的足夠嗎？BERT的訓練就是用MLM和Next Sentence Prediction的任務兩個任務一起訓練的。SiT也用了多種自監督任務訓練，並且得到了比單任務更好的效果。

畢竟單一的自監督任務很可能只關注了視覺的某一類特徵資訊，比如Colorization關注顏色相關的資訊。

另外一點是，生成式的SSL通常是被認為不如判別式的SSL，可能是單一的SSL任務難以獲取更具有資訊量的表徵。比如，Colorization可能僅關注的是顏色相關的表徵。是否生成式模型能夠在多種任務的結合下獲得更好的結果，以及，結合判別式和生成式的自監督學習任務，是否能夠獲得進一步的結果呢？

其實不難發現，多工自監督沒有發展起來乙個重要的原因就是輸入各不相同，很難調和輸入。但是ViT的出現，其實可以把很多自監督任務加在Patch級別，也許可以很好地融合不同型別的自監督任務。之前也把這個想法簡單整理了一下

皓波：多工自監督Vision Transformer？

可惜自己沒卡也不做不了，但我覺得也許融合多個任務是乙個漲點的思路。

3樓：丶favor

自監督Vit還有很大的進步空間，尤其是初始版本的Vit（卷積層+self-attention這種嫁接的結構），其實有更大的探索空間。事實上，MOCOV3也只是CNN無監督+VIT的一種探索，並不是完全意義上的Transformer自監督方法。，而非僅僅CNN對比學習那套。

而Bert裡random mask&prediction這種方式顯然不太適合影象，用這種方式也許還不如隨機採個patch當成query來做正負樣本學習。

而對於最近的一系列融合了CNN特性的Vit（不妨稱為CNN+self-attention的混合結構），比如swin-transformer，其實在無/自監督的公升值空間很有限。因為它過於CNN化，反而可操作的空間很低。既然選擇了滑窗+pooling，那充其量就是個動態CNN，因而在自監督的探索空間上其實和resnet的差別也不會很大。

我理想狀態下的自監督模型感覺可能是resnet嫁接Bert，然後自監督預訓練完可以做所有任務，檢測\分割\分類等任務間切換和並行就是增加一下Bert的額外序列輸入就可以了，比如100個目標檢測query+目標檢測的任務embedding作為額外的序列輸入就可以做檢測任務。非常的粗暴簡潔，也是向bert看齊的一種結構。

4樓：陀飛輪

DINO和MoCov3的思路大差不差，都是Self-Supervised+ViT，算是已經證明了Self-Supervised+Transformer這條路是行的通的。

對於Self-Supervised+Transformer的看法基本上和之前回答MoCov3保持一致

如何評價Kaiming He團隊的MoCo v3？

希望在CV領域復刻NLP的BERT、GPT系列的路徑，得到能力非常強的預訓練模型，相信目前DeepMind、Google Research、OpenAI、FAIR等都在緊鑼密鼓的進行大規模嘗試，所以最終的核心問題還是資料量。

Money is all you need!

5樓：小小將

我個人覺得從兩個角度看目前影象和文字的無監督學習：

首先，影象和文字不太一樣，影象是自然而成的，而文字是人類智慧型的結晶，或者說人工的產物。這樣說兩者有本質區別，雖然影象和文字都是千變萬化，但是屬於高維空間的影象更難把握。

其次，目前影象主流的無監督學習都是判別式的（對比學習），而文字主流的無監督學習是生成式的。兩者採用的方法不太一樣，這或許也和前述有關係。

目前看來對比學習在影象的無監督學習上有上限，或許需要找到更好的訓練方法。另外一方面，作為「新事物」的ViT可能會帶來一些改變。

如何看待無監督學習在vision transformer上的應用前景？

什麼是無監督學習？

無監督學習在計算機視覺領域有什麼應用？

乙個無監督學習演算法，如何判斷其好壞呢

其他用戶還看了：