如何看待無監督學習在vision transformer上的應用前景?

時間 2021-05-29 22:52:29

1樓:安靜的太陽

我對transformer不是很了解,但感覺大量資料的自監督預訓練是對的路子。產生這個想法的原因有二(但並不嚴謹):1)人類實際上從出生開始就在持續接收大量資料,幾乎每分每秒我們都在看/聽/讀。

直觀上先用大量資料預訓練得到乙個general model,再在具體下游任務上fine-tune也更符合人類的「學習」過程。 2)在accuracy之外,目前一些robustness相關的問題(粗略定義為當模型在inference階段遇到不服從training distribution的sample時能否給出合理的輸出)的最好解決辦法都是要麼引入了更多的資料量,要麼基於strong data augmentation。比如adversarial robustness要減小generalization gap需要更多的資料,比如ImageNet-C目前最好的貌似是DeepAugment+AugMix。

這些指向了「大量資料」。同時在CNN上已經有很多人發現pre-training和self-supervised learning可以幫助robustness的提公升。相比於提公升accuracy,他們結合在一起之後對robustness的幫助我覺得可能會更顯著。

2樓:皓波

從多工自監督的角度分享乙個自己的想法。

單任務的自監督真的足夠嗎?BERT的訓練就是用MLM和Next Sentence Prediction的任務兩個任務一起訓練的。SiT也用了多種自監督任務訓練,並且得到了比單任務更好的效果。

畢竟單一的自監督任務很可能只關注了視覺的某一類特徵資訊,比如Colorization關注顏色相關的資訊。

另外一點是,生成式的SSL通常是被認為不如判別式的SSL,可能是單一的SSL任務難以獲取更具有資訊量的表徵。比如,Colorization可能僅關注的是顏色相關的表徵。是否生成式模型能夠在多種任務的結合下獲得更好的結果,以及,結合判別式和生成式的自監督學習任務,是否能夠獲得進一步的結果呢?

其實不難發現,多工自監督沒有發展起來乙個重要的原因就是輸入各不相同,很難調和輸入。但是ViT的出現,其實可以把很多自監督任務加在Patch級別,也許可以很好地融合不同型別的自監督任務。之前也把這個想法簡單整理了一下

皓波:多工自監督Vision Transformer?

可惜自己沒卡也不做不了,但我覺得也許融合多個任務是乙個漲點的思路。

3樓:丶favor

自監督Vit還有很大的進步空間,尤其是初始版本的Vit(卷積層+self-attention這種嫁接的結構),其實有更大的探索空間。事實上,MOCOV3也只是CNN無監督+VIT的一種探索,並不是完全意義上的Transformer自監督方法。,而非僅僅CNN對比學習那套。

而Bert裡random mask&prediction這種方式顯然不太適合影象,用這種方式也許還不如隨機採個patch當成query來做正負樣本學習。

而對於最近的一系列融合了CNN特性的Vit(不妨稱為CNN+self-attention的混合結構),比如swin-transformer,其實在無/自監督的公升值空間很有限。因為它過於CNN化,反而可操作的空間很低。既然選擇了滑窗+pooling,那充其量就是個動態CNN,因而在自監督的探索空間上其實和resnet的差別也不會很大。

我理想狀態下的自監督模型感覺可能是resnet嫁接Bert,然後自監督預訓練完可以做所有任務,檢測\分割\分類等任務間切換和並行就是增加一下Bert的額外序列輸入就可以了,比如100個目標檢測query+目標檢測的任務embedding作為額外的序列輸入就可以做檢測任務。非常的粗暴簡潔,也是向bert看齊的一種結構。

4樓:陀飛輪

DINO和MoCov3的思路大差不差,都是Self-Supervised+ViT,算是已經證明了Self-Supervised+Transformer這條路是行的通的

對於Self-Supervised+Transformer的看法基本上和之前回答MoCov3保持一致

如何評價Kaiming He團隊的MoCo v3?

希望在CV領域復刻NLP的BERT、GPT系列的路徑,得到能力非常強的預訓練模型,相信目前DeepMind、Google Research、OpenAI、FAIR等都在緊鑼密鼓的進行大規模嘗試,所以最終的核心問題還是資料量

Money is all you need!

5樓:小小將

我個人覺得從兩個角度看目前影象和文字的無監督學習:

首先,影象和文字不太一樣,影象是自然而成的,而文字是人類智慧型的結晶,或者說人工的產物。這樣說兩者有本質區別,雖然影象和文字都是千變萬化,但是屬於高維空間的影象更難把握。

其次,目前影象主流的無監督學習都是判別式的(對比學習),而文字主流的無監督學習是生成式的。兩者採用的方法不太一樣,這或許也和前述有關係。

目前看來對比學習在影象的無監督學習上有上限,或許需要找到更好的訓練方法。另外一方面,作為「新事物」的ViT可能會帶來一些改變。

什麼是無監督學習?

王佳馳 我想先提出乙個問題 監督學習 無監督學習 這兩個名詞的翻譯恰當嗎?在我的理解中,supervised可以有指導的含義,而中文的監督,更傾向與管理和監視。比如,古代的督軍 監軍行使的職責。在我學習supervised和unsupervised兩種learning之後,我感覺它們的最主要區別在於...

無監督學習在計算機視覺領域有什麼應用?

無監督學習對於NLP和CV都是至關重要的,其實這個結論可以推廣到一般的問題上。無監督學習的核心思想就是通過構造內蘊的一致性 不變性來挖掘問題自身的結構,這個結構其實無非包括兩個方面,乙個是系統的不變性,乙個是系統之間的相互關係,大致上,前者定義了系統的區域性特徵,後者定義了全域性特徵。畢竟我們這個世...

乙個無監督學習演算法,如何判斷其好壞呢

Shu Matt 如果你使用的是概率方法,那麼你有model evidence 或者它的近似,例如AIC,BIC 可以當做判據。另外你也可以使用cross validation的likelihood當近似判據。例如,以下方法是概率方法 GMM cluster,PPCA 以下方法不是 k means,...