深度學習中有什麼非常驚豔或者輕量級的Attention操作？

1樓：曲直自知

attention的核心思想是根據全圖的特徵突出feature map中的某一核心部分，使得模型更加集中關注有效資訊。所以前期的模型設計中更多採用一種類似於mask的方式，產生逐通道或逐畫素的mask並與原feature map乘積，詳見senet，cbam

這種attention方式在全域性池化的時候確實借鑑了全圖的資訊，但是僅用一種全圖向量來增強原feature map本來就是受限的，於是參考transformer的kqv，non local橫空出世，這種逐畫素的attention擴大全域性感受野的同時，權重的計算更加精細。但是由於要計算相關度矩陣，可能要消耗大量資源，所以後續也有一些輕量化方案，比如分塊等等（待補充）

時間來到2021，傳統的卷積網路定式開始被打破，純transformer開始進入cv領域，這類方法採用分patch的方式切分原圖，並將其放入transformer中，也有無數的例項證明，在資料量極大的情況下，其效能能超越卷積。transformer在攻克了nlp的大量任務之後，再次為cv帶來了新的曙光。

2樓：Youngon

有很多寫的比價好的博文，我推薦乙個

3樓：Honda

1、nlp中：point network..雖然在seq to seq場景下整體質量依舊不高，但是相比於沒有新增前還是好了很多...

當然還有transform這種，不知道符不符合你說的輕量級的情況..不是多頭多layer的話就還好...

2、影象中：舉個例子，在影象分類任務中，可以針對影象單獨學習乙個attention map..最後在輸出層可以對attention map層和高層資訊融合..

以提高底層特徵的感受野，突出對分類特徵更有利的特徵.具體可參考《Residual attention network for image classification》

深度學習中有什麼非常驚豔或者輕量級的Attention操作？

Mask矩陣在深度學習中有哪些應用場景？

機器學習或者深度學習能替代有限元麼？

什麼中藥名讓你覺得非常驚豔？

其他用戶還看了：