深度學習中有什麼非常驚豔或者輕量級的Attention操作?

時間 2021-06-03 16:53:15

1樓:曲直自知

attention的核心思想是根據全圖的特徵突出feature map中的某一核心部分,使得模型更加集中關注有效資訊。所以前期的模型設計中更多採用一種類似於mask的方式,產生逐通道或逐畫素的mask並與原feature map乘積,詳見senet,cbam

這種attention方式在全域性池化的時候確實借鑑了全圖的資訊,但是僅用一種全圖向量來增強原feature map本來就是受限的,於是參考transformer的kqv,non local橫空出世,這種逐畫素的attention擴大全域性感受野的同時,權重的計算更加精細。但是由於要計算相關度矩陣,可能要消耗大量資源,所以後續也有一些輕量化方案,比如分塊等等(待補充)

時間來到2021,傳統的卷積網路定式開始被打破,純transformer開始進入cv領域,這類方法採用分patch的方式切分原圖,並將其放入transformer中,也有無數的例項證明,在資料量極大的情況下,其效能能超越卷積。transformer在攻克了nlp的大量任務之後,再次為cv帶來了新的曙光。

2樓:Youngon

有很多寫的比價好的博文,我推薦乙個

3樓:Honda

1、nlp中:point network..雖然在seq to seq場景下整體質量依舊不高,但是相比於沒有新增前還是好了很多...

當然還有transform這種,不知道符不符合你說的輕量級的情況..不是多頭多layer的話就還好...

2、影象中:舉個例子,在影象分類任務中,可以針對影象單獨學習乙個attention map..最後在輸出層可以對attention map層和高層資訊融合..

以提高底層特徵的感受野,突出對分類特徵更有利的特徵.具體可參考《Residual attention network for image classification》

Mask矩陣在深度學習中有哪些應用場景?

答乙個挖墳的 mask 是可以用來執行條件控制的,類似於數位電路裡的 mux,從兩個結果裡選乙個。對於 RNN 模型,乙個 batch 內不同樣本長度可能不同,因此經常需要 padding。假如想得到 RNN 在每條樣本的最後乙個有效時間步的狀態怎麼做?1 一種辦法是 pre padding,就是把...

機器學習或者深度學習能替代有限元麼?

吳會歡 可行。不過我如果使用fp64型別的輸入,模型訓練跑不動。會過擬合。結果變化範圍很大,例如六個數量級,資料不能隨便正則化,容易出問題。坑很多,要有一套理論才能完善。 已重置 如果你把DRL的過程中的 世界模型 看作這裡的用有限元表示的物理規律,那麼理論上DL可以同時學習世界模型和對世界中的實體...

什麼中藥名讓你覺得非常驚豔?

徐珍 老祖宗的智慧型,詩韻意境十足。對於學藥的人背幾百上千常用藥,形態,性狀,鑑別,鑑定,性味歸經,功能主治等,感覺有些不太美好,但細品後會很驚豔。 奇怪的西斯運動員 王不留行 當歸遠志之類的 有好多都挺好的之前用了好長時間的王不留行當暱稱來著哈哈哈哈大家都回答的好好哈哈哈哈感覺可以拿來取名了Ps ...