神經網路加上注意力機制,精度反而下降,為什麼會這樣呢?

時間 2021-09-09 21:03:03

1樓:巧克力戶戶

贊同樓上的觀點,對於乙個簡單的二分類任務,如果乙個線性模型就能將他分開,那麼使用更複雜的模型不僅可能會使得模型難以訓練,也可能會使得最終精度下降。

適用於資料和任務的模型才是當下最好的模型。若沒有出現欠擬合有沒有過擬合,只是精度下降的話,說明之前的模型更適合當下的資料和任務,這個任務並不需要什麼注意力結構在裡面。當普通模型就能學習到區分每個類別的典型特徵時,讓模型再去學習注意力可能會影響模型對典型特徵學習的能力,從而使得模型的效能下降。

2樓:

恭喜你入門了,這是常態,而且這其實不算啥。等下一次你發現增加channel數或者增加層數,甚至換成大模型導致精度下降,你才會真正懷疑人生。

極少有trick是能保證有效的,也沒有哪個故事是solid的。

3樓:Maketub

當你在乙個神經網路中加入注意力模組時,比如你用到的CBAM,你的資料集可能並不能很好的訓練這個該模組的的引數。除此之外並不是在所有的分類任務當中,注意力模組都能表現出很好的作用。

卷積神經網路和BP神經網路的關係?

乙個維度的BP神經網路就相當於CNN中的全連線了,無非是多幾個全連線,CNN是二維,二維如果搞成全連線就導致運算量巨大,所以有了權重共享,大大減少了運算量,CNN卷積的思想肯定也源於BP神經網路就,在影象上做二維卷積的CNN發出炫目的光芒下,BP神經網路就已經快被人們遺忘了,但是不管CNN再怎麼發展...

卷積神經網路(CNN)和迴圈神經網路 RNN 有什麼區別?

不存在的1990 從字面區分 cnn 裡面的 c指 convolutional operation,是一種提取影象特徵方法。把這一operation加入到layer裡面構成了convolutional layer。rnn裡的r 指recurrent,中文是重複的意思。rnn構造的結構也是recurr...

注意力的認知神經機制是什麼?

心理諮詢師劉大可 注意力我理解為焦慮,就是把一件事情當成焦點來考慮,這種行為是一種狀態。認知神經機制是非常複雜的系統,而神經學也是生物學裡面比較複雜的學科,所以涉及到神經,認知,注意力這樣的名詞,藉此來分析神經系統構造和提公升注意力的話可能需要大量的統計分析和實驗。注意力這種事情跟年齡,智商,以及習...