為什麼CNN中的卷積核一般都是正方形,沒有長方形?

時間 2021-06-03 04:47:23

1樓:韓公升

我首先想到的是,數學上方陣要比任意矩陣容易操作。

但是我沒寫過CNN底層,學的一些皮毛也告訴我反相傳播可以不需要求逆,所以僅僅是沒啥根據的懷疑,希望拋磚引到玉。

2樓:武俠超人

NLP領域中的很多都不是正方形啊。

舉個最簡單的例子,最基礎經典的CNN做文字分類,卷積核長度是embedding的長度,寬度一般是2,3和5之類的,模擬於n gram的思想。

至於其他領域也有很多長方形或長方體的卷積核

3樓:張瀟

另外說明一下,其實卷積操作在神經網路當中本來就是引進的乙個極強的先驗知識。通常來講,如果乙個資料在維度方面沒有什麼偏好,那麼普遍使用的就是正方形,如果對某個維度有一定的偏好,那麼使用長方形卷積核作為先驗知識說不定會起到更好的效果。

4樓:

不一定不可以。但看具體task。

通常來說,X方向和Y方向是等價的。所以正方形比較合適。如果要考慮不同方向的scale ratio,那可能可以使用長方形的。

具體問題具體看待,只要是從effective receptive field的角度去考慮。

5樓:樸素的貝葉斯

用正方形而不是長方形,是因為鄰域資訊密度的假設。

用正方形而非圓形是因為

來複習一下,卷積的有效性基於倆事,第乙個仿生,第二個是假設

人眼各感受野內整片區域,僅乙個神經元負責。所以每個核輸出乙個數。

若某濾波器能提取狗身特徵,則此濾波器也能提取狗腿特徵。所以共享權重。

卷積核大於1x1,意味著提特徵需要鄰域資訊

若提取橫向紋理,則橫向鄰域資訊密度比縱向資訊密度高。核扁橫著最科學。

若提縱向紋理,同理,瘦高豎著最好。

若你想提取的紋理種類豐富,那橫向鄰域資訊密度的期望~=縱向資訊密度期望

所以對懶人來說,最優核的尺寸的期望是正方形。

對勤奮的人來說是圓的。

對較真的人來說,是不可知的。

為什麼CNN中的卷積核一般都是奇數 奇數,沒有偶數 偶數的?

rucinier 設輸入特徵圖尺寸為 輸出尺寸為,卷積核大小K,步長S,padding為p,那麼輸入和輸出之間滿足 在一般情形下,S 1,O i,那麼上式可以化為 可以直觀地看出K是奇數。 使用奇數尺寸的濾波器的原因 數字影象處理 第三版 阮秋琦翻譯 p89 也可以使用偶數尺寸的濾波器,或使用混合有...

在卷積神經網路中卷積核為什麼都是方形的?

智星雲服務 Why convolutions always use odd numbers as filter size 卷積運算,簡單地說,是兩個矩陣的元素乘積的組合。只要這兩個矩陣在維度上是一致的,就不應該有問題,所以我可以理解你的查詢背後的動機。然而,卷積的意圖是根據濾波器或核心對源資料矩陣 ...

特徵視覺化中,反卷積神經網路的卷積核為什麼可以是原卷積核的轉置?

打滾敬神 結論 使用轉置卷積,運算後,能夠將被啟用的神經元對應的感受野的原始位置的灰度值設為非零值 對於不能被啟用的神經元對應的感受野對應位置的灰度設為0 可能不嚴謹,只是對應分量丟失,見下面推導 引用縱橫同學的Setting 略有區別,我用的是列向量 縱橫 CNN視覺化從入門到放棄 懶得打late...