lstm層和全連線層的本質區別是什麼?

時間 2021-05-30 09:59:44

1樓:黑火藥

個人淺見,本質的區別在於不同的網路結構適合處理不同結構的資料,網路結構與資料結構越相似,優勢越大。lstm更好的模擬了序列相關的資料生成的過程,也就是今天的資料與昨天有很大關係,昨天的資料與前天又有很大關係,資料間是按順序影響的。因此lstm在處理帶有序列相關性質的資料時,比全連線的網路更有可能發現資料的規律,得到更好的分類或擬合結果。

相反,如果資料不帶有時序相關性,換言之,資料之間不是按相同的方向傳遞影響的(比如輸入是一幅畫,畫的左邊有乙隻狗不影響畫的右邊是什麼),那麼全連線網路比lstm更貼近資料的生成過程,大概率會得到更好的結果。

2樓:小李

lstm和全連線都可以減少特徵數,達到特徵提取的效果,但是二者的本質區別是什麼,全連線有沒有獨特的優勢呢,那如果針對序列資料,lstm既能考慮序列連續性,又能考慮資料本身,而全連線只能考慮資料本身,是不是序列資料來說,lstm可以代替全連線啊

lstm 可以考慮到序列資料前後之間的相互影響,而對FC來說,整條資料在他眼裡是一樣的,順序什麼的都無所謂

3樓:Jeffery

實際上LSTM裡面也有用到全連線結構,題主應該問的是LSTM跟多層感知器(MLP,Multilayer Perceptron)的區別?

實際上我們如果要使用MLP來處理序列資料,為了獲取序列資訊,必須把所有序列資料的特徵一次性輸入到MLP中。這樣我們就必須構建乙個參數量十分大的網路(主要是因為輸入層包含了所有序列資料的特徵)。同時由於MLP網路的結構需要固定下來,也就是輸入到網路的序列資料量也是固定的,因此在遇到不定長的序列資料時,就必須進行填充或者剪下操作(可能會丟失資訊)。

迴圈神經網路(LSTM是其中一類)可以解決上面的問題,因為每乙個時間步都只輸入乙個序列資料,並且都是復用同乙個迴圈神經網路。因此,參數量大大減少,且該結構天然地適用於不定長的序列資料(根據序列長度來動態地調整時間步數量)。

embedding層和全連線層的區別是什麼?

空字元 如果單單只是從計算的角度來說的話,兩者沒有任何區別,都是兩個矩陣相乘。只是說從向量表示的角度來說,embedding層的權重有自己獨特的意義,而全連線層沒有。這也類似於注意力機制,在不同的背景下同乙個東西有著不同的解釋 鐵心核桃 前面 Hover 已經說的很清楚了。我也跟著再多說幾句。Emb...

全連線層的作用是什麼?

有一天我變成蝸牛 個人的理解,不知道準不準確,有問題的話還請大家幫忙指出 卷積層 每個卷積核只關注某一區域性特徵,同時引數共享可以保證一些特徵平移或旋轉的變換不會影響區域性特徵圖的提取結果。池化層 進一步壓縮區域性特徵圖,避免過擬合。全連線層 整合區域性特徵圖,得到全域性特徵資訊。softmax層 ...

1 1的卷積核和全連線層有什麼異同?

xixi 全連線要求輸入是向量,因此要把輸入影象拉直為向量,無法只對channel緯度做變換 1 1的卷積可以不用改變輸入影象的形狀直接對最後channel緯度變換,用來降維或整合不同channel的資訊。 科研狗也有春天 簡單回答一下 1 數學本質上一樣,都是特徵圖中的元素乘以權重再求和。全連線是...