如何理解LSTM後接CRF?

時間 2021-05-30 09:11:03

1樓:簡憶南

上文出自這篇部落格:Sequence Tagging with Tensorflow

這篇部落格,將NER中CRF進行解碼的過程說得很清楚。

2樓:Jotline

LSTM+CRF我理解更像是LSTM+HMM。

LSTM的輸出為發射概率:也就是token到label的概率。

CRF學習的是轉移概率:也就是label之間的轉移概率。

3樓:程式設計師一一滌生

《CRF在命名實體識別中是如何起作用的?》這篇文章通俗的介紹了CRF在自然語言處理任務中的作用,其是用的BERT+CRF來舉例,但是和LSTM+CRF的原理是一樣的,只不過BERT比LSTM更能表示輸入序列的特徵。

4樓:MaggicQ

LSTM的優點是能夠通過雙向的設定學習到觀測序列(輸入的字)之間的依賴,在訓練過程中,LSTM能夠根據目標(比如識別實體)自動提取觀測序列的特徵,但是缺點是無法學習到狀態序列(輸出的標註)之間的關係,要知道,在命名實體識別任務中,標註之間是有一定的關係的,比如B類標註(表示某實體的開頭)後面不會再接乙個B類標註,所以LSTM在解決NER這類序列標註任務時,雖然可以省去很繁雜的特徵工程,但是也存在無法學習到標註上下文的缺點。

相反,CRF的優點就是能對隱含狀態建模,學習狀態序列的特點,但它的缺點是需要手動提取序列特徵。所以一般的做法是,在LSTM後面再加一層CRF,以獲得兩者的優點。

5樓:起啥名字呢

之所以要用lstm,是因為它可以將 的context資訊已非線性的形式組合起來提供給crf做feature,不用自己定義各種feature了。

之所以要用crf,是因為它可以將tag之間的依賴關係也融入進去。

有的人說crf沒有發射概率/狀態轉移概率之類的,並且為什麼不叫lstm+hmm。個人以為在lstm+crf引入發射概率/狀態轉移概率只是為了更好的適應lstm和crf的格式,這只是crf的feature之一罷了。並且這裡的發射概率是 ,而不是HMM中的 。

lstm+crf訓練的是lstm的引數和crf的狀態轉移概率,其實就是crf中狀態間轉移這種feature的權重啊。

並且這個decode過程是crf的decode過程,而不是HMM或者MEMM的decode過程。

HMM/MEMM/crf一些內在思考參見李雪嬌:MEMM和CRF有什麼不同?

lstm+crf的細節參考通俗理解BiLSTM-CRF命名實體識別模型中的CRF層 - createMoMo - 部落格園

6樓:RandomWalk

簡單說就是條件隨機場可以把label的上下文學出來。lstm加softmax分類的時候只能把特徵的上下文關係學出來,label的沒學出來。

7樓:

用CRF是為了將label之間的關係也能用的上,即是對整個隱含狀態建模

CRF中的特徵函式一般有點函式和邊函式,前者可以理解為隱含狀態到觀測狀態的發射概率,這個概率分布可以由RNN建模得到,而邊函式則是隱含狀態之間的轉移概率,是需要進行學習的引數.

8樓:uuisafresh

我理解B-LSTM+CRF模型,所謂在LSTM上面套CRF其實是不嚴謹的說法,假如這樣說,那實際上是兩層sequence model了嗎。我認為其實是說把LSTM和CRF融合起來。比如LSTM的產出只有發射概率,儘管這個發射概率考慮到了上下文,因為LSTM有門機制,可以記憶或者遺忘前面內容,然後雙向,有前有後這樣,但是畢竟沒有轉移概率,像CRF HMM這種,都是結合發射概率和轉移概率的。

比如在詞性標註,最簡單BIO這樣,有顯而易見的規則,就是B-X後面不會有I-Y。所以乾脆搞出B-LSTM+CRF,結合發射概率和轉移概率這樣。實際上後面接的CRF並不是真的CRF,比如它又沒有特徵模板,它又不接受離散特徵,他只是一次Viterbi推導而已。

9樓:PENG

For sequence labeling (or general structured prediction) tasks, it is beneficial to consider the corelations between labels in neighborhoods and jointly decode the best chain of labels for a given input sentence. For example, in POS tagging an adjective is more likely to be followed by a noun than a verb, and in NER with standard BIO2 annotation I-ORG cannot follow I-PER. Therefore, we model label sequence jointly using a conditional random field (CRF), instead of decoding each label independently.

[1603.01354] End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

LSTM的cell個數是如何設定?

劉青豪 cell的數量不需要設定吧網路中cell 的數量顯然是輸入序列的長度然後每個cell 都會有輸出值,最後乙個cell的輸出值才是該層隱含層的最終輸出。 我的上鋪叫路遙 你對cell的概念理解有誤,我不說LSTM,就拿最基礎的RNN來說吧,cell其實就是乙個RNN的網路,網路的輸入形狀就是 ...

如何看待科瓦奇將在賽季後接任拜仁慕尼黑主帥?

snakehead16 科瓦奇兄弟踢球時加盟拜仁,感覺是很久之前的事情了,都是踢中後場,那時候還沒羅貝里,印象裡沒有出彩的地方,那些年拜仁的成績也是不溫不火,從執教法蘭克福這種德甲的中小球隊,到變成拜仁慕尼黑的教頭,沒有豪門的經驗,能不能控制住更衣室,和俱樂部高層打交道,球迷的期待,歐戰的成績,都是...

如何分辨介詞,是後接動詞ing,還是接to do的形式,實際做題暈頭轉向的,求解?

西西 介詞後面要接的是賓語,賓語必須是名詞性的詞或片語,如果要接動詞的話,那肯定需要用動名詞才能夠當作名詞來用。如 look forward to meeting you,盼望見到你。此句當中to就是介詞,後面meet是動詞,所以要加ing才能變成動名詞。 Dave Wang 估計大量的人英語語法都...