文字分類的HAN 模型 為什麼 權重是乘在輸出的h,而不是輸入的詞向量?

時間 2021-05-31 04:23:39

1樓:邱震宇

普通詞向量訓練不能捕捉一詞多義的情況,有可能訓練詞向量的語料分布和下游任務的語料分布完全不同。所以需要先用lstm或者transform等能夠建模上下文的模型層來構建context-based的詞的表示。現在的elmo,bert預訓練都是為了在預訓練階段都盡可能做到這一點,所以重點應該變成是encode一段sequence而不是某個單獨的word

2樓:Willem

個人理解哈,han用的詞向量只是單個詞的靜態表示,沒有融合上下文資訊,按道理講直接對詞向量進行縮放沒問題,但效果肯定沒有經過bilstm的輸出h好,輸出的每個cell融合了上下文資訊,但只是表示單個詞彙而已,在此基礎上attention,更能從語義層面捕捉這個權重。

3樓:嗚嗚哈

首先來講,,不管是seq2seq還是這種分類模型。究其原因,經過LSTM之後每個h都編碼了上下文資訊,但是也不用理解為每個cell都包含了整個句子的資訊。每個h記憶的還是以本單詞為主的資訊,然後將attention應用在不同的h上可以根據權重對不同單詞使用。

腦洞一下,可以將每個h都模擬為乙個弱分類器,從不同的角度學習到了句子裡面的資訊,然後attention其實就是乙個ensemble的過程,對h進行加權求和。反過來講,我們總不能對每個資料或者特徵直接ensemble~

4樓:三三

HAN使用的是雙向GRU。

相比於直接使用word embedding,GRU出來的state融合了上下文資訊,是原始word的一種上下文語義,這個state不再是原始word,而是一種word annotation,即單詞的「註解」。直觀地理解,任何單詞都要放到乙個具體的上下文中才有確切含義。所以word annotation比word embedding更能表達這個單詞在一句話中的含義。

引用一句Chris.D.Manning的名言:

Basically, if you want to do a NLP task, no matter what it is, what you should do is throw your data into a bi-directional long-short term memory network, and augment its information flow with attention mechanism.

文字分類時對於對數字敏感的類別如何處理

陳運文 對於數字敏感的情況範圍挺廣的,不同型別的解決方法也有所區別。第一種情況,文字分類結果和數字的大小和數字的上下文有關,可以對數字歸一。簡單的說,平時對於數字的大小我們可能會只考慮位數,所以可以在資料預處理時將0 9數字替換為統一的某乙個數字,小數點後的不保留 如果是小數點後的數值比較大小,可以...

回歸提公升樹每個基分類器為什麼沒權重?

最主要的原因是,兩個問題的損失函式不同,都是加法模型 前向分布演算法 有沒有權重和是不是樹本身沒有關係。如果是指數損失,推導出來的每個弱學習器就帶有乙個權重 如果是平方差損失,推導出來的弱學習器就沒有權重。題主可以按照加法模型 前向分布演算法的邏輯推導一下就知道了。給乙個指數損失的推導,平方損失換一...

模型愛好者做模型的意義是什麼?為什麼你喜歡做模型?模型幫助了你什麼?

西萌 小時候,模型是一輛小小的玩具車,我在店門外頭,它們在裡頭。長大後,模型是乙個高高的櫃子,我在這頭,它們在那頭。後來啊,模型是一堆五顏六色的塑料,我在外頭,幻想在裡頭。而現在,模型是乙個永遠未完成的夢,我在這頭,童年在那頭。先放點以前做的模型吧。模型之於我,更多的是圓童年的夢。但隨著年齡的增長,...