文字分類的HAN 模型為什麼權重是乘在輸出的h，而不是輸入的詞向量？

1樓：邱震宇

普通詞向量訓練不能捕捉一詞多義的情況，有可能訓練詞向量的語料分布和下游任務的語料分布完全不同。所以需要先用lstm或者transform等能夠建模上下文的模型層來構建context-based的詞的表示。現在的elmo，bert預訓練都是為了在預訓練階段都盡可能做到這一點，所以重點應該變成是encode一段sequence而不是某個單獨的word

2樓：Willem

個人理解哈，han用的詞向量只是單個詞的靜態表示，沒有融合上下文資訊，按道理講直接對詞向量進行縮放沒問題，但效果肯定沒有經過bilstm的輸出h好，輸出的每個cell融合了上下文資訊，但只是表示單個詞彙而已，在此基礎上attention,更能從語義層面捕捉這個權重。

3樓：嗚嗚哈

首先來講，，不管是seq2seq還是這種分類模型。究其原因，經過LSTM之後每個h都編碼了上下文資訊，但是也不用理解為每個cell都包含了整個句子的資訊。每個h記憶的還是以本單詞為主的資訊，然後將attention應用在不同的h上可以根據權重對不同單詞使用。

腦洞一下，可以將每個h都模擬為乙個弱分類器，從不同的角度學習到了句子裡面的資訊，然後attention其實就是乙個ensemble的過程，對h進行加權求和。反過來講，我們總不能對每個資料或者特徵直接ensemble~

4樓：三三

HAN使用的是雙向GRU。

相比於直接使用word embedding，GRU出來的state融合了上下文資訊，是原始word的一種上下文語義，這個state不再是原始word，而是一種word annotation，即單詞的「註解」。直觀地理解，任何單詞都要放到乙個具體的上下文中才有確切含義。所以word annotation比word embedding更能表達這個單詞在一句話中的含義。

引用一句Chris.D.Manning的名言：

Basically, if you want to do a NLP task, no matter what it is, what you should do is throw your data into a bi-directional long-short term memory network, and augment its information flow with attention mechanism.

文字分類的HAN 模型為什麼權重是乘在輸出的h，而不是輸入的詞向量？

文字分類時對於對數字敏感的類別如何處理

回歸提公升樹每個基分類器為什麼沒權重？

模型愛好者做模型的意義是什麼？為什麼你喜歡做模型？模型幫助了你什麼？

其他用戶還看了：

文字分類的HAN 模型 為什麼 權重是乘在輸出的h，而不是輸入的詞向量？

文字分類時對於對數字敏感的類別如何處理

回歸提公升樹每個基分類器為什麼沒權重？

模型愛好者做模型的意義是什麼？為什麼你喜歡做模型？模型幫助了你什麼？

其他用戶還看了：

文字分類的HAN 模型為什麼權重是乘在輸出的h，而不是輸入的詞向量？