文字分類時對於對數字敏感的類別如何處理

時間 2021-06-06 15:15:47

1樓:陳運文

對於數字敏感的情況範圍挺廣的,不同型別的解決方法也有所區別。

第一種情況,文字分類結果和數字的大小和數字的上下文有關,可以對數字歸一。

簡單的說,平時對於數字的大小我們可能會只考慮位數,所以可以在資料預處理時將0-9數字替換為統一的某乙個數字,小數點後的不保留(如果是小數點後的數值比較大小,可以預設保留到後多少位),這樣對於數字的詞向量只與位數相關,詞表也不會太長。

如果是要和確定的已知的某乙個值(比如說a)來判斷,可以預處理時通過和a的數值比較,統一將數字替換為a以上或a以下的某個值形式。

第二種情況,和第一種情況是兩個型別,因涉及到了數值的相加減和判斷,直接通過文字分類是很難做到的,一般可以通過文字抽取出對應的實體和數值,通過比較來判斷是否正確,因為涉及加減判斷此時數值不進行預處理。

2樓:楊勇

你可以使用正規表示式,將原來出現數字的地方,提取出來,並替換成不同的數字,可以做資料增廣,然後用增廣的資料去做訓練。由於數字是無窮無盡的,所以,你做向量畫的時候,對數字的分詞,要按數字digit來,這樣就只有十個數字,加上逗號和句號,然後讓機器去學習中間的邏輯。

機器是可以學習到運算法則的,這個我做過測試

嚴重資料傾斜文字分類,比如正反比1 20 100,適合什麼model,查準一般要做到多少可以上線?

Dennis liang 這個乙個很好的問題,也是乙個沒有簡單解法的問題。我有兩個實用的建議。Augmentation Text Document的Augmentation的比Image難很多。Image的Augmentation一般是rotate,filter。Text Document的Augm...

文字分類的HAN 模型 為什麼 權重是乘在輸出的h,而不是輸入的詞向量?

邱震宇 普通詞向量訓練不能捕捉一詞多義的情況,有可能訓練詞向量的語料分布和下游任務的語料分布完全不同。所以需要先用lstm或者transform等能夠建模上下文的模型層來構建context based的詞的表示。現在的elmo,bert預訓練都是為了在預訓練階段都盡可能做到這一點,所以重點應該變成是...

Python的文字怎麼分行讀取或文字分割?

import time defcoroutine func def start args,kargs cr func args,kargs cr send None return crreturn start coroutine deffollow filename target fd open f...