文字分類時對於對數字敏感的類別如何處理

1樓：陳運文

對於數字敏感的情況範圍挺廣的，不同型別的解決方法也有所區別。

第一種情況，文字分類結果和數字的大小和數字的上下文有關，可以對數字歸一。

簡單的說，平時對於數字的大小我們可能會只考慮位數，所以可以在資料預處理時將0-9數字替換為統一的某乙個數字，小數點後的不保留（如果是小數點後的數值比較大小，可以預設保留到後多少位），這樣對於數字的詞向量只與位數相關，詞表也不會太長。

如果是要和確定的已知的某乙個值（比如說a）來判斷，可以預處理時通過和a的數值比較，統一將數字替換為a以上或a以下的某個值形式。

第二種情況，和第一種情況是兩個型別，因涉及到了數值的相加減和判斷，直接通過文字分類是很難做到的，一般可以通過文字抽取出對應的實體和數值，通過比較來判斷是否正確，因為涉及加減判斷此時數值不進行預處理。

2樓：楊勇

你可以使用正規表示式，將原來出現數字的地方，提取出來，並替換成不同的數字，可以做資料增廣，然後用增廣的資料去做訓練。由於數字是無窮無盡的，所以，你做向量畫的時候，對數字的分詞，要按數字digit來，這樣就只有十個數字，加上逗號和句號，然後讓機器去學習中間的邏輯。

機器是可以學習到運算法則的，這個我做過測試