資料探勘中,離散變數和連續變數可以一起放入機器學習的分類器中嗎?還是要做什麼處理?

時間 2021-05-06 09:09:31

1樓:胡斐

離散特徵常規操作是做一些量綱上的歸一,然後做one-hot;對於連續特徵,雖然XGBoost、lightgbm等樹模型可以直接處理連續變數,但實操中很少直接這麼搞,還是會將連續變數離散化,再扔給模型。

2樓:綾小路清隆

決策樹可以處理分類變數,可以放進去

其他的線形模型,SVM,神經網路都要把分類變數獨熱編碼。並且數值變數要縮放,歸一化之類的。

3樓:

wide&deep模型,wide部分直接輸入稠密連續型特徵,deep部分將和稀疏連續型特徵和離散特徵分field做embedding後輸入後續層,在最後一層統一起來

4樓:amadeus

這倆分別叫列名型變數(或二值型,也有可能是序數型)和連續的數值型變數按列舉的這些模型的原始想法,肯定是不能直接放的,應該根據實際問題,要探查選擇合適的變數、轉換型別、清洗、補缺、正則化等等

從數值到列名的轉換有分箱、聚類等手段

反過來轉換就得根據乙個或多個舊列計算乙個新的數值型列,可能會用到回歸等手段

5樓:zpeng

瀉藥,自己愚見;

1.建模過程第一步,將問題轉化為數學問題。就是將問題中的變化東西,通過量化為數字,將關係轉化為函式;

2.第二步(跳過很多),解決問題,一般問題都可以通過現成的包解決,一般包都是要求是矩陣,不能有字元。但你可以自己寫。

只是這樣的變數只能用gini係數等方法評估,和遞迴變數,反向傳導都不是很好的方法。

3.最後是儲存,字元型需要更多記憶體,及處理使用的資源。

綜上,建議量化,不一定要連續的,離散的數字表示意思就可以的

資料探勘模型優化中,Precision,Recall,F值這三個指標應該優先優化哪個?

霸天虎 和場景無關,意味從本質來分析。P和R都很高,是非常正常的,因為這與資料分布有關。此時,F值接近 1 1 a平方 2,不是越大越好。 如果 class balanced 的話,可以選擇優化F值 如果 class imbalance,看 positive 的資料量,如果資料量大的考慮用 prec...

資料探勘中,如何降維

唐申庚 我對資料探勘了解的也不多,單就對機器學習方面的認識來說,資料探勘任務中的降維主要針對的是降低特徵維度,而非降低樣本數量,不然就沒有意義了。為了降維,一般有兩種顯而易見的做法,一是特徵選擇,二是特徵嵌入。相對來說,特徵選擇在資料探勘任務中使用更加簡單普遍一些,相當於是一種下取樣。特徵選擇其實就...

做機器學習或者資料探勘中,資料往往會有很多雜訊,一般消除雜訊的方法有哪些呢?

星辰大海 資料中含有雜訊的時候,機器學習演算法的效果通常會下降。那怎麼辦呢?現在有專門針對含雜訊振動資料的演算法 深度殘差收縮網路。其中,軟閾值化是深度殘差收縮網路能夠處理含雜訊資料的關鍵。不僅如此,閾值也不需要人工來設定,是用乙個專門的子網路自行設定的。 Sam Wang 目前機器學習主要是統計學...