資料探勘中，離散變數和連續變數可以一起放入機器學習的分類器中嗎？還是要做什麼處理？

1樓：胡斐

離散特徵常規操作是做一些量綱上的歸一，然後做one-hot；對於連續特徵，雖然XGBoost、lightgbm等樹模型可以直接處理連續變數，但實操中很少直接這麼搞，還是會將連續變數離散化，再扔給模型。

2樓：綾小路清隆

決策樹可以處理分類變數，可以放進去

其他的線形模型，SVM，神經網路都要把分類變數獨熱編碼。並且數值變數要縮放，歸一化之類的。

3樓：

wide&deep模型，wide部分直接輸入稠密連續型特徵，deep部分將和稀疏連續型特徵和離散特徵分field做embedding後輸入後續層，在最後一層統一起來

4樓：amadeus

這倆分別叫列名型變數（或二值型，也有可能是序數型）和連續的數值型變數按列舉的這些模型的原始想法，肯定是不能直接放的，應該根據實際問題，要探查選擇合適的變數、轉換型別、清洗、補缺、正則化等等

從數值到列名的轉換有分箱、聚類等手段

反過來轉換就得根據乙個或多個舊列計算乙個新的數值型列，可能會用到回歸等手段

5樓：zpeng

瀉藥，自己愚見；

1.建模過程第一步，將問題轉化為數學問題。就是將問題中的變化東西，通過量化為數字，將關係轉化為函式；

2.第二步(跳過很多)，解決問題，一般問題都可以通過現成的包解決，一般包都是要求是矩陣，不能有字元。但你可以自己寫。

只是這樣的變數只能用gini係數等方法評估，和遞迴變數，反向傳導都不是很好的方法。

3.最後是儲存，字元型需要更多記憶體，及處理使用的資源。

綜上，建議量化，不一定要連續的，離散的數字表示意思就可以的

資料探勘模型優化中，Precision，Recall，F值這三個指標應該優先優化哪個？

霸天虎和場景無關，意味從本質來分析。P和R都很高，是非常正常的，因為這與資料分布有關。此時,F值接近 1 1 a平方 2,不是越大越好。如果 class balanced 的話，可以選擇優化F值如果 class imbalance,看 positive 的資料量，如果資料量大的考慮用 prec...

資料探勘中，如何降維

唐申庚我對資料探勘了解的也不多，單就對機器學習方面的認識來說，資料探勘任務中的降維主要針對的是降低特徵維度，而非降低樣本數量，不然就沒有意義了。為了降維，一般有兩種顯而易見的做法，一是特徵選擇，二是特徵嵌入。相對來說，特徵選擇在資料探勘任務中使用更加簡單普遍一些，相當於是一種下取樣。特徵選擇其實就...

做機器學習或者資料探勘中，資料往往會有很多雜訊，一般消除雜訊的方法有哪些呢？

星辰大海資料中含有雜訊的時候，機器學習演算法的效果通常會下降。那怎麼辦呢？現在有專門針對含雜訊振動資料的演算法深度殘差收縮網路。其中，軟閾值化是深度殘差收縮網路能夠處理含雜訊資料的關鍵。不僅如此，閾值也不需要人工來設定，是用乙個專門的子網路自行設定的。 Sam Wang 目前機器學習主要是統計學...

資料探勘中，離散變數和連續變數可以一起放入機器學習的分類器中嗎？還是要做什麼處理？

資料探勘模型優化中，Precision，Recall，F值這三個指標應該優先優化哪個？

資料探勘中，如何降維

做機器學習或者資料探勘中，資料往往會有很多雜訊，一般消除雜訊的方法有哪些呢？

其他用戶還看了：