機器學習中的資料預處理有哪些常見 重要的工具?

時間 2021-05-08 21:11:17

1樓:顧笑群

如果是你說的預處理是指資料的清洗、數位化、normalization的話,我用的Python,這些步驟大部分可以自己寫、不難;用工具的話,pandas不錯,靈活、全面,包括平均數、方差、補全等都有;在scikit learn庫中也有一些API專門做這個的。

目前在機器學習上只用過Python,其他語言不知道。另外,有些演算法不在意是否數位化和normalization。有時候用hash把數字和字元都對映成數字也可以,簡單省事。

我目前只知道這麼多,希望有幫助。

2樓:lau phunter

不太清楚你說的是搭建pipeline的工具還是說pipeline裡面處理資料的工具,就順道都說一下。

1. pipeline工具本身一般是控制這些工具的流程,最簡單的crontab就定時執行就好,但是有時候會有資料依賴的問題,比如第7步依賴第三步的兩個檔案以及平行的第6步的檔案,這個依賴並不是線性的,而是乙個圖的形式。當中加上有些技術延遲比如有些資料生成失敗了需要重啟某些特定的步驟重新生成,這個問題就稍微複雜了。

crontab一般在這時候就搞不定,需要一些專門的pipeline管理,比如 spotify/luigi · GitHub 或者 Azkaban

3樓:秋天的松鼠

資料預處理需要根據資料本身的特性進行,不同的格式,不同的要求,有缺失值的要填,有無效資料的要剔,有冗餘維的要選,這些步驟都跟資料本身的特性緊密相關,並沒有什麼現成的黑箱工具可以用(當然在一些特定領域針對某種型別的資料會有現成的)。我個人而言做預處理一般就用MATLAB, R 和Python,每次拿到資料,根據資料特徵,矩陣涉及的多不多啊資料量大不大跑起來費不費時啊,需要用到工具包的多不多啊等等,在三個語言裡選乙個,自己寫指令碼做預處理。

4樓:高闊

簡單說一下,目前的演算法都有各種應用,只是行業不同而已哦。

按照機器學習的分法,最常見的分類就是有監督學習、無監督學習、半監督學習、強化學習。

有監督學習主要有:邏輯回歸(Logistic Regression)、BP神經網路(Back Propagation Neural Network)

無監督學習主要有:Apriori、k-means.

半監督學習主要是分類和回歸,有:推理演算法(Graph Inference)、拉普拉斯支援向量機(Laplacian SVM)

強化學習有:Q-learning、時間差學習(Tempral difference learning)

如果按照資料探勘來分:

分類與回歸:決策樹、貝葉斯、人工神經網路、K-近鄰、支援向量機、邏輯回歸等

關聯:Apriori、FP-樹頻集等

聚類:k-means、k-medoids等

簡單就這麼看看吧,功能這一塊不好說,不同演算法的應用真的不一樣,回頭我整理一下寫到部落格裡面。

機器學習資料預處理的目的是什麼?

深藍遠景 採集來的資料有時候不一定完整,比如醫療資料,有時候沒錄上,有時候隨便寫個數字,也有乙個特徵有資料其他全部為0的資料,這些資料在訓練的時候會影響模型的效率和結果,所以需要預處理 花月正春風 你要知道這樣一句話,機器學習的上限取決於資料特徵本身,也就是說,機器學習的天花板就是由好的資料特徵決定...

交叉驗證法中的資料預處理如何去做呢?

毛仁傑 非得較真的話,取決於具體的某個 預處理 步驟,是對單獨乙個樣品的資料做的,還是要對乙個資料集做 通常我們特指預處理的時候都是說的後者,所以必須在每一折裡都做 總的來說,反正交叉驗證的時候,每一次的驗證集就是你這次模擬裡的 測試集 該怎麼處理就怎麼處理 注意一點即可,對訓練集和測試集要用相同的...

有哪些好用的機器學習和資料探勘工具?

BattlesNeo 免費的免費的 Rapid Miner IBM SPSS Modeler Oracle Data Mining Teradata Framed Data Kaggle Weka Rattle KNIME Python 謝冬梅 Daily Life imblearn,albumen...