機器學習資料預處理的目的是什麼?

時間 2021-05-11 16:31:05

1樓:深藍遠景

採集來的資料有時候不一定完整,比如醫療資料,有時候沒錄上,有時候隨便寫個數字,也有乙個特徵有資料其他全部為0的資料,這些資料在訓練的時候會影響模型的效率和結果,所以需要預處理

2樓:花月正春風

你要知道這樣一句話,機器學習的上限取決於資料特徵本身,也就是說,機器學習的天花板就是由好的資料特徵決定的,後面的機器學習模型都是在無限逼近這個天花板。

3樓:江南周公子

一句話目的是為了讓模型效果變得更好。

資料預處理的內容有:異常資料的處理,資料不平衡的處理,文字處理,多項式擴充套件,啞編碼,標準化,歸一化,區間縮放,PCA,特徵選擇等等。

我們在開發過程中需要不斷地嘗試,以求更好的效果。

4樓:

1: 降噪,比如PCA之類

2: 減少scale的影響,比如linear regression想利用引數來衡量feature的重要性,或者PCA視覺化

3: 降維來減少模型複雜度,比如PCA

4: 處理missing value,因為很多模型不工作5: 處理categorical,不然模型不工作暫時想到的就這些,說到底還是為了模型服務

機器學習中的資料預處理有哪些常見 重要的工具?

顧笑群 如果是你說的預處理是指資料的清洗 數位化 normalization的話,我用的Python,這些步驟大部分可以自己寫 不難 用工具的話,pandas不錯,靈活 全面,包括平均數 方差 補全等都有 在scikit learn庫中也有一些API專門做這個的。目前在機器學習上只用過Python,...

資料探勘 機器學習 自然語言處理這三者是什麼關係?這幾個怎麼入門啊?

Alan 我會回答簡單一些 機器學習是理論知識基礎 自然語言是機器學習中深度學習的學習方向 資料探勘是綜合大資料hadoop平台 資料分析 機器學習 深度學習的應用的工作崗位。不言而喻,第一,從機器學習入手打基礎認識演算法 第二,選擇學習研究方向 NLP或視覺等 第三,選擇學習方向的資料探勘崗位 補...

資料探勘與機器學習是什麼關係?

郭斯特 機器學習通過演算法讓計算機通過以往的經驗來改善其效能。資料探勘從資料中發現模式並加以利用。所謂 以往的經驗 當然也是以資料的形式存在的。要想改善效能,當然也要先發現模式才行。兩個領域高度相關。區別嘛,資料探勘更重視實際應用,採用系統化的方法來綜合使用各種機器學習演算法 拿來就用,不管理論 期...