用R可以做資料清洗嗎?或者有更好的資料清洗工具?

時間 2021-05-29 23:32:12

1樓:孫大勇

都只是工具,用你最熟悉的工具來做資料的清洗和轉換。 R做資料處理還是很方便的,只是不好處理大量資料(因為載入到記憶體處理),以及處理效率並不高。所以,資料量不大,比如2GB以內,一般PC上用R處理可以的。

2樓:公尺有尾巴的魚

Mircosoft SSIS

Informatica

Datastage

比較盛行和常用的ETL東西,能夠到網上蒐集資料資料清洗從姓名上也看的出就是把「髒」的「洗掉」。因為資料倉儲中的資料是面向某一主題的資料的調集,這些資料從多個事務體系中抽取而來並且包括歷史資料,這樣就避免不了有的資料是過錯資料、有的資料相互之間有牴觸,這些過錯的或有牴觸的資料顯然是咱們不想要的,成為「髒資料」。咱們要依照必定的規矩把「髒資料」「洗掉」,這就是資料清洗。

3樓:伯納烏王子

R清洗資料還是不錯了,畢竟向量化操作,對於常用的data.frame進行清洗的話,plyr,dplyr,tidyr包不錯;對於文字類資料吧,那必須推崇stringr包了,專門處理字串的,然而你必須會正則了,不要用grep家族!不要用grep家族!

不要用grep家族!重要的事情說三遍。對於時間型別的資料必然是lubridate包了。

包你滿意。

4樓:華天清

資料清洗範圍太廣了,什麼熟練就用什麼,資料處理過程就像乙個鏈條,資料清洗是其中一環,跟上游和下游都可以各自選用不同的程式語言

5樓:王冠嵩

R(以及其他語言)能做得事情非常非常多。問R可不可以完成描述的資料清理任務,答案是當然可以。

如果要問R是不是最好的選擇,那就未必了,要看你對R與其他工具的熟悉程度對比和具體資料特性。根據你的描述,我覺得無論採用什麼工具,一定會用到正則表達(如果你還不太熟悉的話)。

往年的複習資料還可以用嗎?

qiuqiu 可以是可以,但要會選,有些老資料有一些不同的解題技巧,但也應該有新的複習資料,因為每年的知識和題型會有一點改變,所以,最好新舊結合 啦啦啦啦 瀉藥,首先真題是可以用的,對於提綱變化不大的科目來說參考書和筆記是可以用來參考的,但是要注意知識點更新,政治這類的資料就不要留了,每年變化都很大...

資料庫能做搜尋嗎?用資料庫做搜尋的優點和缺點有哪些?

陳廣勝 在網際網路早期,LAMP剛開始大紅大紫的那個時代,許多站點的搜尋就是用資料庫的做的。就是簡單地在要搜尋的字段上加個倒排索引。這麼做的優點是維護和開發簡單,了解點SQL就可以了。不過隨著資料量越來越大,這種做法顯得不是那麼高效。搜尋對於大多數應用來說,不太需要關係型資料庫的一些功能,如事務處理...

有做拓撲資料分析的嗎?

同調論 其實想說的是Persistent Homology 的資料分析 1.材料學 如用傳統方法很難解決的玻璃,amorphous,合金的原子排列。2.生物學 蛋白質,病毒等。3.統計學 處理傳統統計學問題。4.與機器學習的聯合 5.影象處理 做得非常好的有Robert Ghrist,Gunnar ...