用SQL 做資料清洗與用Python做資料清洗的利弊分別是什麼?哪種方法處理更簡單?

時間 2021-06-29 14:03:00

1樓:無冕之王

SQL要自己寫演算法,python有很多比較成熟的演算法,拿過來用就可以,至於哪種更簡單就要看你這兩種工具哪種用得更得心應手了。

2樓:ZhiHu上的提問者

這必須要看具體的應用場景。

SQL最大的弊端是只能單語句執行。

而Python的優勢是可以解決SQL的弊端。尤其是對於需要重複操作的相同資料集。

如果還做一次,兩個大差不差。如果後續需要建模,還得回到Python。所以不如直接用Python。

3樓:最愛肉鬆

從系統角度來說原則是,

要麼在SQL,要麼在ETL,不能又在SQL又在ETL;我知道很多專案達不到這個要求;

從使用者的角度來說原則是,

哪個比較熟就用哪個來;

資料庫這東西,欄位少、規模小最後的結果就是速度快;如果中間產品都放資料庫,那麼管理和查詢都是乙個困難問題;之後的業務合併和擴充套件都會很棘手;

如果分布式開發,或者爬蟲就是這種規模,那麼一定是先約定好最後的目標字段,大家各自做好清洗,最後入庫;除非必要,是不會保留中間資料的。

再說Pandas的效能應付一下爬蟲應該還是可以的;用Pandas做清洗本身就是很簡單的事情;用pandas做Groupby不是也挺好嘛

用R可以做資料清洗嗎?或者有更好的資料清洗工具?

孫大勇 都只是工具,用你最熟悉的工具來做資料的清洗和轉換。R做資料處理還是很方便的,只是不好處理大量資料 因為載入到記憶體處理 以及處理效率並不高。所以,資料量不大,比如2GB以內,一般PC上用R處理可以的。 公尺有尾巴的魚 Mircosoft SSIS Informatica Datastage ...

用stata如何做面板資料?

進擊的學術鬥士 用STATA處理面板資料,首先要宣告資料是面板資料,命令是xtreg x1 x2 變數x1就是觀測值的單位,就是一般模型裡的i,變數x2是觀測值的時間,就是一般模型裡的t。比如有1980 1985年5年省級面板資料,province變數表示省,year變數表示年,就應該 xtreg ...

用 SQL 結果集作為條件繼續查詢同乙個資料表,能否只用一條 SQL 語句實現?

RednaxelaFX 挖個老問題。這種樹形結構,如果要查詢的是某顆子樹的資料,那就是recursive CTE common table expression 的最經典的使用場景。MySQL一直沒支援recursive CTE,但最近終於在MySQL 8系列裡有實驗性的實現了 MySQL 8.0 ...