用SQL 做資料清洗與用Python做資料清洗的利弊分別是什麼？哪種方法處理更簡單？

1樓：無冕之王

SQL要自己寫演算法，python有很多比較成熟的演算法，拿過來用就可以，至於哪種更簡單就要看你這兩種工具哪種用得更得心應手了。

2樓：ZhiHu上的提問者

這必須要看具體的應用場景。

SQL最大的弊端是只能單語句執行。

而Python的優勢是可以解決SQL的弊端。尤其是對於需要重複操作的相同資料集。

如果還做一次，兩個大差不差。如果後續需要建模，還得回到Python。所以不如直接用Python。

3樓：最愛肉鬆

從系統角度來說原則是，

要麼在SQL，要麼在ETL，不能又在SQL又在ETL；我知道很多專案達不到這個要求；

從使用者的角度來說原則是，

哪個比較熟就用哪個來；

資料庫這東西，欄位少、規模小最後的結果就是速度快；如果中間產品都放資料庫，那麼管理和查詢都是乙個困難問題；之後的業務合併和擴充套件都會很棘手；

如果分布式開發，或者爬蟲就是這種規模，那麼一定是先約定好最後的目標字段，大家各自做好清洗，最後入庫；除非必要，是不會保留中間資料的。

再說Pandas的效能應付一下爬蟲應該還是可以的；用Pandas做清洗本身就是很簡單的事情；用pandas做Groupby不是也挺好嘛

用R可以做資料清洗嗎？或者有更好的資料清洗工具？

孫大勇都只是工具，用你最熟悉的工具來做資料的清洗和轉換。R做資料處理還是很方便的，只是不好處理大量資料因為載入到記憶體處理以及處理效率並不高。所以，資料量不大，比如2GB以內，一般PC上用R處理可以的。公尺有尾巴的魚 Mircosoft SSIS Informatica Datastage ...

用stata如何做面板資料？

進擊的學術鬥士用STATA處理面板資料，首先要宣告資料是面板資料，命令是xtreg x1 x2 變數x1就是觀測值的單位，就是一般模型裡的i，變數x2是觀測值的時間，就是一般模型裡的t。比如有1980 1985年5年省級面板資料，province變數表示省，year變數表示年，就應該 xtreg ...

用 SQL 結果集作為條件繼續查詢同乙個資料表，能否只用一條 SQL 語句實現？

RednaxelaFX 挖個老問題。這種樹形結構，如果要查詢的是某顆子樹的資料，那就是recursive CTE common table expression 的最經典的使用場景。MySQL一直沒支援recursive CTE，但最近終於在MySQL 8系列裡有實驗性的實現了 MySQL 8.0 ...

用SQL 做資料清洗與用Python做資料清洗的利弊分別是什麼？哪種方法處理更簡單？

用R可以做資料清洗嗎？或者有更好的資料清洗工具？

用stata如何做面板資料？

用 SQL 結果集作為條件繼續查詢同乙個資料表，能否只用一條 SQL 語句實現？

其他用戶還看了：