用Python寫爬蟲，用什麼方式框架比較好？

1樓：

如果是新手入門建議先不用框架，自己擼；等熟悉以後可以上 Scrapy 框架並且可以研究下原始碼。當然如果需要採集資料，可以先在 GitHub 上搜尋下，一般的需求在 GitHub 往往已經有很多類似的專案可以滿足。這裡推薦下 AkShare，基於 Python 的開源財經資料介面庫：

2樓：hunt zhan

Scrapy。看起來很強大的爬蟲框架，可以滿足簡單的頁面爬取（比如可以明確獲知url pattern的情況）。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。

但是對於稍微複雜一點的頁面，如weibo的頁面資訊，這個框架就滿足不了需求了。

mechanize。優點：可以載入JS。缺點：文件嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。

selenium。這是乙個呼叫瀏覽器的driver，通過這個庫你可以直接呼叫瀏覽器完成某些操作，比如輸入驗證碼。

cola。乙個分布式爬蟲框架。專案整體設計有點糟，模組間耦合度較高，不過值得借鑑。

以下是我的一些實踐經驗：

對於簡單的需求，比如有固定pattern的資訊，怎麼搞都是可以的。

對於較為複雜的需求，比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高併發，這種情況下是很難找到乙個契合需求的庫的，很多東西只能自己寫。

至於題主提到的：

還有，採用現有的Python爬蟲框架，相比與直接使用內建庫，優勢在哪？因為Python本身寫爬蟲已經很簡單了。

third party library可以做到built-in library做不到或者做起來很困難的事情，僅此而已。還有就是，爬蟲簡不簡單，完全取決於需求，跟Python是沒什麼關係的。

3樓：laiyonghao

要處理 js 執行後的結果，可以使用 html5lib。

但我覺得最好的是用 beautifulsoup4 的介面，讓它內部用 html5lib。

用C Python Ruby寫爬蟲的比較？

黃耀不要用C 不要用C 不要用C 如果你是以爬取資料為目的，而不是以學習C 以及多執行緒程式設計為目的，強烈不建議C 如果是為大公司開發大型資料爬取系統，另當別論小公司或者個人開發爬蟲，或者要求開發周期短，強烈建議Python沒寫過爬蟲，熟悉一下，很快也就能寫出乙個不錯的爬蟲以完成任務若使用pyt...

用古龍的方式寫fate？

肥腸六加一殘陽西下，二人相對而立。是你？是我。你英靈化了？我英靈化了。你本不該英靈化的我已經英靈化了。是啊你畢竟，已經英靈化了我畢竟已經英靈化了。一高，一矮一父，一女。男子頂著雜亂的頭髮，嘴上叼著的香菸閃爍著紅的刺眼的火星。女孩則一身東瀛書院學子打扮，身旁飛舞著一根西洋風格的法器。兩人彷...

這個程式用python怎麼寫呀？

封掣 s input input a string count s count a res s replace a print res print count 意群不知道樓上為啥寫那麼複雜。defmycount string count 0 fors instring if s a count 1...

用Python寫爬蟲，用什麼方式 框架比較好？

用C Python Ruby寫爬蟲的比較？

用古龍的方式寫fate？

這個程式用python怎麼寫呀？

其他用戶還看了：

用Python寫爬蟲，用什麼方式框架比較好？