用Python寫爬蟲,用什麼方式 框架比較好?

時間 2021-05-05 20:51:22

1樓:

如果是新手入門建議先不用框架,自己擼;等熟悉以後可以上 Scrapy 框架並且可以研究下原始碼。當然如果需要採集資料,可以先在 GitHub 上搜尋下,一般的需求在 GitHub 往往已經有很多類似的專案可以滿足。這裡推薦下 AkShare,基於 Python 的開源財經資料介面庫:

2樓:hunt zhan

Scrapy。看起來很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。

但是對於稍微複雜一點的頁面,如weibo的頁面資訊,這個框架就滿足不了需求了。

mechanize。優點:可以載入JS。缺點:文件嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。

selenium。這是乙個呼叫瀏覽器的driver,通過這個庫你可以直接呼叫瀏覽器完成某些操作,比如輸入驗證碼。

cola。乙個分布式爬蟲框架。專案整體設計有點糟,模組間耦合度較高,不過值得借鑑。

以下是我的一些實踐經驗:

對於簡單的需求,比如有固定pattern的資訊,怎麼搞都是可以的。

對於較為複雜的需求,比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高併發,這種情況下是很難找到乙個契合需求的庫的,很多東西只能自己寫。

至於題主提到的:

還有,採用現有的Python爬蟲框架,相比與直接使用內建庫,優勢在哪?因為Python本身寫爬蟲已經很簡單了。

third party library可以做到built-in library做不到或者做起來很困難的事情,僅此而已。還有就是,爬蟲簡不簡單,完全取決於需求,跟Python是沒什麼關係的。

3樓:laiyonghao

要處理 js 執行後的結果,可以使用 html5lib。

但我覺得最好的是用 beautifulsoup4 的介面,讓它內部用 html5lib。

用C Python Ruby寫爬蟲的比較?

黃耀 不要用C 不要用C 不要用C 如果你是以爬取資料為目的,而不是以學習C 以及多執行緒程式設計為目的,強烈不建議C 如果是為大公司開發大型資料爬取系統,另當別論小公司或者個人開發爬蟲,或者要求開發周期短,強烈建議Python沒寫過爬蟲,熟悉一下,很快也就能寫出乙個不錯的爬蟲以完成任務若使用pyt...

用古龍的方式寫fate?

肥腸六加一 殘陽西下,二人相對而立。是你?是我。你英靈化了?我英靈化了。你 本不該英靈化的 我已經英靈化了。是啊 你畢竟,已經英靈化了 我畢竟已經英靈化了。一高,一矮 一父,一女。男子頂著雜亂的頭髮,嘴上叼著的香菸閃爍著紅的刺眼的火星。女孩則一身東瀛書院學子打扮,身旁飛舞著一根西洋風格的法器。兩人彷...

這個程式用python怎麼寫呀?

封掣 s input input a string count s count a res s replace a print res print count 意群 不知道樓上為啥寫那麼複雜。defmycount string count 0 fors instring if s a count 1...