1樓:
如果是新手入門建議先不用框架,自己擼;等熟悉以後可以上 Scrapy 框架並且可以研究下原始碼。當然如果需要採集資料,可以先在 GitHub 上搜尋下,一般的需求在 GitHub 往往已經有很多類似的專案可以滿足。這裡推薦下 AkShare,基於 Python 的開源財經資料介面庫:
2樓:hunt zhan
Scrapy。看起來很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。
但是對於稍微複雜一點的頁面,如weibo的頁面資訊,這個框架就滿足不了需求了。
mechanize。優點:可以載入JS。缺點:文件嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。
selenium。這是乙個呼叫瀏覽器的driver,通過這個庫你可以直接呼叫瀏覽器完成某些操作,比如輸入驗證碼。
cola。乙個分布式爬蟲框架。專案整體設計有點糟,模組間耦合度較高,不過值得借鑑。
以下是我的一些實踐經驗:
對於簡單的需求,比如有固定pattern的資訊,怎麼搞都是可以的。
對於較為複雜的需求,比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高併發,這種情況下是很難找到乙個契合需求的庫的,很多東西只能自己寫。
至於題主提到的:
還有,採用現有的Python爬蟲框架,相比與直接使用內建庫,優勢在哪?因為Python本身寫爬蟲已經很簡單了。
third party library可以做到built-in library做不到或者做起來很困難的事情,僅此而已。還有就是,爬蟲簡不簡單,完全取決於需求,跟Python是沒什麼關係的。
3樓:laiyonghao
要處理 js 執行後的結果,可以使用 html5lib。
但我覺得最好的是用 beautifulsoup4 的介面,讓它內部用 html5lib。
用C Python Ruby寫爬蟲的比較?
黃耀 不要用C 不要用C 不要用C 如果你是以爬取資料為目的,而不是以學習C 以及多執行緒程式設計為目的,強烈不建議C 如果是為大公司開發大型資料爬取系統,另當別論小公司或者個人開發爬蟲,或者要求開發周期短,強烈建議Python沒寫過爬蟲,熟悉一下,很快也就能寫出乙個不錯的爬蟲以完成任務若使用pyt...
用古龍的方式寫fate?
肥腸六加一 殘陽西下,二人相對而立。是你?是我。你英靈化了?我英靈化了。你 本不該英靈化的 我已經英靈化了。是啊 你畢竟,已經英靈化了 我畢竟已經英靈化了。一高,一矮 一父,一女。男子頂著雜亂的頭髮,嘴上叼著的香菸閃爍著紅的刺眼的火星。女孩則一身東瀛書院學子打扮,身旁飛舞著一根西洋風格的法器。兩人彷...
這個程式用python怎麼寫呀?
封掣 s input input a string count s count a res s replace a print res print count 意群 不知道樓上為啥寫那麼複雜。defmycount string count 0 fors instring if s a count 1...