scrapy是爬蟲的核心嗎？

1樓：張凱強

不是的，Scrapy只是乙個好用的工具，你也可以用別的工具或自己創造新工具。

爬蟲的核心是解決Web工程師給你設定的反爬機制，這一點是與人對抗的過程，很像網路安全攻防，所以需要的知識是無窮盡的，因為對方也會靈活改變對策。

當解決了反爬，爬蟲本身的程式設計和資料處理流程都是大同小異的，Scrapy就是解決這一環節，用成熟的框架來節省開發時間。

2樓：石板路

爬蟲的核心是破解混淆js、破解驗證碼、破解動態鏈結庫，破解各種反爬蟲策略的hacker思維和程式設計能力，但建議在適當的時候放棄編寫爬蟲指令碼，因為他們說這涉嫌違規。

3樓：雨碎江南

不，爬蟲的思想自己程式的設計模式以及演算法才是核心，框架……早晚要更新換代的。所以，不要花大量時間學框架，打好基礎才是關鍵

4樓：Python高階者

並不是，可以看看這個：Python高階者：一篇文章帶你了解網路爬蟲的概念及其工作原理。

網路爬蟲的最終目的就是從網頁中獲取自己所需的資訊。雖然利用urllib、urllib2、re等一些爬蟲基本庫可以開發乙個爬蟲程式，獲取到所需的內容，但是所有的爬蟲程式都以這種方式進行編寫，工作量未免太大了些，所有才有了爬蟲框架。使用爬蟲框架可以大大提高效率，縮短開發時間。

5樓：清水魚

scrapy是乙個爬蟲框架，幫助你寫爬蟲的工具，下面的動態載入，驗證碼識別才是高階重點！另外，現在爬蟲不好找工作，活累錢少，勸退！

基於python的scrapy爬蟲，關於增量爬取是怎麼處理的？

weni09 這個問題對於我個人非常有幫助，個人覺得自己寫中介軟體,對 url指紋資訊及頁面內容hash值進行持久化關聯式資料庫，redis，檔案都行，按需下次爬取比較儲存好的url指紋資訊和頁面hash值，就可以減少重複爬取和重複更新資料。我是這麼做的 1.資料庫裡儲存抓取網頁的url...

會計的核心是計算嗎

會計的核心是撕逼呀，怎麼會是計算？又不是遠古時期的手工做賬，現在ERP那麼強，真正要你手工算的很少，更多的是分析層面。但是分析不可能只看數字，要從經營層面來看問題。以前的會計忙的做賬都沒時間，哪還有空管業務，那就是業務說啥就是啥了。而現在的會計的閒的一批，一家好公司不會讓會計那麼閒的，於是給他們權力...

scrapy在爬網頁的時候是自動採用多執行緒的嗎？

因為Python GIL的存在，scrapy無論如何設定都是單執行緒的。Scrapy裡預設是10執行緒的設定是指的Twisted的執行緒，可以用來並行處理DNS之類的。但上面這些都不重要，因為爬蟲是IO密集型的操作，所以只要有併發就可以了，無論是利用協程，callback還是其他方式實現併發。所以你...

scrapy是爬蟲的核心嗎？

基於python的scrapy爬蟲，關於增量爬取是怎麼處理的？

會計的核心是計算嗎

scrapy在爬網頁的時候是自動採用多執行緒的嗎？

其他用戶還看了：