為什麼不使用 scrapy,而是從頭編寫爬蟲系統?

時間 2021-06-02 15:05:24

1樓:Paco

因為你要是熟悉網際網路協議和併發程式設計,就能自己造輪子,而且不用去按別人提供的輪子的思路去用輪子,自己各種折騰(fu)優化都行,避免找下乙份工面試的時候以乙個調包俠的形象出現在面試官面前

2樓:

殺雞焉用牛刀。

scrapy之前我也用過幾次,兩三年前我還有乙個回答還是如何解決安裝問題的各種坑。

xiaoxiao bai:Python3 Scrapy安裝真蛋疼(windows 10 64 位)

以我為例,因為爬取的資料量太少,直接順手request+xpath/bs4就搞定了。

量再大點就多執行緒唄,非同步aiohttp用過但是用得不多。

其實像我爬取量少的,並不是在爬取上花費太多時間,更多時候是花費在如何解析網頁的,如何繞過爬取限制之類的,

3樓:吉祥鳥

其實個人比較推薦公司使用scrapy的,因為是乙個主流的框架,使用的人很多,之後要是老員工走了,新員工來也能很好的進行修改,而且scrapy的功能很強大,一些沒有的你可以自己寫中介軟體,有很大的擴充套件空間

4樓:不吃夾生飯

我要寫乙個api

通過api來呼叫爬蟲,而爬蟲的邏輯又挺複雜,會覺得用scrapy效率低。

scrapy是個好用成熟的框架,但是也有喜歡瞎折騰自己造輪子的人比如我

5樓:siegfried415

scrapy當然解決排程問題了,另外,還有很多基於scrapy的分布式爬蟲方案(如scrapy-redis)更是解決了分布式爬蟲的排程問題。難道我們所說的「排程」不是一回事?

徠卡 M system 不使用自動對焦而是堅持旁軸的原因是什麼?

因為萊卡不是實用的 工具 它只是一台 玩具 可能是我帶眼鏡的緣故吧,我覺得萊卡m系列的對焦系統對我來說很難用。有取景視差,大光圈也有侷限。 Gilnumen 你可以自行參考萊卡在R系列單反上試圖實現自動對焦卻體驗極差的黑歷史,技術方面去抱了美能達爸爸的大腿,最後還搞個半殘。所以說萊卡的電子水平是堪憂...

redis為什麼不使用非同步io而使用多路io復用?

老虎說 非同步io在Linux系統目前為止還不成熟,多路復用是同步io和非同步io之間的一種折衷方案。並且多路復用模型已經能很大程度上解決併發程式設計問題了 iovec 非同步IO的要求是,從核心複製資料到使用者態這個過程是非阻塞的。使用者提前設定好的資料接收緩衝區,當IO就緒,作業系統會自己執行I...

為什麼很多使用Vim Emacs的大牛不使用Dvorak布局的鍵盤?

gadmyth 我就是用dvorak的,不過我不是大牛,我是小貓咪,哈哈哈啊哈。vim emacs dvorak 形碼輸入法等這些都是個人愛好,和水平什麼都沒有絕對的關係。 1.德沃夏克布局能提公升的效率十分可疑。2.需要更改對映 3.有 更合理 的鍵盤布局,德沃夏克還是不夠裝逼。比如Data ha...