為什麼網上Python爬蟲教程這麼多,但是做爬蟲的這麼少呢?爬蟲發展又該是如何呢?

時間 2021-05-07 06:41:20

1樓:茄之boy

我剛學爬蟲不到乙個月,有點前後端基礎,入門確實門檻很低,爬個豆瓣top250感覺和教小孩一樣,我爬過挺多的東西的我覺得在瀏覽器端爬個東西比較簡單吧 ,但效率又是另一方面,用selenium可以爬絕大部分,但是效率略低,但是效率比較高的那種模擬使用者又相對困難,有種不可兼得的感覺。

2樓:冷微

不是沒用技術含量,而是很多都用不到非常深奧的爬蟲知識,而且反爬也並不是那麼的好做,

基礎的反爬驗證也是非常麻煩的,常見稍微了高深的就是js混淆,動態cookie,流量控制,唯一編碼訪問(為了應對虛擬瀏覽器)等等,挺麻煩的,後面厲害的公司使用反爬模板普及起來的話,資料就不會那麼好爬了,那麼爬蟲需求就會多起來了。

3樓:十點資料

做爬蟲的現在不少了,任何乙個和資料有關的公司,或多或少都會需要爬蟲。大資料時代,什麼最重要?資料!資料哪來?很大部分是網際網路。

4樓:HiddenStrawberry

這個問題下的回答,包括各位所謂知乎大V的回答,大多數都是完全沒有做過高難度的反反爬。

在我的概念裡你們說的解析其實和爬蟲關係都不大,難度高的地方都在於」如何模擬人來獲取資料「,而不是」怎麼優雅的做解析「。爬蟲做到頭和安全相關的東西高度交叉,這個圈子裡的dalao們應該都懂。

當然了,爬蟲工程師所面臨的法律風險也是逐年增加,也是從業者越來越少的原因之一。可看我之前的回答。

這個崗位在我看來是可以發揮巨大的價值的,關鍵看公司怎麼用,用好了就是如虎添翼。

5樓:星空

噱頭很大,真正的爬蟲的話,主要是爬一些公開的資料,要說有用的話還是挺有用的,可以做很多行業的資料分析跟統計,分析出一些行業前景以及背後的使用者規律,但是是本質上屬於體力勞動的呢,有些資料可能還會涉及到法律的邊緣,之前就有很多公司被抓了。

6樓:Running

相關崗位需求也不少吧,boss直聘上可以搜到不少。但是爬蟲的綜合技術要求並不低,所謂入門容易,精通難。python寫爬蟲的場景往往都是資料科學領域,然而能搞定資料科學的人恐怕寫爬蟲也還可以吧!

所以還是技術要修煉才行!

7樓:千鋒Python學院

現在很多小夥伴都是對爬蟲感興趣,感覺很好玩,也有想通過學校學習的爬蟲技能去公司實習。

其實可能是小夥伴對這個了解的太少了,就目前來說我們的爬蟲課程也是很少,讓學生能了解爬蟲,

最多就是爬取一些簡單的資料,實現資料分析的目的。

現在企業專門招聘爬蟲的可以說是微乎其微。

8樓:流沙

網上都是入門教程,乾貨少,噱頭多。

因為大公司雖然需要爬蟲,但是一般不需要專門設立乙個爬蟲崗,讓後台工程師來做就行了。乙個團隊有半個或者好幾個半個專門做爬蟲就夠了。

遇到反反爬的場景,可以讓做逆向、協議分析、加解密的人幫忙,風控團隊的反爬人員也會給建議。這些專業人員也不叫爬蟲工程師。

做演算法的會對爬取到的資料做清洗並分析。演算法也不能稱為爬蟲工程師。

9樓:魚-丸

10樓:凌天翔龍

任何語言都能寫這玩意,一定要Python幹啥,他能幹的這些玩意,N年前其它語言都玩過時了,原理就那麼點,被封裝後大家以為是個寶,其實對程式設計的基礎能力一點幫助都沒有,不就乙個http請求嗎,在對返回的html文件進行分析提取,這麼乙個基礎的功能被吵得不行不行,太沒意思了,一看就是還沒有入門的程式設計師或外行人

11樓:提了廢

爬蟲可以用來練手,作為入門手段學習一種語言,但不是全部。

如果說乙個語言他的優點是方便寫爬蟲,那麼可以說是在侮辱那門語言。

12樓:

因為低端爬蟲實際上是乙個輔助性的技能,比如做大資料的,做前後端的同時需要幹這個。不需要專人來做。而高階爬蟲是非常複雜的技術,一般人又做不了。

13樓:ze wan

我就笑笑,第一爬蟲需求是硬需求,沒有資料沒有使用者你玩什麼?第二爬蟲的最高境界就是搜尋引擎,像人一樣去爬,你們說沒技術含量,技術是自己去創造,說什麼工作沒技術含量他的水平就暴露了。第三創業公司可沒那麼細緻的分工,你只想爬到資料就什麼也不管了,你沒上過班吧。

14樓:

爬蟲水很深,我看網上教程都是解析解析網頁的居多,那玩意沒啥難度,你要自己做的話,分布式呀js頁面解析呀驗證碼啥的呀能搜到的資料特別少........來自乙個不懂爬蟲的人的直觀感受

15樓:DenightDalian

樓主所說的難點是比較繁瑣的技術攻關,其實我們關心的抓取完資料進一步做的大資料分析或者AI人工智慧應用,可以把抓取資料的體力活環節交給現成的資料抓取平台來做:

資料採集專家:適合企業使用的資料採集平台-瑞雪採集雲

16樓:紅塵鍊心

爬蟲是搜尋引擎技術的乙個核心模組。

不是少,所有搜尋引擎都必須有乙個強大的,無所不在的網路爬蟲。但是爬蟲會遵循乙個規則,內容所有者可以決定哪些內容可以公開哪些不可以。

當然搜尋爬蟲只能對公開的內容進行爬行索引。

你說的某種語言下的爬蟲,應該只是一些個人愛好的產物,如果感興趣可以搜尋乙個叫火車頭的工具。這是乙個通用的採集工具。

17樓:朋克雪球兔

因為說「做爬蟲」不專業。

往工具本身來說,可以說做演算法,做優化,做分布式…往目的來說,可以說做資料分析,儲存,測試,機器學習…單純說做爬蟲,是沒有出路的,這是層次問題。

18樓:戰鬥力不行的伯爵

爬蟲屬於典型的易學難精的東西是個人學兩天py就會了,但要做成真正適用企業級的非常非常難,絕大多數人並不是真的要精通py,只是為了讓別人知道他會

19樓:祈澈菇涼

做爬蟲的只會越來越多

現在是大資料的時代

做資料分析的資料從哪來?

還是需要爬蟲工程師來爬的

慢慢的趨勢會越來越明顯,需求也會越來越多

20樓:立黨

為什麼明明爬蟲沒什麼用,但是這麼多人教爬蟲呢?

很明顯,那些教爬蟲的人,自己也沒用過Python寫過什麼正經的project,講不了tensorflow和pytorch,也講不了什麼django和flask,甚至連Leetcode都沒刷過,於是在自己的知識庫裡搜刮了一遍,最後發現只能講講爬蟲了

21樓:長江大俠

這就是以前做外掛程式的流程,

平台從遊戲軟體換成了web

我就說爬蟲爬蟲,

這他媽的獲取個網頁源內容,一下怎麼就變成了爬蟲了。

既然這樣,做外掛程式的實現方式,有記憶體,有鍵鼠指令碼。

那麼web做爬蟲的實現方式,有分析加密,也有js植入。

這不是沒啥兩樣嗎

22樓:Coldwings

因為你看到網上的爬蟲教程,即使教了也就教個怎麼用Python模擬請求和搜尋DOM,撐死了講一下怎麼用Scrapy,這個最多也只能算是真正做爬蟲的基礎問題。

實際上做爬蟲,關鍵問題永遠不是怎麼去模擬個請求這件事。

往底層看,大規模的高效率的資料爬取需要分布式系統的支撐,任務分派,分布式儲存,這些才是問題關鍵,上規模以後再來Scrapy那套,比起在企業已有的中介軟體和分布式系統上做擴充套件而言既沒效率也不好維護;往特殊爬取方向看,重點在於對抗反爬蟲,這個方向上對HTTP越了解越有優勢,特別重前端是現在的普遍趨勢,解析DOM還不如分析JS有用,而對於達到一定計算規模的爬取而言,分析JS還不如模擬瀏覽器實在,更何況說不准還要爬websocket,擴充套件算力對比擴充套件人力,前者成本大多數時候都更低,何況特殊爬取本也難有太大規模;往應用層面看,資料的提取、清洗、分析和應用才是重點。

若只是模擬個請求,然後提取一下DOM這種需求,甚至都不需要專門找個程式設計師,找個人拖幾下滑鼠就能制定規劃的軟體都有一大把了。

所以說資料的爬取,無論往哪個方向看,都不是工作重點。做前端的讓他寫個爬取,沒問題;做後端的來,人家做測試用例都沒少做過,自然是也行;做資料的多少自己都抓過資料,不欠那麼點功夫。在這種情況下,只會用Python模擬請求,這樣的崗位說難聽點叫做偽崗位,自然是沒辦法得到乙個理想的待遇,就算靠著寫爬蟲吃飯,大體上也吃的不太好。

所以說,『做爬蟲』這樣的崗位,最好的出路其實是開課教別人做爬蟲。

23樓:

首先,你看到的只是你的主觀感覺。

搞爬蟲的都在做專案掙錢可能很多人沒事不在網上發東西

爬蟲課程的要靠推廣引流來客源掙錢,所以推廣是他們的一項工作,不管seo sem還是廣告投入,部落格軟文等等,都是為了掙錢剛好人家的掙錢推廣的基礎建立在你看到的所謂的「網上」。

24樓:

因為爬蟲的難點,不在於爬蟲。

如果是爬取,比較簡單的網頁。

分分鐘上手,根本都不需要會python。

現在成熟的工具多的是。

點幾下就搞定了。

但是吧,真實工作中。

你會遇到很多和爬蟲技術不相關。

但是,又不得不解決的問題。

比如說驗證碼識別。

這個東西,明顯屬於機器學習範疇。

但是你不搞定,資料就是爬取不到。

你說找打碼平台吧,成本刷的一下就上去了。

所以,現在你應該能夠理解其中的矛盾。

和爬蟲的難點,不在於爬蟲。

這句話了吧。

總的說來,爬蟲的最高高階就是。

所見即所得,有了這本事。

工資槓槓的。

25樓:那邊

因為照著網上的爬蟲教程入門python快,做起來有成就感,但這種爬蟲只能作為娛樂。真正要做爬蟲,涉及到的東西太多了,不是一般人啊憑著一股衝動就能學下去的。關於爬蟲的發展,如果要架設乙個大型分布式爬蟲,涉及大量資料,那成本可高了,人有那技術還去幹爬蟲幹啥?

26樓:wb Wang

爬蟲只是python下的乙個很小的應用而已,所以單純做爬蟲的很少,說白了都是業餘愛好,就好比excel功能很強,但你只懂乙個sum求和函式就想找工作?

27樓:

有用的資料爬不了,爬蟲是個偽需求,現在所謂資料諮詢的小公司看的是銷售和boss的人脈,大一點的由合作方提供資料,除非做搜尋引擎或者需要大量資料做文字分析,不然爬蟲爬下來的資料價值很低,而且爬蟲前端和資料部門都能做,不算乙個單獨的崗位,也不建議拿來入門,很容易給自己過度自信的錯覺

28樓:地球的外星人君

但這並不說明爬蟲沒有技術含量,初級爬蟲人人能寫,高階的就未必了。別的不說,各種千奇百怪的反爬策略你見過多少了?分布式會寫嗎?效能能優化到什麼水平?

不過,如果你是初學者,我並不建議你把爬蟲作為自己的主要方向,因為職位需求相對較少。

拉勾上搜尋Python:

拉勾上搜尋爬蟲(還包括其他語言爬蟲崗位哦):

29樓:

爬蟲都是一些小公司幹的事情,大公司需要爬?有錢就買過來,買不過來就和別人合作拿資料!簡單的爬蟲確實很簡單,但是如果想寫出來乙個穩定可用又方便的可不簡單!

其次,大部分學習爬蟲也就去爬幾篇文章,爬點妹子圖,純屬娛樂而已,又不指望靠這個掙錢吃飯!

python分享中初級爬蟲教程氾濫是否有其語法特徵和生態環境的鍋?

蒼孫 常見的爬蟲教程,其實就是做個http client請求的教程.要知道google就是做爬蟲的公司,這麼一說朋友們就應該理解爬蟲的複雜度了吧. 並不是。只是Python成為了近期的熱點而已。七八年前我剛開始學Python的時候,Python就已經以爬蟲知名了,但從來沒見有這麼火過。Python的...

轉行python爬蟲,各位朋友有什麼看法?

Lancet 瀉藥,Ps 我記得我在知乎的資訊沒有透露出我主python啊?我不知道題主有沒有嵌入式的基礎,如果有,轉python 寫爬蟲應該不難。python寫爬蟲有先天優勢,這個就不多說了。我是有經常寫爬蟲抓data什麼的。所以爬蟲其實還是挺好入門的,自學,找點爬蟲的書和小專案 網上很多 做幾個...

用Python寫爬蟲,用什麼方式 框架比較好?

如果是新手入門建議先不用框架,自己擼 等熟悉以後可以上 Scrapy 框架並且可以研究下原始碼。當然如果需要採集資料,可以先在 GitHub 上搜尋下,一般的需求在 GitHub 往往已經有很多類似的專案可以滿足。這裡推薦下 AkShare,基於 Python 的開源財經資料介面庫 hunt zha...