用Python爬網頁需要了解什麼背景知識?

時間 2021-05-06 23:16:11

1樓:陳露

貼一下我剛寫的一篇文章~

pituber.com/t/topic/18這個論壇也是剛做好的乙個爬蟲論壇~

題主有什麼問題~或者是想法可以來看一看

2樓:沒有回頭

HTTP協議肯定是要了解了。因為爬蟲就是模擬瀏覽器發起HTTP請求。

HTML知識也是需要了解的,爬下來的資料都多數是HTML結構的資料,你需要去解析HTML

正規表示式在處理內容時非常有必要

另外還需要懂點資料庫知識,爬下來的資料總要個地方儲存,不是嗎?

3樓:

年輕人,我建議你不要看需要什麼基礎,上手先執行乙個demo是最重要的事。

第二件事是學會正規表示式或者xpath,能夠找到頁面內的資料。

第三件事是學會分析url鏈結,找到規律,能夠翻頁爬取。

第四件事是學會獲取html中找不到的資料。

第五件事是學會怎麼儲存抓取到的資料,文字儲存,資料庫儲存。

第六件事是學會突破爬蟲封鎖。

自己正在總結一些爬蟲小知識到部落格

1、學習資料、python環境和編輯器 - 三木成舟2、第乙個python爬蟲 - 三木成舟

3、安裝額外python庫與簡單使用 - 三木成舟4、爬蟲資料儲存介紹與爬蟲實戰 - 三木成舟

4樓:一葉知秋

需要網頁程式設計基礎,懂一些簡單的ajax,需要會一種網頁抓包除錯工具。在Mozilla裡有乙個firebug。 如果有人教你,幾天。

我遇到乙個人,教了她乙個星期也沒有弄會。 自己摸索有些難。可能也需要乙個星期左右時間。

5樓:xlzd

大部分爬蟲其實都是寫體力活,這些入門足矣(由於時間原因,所以不保證文中的方法現在依然可用,也不保證其準確性,僅供參考~):

爬蟲必備——requests

01. 準備

02. 簡單的嘗試

番外篇. 搭建稱手的Python開發環境

03. 豆瓣電影TOP250

04. 另一種抓取方式

05. 儲存

06. 海量資料的抓取策略

07. 反爬機制<1>

08. 模擬登入

09. 通過爬蟲找出我和輪子哥之間的最短關注鏈

畫漫畫需要了解什麼?

笑我不好笑 對這個世界的認知與看法,更加深入的了解,為什麼會有這種看法,是自我性,還是他人灌輸性。將深入了解的認知輸入漫畫中 不要迷失在乙個市場形成的圈子裡,我相信想要成為漫畫家的人都不會是完全的金錢主義,都希望做好的作品,不過市場會多多少少改變大家。不然市場上也不會有那麼多流水賬。也不是說分鏡畫風...

想買房,需要了解些什麼?

京津冀貸款專家 座標北京。想要買房,首先要了解當地政策,拿北京舉例,是否有購房資格,所購房屋屬於首套還是二套。然後要知道自己公積金繳存情況,屬於國管還市管,繳存額度。公積金貸款最高是120W。接下來就是要計算自己手裡的資金,每月打卡工資是多少。然後根據這些,可以算一下要買的房子的月供。目前按揭的還款...

買自行車之前需要了解什麼?

宇文晏 1買車來做什麼,是代步還是出去玩,這完全是兩種自行車 2了解自己騎多大尺寸的車,這非常重要,不合適的車傷身體 3有沒有安全的停車地點,貴的車沒法放在外面,這就要看你宿舍裡面有沒有停自行車的地方。 Charles 女生啊,車帥不帥的都無所謂了。主要好看就成啊!休閒騎唄。推薦你看看復古鋼架,有錢...