豆瓣一共收錄了多少部電影?

時間 2021-05-30 00:10:56

1樓:小小航下士

最近正好在寫關於豆瓣爬蟲

根據豆瓣電影所具有的年份標籤從這8個年份區間段【1,1959】【1960,1969】【1970,1979】【1980,1989】【1990,1999】【2000,2009】

【2010,2019】【2020,2020】每個年份區間段下有499頁(不管是否登入,最多獲取499頁),每頁下有20個,也就是每個年份區間段有大概1W,期間有幾十個ID有重複,目前(2020/12)應該大致在8W左右

79817

2樓:這一槍叫晚安

最近寫了乙個爬蟲得到的數字是146902

應該不超過15萬部這個數字是包含全球的有記錄的

其中有評分的大概在5萬部這樣大部分都沒有評分

3樓:冰糖雪梨

2018/5/22更:

到目前為止各種形式的影視找到了 117268 部,包含電影、電視劇集、綜藝、動畫、短片和紀錄片。其中有評分的為 83631 部;而 imdb 收錄的為 88811 部,有評分的為 76876 部。

今天(2017/9/4)爬取了豆瓣電影資料,整理後共53020條,可能會有偏差,但差距應該不大。

統計方法是選擇電影分類,(其它形式應該不算電影?),選擇全部型別,之後進行不可描述的一些操作。。。

9月20日更

下面是對這5萬多條資料進行的統計(對資料進行了一些手動修正)

4樓:

最近在做資料探勘,需要測試乙個檢測水軍的演算法模型,所以從豆瓣爬了一些資料集。

我跟樓上的爬法不太一樣,我是從電影的影評中去抓使用者,目前還在爬,大概抓了7000個這樣的使用者,然後從這些使用者「看過」的電影中再去抓取電影資訊。由於這些寫影評的使用者不少是資深的影迷(有乙個使用者看過的列表高達7000部,1000+的更是不計其數),所以看過的電影涵蓋了各種大眾小眾電影(至少我能想到名字的基本上都已經覆蓋到了),現在還在爬(寫個期末專案容易嘛~),目前來看總條目應該在5萬到10萬左右。

5樓:趙鑫

中國電影資料館收藏了兩萬七千多部,所以一樓的兩萬的數目是滿靠譜的。但是豆瓣的電影條目包含太多,短片電視劇集動畫甚至廣告都有,所以具體電影數目很難篩選

6樓:Alchain花生

20000部左右

豆瓣條目鏈結subject後面的數字不區分書影音,所以想直接從那個數字得到真實的條目數比較困難,不過可以考慮先以那種方式得到總條目數,再通過隨機輸入subject後數值的方式試驗幾百個得到電影條目的比例,我這先介紹個另類的方法。

豆瓣電影條目一般都是使用者新增的,由此幾乎每部電影都會有人做標記並給出標籤,基本的標籤包含製片國家和影片型別、年代等資訊,所以我通過標籤的交叉對比進行了以下計算:

說明:查詢乙個標籤可以看到包含該標籤的所有電影,查詢兩個標籤可以看到同時包含該兩個標籤的所有電影;

以下比例以查詢頁條目頁數計算,其中每頁包含20個條目;

範例:包含「美國」標籤的:http://

;包含「美國」及「愛情」標籤的:http://

「美國」中包含「愛情」的為100/410

「香港」中包含「愛情」的為40/126

「日本」中包含「愛情」的為45/186

從上面可以看出一部電影被標註為「愛情」的可能性大概為0.25,而包含「愛情」標籤的電影數量為260頁,因此電影總數大概是1000頁。

(2)「愛情」中包含「美國」的為100/260

「喜劇」中包含「美國」的為100/254

「動畫」中包含「美國」的為77/167

從上面可以看出一部電影被標註為「美國」的可能性大概為0.4,而包含「美國」標籤的電影數量為410頁,以這種方式算出來的電影總數也大約是1000頁。

以上兩種方式算出來的都是接近1000頁,即20000部左右。

備註:1、以上計算包含基本假設:幾乎所有的電影都擁有標籤。

2、計算所選取的標籤是最熱門的,樣本量較大,結果的置信程度也相對較高,但還是有較大風險。

豆瓣上一共錄入了多少本書?

我在2017年1月23號爬到了129193本書。根據ID估計,總數應該是10 7數量級。ID的跨度大概為3E7。裡面有無效書籍,但是無法知曉其比例。這是一年前的事了,一年時間會有很多新書被收錄進來。總的來講,我估計豆瓣中的書籍數目在千萬級別。 仰石 2017年11月最新爬蟲資料11843 資料清洗去...

巨佬們,朋友幫配電腦 配件 安裝 做系統一共收我6500 划算嗎?

緋落 有點貴了,主機板不好,除了CPU 顯示卡記憶體是過得去的,其他的都是很一般,512G固態還說說,電源也配個好點的,畢竟AMD的顯示卡和CPU都不是省點得主。這裡300 W去了,搞個金牌500W以上是要的,酷冷的650還可以,散熱器就算了玄冰400真的有點土。還不如換個喬思伯的cR1000,主機...