五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網 會員登陸 & 注冊

使用Scrapy爬取豆瓣電影Top250

2023-06-11 14:04 作者:Y氹氹轉o菊花園Y  | 我要投稿

簡介

豆瓣經典電影Top250部排行是經典的爬蟲案例,屬于分頁式總入口,詳情頁有限發(fā)散層級(延伸一級就夠)的梳狀網頁結構。無需登錄即可獲取頁面信息,網頁屬靜態(tài)內容,沒有交互及異步加載,可直接請求并解析。

站點

https://movie.douban.com/top250

爬取目標

從電影目錄收集基本標題及詳情頁鏈接,依次翻頁收集所有排名電影。

在各詳情頁收集電影信息及封面圖片。

分析網頁結構

  • 電影列表頁面

定位詳情頁的鏈接
定位翻頁的鏈接
  • 電影詳情頁面

代碼設計

  • 使用scrapy命令新建項目

得到如下目錄結構

  • 對settings.py的修改:

    • ROBOTSTXT_OBEY = False,因為默認scrapy會下載robot.txt文件,以分析并遵守站點的爬蟲限制規(guī)則。而豆瓣在對提供了無效User-Agent的請求是返回403禁止的,需要將此選項關閉。

    • DOWNLOAD_DELAY = 3,開啟限制請求頻率,以免影響網站運營,默認是各請求間有3秒等待

  • scrapy shell的使用,可輔助調試,查找元素

  • 頁面信息提取說明,有些字段dom節(jié)點的寫法不統(tǒng)一,需要特殊處理,為了方便維護,使用專門的extract_xxx函數(shù)封裝,以后無論頁面如何變動,調用方無需改動,只需要更新相關的extract函數(shù)

  • 執(zhí)行

  • 也可以用main的方式去啟動,方便斷點調試


使用Scrapy爬取豆瓣電影Top250的評論 (共 條)

分享到微博請遵守國家法律
霍林郭勒市| 福州市| 灌阳县| 科技| 克拉玛依市| 房产| 额敏县| 凭祥市| 昭平县| 四川省| 苍山县| 靖西县| 天门市| 慈利县| 临湘市| 宁海县| 虹口区| 谢通门县| 汪清县| 永仁县| 鱼台县| 沧州市| 梨树县| 镇康县| 泉州市| 即墨市| 思南县| 通江县| 周至县| 天津市| 永平县| 哈巴河县| 田阳县| 济源市| 上饶市| 大安市| 磐安县| 洪泽县| 涟水县| 萨迦县| 雷山县|