Python Scrapy爬虫：同步和异步分页的DEMO

PHP中文网 • 2025年2月27日 19:40:48 • 编程技术 • 阅读 3

分页交互在请求数据时有同步和异步两种情况，同步时页面整体刷新，异步时页面局部刷新。对于这两种分页的数据在进行爬虫时，处理的方式是不一样的。 demo仅供学习，域名全部匿为test

同步分页

同步分页时，页面整体刷新，url地址栏会发生变化

爬虫解析的数据对象是html

测试场景：抓取某招聘网站北京区的Java职位

立即学习“Python免费学习笔记（深入）”；

#coding=utf-8import scrapyclass TestSpider(scrapy.Spider):    name='test'    download_delay=3    user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'    page_url = 'http://www.test.com/zhaopin/Java/{0}/?filterOption=2'    page=1    #执行入口    def start_requests(self):        #第一页        yield scrapy.Request(self.page_url.format('1'),            headers={'User-Agent':self.user_agent},            callback=self.parse,            errback=self.errback_httpbin)    #解析返回的数据    def parse(self,response):        for li in response.xpath('//*[@id="s_position_list"]/ul/li'):            yield{                'company':li.xpath('@data-company').extract(),                'salary':li.xpath('@data-salary').extract()            }        #是否是最后一页，根据下一页的按钮css样式判断        if response.css('a.page_no.pager_next_disabled'):            print('---is the last page,stop!---')                        pass        else:            self.page=self.page+1            #抓取下一页            yield scrapy.Request(self.page_url.format(str(self.page)),                headers={'User-Agent':self.user_agent},                callback=self.parse,                errback=self.errback_httpbin)    #异常处理    def errback_httpbin(self,failure):        if failure.check(HttpError):            response = failure.value.response            print 'HttpError on {0}'.format(response.url)        elif failure.check(DNSLookupError):            request = failure.request            print'DNSLookupError on {0}'.format(request.url)        elif failure.check(TimeoutError, TCPTimedOutError):            request = failure.request            print'TimeoutError on {0}'.format(request.url)

登录后复制

启动爬虫：scrapy runspider //spiders//test_spider.py -o test.csv 完毕后生成csv格式的文件：

异步分页

异步分页时，页面局部刷新，url地址栏不发生变化

爬虫解析的数据对象通常是Json

测试场景：抓取某电影网站的经典电影前100

#coding=utf-8import scrapyimport jsonclass TestSpider(scrapy.Spider):    name ='test'    download_delay = 3    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'    pre_url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start='    page=0    cnt=0    def start_requests(self):            url= self.pre_url+str(0*20)             yield scrapy.Request(url,headers={'User-Agent':self.user_agent},callback=self.parse)    def parse(self,response):        if response.body:            # json字符串转换成Python对象            python_obj=json.loads(response.body)            subjects=python_obj['subjects']            if len(subjects)>0:                for sub in subjects:                    self.cnt=self.cnt+1                    yield {                        'title':sub["title"],                        'rate':sub["rate"]                    }                if self.cnt启动爬虫：scrapy runspider //spiders//test_spider.py -o test.json 完毕后生成json格式的文件： 
Scrapy与BeautifulSoup or lxml的区别
scrapy是编写爬虫和抓取数据的一整套框架，而BeautifulSoup or lxml只是解析html/xml的库，功能就像scrapy的xpath和css选择器，所以它们也可以在scrapy下使用，只是运行效率相对较低。 在使用scrapy的选择器时，我们可以借助浏览器的F12模式，直接Copy任意节点的xpath和css值。

登录后复制

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2282758.html

Python

0 0

关于作者

PHP中文网签约作者

541.4K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

python获取字母在字母表对应位置的几种方法及性能对比较

上一篇 2025年2月27日 19:40:28

PyCharm创建virtualenv方法

下一篇 2025年2月27日 19:40:59

互联网

Windows服务器磁盘管理与数据存储优化

windows服务器磁盘管理优化关键在于：1. 理解卷、分区和磁盘三者关系，选择合适的文件系统；2. 优化磁盘i/o，根据需求选择raid级别（raid 0速度快无冗余，raid 1冗余高速度慢，raid 5/6为折中）；3. 合理利用ss…

PHP中文网
2025年3月31日
1000
互联网

Win11 怎么关闭云剪贴板功能避免隐私风险

win11云剪贴板应关闭，以保护数据安全。1. 关闭方法：设置 – 系统 – 剪贴板 – 关闭“云剪贴板”选项。2. 关闭原因：云剪贴板可能上传包含敏感信息的剪贴板内容到云端，存在安全风险。3. 关闭影响…

PHP中文网
2025年3月31日
1000
互联网

Win7 怎么设置远程桌面连接连接状态显示

Win7 远程桌面连接状态显示：深度解析与实用技巧很多朋友在使用Win7远程桌面连接时，都希望能够实时查看连接状态，避免因为连接中断而导致工作中断。这篇文章就来深入探讨Win7下如何设置并优化远程桌面连接状态显示，以及一些潜在问题和解决方…

PHP中文网
2025年3月31日
1000
互联网

Win11 怎么关闭诊断跟踪防止隐私数据收集

win11诊断跟踪关闭方法：1. 打开“设置”>“隐私与安全性”>“诊断与反馈”，将“诊断数据”级别设置为“基本”；2. 关闭位置服务；3. 禁用语音识别；4. 关闭个性化体验。这些步骤能有效减少win11的数据收集，但需注意…

PHP中文网
2025年3月31日
1000
互联网

电脑禁止游戏手柄访问的操作方法，Win11 禁用游戏手柄设备指南

win11禁用游戏手柄的方法有：1. 在设备管理器中右键点击游戏手柄，选择“禁用设备”，此方法简单快捷但临时有效；2. 在设备管理器中卸载设备并删除驱动程序，比禁用更彻底但重启后可能自动重装；3. 修改注册表删除或修改对应设备id的注册表项…

PHP中文网
2025年3月31日
1000
互联网

Win11 怎么关闭联系人同步防止隐私泄露

win11联系人同步关闭方法：1. 进入“设置”>“账户”>“电子邮件和账户”>“管理我的其他微软账户”，找到你的微软账户；2. 仔细检查并关闭相关的同步选项；3. 检查所有应用权限，禁用不必要的联系人访问权限；4. 检查…

PHP中文网
2025年3月31日
1000
编程技术

Python项目中是否需要进行分层架构？

Python项目：是该分层还是该精简？许多Python初学者在学习过程中，特别是接触Django框架时，会发现视图函数(views)中常常包含大量业务逻辑，这与Java中Controller直接处理业务逻辑类似。那么，Python项目究竟…

PHP中文网
2025年3月31日
1000
编程技术

在Python项目中是否应该采用分层结构？

Python项目架构：分层结构的利弊在学习Python的过程中，许多开发者会发现一些Django项目在视图函数中包含大量业务逻辑，类似于Java中的控制器承担过多业务处理。这引发了一个关键问题：Python项目中是否应该采用分层结构？这…

PHP中文网
2025年3月31日
1000
编程技术

Python项目中是否需要进行分层设计？

Python项目：分层设计利弊权衡许多Python初学者，特别是接触过Django等框架后，常常会看到在视图函数(views)中存在大量业务逻辑代码，这与Java的MVC模式有所不同，引发了关于Python项目中是否需要分层设计的疑问。 …

PHP中文网
2025年3月31日
1000
编程技术

Python项目是否需要进行分层？

Python项目：分层设计利弊权衡学习Python时，接触到许多开源项目，特别是基于Django框架的项目，常常会发现视图函数(views)中包含大量业务逻辑，类似于Java中的控制器。那么，Python项目是否需要分层呢？这与MVC架…

PHP中文网
2025年3月31日
1000