Python自定义scrapy中间模块避免重复采集的方法

PHP中文网 • 2025年3月4日 19:01:44 • 编程技术 • 阅读 2

本文实例讲述了python自定义scrapy中间模块避免重复采集的方法。分享给大家供大家参考。具体如下：

from scrapy import logfrom scrapy.http import Requestfrom scrapy.item import BaseItemfrom scrapy.utils.request import request_fingerprintfrom myproject.items import MyItemclass IgnoreVisitedItems(object):  """Middleware to ignore re-visiting item pages if they  were already visited before.   The requests to be filtered by have a meta['filter_visited']  flag enabled and optionally define an id to use   for identifying them, which defaults the request fingerprint,  although you'd want to use the item id,  if you already have it beforehand to make it more robust.  """  FILTER_VISITED = 'filter_visited'  VISITED_ID = 'visited_id'  CONTEXT_KEY = 'visited_ids'  def process_spider_output(self, response, result, spider):    context = getattr(spider, 'context', {})    visited_ids = context.setdefault(self.CONTEXT_KEY, {})    ret = []    for x in result:      visited = False      if isinstance(x, Request):        if self.FILTER_VISITED in x.meta:          visit_id = self._visited_id(x)          if visit_id in visited_ids:            log.msg("Ignoring already visited: %s" % x.url,                level=log.INFO, spider=spider)            visited = True      elif isinstance(x, BaseItem):        visit_id = self._visited_id(response.request)        if visit_id:          visited_ids[visit_id] = True          x['visit_id'] = visit_id          x['visit_status'] = 'new'      if visited:        ret.append(MyItem(visit_id=visit_id, visit_status='old'))      else:        ret.append(x)    return ret  def _visited_id(self, request):    return request.meta.get(self.VISITED_ID) or request_fingerprint(request)

登录后复制

希望本文所述对大家的Python程序设计有所帮助。

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2476353.html

Python scrapy模块自定义重复

0 0

关于作者

PHP中文网签约作者

348.5K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

Python3中常用的处理时间和实现定时任务的方法的介绍

上一篇 2025年3月4日 19:01:35

Python的Flask框架中Flask-Admin库的简单入门指引

下一篇 2025年3月4日 19:01:54

Python3中常用的处理时间和实现定时任务的方法的介绍

无论哪种编程语言，时间肯定都是非常重要的部分，今天来看一下python如何来处理时间和python定时任务，注意咯：本篇所讲是python3版本的实现，在python2版本中的实现略有不同，有时间会再写一篇以便大家区分。1.计算明天和昨天的…

PHP中文网
编程技术 2025年3月4日
2000
用Python的SimPy库简化复杂的编程模型的介绍

在我遇到 simpy 包的其中一位创始人 klaus miller 时，从他那里知道了这个包。miller 博士阅读过几篇提出使用 python 2.2+ 生成器实现半协同例程和“轻便”线程的技术的可爱的 python专栏文章。特别是（使…

PHP中文网
编程技术 2025年3月4日
2000
复习Python中的字符串知识点

字符串在 Python 中创建字符串对象非常容易。只要将所需的文本放入一对引号中，就完成了一个新字符串的创建（参见清单 1）。如果稍加思考的话，您可能会感到有些困惑。毕竟，有两类可以使用的引号：单引号 (‘) 和双引号 (&#…

PHP中文网
编程技术 2025年3月4日
2000
在Python的setuptools框架下生成egg的教程

本文介绍了 setuptools 框架的内容，它是 PEAK 的一个副项目，它提供了比 distutils 更加简单的包管理和发行功能。开始 setuptools 模块很会 “规避”。例如，如果我们下载一个使用 setuptools 而不是…

PHP中文网
编程技术 2025年3月4日
2000
Python进程通信之匿名管道实例讲解

匿名管道管道是一个单向通道,有点类似共享内存缓存.管道有两端,包括输入端和输出端.对于一个进程的而言,它只能看到管道一端,即要么是输入端要么是输出端. os.pipe()返回2个文件描述符(r, w),表示可读的和可写的.示例代码如下: …

PHP中文网
编程技术 2025年3月4日
2000
Python与shell的3种交互方式介绍

概述考虑这样一个问题，有hello.py脚本，输出”hello, world!”；有TestInput.py脚本，等待用户输入，然后打印用户输入的数据。那么，怎么样把hello.py输出内容发送给TestInput.py，最后TestIn…

PHP中文网
编程技术 2025年3月4日
2000
Python中几种操作字符串的方法的介绍

#! -*- coding:utf-8 -*- import string s = ‘Yes! This is a string’ print ‘原字符串：’ + s print ‘小写：’ + s.lower() print ‘大写：’ …

PHP中文网
编程技术 2025年3月4日
2000
举例讲解Python程序与系统shell交互的方式

概述考虑这样一个问题，有hello.py脚本，输出”hello, world!”；有TestInput.py脚本，等待用户输入，然后打印用户输入的数据。那么，怎么样把hello.py输出内容发送给TestInput.py，最后TestIn…

PHP中文网
编程技术 2025年3月4日
2000
初步理解Python进程的信号通讯

信号的概念信号（signal）– 进程之间通讯的方式，是一种软件中断。一个进程一旦接收到信号就会打断原来的程序执行流程来处理信号。几个常用信号: SIGINT 终止进程中断进程 (control+c) …

PHP中文网
编程技术 2025年3月4日
2000
用Python的Django框架编写从Google Adsense中获得报表的应用

我完成了更新我们在 neutron的实时收入统计。在我花了一周的时间完成并且更新了我们的php脚本之后，我最终认决定开始使用python进行抓取，这是值得我去花费我的时间和精力的事情。我建立了一个 django程序，它可以从不同的来源存储…

PHP中文网
编程技术 2025年3月4日
2000

发表回复

登录后才能评论

Python自定义scrapy中间模块避免重复采集的方法

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐