广告国内BGP机房32G内存299元网站收录排名问题解决【超牛】搜外友链平台站长在线扒站工具【免费】【免费】站长开发工具箱【推荐】站长自动外链工具广告位联系QQ：253000106 独立服务器100M/不限/免备 2核2G服务器新用户低至68元/年虚拟资源平台,轻松变现 10000来路IP只需8元站群系统程序-专注SEO站群黑帽SEO论坛_黑帽聚集地企业HTTP代理IP服务提供商软文推广，在线获客【定制】站群服务器99元起 SEO免费工具分享外推代发包收录【国内国际】短信推广，免费测试实力产品收量外链代发 5分一条快速排名 █一解决“收录、排名”问题一█ ●●●优质搜狗泛收录域名●●● AI数字人直播系统源码百度SEO排名7-15天上首页

基于scrapy实现的简单蜘蛛采集程序

PHP中文网 • 2025年2月28日 02:55:01 • 编程技术 • 阅读 2

本文实例讲述了基于scrapy实现的简单蜘蛛采集程序。分享给大家供大家参考。具体如下：

# Standard Python library imports# 3rd party importsfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector import HtmlXPathSelector# My importsfrom poetry_analysis.items import PoetryAnalysisItemHTML_FILE_NAME = r'.+.html'class PoetryParser(object):  """  Provides common parsing method for poems formatted this one specific way.  """  date_pattern = r'(d{2} w{3,9} d{4})'   def parse_poem(self, response):    hxs = HtmlXPathSelector(response)    item = PoetryAnalysisItem()    # All poetry text is in pre tags    text = hxs.select('//pre/text()').extract()    item['text'] = ''.join(text)    item['url'] = response.url    # head/title contains title - a poem by author    title_text = hxs.select('//head/title/text()').extract()[0]    item['title'], item['author'] = title_text.split(' - ')    item['author'] = item['author'].replace('a poem by', '')    for key in ['title', 'author']:      item[key] = item[key].strip()    item['date'] = hxs.select("//p[@class='small']/text()").re(date_pattern)    return itemclass PoetrySpider(CrawlSpider, PoetryParser):  name = 'example.com_poetry'  allowed_domains = ['www.example.com']  root_path = 'someuser/poetry/'  start_urls = ['http://www.example.com/someuser/poetry/recent/',         'http://www.example.com/someuser/poetry/less_recent/']  rules = [Rule(SgmlLinkExtractor(allow=[start_urls[0] + HTML_FILE_NAME]),                  callback='parse_poem'),       Rule(SgmlLinkExtractor(allow=[start_urls[1] + HTML_FILE_NAME]),                  callback='parse_poem')]

登录后复制

希望本文所述对大家的Python程序设计有所帮助。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至253000106@qq.com举报，一经查实，本站将立刻删除。

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2295218.html

Scrapy 蜘蛛采集程序

赞 (0)

0 0

关于作者

PHP中文网签约作者

285.7K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

在Python的Django框架中实现Hacker News的一些功能

上一篇 2025年2月28日 02:54:53

php有哪些爬虫框架

下一篇 2025年2月23日 10:33:37

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下： # Standard Python library imports# 3rd party modulesimpor…

PHP中文网
编程技术 2025年2月28日
2000
Python基于scrapy采集数据时使用代理服务器的方法

本文实例讲述了python基于scrapy采集数据时使用代理服务器的方法。分享给大家供大家参考。具体如下： # To authenticate the proxy, #you must set the Proxy-Authorization…

PHP中文网
编程技术 2025年2月28日
2000
Python使用scrapy抓取网站sitemap信息的方法

本文实例讲述了python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下： import refrom scrapy.spider import BaseSpiderfrom scrapy import l…

PHP中文网
编程技术 2025年2月28日
2000
Python使用scrapy采集数据过程中放回下载过大页面的方法

本文实例讲述了python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下：添加以下代码到settings.py，myproject为你的项目名称复制代码代码如下:DOWNLOADER_HTTP…

PHP中文网
编程技术 2025年2月28日
2000
Python实现在线程里运行scrapy的方法

本文实例讲述了python实现在线程里运行scrapy的方法。分享给大家供大家参考。具体如下：如果你希望在一个写好的程序里调用scrapy，就可以通过下面的代码，让scrapy运行在一个线程里。 “””Code to run Scrapy…

PHP中文网
编程技术 2025年2月28日
2000
Python实现从脚本里运行scrapy的方法

本文实例讲述了python实现从脚本里运行scrapy的方法。分享给大家供大家参考。具体如下：复制代码代码如下:#!/usr/bin/pythonimport osos.environ.setdefault(‘SCRAPY_…

PHP中文网
编程技术 2025年2月28日
2000
Python爬虫框架Scrapy安装使用步骤

一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上…

PHP中文网
编程技术 2025年2月27日
2000
编程技术

Python使用Srapy框架爬虫模拟登陆并抓取知乎内容

一、Cookie原理HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制Cookie是http消息头中的一种属性，包括： Cookie名字（Name）Cookie的值（Value） Cookie的过期时间（Expi…

PHP中文网
2025年2月27日
2000
编程技术

Python的爬虫程序编写框架Scrapy入门学习教程

1. Scrapy简介Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API…

PHP中文网
2025年2月27日
2000
win7环境scrapy输出错误日志报错解决方案

win7下调试scrapy代码时，出现代码报错，但是未输出到log日志，而是在cmd中报如下错误： Traceback (most recent call last): File “d:python27liblogging__…

PHP中文网
编程技术 2025年2月27日
2000

发表回复

登录后才能评论