Scrapy Crawlspider中的deny设置无效?如何正确使用正则表达式进行URL过滤?

scrapy crawlspider中的deny设置无效?如何正确使用正则表达式进行url过滤?

scrapy crawlspider中的deny设置无效?

问题:使用rule设置了deny参数,但发现运行时仍然爬取了包含deny关键词的链接。例如,设置了deny=(“guba”、“data”…),但发现爬取了包含“guba”的链接。

解答:deny参数的设置需要遵循正则表达式语法。如果deny参数不是正则表达式,则只有当网址完全匹配deny关键词时才会被拒绝。

在给出的代码中,deny参数中的值(如“guba”、“data”)没有使用正则表达式语法。因此,只有当网址完全包含这些字符串时才会被拒绝。而“guba.eastmoney.com/list,of166401.html”这样的网址虽然包含“guba”,但不是完全匹配,所以不会被deny参数拒绝。

要正确使用deny参数,需要将其修改为正则表达式,例如:

deny=(r'guba', r'data')

登录后复制

以上就是Scrapy Crawlspider中的deny设置无效?如何正确使用正则表达式进行URL过滤?的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2186867.html

(0)
上一篇 2025年2月25日 17:01:45
下一篇 2025年2月19日 07:46:57

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

登录后才能评论