浅谈爬虫及绕过网站反爬取机制

PHP中文网 • 2025年3月12日 00:19:45 • 编程技术 • 阅读 2

【相关学习推荐：网站制作视频教程】

爬虫是什么呢，简单而片面的说，爬虫就是由计算机自动与服务器交互获取数据的工具。爬虫的最基本就是get一个网页的源代码数据，如果更深入一些，就会出现和网页进行POST交互，获取服务器接收POST请求后返回的数据。一句话，爬虫用来自动获取源数据，至于更多的数据处理等等是后续的工作，这篇文章主要想谈谈爬虫获取数据的这一部分。爬虫请注意网站的Robot.txt文件，不要让爬虫违法，也不要让爬虫对网站造成伤害。

　　反爬及反反爬概念的不恰当举例

　　基于很多原因(如服务器资源，保护数据等)，很多网站是限制了爬虫效果的。

　　考虑一下，由人来充当爬虫的角色，我们怎么获取网页源代码?最常用的当然是右键源代码。

　　网站屏蔽了右键，怎么办?

　　拿出我们做爬虫中最有用的东西 F12(欢迎讨论)

　　同时按下F12就可以打开了(滑稽)

　　源代码出来了!!

　　在把人当作爬虫的情况下，屏蔽右键就是反爬取策略，F12就是反反爬取的方式。

　　讲讲正式的反爬取策略

　　事实上，在写爬虫的过程中一定出现过没有返回数据的情况，这种时候也许是服务器限制了UA头(user-agent)，这就是一种很基本的反爬取，只要发送请求的时候加上UA头就可以了…是不是很简单?

　　其实一股脑把需要不需要的Request Headers都加上也是一个简单粗暴的办法……

　　有没有发现网站的验证码也是一个反爬取策略呢?为了让网站的用户能是真人，验证码真是做了很大的贡献。随验证码而来的，验证码识别出现了。

　　说到这，不知道是先出现了验证码识别还是图片识别呢?

　　简单的验证码现在识别起来是非常简单的，网上有太多教程，包括稍微进阶一下的去噪，二值，分割，重组等概念。可是现在网站人机识别已经越发的恐怖了起来，比如这种：

　　简单讲述一下去噪二值的概念

　　将一个验证码

变成

就是二值，也就是将图片本身变成只有两个色调，例子很简单，通过python PIL库里的

　　Image.convert(“1”)

　　就能实现，但如果图片变得更为复杂，还是要多思考一下，比如

如果直接用简单方式的话就会变成

思考一些这种验证码应该怎么识别?这种时候去噪就派上了用处，根据验证码本身的特征，可以计算验证码的底色和字体之外的RGB值等，将这些值变成一个颜色，将字体留出。示例代码如下，换色即可

　　for x in range(0,image.size[0]):　　for y in range(0,image.size[1]):　　# print arr2[x][y]　　if arr[x][y].tolist()==底色:　　arr[x][y]=0　　elif arr[x][y].tolist()[0] in range(200,256) and arr[x][y].tolist()[1] in range(200,256) and arr[x][y].tolist()[2] in range(200,256):　　arr[x][y]=0　　elif arr[x][y].tolist()==[0,0,0]:　　arr[x][y]=0　　else:　　arr[x][y]=255

登录后复制

　　arr是由numpy得到的,根据图片RGB值得出的矩阵,读者可以自己尝试完善代码，亲自实验一下。

　　细致的处理之后图片可以变成

识别率还是很高的。

　　在验证码的发展中，还算清晰的数字字母，简单的加减乘除，网上有轮子可以用，有些难的数字字母汉字，也可以自己造轮子(比如上面)，但更多的东西，已经足够写一个人工智能了……(有一种工作就是识别验证码…)

　　再加一个小提示：有的网站PC端有验证码，而手机端没有…

　　下一个话题!

　　反爬取策略中比较常见的还有一种封IP的策略，通常是短时间内过多的访问就会被封禁，这个很简单，限制访问频率或添加IP代理池就OK了,当然，分布式也可以…

　　IP代理池->左转Google右转baidu，有很多代理网站，虽然免费中能用的不多但毕竟可以。

　　还有一种也可以算作反爬虫策略的就是异步数据，随着对爬虫的逐渐深入(明明是网站的更新换代!)，异步加载是一定会遇见的问题，解决方式依然是F12。以不愿透露姓名的网易云音乐网站为例，右键打开源代码后，尝试搜索一下评论

　　数据呢?!这就是JS和Ajax兴起之后异步加载的特点。但是打开F12，切换到NetWork选项卡，刷新一下页面，仔细寻找，没有秘密。

　　哦，对了如果你在听歌的话，点进去还能下载呢…

　　仅为对网站结构的科普，请自觉抵制盗版，保护版权，保护原创者利益。

　　如果说这个网站限制的你死死的，怎么办?我们还有最后一计，一个强无敌的组合：selenium + PhantomJs

　　这一对组合非常强力，可以完美模拟浏览器行为，具体的用法自行百度，并不推荐这种办法，很笨重，此处仅作为科普。

以上就是浅谈爬虫及绕过网站反爬取机制的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2955597.html

反爬取机制爬虫

0 0

关于作者

PHP中文网签约作者

489.5K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

ps pr ai au都是干嘛的？

上一篇 2025年3月12日 00:19:42

php开发通常用什么环境

下一篇 2025年2月25日 03:38:08

编程技术

NodeJS爬虫详解

一、爬虫流程我们最终的目标是实现爬取立马理财每日的销售额，并知道卖了哪些产品，每个产品又被哪些用户在什么时间点买的。首先，介绍下爬虫爬取的主要步骤： 1. 结构分析我们要爬取页面的数据，第一步当然是要先分析清楚页面结构，要爬哪些页面，页…

PHP中文网
2025年3月8日
2000
怎样实现百度指数爬虫功能

这次给大家带来怎样实现百度指数爬虫功能，实现百度指数爬虫功能的注意事项有哪些，下面就是实战案例，一起来看一下。之前看过一篇脑洞大开的文章，介绍了各个大厂的前端反爬虫技巧，但也正如此文所说，没有100%的反爬虫方法，本文介绍一种简单的方法，…

PHP中文网
编程技术 2025年3月8日
2000
编程技术

如何用node实现爬虫功能

这次给大家带来如何用node实现爬虫功能，用node实现爬虫功能的注意事项有哪些，下面就是实战案例，一起来看一下。 node是服务器端的语言，所以可以像python一样对网站进行爬取，下面就使用node对博客园进行爬取，得到其中所有的章节信…

PHP中文网
2025年3月8日
2000
编程技术

怎样操作node实现爬虫效果

这次给大家带来怎样操作node实现爬虫效果，操作node实现爬虫效果的注意事项有哪些，下面就是实战案例，一起来看一下。 node是服务器端的语言，所以可以像python一样对网站进行爬取，下面就使用node对博客园进行爬取，得到其中所有的章…

PHP中文网
2025年3月8日
2000
爬虫分析之 JS逆向某验滑动加密（1）

相关学习推荐：javascript视频教程今天给大家来分析并还原某验的 JS 加密，做过爬虫的应该都知道这个验证码，如果你还没遇到以后你会碰到的相信我话不多说，时间宝贵，进入正题! 抓包进入官网，点击选择今天的主题滑动验证，其他验证类…

PHP中文网
2025年3月7日 • 编程技术
2000
爬虫之 JS逆向某验滑动加密（2）

相关学习推荐：javascript视频教程上篇文章给大家分析还原了某验滑动的混淆代码，然后后台很多人在问后面的加密以及整个流程是啥，所以今天索性就把整个加密都弄出来吧话不多说，时间宝贵，开干! 回到之前 w 的加密处可以看到该函数接收…

PHP中文网
2025年3月7日 • 编程技术
2000
使用nodejs实现一个简单的网页爬虫功能（附代码）

本篇文章通过实例给大家介绍一下nodejs实现简单网页爬虫功能的方法。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。相关推荐：《nodejs》网页源码使用http.get()方法获取网页源码，以hao123网站的头条…

PHP中文网
2025年3月7日 • 编程技术
2000
编程技术

nodejs怎么写爬虫

nodejs写爬虫的方法步骤：1、安装Node.js；2、创建一个文件命名为`crawler.js`；3、定义要爬取的网页URL；4、使用`axios.get()`方法发送HTTP GET请求来获取页面内容；获取内容后使用`cheerio.…

PHP中文网
2025年3月7日
2000
自动生成爬虫示例：PHP和Selenium入门实践

最近，随着互联网爬虫技术的发展，越来越多的企业与个人开始使用爬虫来获取网站信息，帮助分析业务数据、竞品分析等。而在实际的爬虫开发中，常常需要快速生成一个简单的爬虫代码，以便快速实现数据采集。本文将介绍使用php和selenium实现爬虫的入…

PHP中文网
编程技术 2025年3月6日
2000
使用Gin框架实现爬虫和数据抓取功能

随着互联网越来越普及，数据的获取和分析变得越来越重要。在这样的背景下，爬虫技术和数据抓取功能成为了很多应用的重要组成部分。针对这样的需求，使用gin框架实现爬虫和数据抓取功能是一种非常不错的选择。 Gin框架简介 Gin是一个轻量级的HTT…

PHP中文网
编程技术 2025年3月6日
2000

发表回复

登录后才能评论

浅谈爬虫及绕过网站反爬取机制

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐