浅谈爬虫及绕过网站反爬取机制

 浅谈爬虫及绕过网站反爬取机制

【相关学习推荐:网站制作视频教程

      爬虫是什么呢,简单而片面的说,爬虫就是由计算机自动与服务器交互获取数据的工具。爬虫的最基本就是get一个网页的源代码数据,如果更深入一些,就会出现和网页进行POST交互,获取服务器接收POST请求后返回的数据。一句话,爬虫用来自动获取源数据,至于更多的数据处理等等是后续的工作,这篇文章主要想谈谈爬虫获取数据的这一部分。爬虫请注意网站的Robot.txt文件,不要让爬虫违法,也不要让爬虫对网站造成伤害。

  反爬及反反爬概念的不恰当举例

  基于很多原因(如服务器资源,保护数据等),很多网站是限制了爬虫效果的。

  考虑一下,由人来充当爬虫的角色,我们怎么获取网页源代码?最常用的当然是右键源代码。

  网站屏蔽了右键,怎么办?

网站屏蔽了右键,怎么办?

  拿出我们做爬虫中最有用的东西 F12(欢迎讨论)

  同时按下F12就可以打开了(滑稽)

2.png

  源代码出来了!!

  在把人当作爬虫的情况下,屏蔽右键就是反爬取策略,F12就是反反爬取的方式。

  讲讲正式的反爬取策略

  事实上,在写爬虫的过程中一定出现过没有返回数据的情况,这种时候也许是服务器限制了UA头(user-agent),这就是一种很基本的反爬取,只要发送请求的时候加上UA头就可以了…是不是很简单?

  其实一股脑把需要不需要的Request Headers都加上也是一个简单粗暴的办法……

  有没有发现网站的验证码也是一个反爬取策略呢?为了让网站的用户能是真人,验证码真是做了很大的贡献。随验证码而来的,验证码识别出现了。

  说到这,不知道是先出现了验证码识别还是图片识别呢?

  简单的验证码现在识别起来是非常简单的,网上有太多教程,包括稍微进阶一下的去噪,二值,分割,重组等概念。可是现在网站人机识别已经越发的恐怖了起来,比如这种:

6.jpg

  简单讲述一下去噪二值的概念

  将一个验证码

3.png

变成

5.png

就是二值,也就是将图片本身变成只有两个色调,例子很简单,通过python PIL库里的

  Image.convert(“1”)

  就能实现,但如果图片变得更为复杂,还是要多思考一下,比如

浅谈爬虫及绕过网站反爬取机制

如果直接用简单方式的话 就会变成

浅谈爬虫及绕过网站反爬取机制

思考一些这种验证码应该怎么识别?这种时候 去噪 就派上了用处,根据验证码本身的特征,可以计算验证码的底色和字体之外的RGB值等,将这些值变成一个颜色,将字体留出。示例代码如下,换色即可

  for x in range(0,image.size[0]):  for y in range(0,image.size[1]):  # print arr2[x][y]  if arr[x][y].tolist()==底色:  arr[x][y]=0  elif arr[x][y].tolist()[0] in range(200,256) and arr[x][y].tolist()[1] in range(200,256) and arr[x][y].tolist()[2] in range(200,256):  arr[x][y]=0  elif arr[x][y].tolist()==[0,0,0]:  arr[x][y]=0  else:  arr[x][y]=255

登录后复制

  arr是由numpy得到的,根据图片RGB值得出的矩阵,读者可以自己尝试完善代码,亲自实验一下。

  细致的处理之后图片可以变成

浅谈爬虫及绕过网站反爬取机制

识别率还是很高的。

  在验证码的发展中,还算清晰的数字字母,简单的加减乘除,网上有轮子可以用,有些难的数字字母汉字,也可以自己造轮子(比如上面),但更多的东西,已经足够写一个人工智能了……(有一种工作就是识别验证码…)

  再加一个小提示:有的网站PC端有验证码,而手机端没有…

  下一个话题!

  反爬取策略中比较常见的还有一种封IP的策略,通常是短时间内过多的访问就会被封禁,这个很简单,限制访问频率或添加IP代理池就OK了,当然,分布式也可以…

  IP代理池->左转Google右转baidu,有很多代理网站,虽然免费中能用的不多 但毕竟可以。

  还有一种也可以算作反爬虫策略的就是异步数据,随着对爬虫的逐渐深入(明明是网站的更新换代!),异步加载是一定会遇见的问题,解决方式依然是F12。以不愿透露姓名的网易云音乐网站为例,右键打开源代码后,尝试搜索一下评论

8.png

  数据呢?!这就是JS和Ajax兴起之后异步加载的特点。但是打开F12,切换到NetWork选项卡,刷新一下页面,仔细寻找,没有秘密。

7.png

  哦,对了 如果你在听歌的话,点进去还能下载呢…

4.png

  仅为对网站结构的科普,请自觉抵制盗版,保护版权,保护原创者利益。

  如果说这个网站限制的你死死的,怎么办?我们还有最后一计,一个强无敌的组合:selenium + PhantomJs

  这一对组合非常强力,可以完美模拟浏览器行为,具体的用法自行百度,并不推荐这种办法,很笨重,此处仅作为科普。

以上就是浅谈爬虫及绕过网站反爬取机制的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2955597.html

(0)
上一篇 2025年3月12日 00:19:42
下一篇 2025年2月25日 03:38:08

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • NodeJS爬虫详解

    一、爬虫流程 我们最终的目标是实现爬取立马理财每日的销售额,并知道卖了哪些产品,每个产品又被哪些用户在什么时间点买的。首先,介绍下爬虫爬取的主要步骤: 1. 结构分析 我们要爬取页面的数据,第一步当然是要先分析清楚页面结构,要爬哪些页面,页…

    2025年3月8日
    200
  • 怎样实现百度指数爬虫功能

    这次给大家带来怎样实现百度指数爬虫功能,实现百度指数爬虫功能的注意事项有哪些,下面就是实战案例,一起来看一下。 之前看过一篇脑洞大开的文章,介绍了各个大厂的前端反爬虫技巧,但也正如此文所说,没有100%的反爬虫方法,本文介绍一种简单的方法,…

    编程技术 2025年3月8日
    200
  • 如何用node实现爬虫功能

    这次给大家带来如何用node实现爬虫功能,用node实现爬虫功能的注意事项有哪些,下面就是实战案例,一起来看一下。 node是服务器端的语言,所以可以像python一样对网站进行爬取,下面就使用node对博客园进行爬取,得到其中所有的章节信…

    2025年3月8日
    200
  • 怎样操作node实现爬虫效果

    这次给大家带来怎样操作node实现爬虫效果,操作node实现爬虫效果的注意事项有哪些,下面就是实战案例,一起来看一下。 node是服务器端的语言,所以可以像python一样对网站进行爬取,下面就使用node对博客园进行爬取,得到其中所有的章…

    2025年3月8日
    200
  • 爬虫分析之 JS逆向某验滑动加密(1)

    相关学习推荐:javascript视频教程 今天给大家来分析并还原某验的 JS 加密,做过爬虫的应该都知道这个验证码,如果你还没遇到以后你会碰到的相信我 话不多说,时间宝贵,进入正题! 抓包 进入官网,点击选择今天的主题滑动验证,其他验证类…

    2025年3月7日 编程技术
    200
  • 爬虫之 JS逆向某验滑动加密(2)

    相关学习推荐:javascript视频教程 上篇文章给大家分析还原了某验滑动的混淆代码,然后后台很多人在问后面的加密以及整个流程是啥,所以今天索性就把整个加密都弄出来吧 话不多说,时间宝贵,开干! 回到之前 w 的加密处 可以看到该函数接收…

    2025年3月7日 编程技术
    200
  • 使用nodejs实现一个简单的网页爬虫功能(附代码)

    本篇文章通过实例给大家介绍一下nodejs实现简单网页爬虫功能的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。 相关推荐:《nodejs》 网页源码 使用http.get()方法获取网页源码,以hao123网站的头条…

    2025年3月7日 编程技术
    200
  • nodejs怎么写爬虫

    nodejs写爬虫的方法步骤:1、安装Node.js;2、创建一个文件命名为`crawler.js`;3、定义要爬取的网页URL;4、使用`axios.get()`方法发送HTTP GET请求来获取页面内容;获取内容后使用`cheerio.…

    2025年3月7日
    200
  • 自动生成爬虫示例:PHP和Selenium入门实践

    最近,随着互联网爬虫技术的发展,越来越多的企业与个人开始使用爬虫来获取网站信息,帮助分析业务数据、竞品分析等。而在实际的爬虫开发中,常常需要快速生成一个简单的爬虫代码,以便快速实现数据采集。本文将介绍使用php和selenium实现爬虫的入…

    编程技术 2025年3月6日
    200
  • 使用Gin框架实现爬虫和数据抓取功能

    随着互联网越来越普及,数据的获取和分析变得越来越重要。在这样的背景下,爬虫技术和数据抓取功能成为了很多应用的重要组成部分。针对这样的需求,使用gin框架实现爬虫和数据抓取功能是一种非常不错的选择。 Gin框架简介 Gin是一个轻量级的HTT…

    编程技术 2025年3月6日
    200

发表回复

登录后才能评论