分别用python2和python3伪装浏览器爬取网页内容

python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容。但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容。

今天我来分享下载python2和python3中都是如何来模拟浏览器来跳过屏蔽进行抓取的。

最基础的抓取:

#! /usr/bin/env python# -*- coding=utf-8 -*-# @Author pythontabimport urllib.requesturl = "http://www.pythontab.com"html = urllib.request.urlopen(url).read()print(html)

登录后复制

但是…有些网站不能抓取,进行了防采集设置,所以我们要变换一下方法

python2中(最新稳定版本python2.7)

#! /usr/bin/env python# -*- coding=utf-8 -*-# @Author pythontab.comimport urllib2url="http://pythontab.com"req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',             'Accept':'text/html;q=0.9,*/*;q=0.8',             'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',             'Accept-Encoding':'gzip',             'Connection':'close',             'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host             }req_timeout = 5req = urllib2.Request(url,None,req_header)resp = urllib2.urlopen(req,None,req_timeout)html = resp.read()print(html)

登录后复制

python3中(最新稳定版本python3.3)

#! /usr/bin/env python# -*- coding=utf-8 -*-# @Author pythontabimport urllib.request  url = "http://www.pythontab.com"headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',             'Accept':'text/html;q=0.9,*/*;q=0.8',             'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',             'Accept-Encoding':'gzip',             'Connection':'close',             'Referer':None #注意如果依然不能抓取,这里可以设置抓取网站的host             }  opener = urllib.request.build_opener()opener.addheaders = [headers]data = opener.open(url).read()print(data)

登录后复制

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2284197.html

(0)
上一篇 2025年2月27日 20:37:35
下一篇 2025年2月26日 15:10:55

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • Python2安装说明

    1、python版本   Python 2.x的版本的,被称为Python2:是目前用的最广泛的,比如Python 2.7.12。   Python 3.x的版本的,被称为Python3:是最新的版本的,比如Python 3.5.2。长远来…

    2025年2月27日 编程技术
    200
  • 详解python3使用PyMysql连接mysql数据库步骤

    python语言的3.x完全不向前兼容,导致我们在python2.x中可以正常使用的库,到了python3就用不了了.比如说mysqldb 目前MySQLdb并不支持python3.x , Python3.x连接MySQL的方案有:ours…

    编程技术 2025年2月27日
    200
  • 详解python3文件操作步骤

    步骤:打开文件-》操作文件-》关闭文件  打开文件 文件句柄 = open(‘文件路径’, ‘模式’) 登录后复制 指定文件编码 文件句柄= open(‘文件路径’,’模式’,encoding=’utf-8′) 登录后复制  为了防止忘记关…

    编程技术 2025年2月27日
    200
  • 详解python3中int整型的使用方法

    这篇文章主要介绍了关于python3中int(整型)的使用教程,文中介绍的非常详细,相信对大家学习或者使用python3能具有一定的参考价值,需要的朋友们下面来一起看看吧。 Python3支持三种不同的数值类型: 整型(int)&#8211…

    编程技术 2025年2月27日
    200
  • 详解python3中str字符串的使用方法

    这篇文章主要介绍了python3中str(字符串)的使用教程,文中介绍的非常详细,对python3中各种str字符串的操作都包含这篇文章中了,需要的朋友可以参考学习,下面来一起看看吧。 本文主要介绍的是python3中对str(字符串)的使…

    编程技术 2025年2月27日
    200
  • python3中对文件操作的详解

    步骤:打开文件-》操作文件-》关闭文件  打开文件 文件句柄 = open(‘文件路径’, ‘模式’) 登录后复制 指定文件编码 文件句柄= open(‘文件路径’,’模式’,encoding=’utf-8′) 登录后复制  为了防止忘记关…

    编程技术 2025年2月27日
    200
  • python3交互时隐藏输入密码的方法

    这篇文章主要为大家深度剖析了python3交互时隐藏输入密码的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 # Auther: Aaron Fan#这个脚本请在命令行去执行才可以试出效果,pycharm这里无法测试这个脚本,切记!…

    编程技术 2025年2月27日
    200
  • python爬取技术中的ip自动代理实例

    最近为了考试打算抓取网上的软考试题,在抓取中遇到一些问题,下面这篇文章主要介绍的是利用python爬取软考试题之ip自动代理的相关资料,文中介绍的非常详细,需要的朋友们下面来一起看看吧。 前言 最近有个软件专业等级考试,以下简称软考,为了更…

    2025年2月27日 编程技术
    200
  • 教你如何在Windows环境下安装python2和python3两个版本

    这篇文章主要介绍下windows(我用的win10)环境下的python2.x 和 python3.x 的安装,以及python2.x 与 python3.x 共存时的配置问题。 现在大家常用的桌面操作系统有:Windows、Mac OS、…

    2025年2月27日 编程技术
    200
  • python3中关于set语法的详细讲解

    这篇文章主要总结了关于python3中set(集合)的语法的相关资料,文中给出了详细的示例代码,对大家具有一定的参考价值,需要的朋友们下面来一起看看吧。 介绍 set 顾明思义,就是个集合,集合的元素是唯一的,无序的。一个{ }里面放一些元…

    编程技术 2025年2月27日
    200

发表回复

登录后才能评论