玩转python爬虫之cookie使用方法

PHP中文网 • 2025年3月5日 23:04:58 • 编程技术 • 阅读 2

之前一篇文章我们学习了爬虫的异常处理问题，那么接下来我们一起来看一下cookie的使用。

为什么要使用Cookie呢？

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）

比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

在此之前呢，我们必须先介绍一个opener的概念。

立即学习“Python免费学习笔记（深入）”；

1.Opener

当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout。

如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。

2.Cookielib

cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

1）获取Cookie保存到变量
首先，我们先利用CookieJar对象实现获取cookie的功能，存储到变量中，先来感受一下

import urllib2import cookielib#声明一个CookieJar对象实例来保存cookiecookie = cookielib.CookieJar()#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器handler=urllib2.HTTPCookieProcessor(cookie)#通过handler来构建openeropener = urllib2.build_opener(handler)#此处的open方法同urllib2的urlopen方法，也可以传入requestresponse = opener.open('http://www.baidu.com')for item in cookie:  print 'Name = '+item.name  print 'Value = '+item.value

登录后复制

我们使用以上方法将cookie保存到变量中，然后打印出了cookie中的值，运行结果如下

Name = BAIDUIDValue = B07B663B645729F11F659C02AAE65B4C:FG=1Name = BAIDUPSIDValue = B07B663B645729F11F659C02AAE65B4CName = H_PS_PSSIDValue = 12527_11076_1438_10633Name = BDSVRTMValue = 0Name = BD_HOMEValue = 0

登录后复制

2）保存Cookie到文件
在上面的方法中，我们将cookie保存到了cookie这个变量中，如果我们想将cookie保存到文件中该怎么做呢？这时，我们就要用到

FileCookieJar这个对象了，在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存

import cookielibimport urllib2 #设置保存cookie的文件，同级目录下的cookie.txtfilename = 'cookie.txt'#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件cookie = cookielib.MozillaCookieJar(filename)#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器handler = urllib2.HTTPCookieProcessor(cookie)#通过handler来构建openeropener = urllib2.build_opener(handler)#创建一个请求，原理同urllib2的urlopenresponse = opener.open("http://www.baidu.com")#保存cookie到文件cookie.save(ignore_discard=True, ignore_expires=True)

登录后复制

关于最后save方法的两个参数在此说明一下：

官方解释如下：

ignore_discard: save even cookies set to be discarded.
ignore_expires: save even cookies that have expiredThe file is overwritten if it already exists
由此可见，ignore_discard的意思是即使cookies将被丢弃也将它保存下来，ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，在这里，我们将这两个全部设置为True。运行之后，cookies将被保存到cookie.txt文件中，我们查看一下内容，附图如下

3）从文件中获取Cookie并访问
那么我们已经做到把Cookie保存到文件中了，如果以后想使用，可以利用下面的方法来读取cookie并访问网站，感受一下

import cookielibimport urllib2 #创建MozillaCookieJar实例对象cookie = cookielib.MozillaCookieJar()#从文件中读取cookie内容到变量cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)#创建请求的requestreq = urllib2.Request("http://www.baidu.com")#利用urllib2的build_opener方法创建一个openeropener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))response = opener.open(req)print response.read()

登录后复制

设想，如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie，那么我们提取出这个cookie文件内容，就可以用以上方法模拟这个人的账号登录百度。

4）利用cookie模拟网站登录
下面我们以我们学校的教育系统为例，利用cookie实现模拟登录，并将cookie信息保存到文本文件中，来感受一下cookie大法吧！

注意：密码我改了啊，别偷偷登录本宫的选课系统 o(╯□╰)o

import urllibimport urllib2import cookielib filename = 'cookie.txt'#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件cookie = cookielib.MozillaCookieJar(filename)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))postdata = urllib.urlencode({      'stuid':'201200131012',      'pwd':'23342321'    })#登录教务系统的URLloginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'#模拟登录，并把cookie保存到变量result = opener.open(loginUrl,postdata)#保存cookie到cookie.txt中cookie.save(ignore_discard=True, ignore_expires=True)#利用cookie请求访问另一个网址，此网址是成绩查询网址gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'#请求访问成绩查询网址result = opener.open(gradeUrl)print result.read()

登录后复制

以上程序的原理如下

创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。

如登录之后才能查看的成绩查询呀，本学期课表呀等等网址，模拟登录就这么实现啦，是不是很酷炫？

好，小伙伴们要加油哦！我们现在可以顺利获取网站信息了，接下来就是把网站里面有效内容提取出来，下一篇文章我们去会会正则表达式！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2535736.html

0 0

关于作者

PHP中文网签约作者

366.0K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

使用Python的PIL模块来进行图片对比

上一篇 2025年3月5日 23:04:37

玩转python爬虫之URLError异常处理

下一篇 2025年3月5日 23:05:07

玩转python爬虫之URLError异常处理

本节在这里主要说的是urlerror还有httperror，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try…

PHP中文网
编程技术 2025年3月5日
0000
使用Python的PIL模块来进行图片对比

在使用google或者baidu搜图的时候会发现有一个图片颜色选项，感觉非常有意思，有人可能会想这肯定是人为的去划分的，呵呵，有这种可能，但是估计人会累死，开个玩笑，当然是通过机器识别的，海量的图片只有机器识别才能做到。那用python…

PHP中文网
编程技术 2025年3月5日
2000
python编码最佳实践之总结

相信用python的同学不少，本人也一直对python情有独钟，毫无疑问python作为一门解释性动态语言没有那些编译型语言高效，但是python简洁、易读以及可扩展性等特性使得它大受青睐。工作中很多同事都在用python，但往往很少有…

PHP中文网
编程技术 2025年3月5日
2000
Python在Console下显示文本进度条的方法

进度条实现原理进度条和一般的print区别在哪里呢？答案就是print会输出一个＼n，也就是换行符，这样光标移动到了下一行行首，接着输出，之前已经通过stdout输出的东西依旧保留，而且保证我们在下面看到最新的输出结果。进度条不然，我们必…

PHP中文网
编程技术 2025年3月5日
2000
编程技术

Python的GUI框架PySide的安装配置教程

（一）说在前面 Python自带了GUI模块Tkinter，只是界面风格有些老旧。另外就是各种GUI框架了。之前安装过WxPython，并做了简单的界面。遂最近又重新搜索了一下网上关于Python GUI框架的问题，发现还…

PHP中文网
2025年3月5日
2000
学习python之编写简单乘法口诀表实现代码

实现代码一、 #!/usr/bin/pythonx,y=9,9 lst=[(x,y,str(y)+’X’+str(x)+’=’+str(x*y)) for x in range(1,y+1) for y in range(1,x+1)]fo…

PHP中文网
编程技术 2025年3月5日
2000
轻松实现python搭建微信公众平台

本文主要是一步一步教大家如何利用python搭建微信公众平台，有兴趣的朋友可以参考一下使用的工具，python 新浪SAE平台，微信的公众平台你需要先在微信的公众平台与新浪SAE平台上各种注册，微信平台注册的时候需要你拍张手持身份证的照…

PHP中文网
2025年3月5日 • 编程技术
2000
编程技术

十条建议帮你提高Python编程效率

程序员的时间很宝贵，python这门语言虽然足够简单、优雅，但并不是说你使用python编程，效率就一定会高。要想节省时间、提高效率，还是需要注意很多地方的。今天就与大家分享资深Python程序员总结的10点建议，帮助大家大幅节省开发时间…

PHP中文网
2025年3月5日
2000
Python批量创建迅雷任务及创建多个文件

其实不是真的创建了批量任务，而是用python创建一个文本文件，每行一个要下载的链接，然后打开迅雷，复制文本文件的内容，迅雷监测到剪切板变化，弹出下载全部链接的对话框~~ 实际情况是这样的，因为用python分析网页非常，比如下载某页中的全…

PHP中文网
编程技术 2025年3月5日
2000
编程技术

bpython 功能强大的Python shell

python是一个非常实用、流行的解释型编程语言，其优势之一就是可以借助其交互的shell进行探索式地编程。你可以试着输入一些代码，然后马上获得解释器的反馈，而不必专门写一个脚本。但是python自带的shell也有一些局限性，例如无法自动…

PHP中文网
2025年3月5日
2000

发表回复

登录后才能评论

玩转python爬虫之cookie使用方法

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐