记录一次用Python写爬虫的心得

PHP中文网 • 2025年2月27日 19:42:27 • 编程技术 • 阅读 2

现在网络爬虫有很多方式可以写，比如node.js或者go, 甚至php都行，我之所以选择python的原因是因为教程多，可以系统学习，因为光懂得使用html选择器来爬去页面是不够的，我还要想学习一些爬虫过程中常见的坑，以及一些注意事项，比如修改浏览器的header之类的小技巧。

代码注释都很详细了，其实只要直接阅读源码即可。

这个爬虫的目的很简单，爬去某个房产网站的楼盘名字+价格+1张图片的下载（单纯测试文件下载功能），以备之后分析房价走势而用，为了不给对方服务器增加太多压力，我只选择了爬取3个页面。

我这里说说几个需要注意的知识点吧：

#记得修改发送的Headers
听说默认发送过去的都是带有python信息的头，很容易被对方网站检查出是一个爬虫机器人，导致IP被封，所以最好让自己的爬虫程序像人类一点，但是这个代码只能起到一般的隐瞒，真的有网站想防止爬虫，你也是骗不过的，上代码：

立即学习“Python免费学习笔记（深入）”；

headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit 537.36 (KHTML, like Gecko) Chrome",                "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"},

登录后复制

#html的选择器，我采用pyquery而不是beautifulsoup
很多书都推荐beautifulsoup,但是作为一个习惯了jquery的人来说，beautifulsoup的语法实在是有点拗口，而且貌似还不支持:first-child等高级复杂的css选择器模式，或者支持，但是我没找到，也不是很仔细看文档。

然后我网上找了一下资料，发现很多人推荐pyquery这个库，自己下来用了一下，发现真的很舒服，所以果断采用了。

#爬虫思路
思路其实很简单：
1.找到某个房产的列表页，分析第二第三页的URL结构；
2.获取每一个列表页的所有列表条目信息的URL，存入python的set()集合中，之所以用set，是为了去掉重复的URL信息。
3.通过获取的房子的URL，进入详情页，再爬去有价值的字段信息，比如图片文字之类的。
4.目前我只进行简单的print数据而已，没有把获取的数据存为本地的json或者CSV格式，这个之后做吧，to be done.

下面是全部代码代码：

#获取页面对象from urllib.request import urlopenfrom urllib.request import urlretrievefrom pyquery import PyQuery as pq#修改请求头模块,模拟真人访问import requestsimport time#引入系统对象import os#你自己的配置文件，请将config-sample.py重命名为config.py,然后填写对应的值即可import config#定义链接集合，以免链接重复pages = set()session = requests.Session()baseUrl = 'http://pic1.ajkimg.com'downLoadDir = 'images'#获取所有列表页连接def getAllPages():    pageList = []    i = 1    while(i

登录后复制

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2282800.html