基于Python实现的百度贴吧网络爬虫实例

PHP中文网 • 2025年2月28日 02:55:09 • 编程技术 • 阅读 2

本文实例讲述了基于python实现的百度贴吧网络爬虫。分享给大家供大家参考。具体如下：

完整实例代码点击此处本站下载。

项目内容：

用Python写的百度贴吧的网络爬虫。

使用方法：

立即学习“Python免费学习笔记（深入）”；

新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。

程序功能：

将贴吧中楼主发布的内容打包txt存储到本地。

原理解释：

首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后url发生了一点变化，变成了：
http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1

可以看出来，see_lz=1是只看楼主，pn=1是对应的页码，记住这一点为以后的编写做准备。
这就是我们需要利用的url。
接下来就是查看页面源码。
首先把题目抠出来存储文件的时候会用到。
可以看到百度使用gbk编码，标题使用h1标记：

复制代码代码如下:

【原创】时尚首席（关于时尚，名利，事业，爱情，励志）

同样，正文部分用div和class综合标记，接下来要做的只是用正则表达式来匹配即可。

运行截图：

生成的txt文件：

# -*- coding: utf-8 -*- #--------------------------------------- #  程序：百度贴吧爬虫 #  版本：0.5 #  作者：why #  日期：2013-05-16 #  语言：Python 2.7 #  操作：输入网址后自动只看楼主并保存到本地文件 #  功能：将楼主发布的内容打包txt存储到本地。 #--------------------------------------- import string import urllib2 import re #----------- 处理页面上的各种标签 ----------- class HTML_Tool:   # 用非 贪婪模式 匹配  或者  或者 空格 或者 超链接 或者 图片   BgnCharToNoneRex = re.compile("(|| ||@@##@@)")   # 用非 贪婪模式 匹配 任意标签   EndCharToNoneRex = re.compile("")   # 用非 贪婪模式 匹配 任意标签   BgnPartRex = re.compile("
")   CharToNewLineRex = re.compile("(
|||
|
)")   CharToNextTabRex = re.compile("")   # 将一些html的符号实体转变为原始符号   replaceTab = [("",">"),("&","&"),("&","""),(" "," ")]   def Replace_Char(self,x):     x = self.BgnCharToNoneRex.sub("",x)     x = self.BgnPartRex.sub("  ",x)     x = self.CharToNewLineRex.sub("",x)     x = self.CharToNextTabRex.sub("",x)     x = self.EndCharToNoneRex.sub("",x)     for t in self.replaceTab:        x = x.replace(t[0],t[1])      return x  class Baidu_Spider:   # 申明相关的属性   def __init__(self,url):      self.myUrl = url + '?see_lz=1'     self.datas = []     self.myTool = HTML_Tool()     print u'已经启动百度贴吧爬虫，咔嚓咔嚓'   # 初始化加载页面并将其转码储存   def baidu_tieba(self):     # 读取页面的原始信息并将其从gbk转码     myPage = urllib2.urlopen(self.myUrl).read().decode("gbk")     # 计算楼主发布内容一共有多少页     endPage = self.page_counter(myPage)     # 获取该帖的标题     title = self.find_title(myPage)     print u'文章名称：' + title     # 获取最终的数据     self.save_data(self.myUrl,title,endPage)   #用来计算一共有多少页   def page_counter(self,myPage):     # 匹配 "共有12页" 来获取一共有多少页     myMatch = re.search(r'class="red">(d+?)', myPage, re.S)     if myMatch:        endPage = int(myMatch.group(1))       print u'爬虫报告：发现楼主共有%d页的原创内容' % endPage     else:       endPage = 0       print u'爬虫报告：无法计算楼主发布内容有多少页！'     return endPage   # 用来寻找该帖的标题   def find_title(self,myPage):     # 匹配 xxxxxxxxxx
 找出标题     myMatch = re.search(r'(.*?)', myPage, re.S)     title = u'暂无标题'     if myMatch:       title = myMatch.group(1)     else:       print u'爬虫报告：无法加载文章标题！'     # 文件名不能包含以下字符：  / ： * ? "  |     title = title.replace('','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('(.*?)',myPage,re.S)     for item in myItems:       data = self.myTool.Replace_Char(item.replace("","").encode('gbk'))       self.datas.append(data+'')  #-------- 程序入口处 ------------------ print u"""#--------------------------------------- #  程序：百度贴吧爬虫 #  版本：0.5 #  作者：why #  日期：2013-05-16 #  语言：Python 2.7 #  操作：输入网址后自动只看楼主并保存到本地文件 #  功能：将楼主发布的内容打包txt存储到本地。 #--------------------------------------- """ # 以某小说贴吧为例子 # bdurl = 'http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1' print u'请输入贴吧的地址最后的数字串：' bdurl = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/'))  #调用 mySpider = Baidu_Spider(bdurl) mySpider.baidu_tieba()希望本文所述对大家的Python程序设计有所帮助。

登录后复制

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2295223.html

Python 百度贴吧网络爬虫

0 0

关于作者

PHP中文网签约作者

285.7K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

基于scrapy实现的简单蜘蛛采集程序

上一篇 2025年2月28日 02:55:01

在Python上基于Markov链生成伪随机文本的教程

下一篇 2025年2月28日 02:55:15

在Python上基于Markov链生成伪随机文本的教程

首先看一下来自wolfram的定义马尔可夫链是随机变量{X_t}的集合（t贯穿0,1,…），给定当前的状态，未来与过去条件独立。 Wikipedia的定义更清楚一点儿 …马尔可夫链是具有马尔可夫性…

PHP中文网
编程技术 2025年2月28日
0000
在Python的Django框架中实现Hacker News的一些功能

逐步指示这是提供给更喜欢阅读的人的视频文本版本。我们将创建一个类似黑客新闻或Reddit的社交新闻网站。它将被称为“钢铁传闻”，作为一个分享关于“钢铁侠”的有趣传闻和对其进行投票的地方。屏幕录像第一部分的概述：目标 …

PHP中文网
编程技术 2025年2月28日
2000
python传递参数方式小结

本文实例总结了python传递参数方式。分享给大家供大家参考。具体分析如下：当形参如*arg时表示传入数组，当形参如**args时表示传入字典。 def myprint(*commends,**map): for comm in comm…

PHP中文网
编程技术 2025年2月28日
2000
python类继承与子类实例初始化用法分析

本文实例讲述了python类继承与子类实例初始化用法。分享给大家供大家参考。具体分析如下： [ 先贴参考书籍原文（中文英文对照）]__init__方法介绍:If a base class has an __init__() method t…

PHP中文网
编程技术 2025年2月28日
2000
python中split方法用法分析

本文实例讲述了python中split方法用法。分享给大家供大家参考。具体分析如下： split 是非常重要的字符串方法，它是join的逆方法，用来将字符串分割成序列 >>> ‘1+2+3+4+5’.split(‘+’)[…

PHP中文网
编程技术 2025年2月28日
2000
Python脚本在Appium库上对移动应用实现自动化测试

采用appium进行自动化的功能性测试最酷的一点是，你可以使用具有最适合你的测试工具的任何一门语言来写你的测试代码。大家选择最多的一个测试编程语言就是python。使用appium和python为ios和android应用编写测试代码非…

PHP中文网
编程技术 2025年2月28日
2000
仅用50行代码实现一个Python编写的计算器的教程

简介在这篇文章中，我将向大家演示怎样向一个通用计算器一样解析并计算一个四则运算表达式。当我们结束的时候，我们将得到一个可以处理诸如 1+2*-(-3+2)/5.6+3样式的表达式的计算器了。当然，你也可以将它拓展的更为强大。我本意是想…

PHP中文网
编程技术 2025年2月28日
2000
Python中生成器和yield语句的用法详解

在开始课程之前，我要求学生们填写一份调查表，这个调查表反映了它们对python中一些概念的理解情况。一些话题(“if/else控制流” 或者 “定义和使用函数”)对于大多数学生是没有问题的。…

PHP中文网
编程技术 2025年2月28日
2000
Python3中多线程编程的队列运作示例

python3，开一个线程，间隔1秒把一个递增的数字写入队列，再开一个线程，从队列中取出数字并打印到终端 #! /usr/bin/env python3import timeimport threadingimport queue# 一个线…

PHP中文网
编程技术 2025年2月28日
2000
利用Python中的mock库对Python代码进行模拟测试

如何不靠耐心测试通常，我们编写的软件会直接与那些我们称之为“肮脏的”服务交互。通俗地说，服务对我们的应用来说是至关重要的，它们之间的交互是我们设计好的，但这会带来我们不希望的副作用——就是那些在我们自己测试的时候不希望的功能。比如，可…

PHP中文网
编程技术 2025年2月28日
2000

发表回复

登录后才能评论

基于Python实现的百度贴吧网络爬虫实例

【原创】时尚首席（关于时尚，名利，事业，爱情，励志）

xxxxxxxxxx

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐