python 写的一个爬虫程序源码分享

PHP中文网 • 2025年2月27日 16:16:32 • 编程技术 • 阅读 3

写爬虫是一项复杂、枯噪、反复的工作，考虑的问题包括采集效率、链路异常处理、数据质量(与站点编码规范关系很大)等。整理自己写一个爬虫程序，单台服务器可以启用1~8个实例同时采集，然后将数据入库。

#-*- coding:utf-8 -*-#!/usr/local/bin/pythonimport sys, time, os,stringimport mechanizeimport urlparsefrom BeautifulSoup import BeautifulSoupimport reimport MySQLdbimport loggingimport cgifrom optparse import OptionParser#----------------------------------------------------------------------------## Name:    TySpider.py                              ## Purpose:   WebSite Spider Module                     ## Author:   刘天斯                                   ## Email:    liutiansi@gamil.com                         ## Created:   2010/02/16                              ## Copyright:  (c) 2010                                ##----------------------------------------------------------------------------#"""|--------------------------------------------------------------------------| 定义 loging class;|--------------------------------------------------------------------------|| 功能：记录系统相关日志信息。| |"""class Pubclilog():  def __init__(self):    self.logfile = 'website_log.txt'  def iniLog(self):    logger = logging.getLogger()    filehandler = logging.FileHandler(self.logfile)    streamhandler = logging.StreamHandler()    fmt = logging.Formatter('%(asctime)s, %(funcName)s, %(message)s')    logger.setLevel(logging.DEBUG)     logger.addHandler(filehandler)     logger.addHandler(streamhandler)    return [logger,filehandler]"""|--------------------------------------------------------------------------| 定义 tySpider class;|--------------------------------------------------------------------------|| 功能：抓取分类、标题等信息| |"""class BaseTySpider:  #初始化相关成员方法  def __init__(self,X,log_switch):    #数据库连接    self.conn = MySQLdb.connect(db='dbname',host='192.168.0.10', user='dbuser',passwd='SDFlkj934y5jsdgfjh435',charset='utf8')    #分类及标题页面Community    self.CLASS_URL = 'http://test.abc.com/aa/CommTopicsPage?'    #发表回复页    self.Content_URL = 'http://test.bac.com/aa/CommMsgsPage?'    #开始comm值    self.X=X    #当前comm id取模，方面平均到表    self.mod=self.X%5    #Community文件下载页    self.body=""    #self.bodySoup对象    self.soup=None    #发表回复页下载内容变量    self.Contentbody=""    #发表回复页内容self.ContentbodySoup对象    self.Contentsoup=None    #日志开关    self.log_switch=log_switch  #======================获取名称及分类方法==========================  def _SpiderClass(self,nextpage=None):    if nextpage==None:      FIXED_QUERY = 'cmm='+str(self.X)    else:      FIXED_QUERY = nextpage[1:]    try:      rd = mechanize.Browser()      rd.addheaders = [("User-agent", "Tianya/2010 (compatible; MSIE 6.0;Windows NT 5.1)")]      rd.open(self.CLASS_URL + FIXED_QUERY)      self.body=rd.response().read()      #rd=mechanize.Request(self.CLASS_URL + FIXED_QUERY)      #response = mechanize.urlopen(rd)      #self.body=response.read()    except Exception,e:      if self.log_switch=="on":        logapp=Pubclilog()        logger,hdlr = logapp.iniLog()        logger.info(self.CLASS_URL + FIXED_QUERY+str(e))        hdlr.flush()        logger.removeHandler(hdlr)        return    self.soup = BeautifulSoup(self.body)    NextPageObj= self.soup("a", {'class' : re.compile("fs-paging-item fs-paging-next")})    self.cursor = self.conn.cursor()    if nextpage==None:      try:        Ttag=str(self.soup.table)        #print Ttag        """        ------------------分析结构体-----------------

登录后复制

Dunhill

中国 » 人民

“”” soupTable=BeautifulSoup(Ttag) #定位到第一个h1标签 tableh1 = soupTable(“h1”) #print self.X #print “Name:”+tableh1[0].string.strip().encode(‘utf-8’) #处理无类型的 try: #定位到表格中符合规则“^TopByCategory”A链接块，tablea[0]为第一个符合条件的连接文字，tablea[1]… tablea = soupTable(“a”, {‘href’ : re.compile(“^TopByCategory”)}) if tablea[0].string.strip()==””: pass #print “BigCLass:”+tablea[0].string.strip().encode(‘utf-8’) #print “SubClass:”+tablea[1].string.strip().encode(‘utf-8’) except Exception,e: if self.log_switch==”on”: logapp=Pubclilog() logger,hdlr = logapp.iniLog() logger.info(“[noClassInfo]”+str(self.X)+str(e)) hdlr.flush() logger.removeHandler(hdlr) self.cursor.execute(“insert into baname”+str(self.mod)+” values(‘%d’,’%d’,’%s’)” %(self.X,-1,tableh1[0].string.strip().encode(‘utf-8’))) self.conn.commit() self._SpiderTitle() if NextPageObj: NextPageURL=NextPageObj[0][‘href’] self._SpiderClass(NextPageURL) return else: return #获取链接二对象的href值 classlink=tablea[1][‘href’] par_dict=cgi.parse_qs(urlparse.urlparse(classlink).query) #print “CID:”+par_dict[“cid”][0] #print “SubCID:”+par_dict[“subcid”][0] #print “—————————————” #插入数据库 self.cursor.execute(“insert into class values(‘%d’,’%s’)” %(int(par_dict[“cid”][0]),tablea[0].string.strip().encode(‘utf-8’))) self.cursor.execute(“insert into subclass values(‘%d’,’%d’,’%s’)” %(int(par_dict[“subcid”][0]),int(par_dict[“cid”][0]),tablea[1].string.strip().encode(‘utf-8’))) self.cursor.execute(“insert into baname”+str(self.mod)+” values(‘%d’,’%d’,’%s’)” %(self.X,int(par_dict[“subcid”][0]),tableh1[0].string.strip().encode(‘utf-8’))) self.conn.commit() self._SpiderTitle() if NextPageObj: NextPageURL=NextPageObj[0][‘href’] self._SpiderClass(NextPageURL) self.body=None self.soup=None Ttag=None soupTable=None table=None table1=None classlink=None par_dict=None except Exception,e: if self.log_switch==”on”: logapp=Pubclilog() logger,hdlr = logapp.iniLog() logger.info(“[ClassInfo]”+str(self.X)+str(e)) hdlr.flush() logger.removeHandler(hdlr) else: self._SpiderTitle() if NextPageObj: NextPageURL=NextPageObj[0][‘href’] self._SpiderClass(NextPageURL) #====================获取标题方法========================= def _SpiderTitle(self): #查找标题表格对象(table) soupTitleTable=self.soup(“table”, {‘class’ : “fs-topic-list”}) #查找标题行对象(tr) TitleTr = soupTitleTable[0](“tr”, {‘onmouseover’ : re.compile(“^this.className=’fs-row-hover'”)}) “”” ———–分析结构体————–

【新人报到】欢迎美国人民加入 0 / 12 @@##@@ 中国人 2-14 “”” for CurrTr in TitleTr: try: #初始化置顶及精华状态 Title_starred=’N’ Title_sticky=’N’ #获取当前记录的BeautifulSoup对象 soupCurrTr=BeautifulSoup(str(CurrTr)) #BeautifulSoup分析HTML有误，只能通过span的标志数来获取贴子状态，会存在一定误差 #如只有精华时也会当成置顶来处理。 TitleStatus=soupCurrTr(“span”, {‘title’ : “”}) TitlePhotoViewer=soupCurrTr(“a”, {‘href’ : re.compile(“^PhotoViewer”)}) if TitlePhotoViewer.__len__()==1: TitlePhotoViewerBool=0 else: TitlePhotoViewerBool=1 if TitleStatus.__len__()==3-TitlePhotoViewerBool: Title_starred=’Y’ Title_sticky=’Y’ elif TitleStatus.__len__()==2-TitlePhotoViewerBool: Title_sticky=’Y’ #获取贴子标题 Title=soupCurrTr.a.next.strip() #获取贴子ID par_dict=cgi.parse_qs(urlparse.urlparse(soupCurrTr.a[‘href’]).query) #获取回复数及浏览器 TitleNum=soupCurrTr(“td”, {‘class’ : “fs-topic-name”}) TitleArray=string.split(str(TitleNum[0]),”) Title_ReplyNum=string.split(TitleArray[len(TitleArray)-4],’>’)[2] Title_ViewNum=string.split(TitleArray[len(TitleArray)-2],’>’)[2][:-6] #获取贴子作者 TitleAuthorObj=soupCurrTr(“td”, {‘style’ : “padding-left:4px”}) Title_Author=TitleAuthorObj[0].next.next.next.string.strip().encode(‘utf-8’) #获取回复时间 TitleTime=soupCurrTr(“td”, {‘class’ : re.compile(“^fs-topic-last-mdfy fs-meta”)}) “”” print “X:”+str(self.X) print “Title_starred:”+Title_starred print “Title_sticky:”+Title_sticky print “Title:”+Title #获取贴子内容连接URL print “Title_link:”+soupCurrTr.a[‘href’] print “CID:”+par_dict[“tid”][0] print “Title_ReplyNum:”+Title_ReplyNum print “Title_ViewNum:”+Title_ViewNum print “Title_Author:”+Title_Author print “TitleTime:”+TitleTime[0].string.strip().encode(‘utf-8’) “”” #入库 self.cursor.execute(“insert into Title”+str(self.mod)+” values(‘%s’,’%d’,’%s’,’%d’,’%d’,’%s’,’%s’,’%s’,’%s’)” %(par_dict[“tid”][0], self.X,Title,int(Title_ReplyNum),int(Title_ViewNum),Title_starred,Title_sticky, Title_Author.decode(‘utf-8’),TitleTime[0].string.strip().encode(‘utf-8′))) self.conn.commit() self._SpiderContent(par_dict[“tid”][0]) except Exception,e: if self.log_switch==”on”: logapp=Pubclilog() logger,hdlr = logapp.iniLog() logger.info(“[Title]”+str(self.X)+’-‘+par_dict[“tid”][0]+’-‘+str(e)) hdlr.flush() logger.removeHandler(hdlr) #======================获取发表及回复方法======================= def _SpiderContent(self,ID,nextpage=None): if nextpage==None: FIXED_QUERY = ‘cmm=’+str(self.X)+’&tid=’+ID+’&ref=regulartopics’ else: FIXED_QUERY = nextpage[9:] rd = mechanize.Browser() rd.addheaders = [(“User-agent”, “Tianya/2010 (compatible; MSIE 6.0;Windows NT 5.1)”)] rd.open(self.Content_URL + FIXED_QUERY) self.Contentbody=rd.response().read() #rd=mechanize.Request(self.Content_URL + FIXED_QUERY) #response = mechanize.urlopen(rd) #self.Contentbody=response.read() self.Contentsoup = BeautifulSoup(self.Contentbody) NextPageObj= self.Contentsoup(“a”, {‘class’ : re.compile(“fs-paging-item fs-paging-next”)}) try: Tp=self.Contentsoup(“p”, {‘class’ : “fs-user-action”}) i=0 for Currp in Tp: if i==0: Ctype=’Y’ else: Ctype=’N’ #发表时间 soupCurrp=BeautifulSoup(str(Currp)) PosttimeObj=soupCurrp(“span”, {‘class’ : “fs-meta”}) Posttime=PosttimeObj[0].next[1:] Posttime=Posttime[0:-3] #IP地址 IPObj=soupCurrp(“a”, {‘href’ : re.compile(“CommMsgAddress”)}) if IPObj: IP=IPObj[0].next.strip() else: IP=” #发表／回复内容 ContentObj=soupCurrp(“p”, {‘class’ :”fs-user-action-body”}) Content=ContentObj[0].renderContents().strip() “”” print “ID:”+str(self.X) print “ID:”+ID print “Ctype:”+Ctype print “POSTTIME:”+Posttime print “IP:”+IP print “Content:”+Content “”” self.cursor.execute(“insert into Content”+str(self.mod)+” values(‘%s’,’%d’,’%s’,’%s’,’%s’,’%s’)” %(ID,self.X,Ctype,Posttime,IP,Content.decode(‘utf-8′))) self.conn.commit() i+=1 except Exception,e: if self.log_switch==”on”: logapp=Pubclilog() logger,hdlr = logapp.iniLog() logger.info(“[Content]”+str(self.X)+’-‘+ID+’-‘+str(e)) hdlr.flush() logger.removeHandler(hdlr) #如“下一页”有链接刚继续遍历 if NextPageObj: NextPageURL=NextPageObj[0][‘href’] self._SpiderContent(ID,NextPageURL) def __del__(self): try: self.cursor.close() self.conn.close() except Exception,e: pass#遍历comm范围def initapp(StartValue,EndValue,log_switch): for x in range(StartValue,EndValue): app=BaseTySpider(x,log_switch) app._SpiderClass() app=Noneif __name__ == “__main__”: #定义命令行参数 MSG_USAGE = “TySpider.py [ -s StartNumber EndNumber ] -l [on|off] [-v][-h]” parser = OptionParser(MSG_USAGE) parser.add_option(“-s”, “–set”, nargs=2,action=”store”, dest=”comm_value”, type=”int”, default=False, help=”配置名称ID值范围。”.decode(‘utf-8’)) parser.add_option(“-l”, “–log”, action=”store”, dest=”log_switch”, type=”string”, default=”on”, help=”错误日志开关”.decode(‘utf-8’)) parser.add_option(“-v”,”–version”, action=”store_true”, dest=”verbose”, help=”显示版本信息”.decode(‘utf-8’)) opts, args = parser.parse_args() if opts.comm_value: if opts.comm_value[0]>opts.comm_value[1]: print “终止值比起始值还小？” exit(); if opts.log_switch==”on”: log_switch=”on” else: log_switch=”off” initapp(opts.comm_value[0],opts.comm_value[1],log_switch) exit(); if opts.verbose: print “WebSite Scider V1.0 beta.” exit;

更多python 写的一个爬虫程序源码分享相关文章请关注PHP中文网！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2277746.html

Python 爬虫程序

0 0

关于作者

PHP中文网签约作者

552.9K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

python中map()与zip()操作方法介绍

上一篇 2025年2月27日 16:16:24

Python中time模块和datetime模块的用法示例分析

下一篇 2025年2月27日 16:16:56

编程技术

LangManus— AI自动化框架，多智能体协同完成复杂任务

langmanus：一个基于多智能体系统的ai自动化框架 LangManus是一个先进的AI自动化框架，其核心设计理念是分层多智能体系统。它由多个智能体协同工作，分别负责不同的任务，从而高效完成复杂的工作流程。这些智能体包括协调员、规划员、…

PHP中文网
2025年4月1日
0000
编程技术

START— 阿里联合中科大推出的自学推理模型

阿里巴巴和中国科学技术大学联合推出start：一款强大的工具增强型推理模型 START（Self-Taught Reasoner with Tools）是阿里巴巴和中国科学技术大学共同研发的新型工具增强型推理模型，它通过整合外部工具（例如P…

PHP中文网
2025年4月1日
0000
编程技术

Linux如何监控LAMP资源使用情况

本文介绍在Linux系统中监控LAMP（Linux, Apache, MySQL, PHP/Perl/Python）资源使用情况的多种方法和工具。选择合适的工具取决于你的具体需求和环境。以下是一些常用的监控工具：命令行工具： top …

PHP中文网
2025年4月1日
0000
编程技术

下载ed2k文件的速度提升方法百度网盘ed2k文件下载的提速窍门

提升百度网盘上ed2k文件下载速度的方法包括：1. 选择合适的下载时间，避免高峰期；2. 使用多线程下载技术；3. 优化网络配置；4. 使用第三方工具如idm；5. 定期清理缓存。这些策略结合使用可以显著提高下载效率。引言在当今的网络环…

PHP中文网
2025年4月1日
0000
编程技术

168.1.1页面打不开？排查网络连接问题

168.1.1页面打不开的原因可能是多方面的，包括硬件故障、配置错误、网络拥堵等。解决方法包括：1.检查基本网络连接，尝试访问其他网站；2.使用ping命令测试连通性；3.利用wireshark等工具分析网络数据包；4.检查ip地址配置、d…

PHP中文网
2025年4月1日
0000
编程技术

忘记路由器密码？192.168.1.1恢复出厂设置教程

通过192.168.1.1可以恢复路由器出厂设置。具体步骤包括：1. 物理按键重置：按住路由器背面的小孔10秒左右；2. 软件重置：登录192.168.1.1，找到并选择“恢复出厂设置”选项，重置后需重新配置路由器。引言你是否曾在凌晨两…

PHP中文网
2025年4月1日
0000
编程技术

Crack Coder— AI技术面试工具，提供实时编程问题支持

Crack Coder是什么 crack coder 是开源的隐形 ai 辅助工具，专为技术面试设计。crack coder支持在后台运行，完全隐形，无法被屏幕录制或监控软件检测到。crack coder提供实时 ai 编程辅助，支持多种编…

PHP中文网
2025年4月1日
0000
CentOS Stream 8 Web服务器配置

在centos stream 8系统上搭建web服务器，需要安装并配置web服务器软件（如apache或nginx），并进行必要的安全设置。以下步骤提供了一个基本的配置流程： Web服务器软件安装使用以下命令安装Apache： sudo …

PHP中文网
编程技术 2025年4月1日
0000
GitLab在CentOS上的配置步骤是什么

在centos系统上部署gitlab，需要完成一系列步骤，包括软件包安装、网络配置、邮件服务设置、gitlab安装以及配置文件修改等。以下步骤将详细指导您完成此过程：一、安装依赖项首先，更新系统并安装必要的依赖包： sudo yum u…

PHP中文网
编程技术 2025年4月1日
0000
Debian OpenSSL如何配置HTTPS服务器

在debian系统上配置https服务器涉及几个步骤，包括安装必要的软件、生成ssl证书、配置web服务器（如apache或nginx）以使用ssl证书。以下是一个基本的指南，假设你使用的是apache web服务器。 1. 安装必要的软件…

PHP中文网
编程技术 2025年4月1日
0000