python利用beautifulSoup实现爬虫

PHP中文网 • 2025年2月28日 00:58:30 • 编程技术 • 阅读 3

以前讲过利用phantomjs做爬虫抓网页 www.jb51.net/article/55789.htm 是配合选择器做的

利用 beautifulSoup(文档：www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块，可以很轻松的抓取网页内容

# coding=utf-8import urllibfrom bs4 import BeautifulSoupurl ='http://www.baidu.com/s'values ={'wd':'网球'}encoded_param = urllib.urlencode(values)full_url = url +'?'+ encoded_paramresponse = urllib.urlopen(full_url)soup =BeautifulSoup(response)alinks = soup.find_all('a')

登录后复制

上面可以抓取百度搜出来结果是网球的记录。

beautifulSoup内置了很多非常有用的方法。

几个比较好用的特性：

立即学习“Python免费学习笔记（深入）”；

构造一个node元素

代码如下:

soup = BeautifulSoup('Extremely bold')tag = soup.btype(tag)#

登录后复制

属性可以使用attr拿到，结果是字典

代码如下:

tag.attrs# {u'class': u'boldest'}

登录后复制

或者直接tag.class取属性也可。

也可以自由操作属性

tag['class'] = 'verybold'tag['id'] = 1tag#Extremely bolddel tag['class']del tag['id']tag#Extremely boldtag['class']# KeyError: 'class'print(tag.get('class'))# None

登录后复制

还可以随便操作，查找dom元素，比如下面的例子

1.构建一份文档

html_doc = """The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived at the bottom of a well...."""from bs4 import BeautifulSoupsoup = BeautifulSoup(html_doc)

登录后复制

2.各种搞

soup.head#The Dormouse's storysoup.title#The Dormouse's storysoup.body.b# The Dormouse's storysoup.a# Elsiesoup.find_all('a')# [Elsie,# Lacie,# Tillie]head_tag = soup.headhead_tag#The Dormouse's storyhead_tag.contents[The Dormouse's story]title_tag = head_tag.contents[0]title_tag#The Dormouse's storytitle_tag.contents# [u'The Dormouse's story']len(soup.contents)# 1soup.contents[0].name# u'html'text = title_tag.contents[0]text.contentsfor child in title_tag.children:  print(child)head_tag.contents# [The Dormouse's story]for child in head_tag.descendants:  print(child)#The Dormouse's story# The Dormouse's storylen(list(soup.children))# 1len(list(soup.descendants))# 25title_tag.string# u'The Dormouse's story'

登录后复制

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2291374.html

beautifulsoup 爬虫

0 0

关于作者

PHP中文网签约作者

553.8K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

python中sets模块的用法实例

上一篇 2025年2月28日 00:58:23

跟老齐学Python之让人欢喜让人忧的迭代

下一篇 2025年2月28日 00:58:40

在node中如何实现http小爬虫

本篇文章主要介绍了基于node下的http小爬虫的示例代码，现在分享给大家，也给大家做个参考。每时每刻不管你睡了还是没睡，互联网都会有海量的数据来来往往，有客服端到服务端，有服务端到服务端。http的get和request完成的角色即为数…

PHP中文网
编程技术 2025年3月31日
1000
PHP网络爬虫爬取知乎的方法

随着互联网的快速发展，信息爆炸的时代已经来临。而知乎作为一个优质的问答平台，其上有着丰富的知识和大量的用户信息，对于爬虫开发者来说，知乎无疑是一个不可多得的宝藏。本文将介绍一种使用PHP语言编写网络爬虫来爬取知乎数据的方法。确定目标数据…

PHP中文网
编程技术 2025年3月30日
1000
PHP 爬虫模拟登陆腾讯企业邮箱

随着网络服务的普遍化和信息时代的到来，爬虫已经成为了信息获取的重要手段。爬虫技术不仅可以帮助我们快速获取网络上的有用信息，也可以在某些场景下替代人工完成繁琐的操作。在实际的工作生活中，我们经常需要登录各种网站，例如邮件服务、社交网络、网盘等…

PHP中文网
编程技术 2025年3月30日
1000
爬虫基础教程：使用PHP实现基本网络爬虫

随着互联网技术的不断发展和进步，人们获取信息的途径越来越多，网络爬虫作为其中的一种工具，在帮助人们获取信息方面起到了越来越重要的作用。网络爬虫是一种自动化程序，可以在互联网上搜集、获取、分析并存储网页中的数据。网络爬虫的实现可通过多种编程…

PHP中文网
编程技术 2025年3月30日
1000
使用PHP和MySQL实现一个新闻爬虫

随着数字时代的到来，人们对新闻的阅读方式也发生了巨大的变化。如今，许多人更愿意通过网络阅读新闻，而不是传统的报纸和电视节目，这就催生了新闻爬虫这一技术。本文将介绍如何使用php和mysql实现一个新闻爬虫。什么是新闻爬虫？新闻爬虫（也称…

PHP中文网
编程技术 2025年3月30日
1000
PHP 实战：高效网络爬虫程序开发

网络爬虫程序是指一种自动获取并解析网络上信息的程序，也是数据采集和信息处理的重要工具之一。在互联网时代，数据是一种极其宝贵的资产，能够快速、准确地获取目标网站上的信息对于企业和个人来说都是非常重要的。而使用网络爬虫程序则能够更加高效地实现这…

PHP中文网
编程技术 2025年3月30日
1000
Java的爬虫应用教程，实战数据抓取与分析

java的爬虫应用教程，实战数据抓取与分析随着互联网时代的到来，数据成为了企业和个人获取成功的一条必经之路，所以数据的重要性也越来越高。而爬虫技术作为数据获取的利器，在各行各业都得到了广泛的应用。本文将介绍如何使用Java语言编写爬虫，实…

PHP中文网
编程技术 2025年3月30日
1000
编程技术

使用Java爬虫：高效提取网页数据的实用方法和技巧

Java爬虫实战：快速抓取网页数据的方法与技巧引言：随着互联网的发展，海量的信息被存储在网页中，人们想要从中获取有用的数据变得越来越困难。而使用爬虫技术，我们可以快速、自动地抓取网页数据，提取出我们需要的有用信息。本文将介绍使用Java进…

PHP中文网
2025年3月30日
1000
PHP 爬虫实战：爬取斗鱼直播数据

随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php 作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍 php 爬…

PHP中文网
编程技术 2025年3月30日
1000
PHP 爬虫之使用 cURL 库抓取网页的方法

随着互联网的快速发展，网络数据的获取和处理已成为各行各业普遍存在的需求之一。在这其中，爬虫技术会被用于大量数据的自动收集和处理。而在爬虫技术的构建中，使用curl库可以极大的提高爬虫的效率和稳定性。本文将介绍一下如何使用curl库实现简单的…

PHP中文网
编程技术 2025年3月30日
1000

发表回复

登录后才能评论

python利用beautifulSoup实现爬虫

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐