python利用beautifulSoup实现爬虫

以前讲过利用phantomjs做爬虫抓网页 www.jb51.net/article/55789.htm 是配合选择器做的

利用 beautifulSoup(文档 :www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块,可以很轻松的抓取网页内容

# coding=utf-8import urllibfrom bs4 import BeautifulSoupurl ='http://www.baidu.com/s'values ={'wd':'网球'}encoded_param = urllib.urlencode(values)full_url = url +'?'+ encoded_paramresponse = urllib.urlopen(full_url)soup =BeautifulSoup(response)alinks = soup.find_all('a')

登录后复制

上面可以抓取百度搜出来结果是网球的记录。

beautifulSoup内置了很多非常有用的方法。

几个比较好用的特性:

立即学习“Python免费学习笔记(深入)”;

构造一个node元素

代码如下:

soup = BeautifulSoup('Extremely bold')tag = soup.btype(tag)#

登录后复制

属性可以使用attr拿到,结果是字典

代码如下:

tag.attrs# {u'class': u'boldest'}

登录后复制

或者直接tag.class取属性也可。

也可以自由操作属性

tag['class'] = 'verybold'tag['id'] = 1tag#Extremely bolddel tag['class']del tag['id']tag#Extremely boldtag['class']# KeyError: 'class'print(tag.get('class'))# None

登录后复制

还可以随便操作,查找dom元素,比如下面的例子

1.构建一份文档

html_doc = """The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived at the bottom of a well...."""from bs4 import BeautifulSoupsoup = BeautifulSoup(html_doc)

登录后复制

2.各种搞

soup.head#The Dormouse's storysoup.title#The Dormouse's storysoup.body.b# The Dormouse's storysoup.a# Elsiesoup.find_all('a')# [Elsie,# Lacie,# Tillie]head_tag = soup.headhead_tag#The Dormouse's storyhead_tag.contents[The Dormouse's story]title_tag = head_tag.contents[0]title_tag#The Dormouse's storytitle_tag.contents# [u'The Dormouse's story']len(soup.contents)# 1soup.contents[0].name# u'html'text = title_tag.contents[0]text.contentsfor child in title_tag.children:  print(child)head_tag.contents# [The Dormouse's story]for child in head_tag.descendants:  print(child)#The Dormouse's story# The Dormouse's storylen(list(soup.children))# 1len(list(soup.descendants))# 25title_tag.string# u'The Dormouse's story'

登录后复制

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2291374.html

(0)
上一篇 2025年2月28日 00:58:23
下一篇 2025年2月28日 00:58:40

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 在node中如何实现http小爬虫

    本篇文章主要介绍了基于node下的http小爬虫的示例代码,现在分享给大家,也给大家做个参考。 每时每刻不管你睡了还是没睡,互联网都会有海量的数据来来往往,有客服端到服务端,有服务端到服务端。http的get和request完成的角色即为数…

    编程技术 2025年3月31日
    100
  • PHP网络爬虫爬取知乎的方法

    随着互联网的快速发展,信息爆炸的时代已经来临。而知乎作为一个优质的问答平台,其上有着丰富的知识和大量的用户信息,对于爬虫开发者来说,知乎无疑是一个不可多得的宝藏。 本文将介绍一种使用PHP语言编写网络爬虫来爬取知乎数据的方法。 确定目标数据…

    编程技术 2025年3月30日
    100
  • PHP 爬虫模拟登陆腾讯企业邮箱

    随着网络服务的普遍化和信息时代的到来,爬虫已经成为了信息获取的重要手段。爬虫技术不仅可以帮助我们快速获取网络上的有用信息,也可以在某些场景下替代人工完成繁琐的操作。在实际的工作生活中,我们经常需要登录各种网站,例如邮件服务、社交网络、网盘等…

    编程技术 2025年3月30日
    100
  • 爬虫基础教程:使用PHP实现基本网络爬虫

    随着互联网技术的不断发展和进步,人们获取信息的途径越来越多,网络爬虫作为其中的一种工具,在帮助人们获取信息方面起到了越来越重要的作用。网络爬虫是一种自动化程序,可以在互联网上搜集、获取、分析并存储网页中的数据。 网络爬虫的实现可通过多种编程…

    编程技术 2025年3月30日
    100
  • 使用PHP和MySQL实现一个新闻爬虫

    随着数字时代的到来,人们对新闻的阅读方式也发生了巨大的变化。如今,许多人更愿意通过网络阅读新闻,而不是传统的报纸和电视节目,这就催生了新闻爬虫这一技术。本文将介绍如何使用php和mysql实现一个新闻爬虫。 什么是新闻爬虫? 新闻爬虫(也称…

    编程技术 2025年3月30日
    100
  • PHP 实战:高效网络爬虫程序开发

    网络爬虫程序是指一种自动获取并解析网络上信息的程序,也是数据采集和信息处理的重要工具之一。在互联网时代,数据是一种极其宝贵的资产,能够快速、准确地获取目标网站上的信息对于企业和个人来说都是非常重要的。而使用网络爬虫程序则能够更加高效地实现这…

    编程技术 2025年3月30日
    100
  • Java的 爬虫应用教程,实战数据抓取与分析

    java的爬虫应用教程,实战数据抓取与分析 随着互联网时代的到来,数据成为了企业和个人获取成功的一条必经之路,所以数据的重要性也越来越高。而爬虫技术作为数据获取的利器,在各行各业都得到了广泛的应用。本文将介绍如何使用Java语言编写爬虫,实…

    编程技术 2025年3月30日
    100
  • 使用Java爬虫:高效提取网页数据的实用方法和技巧

    Java爬虫实战:快速抓取网页数据的方法与技巧 引言:随着互联网的发展,海量的信息被存储在网页中,人们想要从中获取有用的数据变得越来越困难。而使用爬虫技术,我们可以快速、自动地抓取网页数据,提取出我们需要的有用信息。本文将介绍使用Java进…

    2025年3月30日
    100
  • PHP 爬虫实战:爬取斗鱼直播数据

    随着互联网技术的发展,数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中,爬虫技术更是不可或缺。php 作为一门广泛使用的后端编程语言,其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例,介绍 php 爬…

    编程技术 2025年3月30日
    100
  • PHP 爬虫之使用 cURL 库抓取网页的方法

    随着互联网的快速发展,网络数据的获取和处理已成为各行各业普遍存在的需求之一。在这其中,爬虫技术会被用于大量数据的自动收集和处理。而在爬虫技术的构建中,使用curl库可以极大的提高爬虫的效率和稳定性。本文将介绍一下如何使用curl库实现简单的…

    编程技术 2025年3月30日
    100

发表回复

登录后才能评论