网站爬虫的一个实际分享

产生背景

编辑

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

网络爬虫

为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

1 聚焦爬虫工作原理以及关键技术概述

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:

(1) 对抓取目标的描述或定义;

(2) 对网页或数据的分析与过滤;

(3) 对URL的搜索策略。

网站爬虫,主要是爬博客下的所有文章内容及标题,保存到data目录下。具体如下:

import requestsimport reurl = ''def get_html(url):#打开url并获取该url的所有html信息html_content = requests.get(url).text#从html_conten所有的html信息中匹配到所有博客的超链接地址href_list = re.findall(r'href="(.*)">(.*)', html_content)for line in href_list:#打开超链接地址line_html = requests.get(line[0])        conten = line[1]        line_content = line_html.text        line_encoding = line_html.encodingprint('文章标题:%s,文章编码:%s'%(conten, line_encoding))get_html(url)

登录后复制

 

以上就是网站爬虫的一个实际分享的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2268837.html

(0)
上一篇 2025年2月27日 10:54:26
下一篇 2025年2月27日 01:49:15

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • python3爬取微信文章

    前提: python3.4 windows 作用:通过搜狗的微信搜索接口来搜索相关微信文章,并将标题及相关链接导入Excel表格中 说明:需xlsxwriter模块,另程序编写时间为2017/7/11,以免之后程序无法使用可能是网站做过相关…

    编程技术 2025年2月27日
    200
  • 全面了解Python爬虫之xlml解析库

    下面小编就为大家带来一篇python爬虫之xlml解析库(全面了解)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧 1.Xpath Xpath是一门在XML中查找信息的语言,可用来在XML文档中对元素和属性进…

    编程技术 2025年2月27日
    200
  • 记录一次简单的Python爬虫实例

    本次的这篇文章主要是和大家分享了一篇关于记录一次简单的Python爬虫实例 ,有需要的小伙伴可以看一下。 主要流程分为: 爬取、整理、存储 1.其中用到几个包,包括 requests 用于向网站发送请求,并获得网页代码 BeautifulS…

    编程技术 2025年2月27日
    200
  • 零基础写python爬虫之爬虫编写全记录_python

    前面九篇文章从基础到编写都做了详细的介绍了,第十篇么讲究个十全十美,那么我们就来详细记录一下一个爬虫程序如何一步步编写出来的,各位看官可要看仔细了 先来说一下我们学校的网站: http://jwxt.sdu.edu.cn:7777/zhxt…

    2025年2月27日 编程技术
    200
  • Python编写简单网络爬虫抓取视频

    从上一篇文章的评论中看出似乎很多童鞋都比较关注爬虫的源代码。所有本文就使用python编写简单网络爬虫抓取视频下载资源做了很详细的记录,几乎每一步都介绍给大家,希望对大家能有所帮助 我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜…

    2025年2月27日 编程技术
    200
  • python能做什么?python爬虫是什么?

    在我们学习一门语言之前我们先要了解一下它,所以,很多朋友在刚开始接触python的时候可能都会有一个疑问,python能做什么?同时,我们经常又可以看到python爬虫在这个词,那么,python爬虫又是什么?本篇文章【创想鸟】讲给大家来介…

    编程技术 2025年2月27日
    200
  • 什么是爬虫?python网络爬虫中概念的介绍

    本篇文章给大家带来的内容是关于什么是爬虫?python网络爬虫中概念的介绍,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。 爬虫相关概念简介 a)什么是爬虫: 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的…

    编程技术 2025年2月27日
    200
  • 什么是爬虫和爬虫的基本流程

    随着互联网的飞速发展,越来越多的数据充斥着这个时代。而获取和处理数据就成为我们生活中必不可少的部分,爬虫也是应运而生。 众多语言都能进行爬虫,但基于python的爬虫显得更加简洁,方便。爬虫也成了python语言中必不可少的一部分。 本篇讲…

    2025年2月27日
    200
  • 爬虫基本流程Request和Response的介绍

    基于python的爬虫想要从网站上获取数据,就是从request到response的过程。我们通过伪装浏览器从而向服务器发出Request请求,服务器则会在接受信息后,作出Response回应。 在上一篇我们讲解了什么是爬虫和爬虫的基本流程…

    2025年2月27日
    200
  • 爬虫能获取什么样的数据和具体的解析方式

    随着互联网的飞速发展,越来越多的数据充斥着这个时代。而获取和处理数据就成为我们生活中必不可少的部分,爬虫也是应运而生。 众多语言都能进行爬虫,但基于python的爬虫显得更加简洁,方便。爬虫也成了python语言中必不可少的一部分。那我们通…

    2025年2月27日
    200

发表回复

登录后才能评论