RSS与爬虫,如何搜集数据详解

摘要:数据的价值被挖掘出来之前,先要通过收集、存储、分析计算等过程,获得全面、准确的数据是数据价值挖掘的基础。本期csdn云计算俱乐部“大数据故事”将从最为常见的数据搜集方式说起——rss和搜索引擎爬虫

12月30日,CSDN云计算俱乐部活动在3W咖啡举行,活动主题是“RSS与爬虫:大数据的故事——从如何搜集数据开始”。数据的价值被挖掘出来之前,先要通过收集、存储、分析计算等过程,获得全面、准确的数据是数据价值挖掘的基础。也许当下数据并不能为企业或组织带来实际价值,但作为有远见的决策者应该意识到,应尽早收集、保存重要数据,数据就是财富。本期“大数据故事”将从最为常见的数据搜集方式说起——RSS和搜索引擎爬虫。

52c2660565353.jpg

活动现场座无虚席

首先,北京万方软件股份有限公司图书馆事业部总经理崔克俊分享的主题是“大规模进行RSS聚合和网站下载在科学研究中的初步应用”。崔克俊在图书馆、情报行业从业12年,有丰富的数据采集经验,他主要分享了信息聚合的一种重要方式RSS及其实现技术。

RSS(Really Simple Syndication)是一种消息来源格式规范,用以聚合经常发布更新数据的网站,例如博客文章、新闻、音频或视频的网摘。RSS文件包含了全文或是节录的文字,再加上发用者所订阅之网摘布数据和授权的元数据。

对某一行业密切相关的几百个甚至几千个RSS种子进行的聚合,将能快速、全面了解某一行的最新动态;对某一行业的的几十个甚至几百个网站进行完整的数据下载,并进行数据挖掘,将能了解某一主题在该行业发展的来龙去脉。

52c260d88616a.jpg

北京万方软件股份有限公司图书馆事业部总经理 崔克俊 

崔克俊以高能物理研究所为例,介绍了RSS在科研院所的应用。 高能物理信息监测对象为全球高能物理同行机构:实验室、行业学会、国际协会、各国主管科研政府机构、重点综合性科学出版物、高能物理试验项目和实验设施。监控的信息类型为:新闻、论文、会议报告、分析评论、预印本、案例研究、多媒体、图书、招聘信息等。

高能物理文献信息所采用最先进的开源内容管理系统 Drupal,开源搜索技术 Apache Solr,以及Google员工开发的能实时订阅新闻的 PubSubHubbub技术和Amazon的 OpenSearch,建立了一套高能物理信息监测系统,有别于传统的RSS订阅和推送,实现了几乎实时的信息抓取和任意关键词、任意类别、复合条件新闻的主动推送。

接下来,崔克俊分享了Drupal、Apache Solr、PubSubHubbub和OpenSearch等技术的使用心得。

接下来,宜搜科技搜索部架构师爬虫组负责人叶顺平带来了题为“网页搜索爬虫时效性系统”的分享,包括时效性系统的主要目标、架构,以及各个子模块的设计方案。

 52c260c461b13.jpg

宜搜科技搜索部架构师爬虫组负责人 叶顺平 

网页爬虫的几个目标是覆盖率高、死链率低和实效性好,爬虫实效性系统的目标也差不多,主要是实现新网页快速和全面的收录。下图为时效性系统的整体架构:

 52c23abe2d0c5.jpg

其中,上面第一个是RSS/sitemap一个子系统,接下来是网页泛爬的调度系统Webmain scheduler,然后是一个时效性模块Vertical Scheduler,最左侧是DNS服务,抓取的时候,一般是几十台甚至是几百台的抓取集群,如果每一台都有防御的话对DNS的压力比较大,所以一般有一个DNS的服务模块来做全局的服务。数据抓取完毕后,一般会做后续的数据处理。

涉及到实效性的模块包括以下几个:

RSS/sitemap系统:时效性系统利用RSS/sitemap的过程是挖掘种子,定时抓取,解析链接发布时间,将较新的网页优先抓取并索引。

泛爬系统:泛爬系统设计良好的话有助于提高时效性网页的高覆盖率,但泛爬需要尽可能缩短调度周期。

种子调度系统:主要是一个时效性的种子库,这个种子库里面有一些信息调度系统会不断地扫描这个数据库,然后发给抓取集群,这个集群抓取完会进行一些抽取链接的处理,接下来把这些按类别发出去,各个垂直频道会获取到时效性的数据。

种子的挖掘:涉及到页面解析或其它的一些挖掘手段,可以通过站点地图,还有导航条来构建,还要基于页面结构特征和页面变更规律。

种子的更新机制:记录每个种子的抓取历史,follow的链接信息,定期根据种子的外链更新特征,重新计算种子的更新周期。

抓取系统与JavaScript解析:使用浏览器进行抓取,搭建一个基于浏览器抓取的抓取集群。或采用开源项目,如Qtwebkit。

以上就是RSS与爬虫,如何搜集数据详解的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2417829.html

(0)
上一篇 2025年3月3日 02:02:43
下一篇 2025年2月22日 14:20:52

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • Facebook RSS能否替代Google Reader?

    摘要:传facebook或将在下周的发布会上推出一款rss阅读器产品,替代google reader,但分析人士指出,facebook rss实际上无法替代用户使用的google reader,因为用户需要的是工具本身,而不是一个社交平台。…

    2025年3月3日
    200
  • ASP.NET读取RSS的实例解析

    这篇文章主要介绍了asp.net读取rss的方法,非常实用的技巧,需要的朋友可以参考下 RSS对于网站有着很重要的用途,本文即以实例展示了ASP.NET读取RSS的方法,供大家参考借鉴,具体方法如下: 主要功能代码如下: ///  /// …

    编程技术 2025年3月3日
    200
  • RSS全站静态输出和RSS订阅的步骤(dedecms)

    在论坛上看了很多贴子,但发现还是有些人不太会用。认为说明不够详细,以至于不能实现!我再来和大家说一下.首先,你新建一个rss.php文件,把下面的代码拷贝到其中:  代码如下: SetTemplet($cfg_basedir . $cfg_…

    2025年3月3日
    200
  • XmlSlurper解析RSS的实例代码

          Yahoo! Weather – Broomfield, CO                   Conditions for Broomfield, CO at 7:47 am MST      Fri, 27 Feb 20…

    编程技术 2025年3月3日
    200
  • 带你了解什么是RSS

    什么是rss  rss是站点用来和其他站点之间共享内容的一种简易方式(也叫聚合内容)的技术。最初源自浏览器“新闻频道”的技术,现在通常被用于新闻和其他按顺序排列的网站,例如blog。  rss可以干什么?1、订阅blog(blog上,你可以…

    编程技术 2025年3月3日
    200
  • 详解怎么使用Golang爬取必应壁纸

    做爬虫不用说,就是用python就好,一个requests包走天下。但是呢,听说golang中内置的http包非常牛逼,咱就是说不得整点活,也刚好学习学习新东西,复习下http协议的请求和响应相关的知识点。话不多说,咱直接开整 本文章爬下必…

    2025年3月3日 编程技术
    200
  • 如何使用 Go 语言进行大数据分析?

    随着数据规模逐渐增大,大数据分析变得越来越重要。而 go 语言作为一门快速、轻量级的编程语言,也成为了越来越多数据科学家和工程师的选择。本文将介绍如何使用 go 语言进行大数据分析。 数据采集 在开始大数据分析之前,我们需要先采集数据。Go…

    编程技术 2025年3月2日
    200
  • 使用Go语言编写高效的爬虫程序

    随着互联网的发展,爬虫程序的应用越来越广泛,而go语言以其高效的并发性能和简洁的语法成为越来越多爬虫程序员的首选语言。本文将介绍如何使用go语言编写高效的爬虫程序。 一、Go语言的并发性能 Go语言是一种并发性能很高的语言,它提供了goro…

    编程技术 2025年3月2日
    200
  • 如何使用Go语言进行大数据处理

    如何使用go语言进行大数据处理 随着大数据的快速发展,越来越多的企业和组织需要处理日益增长的数据量。而Go语言作为一门高性能的编程语言,逐渐成为大数据处理的首选语言之一。本文将介绍如何使用go语言进行大数据处理,包括数据读取、数据处理和数据…

    编程技术 2025年3月2日
    200
  • Go语言开发大数据处理应用的实践经验分享

    Go语言是一门开源的编程语言,由Google开发并发布,以其高效性能、简洁易用的特性而著称。近年来,随着大数据技术的快速发展,越来越多的企业开始采用Go语言来开发和处理大数据应用。本文以实践经验为基础,分享一些在使用Go语言开发大数据处理应…

    2025年3月1日
    200

发表回复

登录后才能评论