搜索引擎网页去重算法分析

相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。

即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!

搜索爬虫抓取会产生网页重复的类型:

1.多个URL地址指向同一网页以及镜像站点

如:www.sina.com 和www.sina.com.cn

指向同一个站点。

2. 网页内容重复或近似重复

如抄袭、转摘的内容,垃圾信息等

网页内容近似重复检测的两种应用场合:

一:在用户搜索阶段

目标是根据与用户给定的查询词找到已有索引列表中近似重复的文档,并排序输出。

二:爬虫抓取发现阶段

对一个新的网页,爬虫程序通过网页去重算法,最终决定是否对其索引。

搜索引擎网页去重算法分析

Jacccard相似性计算方法

如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。 A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2. Jaccard计算两个集合相同的元素占总元素的比例。

如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7

在实际应用中,集合A 和 集合B 的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。

对给定的文档A,假设经过特征抽取–哈希指纹运算后的二进制数值是:1 0 0 0 0 0 1 0

对给定的文档B, 假设经过特征抽取—哈希指纹运算后的二进制数值是:0 0 1 0 0 0 0 1

经过比较,文档A 和 B的 第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4. 两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。

不同搜索引擎可能会以不同的海明距离值 来判断两个网页内容是否近似重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理.

作者:AlbertTan

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:卢松松,转转请注明出处:https://www.chuangxiangniao.com/p/1069049.html

(0)
上一篇 2025年1月13日 15:43:42
下一篇 2025年1月12日 19:04:19

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 搜索引擎良心排名

    最差到最好排名:百度、搜狗、搜搜、360、谷歌!在百度上搜索“复旦大学附属眼耳鼻喉科医院”,前3项都是其他医院广告,查了20页还没找到正确网站。搜狐sogou.com,结果比百度好不到哪去。腾讯soso.com,第三条搜到正确网站,360s…

    IT业界 2025年1月13日
    100
  • 高斯模糊的算法

    小知识: 高斯模糊是图像处理中广泛使用的技术、通常用它来减小噪声以及降低细节层次。这种模糊技术生产的图像的视觉效果是好像经过一个半透明的屏幕观察图像。高斯模糊也用语计算机视觉算法中的预处理阶段以增强图像在不同尺寸下的图像效果。 通常,图像处…

    2025年1月13日 好文分享
    100
  • 可悲的百度算法机制

    最近似乎已经很少看到有关于SEO的相关文章了,这是不是印证了《SEO已死》这篇文章。可能,也许在中国,真正的SEO离死真的并不遥远了。 背景 最近有个朋友频频跟我抱怨,网站无法被百度正常收录,几个关键词的排名也是好几个月没有动过了。这位朋友…

    2025年1月13日
    100
  • 搜索引擎的Robots规则

    robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。 robots.tx…

    好文分享 2025年1月13日
    100
  • JavaScript解析:让搜索引擎看到更真实的网页

    长期以来,站长们选择使用JavaScript来实现网页的动态行为,这样做的原因是多种多样的,如加快页面的响应速度、降低网站流量、隐藏链接或者嵌入广告等。由于早期的搜索引擎没有相应的处理能力,导致在索引这类网页上往往出现问题,可能无法收录有价…

    好文分享 2025年1月13日
    100
  • 一个文科生对于PR算法的研究

    所有的算法都会有个假设前提,所有假设都是基于用户行为的分析。而算法就是把这些分析公式化。 PR算法主要基于数量假设和质量假设两个方面考虑的。 数量假设:该页面收到越多的入链(其他网页对该页面的链接称为入链),则表示该网页越重要。也就是一个好…

    好文分享 2025年1月13日
    100
  • 搜索引擎基于链接的排序算法

    向大家推荐这篇较早以前的文章,其实很多经典的文章,SEO的价值含量才更多。 基于链接的排序算法似乎已广泛应用到各种商业搜索引擎中。为了让设计出来的网站能够在各种搜索引擎中获得较高排名,设计者们应该知道这些算法的原理。 Google排名的成功…

    好文分享 2025年1月13日
    100
  • 谷歌论文:大规模的超文本网页搜索引擎的分析

    本文是谷歌创始人Sergey和Larry在斯坦福大学计算机系读博士时的一篇论文。发表于1997年。在网络中并没有完整的中文译本,现将原文和本人翻译的寥寥几句和网络收集的片段(网友xfygx和雷声大雨点大的无私贡献)整理和综合到一起,翻译时借…

    2025年1月13日 好文分享
    100
  • 搜索引擎链接分析中的链接优化

    感谢Lenny投稿 在网站优化中,常常提到的“内容为王,链接为皇”现在已经不止是这么两点了,另外还有用户体验综合因素在内,内容为王,链接为皇,加上用户体验其实就是三代搜索引擎的各自看重点,其中链接分析也算是运用得最火的技术,在很多黑帽SEO…

    2025年1月13日
    100
  • 搜索引擎说

    百度在给站长的建议中提到:“百度更喜欢独特的原创内容。所以,如果您的站点内容只是从各处采集复制而成,很可能不会被百度收录。” Google在网站管理员支持中心中提到“在网页上提供高品质的内容,尤其是主页。这是您要做的最重要的工作。”“提高在…

    站长动态 2025年1月13日
    100

发表回复

登录后才能评论

联系我们

156-6553-5169

在线咨询: QQ交谈

邮件:253000106@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

联系微信