相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。
即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!
搜索爬虫抓取会产生网页重复的类型:
1.多个URL地址指向同一网页以及镜像站点
如:www.sina.com 和www.sina.com.cn
指向同一个站点。
2. 网页内容重复或近似重复
如抄袭、转摘的内容,垃圾信息等
网页内容近似重复检测的两种应用场合:
一:在用户搜索阶段
目标是根据与用户给定的查询词找到已有索引列表中近似重复的文档,并排序输出。
二:爬虫抓取发现阶段
对一个新的网页,爬虫程序通过网页去重算法,最终决定是否对其索引。
Jacccard相似性计算方法
如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。 A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2. Jaccard计算两个集合相同的元素占总元素的比例。
如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7
在实际应用中,集合A 和 集合B 的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。
对给定的文档A,假设经过特征抽取–哈希指纹运算后的二进制数值是:1 0 0 0 0 0 1 0
对给定的文档B, 假设经过特征抽取—哈希指纹运算后的二进制数值是:0 0 1 0 0 0 0 1
经过比较,文档A 和 B的 第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4. 两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。
不同搜索引擎可能会以不同的海明距离值 来判断两个网页内容是否近似重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理.
作者:AlbertTan
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。
发布者:卢松松,转转请注明出处:https://www.chuangxiangniao.com/p/1069049.html