基于内容的大规模网页去重研究

基于内容的大规模网页去重研究[1]
彭渊 赵铁军 郑德权 于浩
(哈尔滨工业大学机器翻译研究室,黑龙江 哈尔滨 150001)
 
 
摘要:本文提出了一种基于特征码和文章长度相结合的的相同内容网页的去除合并算法。有效的改进了单纯的特征码的方法的处理效率。实验证明:该种新方法能实现很高的判断准确率。并且对于文本分类也有一定的帮助。
 
关键词:特征码 搜索引擎 文章长度
中图法分类号 :      TP391    文献标识码 : A
 
1 引言
    随着信息时代的到来,以及越来越高的网络普及率。互联网上的信息也越来越多,根据netcraft的统计,截止到2004年8月,世界上共统计到533,314,867个网站记录。而且还在以每月数以百万计的数量增长。同时,这些网站所提提供的信息也以T(1T=1000G)来计算。面对着如此多的海量信息,如果需要找到自己需要的相应的信息,需要费很大的精力,因此需要借助于搜索引擎的帮助。搜索引擎以一定的策略在互联网中搜集,发现信息,对信息进行理解,提取,组织和处理,并为用户提供检索服务,从而起到信息导航的目的。但是由于互联网上的信息经常被互相转载,因此搜索引擎经常检索出具有相同信息的重复网页。这样浪费了查询者很多宝贵的查询时间,于是将相同的网页进行分类或者去除内容相同的重复网页成为了搜索引擎技术中的一项很有意义的工作。
    文献[3]中提出了一种基于网页特征码的去除重复网页的方法,并且使用平衡搜索树来对网页的特征码进行索引。实验证明:该算法是一种线性计算复杂度的算法,而且具有很高的判别正确率和召回率,它克服了一半聚类算法所具有的算法复杂度高,而且合并准确率低的缺点,是一种非常实用的去除,合并相同内容网页的算法。
    但是在我们的实验过程中,也发现了这种方法的一些小缺陷。于是本文提出了一种基于特征码和文章长度相结合的方法来改进这种缺陷,实验证明:该方法在保留了原有方法的正确率和效率的同时,改进了这方面的缺陷。
 
2 特征码方法介绍及其缺陷
2.1 相同网页的定义
网页本身的结构很复杂,有标题信息,导航信息和正文等。由于不同的网站在转载信息的时候,通常会在信息中添加不同题注,编辑等信息,同时还会视需要对文章进行不同的删节,改动,或者添加相应的其他信息。本文把相同网页定义为正文内容基本相同的网页,即如果转载后的文章产生了节略或者内容增加,那么就认为它和原网页不同。比方说在本文搜集的语料中有篇文章讲的是伊战结束后伊拉克临时政府和萨德尔武装的一次冲突,但是某个网站在转载这篇文章后又在这篇文章后面加入了伊拉克过渡政府阿拉维的评论。所以这两篇文章应该被定义为不同的网页,虽然它们的前半部分相同。
 
2.2 特征码方法介绍
    通常全文搜索引擎在定期索引网页的时候,如果没有对重复网页进行处理的这一过程,会收录很多重复网页到自己的数据库中。用户在检索的过程中就会检索到很多重复的网页,增加检索时间,既浪费用户的时间也浪费宝贵的搜索引擎资源。而且过多的重复链接也会使得用户对搜索引擎产生效率不高的坏印象。

    为了解决这个问题,文献[3]提出了基于特征码的快速网页去重方法。该方法把网页去重问题近似看作一个检索问题,把每篇文章变成一个查询请求。但是与一般的检索系统不同的是:一般的检索系统检索出来的是所有与该网页相关的网页,而不是完全相同的网页。而去重的过程中需要检索出来的是完全相同的网页。因此需要对网页的特征建立索引,通过对网页的分析发现,句号在网页的导航信息中几乎不会出现。于是便把句号出现的位置作为一个提取特征码的位置,从句号两边各取L个汉字,作为该篇文章的特征码。通过分析可知:如果两边各取5个汉字,就相当于10阶文法,而对于参数个数为6763的空间来说,10阶文法重复的概率在理论上是,这个值是非常小的。

在网页的编辑过程中可能会产生一些错误,从而使得对于相同的网页提取出来的特征码可能会产生错位,为了避免这些错误,采用了最长公共子序列的方法,即当两个特征码有L-1或者L-2个子序列相同时,就认为这两个网页的特征码是相同的。同时,在特征码的存储上使用了平衡搜索树技术,取得了很高的插入和查找效率。
 
2.3 特征码方法的缺陷
    使用这种方法对每个网页提取特征码虽然效果非常好,但是却存在着一个缺陷。由于在提取特征码的时候只是定位到文章的第一个句号处,并且提取这个句号两边的各五个汉字作为特征码。此种方法对句号的位置十分的依赖,而且所提取的特征码信息只代表了这个句号周围的信息,未提供网页正文的其他部位的任何信息,因此对于那些正文开头部分相同而后面的部分不相同的网页,基本上无法区分。虽然从理论上分析,这种情况很难发生,但是在实际的应用过程中,还是出现了不少这样的问题。在我们搜集的四个领域(教育,科技,时事,体育)的语料中,使用特征码方法进行去重处理以后,所出现的大部分是这种这种原因造成的错误。
 
3 产生错误的原因分析和方法的改进
3.1 产生错误的主要原因
在我们对所搜集的4个领域的共902篇网页中,我们对特征码相同但是正文内容有所不同的网页进行了分析,发现造成这种情况的原因主要有以下几种:
 
3.1.1 全文转载和部分转载
一般只有一些大的门户网站才会有专题记者,而对于某些小的网站而言,他们的新闻主要是来自于对这些大的门户网站的转载。同时由于每个网站的经营方向不同,在对文章转载的时候会根据自己的需要进行一些处理,最常见的就是对原始的网页进行删节,通常删除的会是网页后面的部分。在我们搜集的教育领域的语料中,有一则来自于北京青年报的题为“北京25所成人高校具有高等学历招生资格”的消息,搜狐和新华网都对其进行了转载。所不同的是:新华网仅局限于报道这个消息本身,因此对于后面列出的25所学校的名单以一个链接代替,而搜狐则是全文转载了这个消息。
 
3.1.2 转载后对网页进行了重新的编辑
在8月7日的四川新闻网和8月8日的搜狐网都有一篇关于卡塔尔的半岛电视台驻伊拉克办事处被强制关闭的新闻,从新闻其中的文字可以看出,其原始消息都来自于一个通讯社,但是在转载的过程中,各段的顺序发生了变化,而且在搜狐中为了节省篇幅考虑,在这段新闻以后加上了一段土耳其的卡车司机被绑架的新闻合并为一则新闻。这应该看作两个完全独立的网页。
 
3.1.3 网页篇幅的限制
对于某些篇幅很长的文章,特别是科技类的评测文章,通常要占好几个网页的篇幅,而有的网站在转载的时候,通常会将其合并在一个网页中,这样在提取特征码的时候,必然会造成错误。
 
3.2 对原方法的改进方法
    由于单纯的特征码方法对这种错误无能为力,因此为了提高相同的网页分类的准确率,需要考虑和其他方法相结合,或者在判断的时候,并不只是将特征码作为唯一的判断参数,还要考虑与网页的其他特征相结合的分类方法。综合考虑每个网页的其余特征。通常对于内容有差别的两个网页来说,其差别不只是体现在内容上面,在正文的长度上也会体现出差别。因此网页正文的长度也是区分不同网页的一个非常好的特征。如果在提取特征码的基础上再加上文本的长度作为另一个判断参数,这样会解决单纯的特征码问题的缺陷。于是本文提出了基于特征码和网页长度相结合的方法。
    在实际的应用中,由于在转载过程中可能加入一些代码,以及产生一些乱码,或者添加新闻来源和编辑的信息,使得即使正文内容完全相同,在最后的文章长度上也会有所偏差,但是长度值一定很接近。于是我们的去除网页重复链接的算法就分为以下几步:
1) 依次提取每个网页的特征码信息和正文长度信息,如果所有的网页都被提取完,转5);
2) 将提取出的网页特征码与平衡搜索树的特征码相比较,如果没有发现与之相同的,则转4),如果这个特征码与平衡搜索树中的某个节点处的特征码相同,则转3);
3) 再将提取出的特征码的长度与平衡搜索树中的与之相同的特征码的长度相比,如果比值落在某个阈值(该阈值是个经验值)内,则判断这两篇文章相同,转1),否则转4);
4) 将提取出的特征码插入平衡搜索树中,并转1);
5) 结束。
    由于步骤3的判断特征码是否重复主要依赖于某个阈值,因此对于该阈值的确定就成为了这个算法
的关键。由于不同网页的篇幅有很大的差异(丛几百字到数万字都有),设网页的正文长度为L,阈值为
a,而相同网页的文本长度的偏差为 S,则S=L*(a-1)。根据我们对重复网页的研究发现:不论L多大,
重复网页的S的差别并不大。因此如果阈值a取的过大,则对于那些篇幅很大的文章,S也会很大,会产
生将L较大的内容相同的文章错分为一类,如果阈值a取的过小,则对于那些L很小的而内容相同文章
错分为多类。所以对于阈值a的确定成为本项研究的主要工作。对于阈值的确定有两种方法:
1) 对于任何篇幅的文章,确定一个统一的阈值;
2) 对于不同篇幅的文章,分别使用不同的阈值。
方法 1)适合于语料规模不大的情况,而且会使得算法的设计比较简单;方法2)需要大规模语料的支持,并且会使得算法的设计比较复杂。因此本文使用了第一种方法。
 
4 实验结果及对比分析
    本文先通过对不同阈值的去重结果的分析确立出一个最优阈值,这里有一组不同阈值的去重的对比结果:
 
教育
科技
时事
体育
总计
=1.05
53/4
95/11
72/2
80/3
300/20
=1.10
53/1
95/4
72/4
80/0
300/9
=1.12
53/2
95/2
72/6
80/0
300/10
=1.14
53/3
95/3
72/3
80/0
300/9
其中每个空格内的数字表示的是:总类别数/错分数。通过上表可以看出,取a =1.10时效果最好。a=1.14处效果相同,但是a=1.10是处于这个曲线的最低点,所以不取a=1.14。
    然后再将a=1.10的去重结果和特征码方法的去重结果相比较,有如下表格:
 
教育
科技
时事
体育
总计
新方法
53/1
95/4
72/4
80/0
300/9
特征码法
53/5
95/5
72/12
80/4
300/26
通过上表可以发现:利用特征码与文章长度相结合的方法的去重结果要优于特征码方法。
 
5 结论
    本文提出了一种基于内容的网页特征码和网页正文长度相结合快速网页去重算法,实验证明:此种方法要优于基于网页特征码的方法。同时,此种方法对聚类也有一定的贡献。我们将在后续工作中使用更大规模的语料进行测试,并探索这种方法在聚类领域中的应用。
 
参考文献
 
[1]严蔚敏,吴伟民:“数据结构”,清华大学出版社,北京,1997年4月

[2]Besancon, R., Rajman, M., Chappelier, J. C. Textual similarities based on a distributional approach, Tenth International Workshop on Database and Expert Systems Applications, 1-3 Sept. 1999, pp.180-184

[3] 张刚等 “大规模快速网页去重算法”,第一届学生计算语言学研讨会论文及,北京, 2002 7

[4] Zheng De-Quan, Hu Yi, Yu Hao, et al. Research of specific information recognition in multi-carrier data streams, Journal of Software, 2003, 14(9), pp.1538-1543

[5]王晓东:“计算机算法设计与分析”,电子工业出版社,北京,2001年1月
[6] http://news.netcraft.com/archives/2004/08/index.html
 

Content Based Deletion Algorithm for Large Scale Duplicated Web Pages

           Peng Yuan Zhao Tiejun Zheng Dequang Yu Hao

(Machine Translation Laboratory , HIT. , Harbin 150001 , Heilongjiang , China)

Abstract: This Paper proposes a feature code and file length combined based deletion and combination algorithm for large scale duplicated web pages. This algorithm effectively improved efficiency of pure feature code method. Experiments have proved that the new method can make high performance in correctionness. And it can do some help to other research fields.

Key Words: feature code search engine file length

 

[1]作者简介:彭渊(1983-),男,硕士,主要从事互联网信息检索方面的研究。Email: [email protected]

你可能感兴趣的:(Algorithm,算法,搜索引擎,互联网,translation)