孰优孰劣 如何评断?——搜索引擎性能评价的方法

在20世纪90年代中期,人们将已发展到一定程度的文本信息检索技术应用到Internet上,发明了检索各种信息资源的搜索引擎。随着各种搜索引擎的出现,人们也开始探索比较和评价其性能的方法。

方法不同 各有千秋

根据比较评价方式的不同,一般可以将其划分为以下几类:

1. 以描述为主的搜索引擎评价方式

这种评价方式大多是从搜索引擎的在线使用手册和个人的使用经验出发,集中在对单个搜索引擎的使用方法及特色服务的描述,而对于搜索引擎中较核心的搜索算法的性能一般不是特别涉及。由于其测试集往往是评价者自身实践的产物,而对于测试结果的评价也往往是评价者个人得出的结论,因而造成此类评价方法通常带有较多的主观因素,其参考价值有限。

2. 以查询结果的命中个数作为评价标准

莫斯科州立大学的Alexander Lebedev在“Best search engines for finding scientific information in the Net”(http://www.pharm.unito.it/itcrs/ comparis.html)中给出了较为详尽的实验结果和评价。其评价方法的出发点是源于研究人员查找论文时,尽量多获取前人有用结论的需要。因此,Lebedev将查全率(recall)赋于性能评价中重要乃至首要的地位。这也就造成了这种评价方法的不足之处,即对于Web上的大多数用户而言,在通常情况下,精确度(precision)而非查全率才是其关注的最主要因素,搜索引擎返回的命中网页个数过多,甚至恰好是用户不愿看到的。

3. 对索引网页的数目、索引更新间隔、用户交互的友好程度等搜索引擎实现的外围接口进行综合,作为评价标准

云南师范大学计算机科学与信息技术学院的陶跃华在其“因特网搜索引擎评价系统”(《计算机工程与科学》,2002[23]3)中,利用系统工程的基本思想和层次分析法,对上述各指标的权重进行了计算,建立了一个搜索引擎评价模型,给出了一种比较系统、科学的评价方法。但这种方法可能存在的弱点在于,它是从系统实现角度而非用户角度进行评价,考虑用户的实际需要较少,缺少进一步按照其满意程度进行优劣评估的途径。

4. TREC进行的实际测试

由NIST(美国国家标准技术局)举办的文本信息检索会议(Text Retrieval Conference, TREC)是文本信息检索领域一个国际性的标准评价类型的比赛。它向各参加者发布标准测试数据和检索问题,并在规定时间内提交检索结果,由组织者根据结果做出标准答案并对各结果进行评价。由于TREC提供的测试数据在信息检索领域具有较高的可信度,利用这些测试数据进行搜索引擎的性能评价工作也开展得较多。澳大利亚联邦科学与工业研究组织(CSIRO)研究员、TREC Web Track的组织者David Hawking与Nick Craswell在2001年召开的WWW10会议上就报告了一个利用TREC8和TREC9的测试数据进行搜索引擎(包括Google、lycos等11个搜索引擎)在线服务搜索性能比较的实验。当然,由于数据集内容差异很大,这些测试数据并不能使用TREC给出的测试标准答案来进行评测,这就使这些测试的可信度打了一些折扣。

主题网页查找方式

主题网页查找任务是去年的TREC11在网络信息检索方面加入的新内容,其任务是根据NIST给出的150个涉及社会生活各个方面的检索问题,在一个源于现实网络环境的多达19GB的超文本信息库中,查找最满足问题的一个或极少数几个答案。该任务与用户实际使用搜索引擎的形式十分贴近,即在浩繁的网络数据中找出与用户要求最匹配的网页,因此也被用来作为评价搜索引擎性能的一个衡量方式。该任务与以往的TREC测试数据相比,其利于进行搜索引擎性能评价的理由是,所采用的尽管仍是一个封闭的数据集合,但这个集合是从2002年当年标有“.gov”的政府相关网页中获得的,其实时性很高,甚至其答案集中的绝大部分网页可以在现实的网络环境中找到,因此,测试具有较高的可行性与可信性。当然,从这个测试出发,总结出一种可操作的评价搜索引擎的一般性的方法,是本文更重要的内容。

与前面提到的几种方式不同,该方法从用户的实际需要出发,拥有比较客观公允、涉及不同用户需要的测试集合,甚至可以允许使用不同的专业测试集合,得出针对这一特定专业内容的搜索引擎的性能评价。因此,具有较高的可信度和灵活度。

简单地说,主题网页查找的目的就是在超文本信息库中查找预知存在的、与所提问题最匹配的一个或极少数几个答案(通常用URL地址表示)。

例如,我们想得到参加“清华大学艺术特长生冬令营”的申请表,于是向搜索引擎提问。搜索引擎可能返回了它认为最合适的一组URL地址,但事实上我们需要获得的地址只有一个: http://166.111.37.250/jiaowu/yxjwglyd/doc/zhtechang/mybmb.doc,或与这个地址内容等价的页面地址。因此,我们期望在搜索引擎返回的答案中,这个答案(地址)所处的位置尽可能地靠前面。答案所处的位置成为我们评价搜索引擎性能的一个定量指标。

当然,应用主题网页查找方式对搜索引擎性能进行评价,事实上有以下两个前提条件:

条件1 使用搜索引擎的用户预先知道他所要查询的页面存在于Internet上;

条件2 在搜索引擎返回了用户需求的页面时,使用搜索引擎的用户希望该页面在排序中尽量靠前。

事实上,以上两个前提条件是符合大多数用户使用搜索引擎的心理和行为的。统计表明,大部分用户只浏览返回结果页面的第一页,以核对是否搜索出适合的页面。因此,用户目标页面的排序位置是搜索引擎是否满足用户需要的几乎是决定性的因素。

下面我们给出利用主题网页查找方式评价搜索引擎性能的具体步骤:

1.构造测试问题集合

测试集合的构建与评价搜索引擎对某一方面内容的搜索性能有关。我们可以根据不同领域中有代表性的问题,得出适用于某一领域或综合领域的测试问题集合。对搜索引擎中用户搜索请求数据的实际统计是获取这些测试问题的一个不错的途径。

2.获得标准答案

标准答案的获取是该性能评价方式中的关键,获取方式包括以下几种:

(1) 从测试集出发,挑选出评价人员认为最符合要求的网页作为标准答案,对使用的搜索工具不限。

(2) 从被评价的搜索引擎返回的结果集合出发,挑选出若干排序都比较靠前的网页作为标准答案。

(3) 综合以上两种方法,从被评价的搜索引擎返回的结果集合中挑选出若干排序都比较靠前的网页,让每个评价人员在其中挑选出自己认为最符合要求的一个或几个网页作为备选答案,再均衡几个评价人员的备选答案(例如取交集),以得到最后的标准答案。

方案(3)应当比较可取,因为它一方面尽可能地排除了人的主观因素对答案集的影响,另一方面也从搜索引擎的使用者——人的角度给出了一个答案的预期。事实上,这也是NIST给出标准答案的方式。

3.根据标准答案进行结果评价

对不同搜索引擎的返回结果进行评价,就可以得到搜索引擎对这个测试集合中不同问题的查准率。具体评价方式采用平均排序倒数(mean reciprocal rank of the homepage,MRR)方式,即对每个问题而言,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。

评价测试实例

下面结合实验,具体对几个常用搜索引擎进行主题网页搜索性能评价。根据上面提到的评价搜索引擎的具体步骤,我们对几个著名的Internet英文搜索引擎进行了评价测试。这些搜索引擎包括Alltheweb、Hotbot、Lycos和MSN。

1.测试问题集合

查找问题集合来自NIST的TREC11 Named Page Finding Task给出的150个问题。这些问题是MSN搜索引擎使用中用户实际提出的,带有很大的普遍性且涉及社会生活各方面的问题。因此,这是一个针对普通用户需要的多领域的比较客观的测试集合。

2.测试标准答案

测试的标准答案来自于NIST提供的针对TREC11 Named Page Finding Task的标准答案。由于这部分答案是根据一个真实的网络环境中.gov域的子集而非整个网络数据得出的,因而不可避免地带有一定的偏差,如:原网页被删除、原网页URL被更换、新网页出现等。不过对于被评价的几个搜索引擎而言,由于这些测试几乎是同时完成的,因此,测试环境对于它们来说基本上是公平的。

3.根据标准答案进行结果评价

基于前面说明的计算方法,我们得到了如下表所示的评价结果。

这一结果在一定程度上反映了进行评价的一段特定时间内的主题网页查找性能。根据每个搜索引擎页面设计的不同,它们每页返回结果的个数也有不同。从用户使用的角度出发,我们的评价实验只把第一页返回结果作为有效结果加以评价,这些返回结果的数目也列在了表中。

(计算机世界报 第08期 B8、B9)

//adbn('www.ccw.com.cn/','week');

你可能感兴趣的:(算法,搜索引擎,生活,网络应用,领域模型)