信息检索趋势系列 搜索引擎的标准化研究(转载自:中国索引学会)

//文字比较浅淡,但有总结好过自己再总结。最下面的文献也可以参考。
中国索引学会 http://www.cnindex.fudan.edu.cn
 http://www.cnindex.fudan.edu.cn/zgsy/2006n3/heshaohua.htm
搜索引擎的标准化研究
何绍华 孙 琛
(武汉大学信息管理学院 武汉430072)
    摘   本文介绍了搜索引擎的概念;分析了当前搜索引擎的现状;着重论述了当前搜索引擎存在的问题,指出不足,旨在呼吁尽快依据实际情况为搜索引擎建立相应的标准,以切实解决网络信息的共建共享问题。
关键词 搜索引擎 标准化 
引言
搜索引擎经过了多年的发展之后,其功能越来越强大,提供的服务也越来越全面,它们的目标是发展成为用户首选的Internet入口站点,而不仅仅只是提供单纯的查询功能。集成化、产业化、智能化、多语化将是新一代搜索引擎的发展方向。未来的搜索引擎将是一个更加个性化、智能化,而且信息量更大、搜索速度更快、精确度更高并更能满足用户需要的服务系统。但是要达到这一目标,我们还要做出很大努力,当务之急是为搜索引擎建立一套规范的标准化体系。
搜索引擎的概念
网络搜索引擎,英文名称Search Engine,一般是指通过超媒体技术和在Internet上建立的一种向网络用户提供网上信息资源检索和导航服务的专门站点或服务器[1]。搜索引擎的任务,包括两个过程:一是在服务器方,即服务提供者通过搜集网上的信息,如网页、URL,以及非WWW形态的BBS、FTP、新闻等,进行搜索分析标引,建立相应的索引数据库,并自动跟踪信息源的变动,不断更新索引记录,定期维护索引库的过程;二是当用户方提出检索需求时,服务器方搜索自己的信息索引库然后发送给用户的过程。前者可以称作信息标引过程,后者可以称作提供检索服务过程。
搜索引擎的现状分析
3.1 搜索引擎的分类
目前Internet上提供检索服务的站点众多,其搜索引擎在收录的范围、检索方法等方面各不相同,各有千秋。根据其技术原理,可将其分为三大类:基于机器人的搜索引擎、基于目录的搜索引擎和元搜索引擎。
(1) 基于机器人(Robot)的搜索引擎。搜索引擎的robot(spider或crawler)从一组已知的文档出发,沿着万维网超级链接在网上漫游,采用广度优先和深度优先两种算法搜寻。一旦发现新网址,Robot即记录下URL以便再次访问,如此新网址即被索引直至没有为止,并从标题、META tags等表征特殊文献的信息抽取相关信息作为标引项,添加到索引数据库中供用户查询。
(2) 基于目录的搜索引擎。基于目录的搜索引擎将收集到的信息分类到某一个类中[2]。典型的基于目录的搜索引擎有Yahoo。
(3) 元搜索引擎。用户查询时,元搜索引擎调用其他多个独立的搜索引擎,并将从多个搜索引擎查询得到的结果进行处理,如删除重复结果、测试链接、结果排序等,这类搜索引擎自身可以不用对网上的网站、网页、FTP等资源建立数据库,进行组织与维护,而只需存储与其连接的站点的信息即可。元搜索引擎设计简单,但网络的负载太大。典型的元搜索引擎有Metacrawler等。
3.2 搜索引擎的国内外现状
1993年英国NEXOR公司开发出第一批网上检索工具Aliweb,时至今日,国外的搜索引擎发展迅速,已经比较成熟,而且在数据库收录范围、网上信息组织、检索性能、界面友好性及结果反馈等方面都有了比较成熟的技术。
与国外搜索引擎相比,国内搜索引擎起步较晚,中文搜索引擎是从1997年下半年开始的,目前已设计的百度、悠游、Yahoo、华好网景、指南针、聚宝盆等已被国内几家大型网站使用。在收录数量上,国外的搜索引擎能搜索上亿个网页,而国内目前只能达到2000余万个, 全网级搜索引擎缺乏,而且不同搜索引擎重复率很高,网络专业信息分布不均,速度也有差距。检索技术和检索结果不能令人满意[3]。
除数据库容量差异外,国内搜索引擎在相关性排序功能方面也无法与国外搜索引擎相提并论。对于检索结果的相关性排序问题,搜索引擎Google创造了一种基于引文分析的页面级别技术page rank,通过分析检索结果的链接数量和来源链接的质量而实现检索结果的相关性排序,它为网络计量学研究特别是网络站点排序方面发挥更大的作用。
国外著名的搜索引擎主要靠在搜索引擎上提供多样化服务来吸引更多的用户,以此来获取更多的广告收益;但国内搜索引擎却做得不够,很多搜索引擎把侧重点放在广告上而非服务上,导致服务质量上不去。目前国内各大门户网站使用的搜索引擎,一般都是直接或间接把国外的英文搜索软件加以汉化。而这些软件在设计时并没有考虑中国的使用习惯,无法充分本土化,因此存在不少局限性。
综上所述,目前我国搜索引擎虽然正在不断发展,但仍然远远落后于国外先进水平,还存在着许多缺点和不足。
搜索引擎存在的问题
搜索引擎是目前最重要的网络信息检索工具,其技术涉及信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等领域。因此,为了探究搜索引擎存在的不足,我们可以从相关方面着手。
4.1 用户查询接口不统一
用户查询接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制,主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息[4]。针对用户查询接口,各种搜索引擎不管是技术上或方法上都给出了不同的实现方式,尚不统一。其使用的方便性和用户友好性都有待进一步改进,目前一些公司和机构正在考虑制定查询选项的标准。
4.2 搜索引擎对信息的标引深度不够
目前, 网络信息挖掘是基于形式的,如关键词、标题等,所获得的信息与设定的要求只是简单的匹配。搜索引擎检索的结果往往只提供一些线性的网址和包括关键词的网页信息,特别是对特定的文献数据库的检索显得无能为力[5]。计算机不能理解文本,它必须将Web页面的内容用二进制的形式表示出来。目前Internet上多为机器人搜索引擎,它们是根据单词、短语在页面中出现的频度和位置来筛选、描述、标引页面,从而形成索引数据库供用户查询。但是页面上的图像却没能被标引,另外动态生成的Web页面,由于其动态性和结构瞬时性,也不会被索引。因此,对于中文搜索引擎,要运用网络的数据挖掘和知识提取来分析信息内容及其之间的关系,增加标引的深度,增加对多媒体检索的功能,即应能对以文本信息为代表的离散媒体和以图像、声音等为代表的连续媒体的内容进行检索。由于多媒体信息覆盖面较广,对象较多且复杂,因此需要建立一个高层的检索机制,用来对多媒体及其成分进行统一检索。
4.3 搜索引擎的检索语言不够灵活
    精确规范的人工语言和受控语言是现在信息检索的主流语言,但是要求用户利用标准的语词准确表达他们自己并不熟悉的检索内容,这既增加了检索者的学习负担,又降低了检索的效率。自然语言能更贴切地表达用户的查询要求,提高查询精度,易于搜索引擎和用户的交互。因此基于自然语言的检索是发展的必然趋势,在国外,将自然语言处理引入信息检索已由理论研究开始应用,而国内目前还基本处于理论探讨阶段。但是自然语言检索缺乏规范,所以如何建立统一的标准,通过自然语言的接口,提供高质量的检索是情报检索界正在不断探讨的问题。
4.4 单个搜索引擎的限制
由于现在Internet上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。而且经常是各引擎互相覆盖,用户会重复发现同一条信息。因此如果能提供一站式的搜索服务,使得互联网用户在搜索时只需输入一次查询目标,即可在同一界面得到各种有关联的查询结果,将是未来的发展趋势,元搜索引擎和分布式搜索引擎能很好地解决此问题。
4.5 语种的单一化,不兼容
随着国际交流的不断深入,仅仅凭英语一门语言作为搜索引擎的语种已经完全不可能,我们应逐步开发多语种的搜索引擎。如Google的服务器会自动识别该电脑所属国别,并用该国的文字进行显示,便于非英语国家的用户使用[6]。另外,由于全球不同国家的文化传统、思维方式和生活习惯均不同,因此搜索引擎就必须具有兼容性,这就要求开发人员能把握好标准性和兼容性的平衡度。
4.6 缺乏统一的Web版检索词表和分词词表
词表的运用,能使搜索引擎的检索趋向智能化。尤其在使用自然语言时会十分有用;另外,由于中文词之间没有空格,需要人为切分,而且汉语中存在大量歧义现象,对几个字分词,可以有好多结果。因此,如果没有统一的检索词表和分词词表,将会给服务器方和用户均带来不便。因此,我们必须尽快为搜索引擎创建统一标准的检索和分词词表。
4.7 缺乏对结果反馈的评价标准
目前多数搜索引擎在结果反馈上仅提供站点的链接和简短的描述,缺少对其相关度和价值的评价体系和标准。而且搜索引擎自身的性能优劣不一,目前很多搜索引擎重点都放在网上的源信息,而忽视了对搜索引擎自身这种工具的评价。因此针对源信息,要在已有搜索引擎的基础上,建立对搜索结果的评价与筛选标准体系。
结束语
   搜索引擎自诞生至今没有多长时间,在网络信息组织与检索方面起到了重要作用。随着互联网上的信息呈几何级数式的爆长,人们对搜索引擎的期望值越来越高。虽然搜索引擎技术在不断地发展,但目前尤其是在我国,搜索引擎仍然存在很多不足,与国际先进水平相比还有很大一段距离,因此与国际惯例接轨,根据本国的实际情况,制定出一套搜索引擎的标准体系是亟待解决的问题。
参考文献
1 符绍宏,黄菎.搜索引擎技术与服务的研究及其启示, 情报学报,2000(6)
2 李远明.试析搜索引擎技术及其未来发展趋势,情报检索,2002(7)
3 王红梅,朱洪秀,王凌. 对中文搜索引擎未来发展的探讨,东北电力学院学报,2001,21(4)
4 张军,陈益君.搜索引擎的功能及其局限性探讨.情报科学,2001(5)
5 唐铭杰.论搜索引擎的发展概况及发展趋势,情报杂志,2001(5)
6 杨应全,文汝,黄登婕.搜索引擎的不足与应用经验,现代情报,2005(7)
7 Jose Perez Carballo. Natural language information retrival progress report[J]. Information Processing and Management.
8 http://www.sohu.com
9 http://www.yahoo.com
10 http://www.google.com
11 http://www.baidu.com
 
何绍华 武汉大学信息管理学院教授。
孙   武汉大学信息管理学院2005级情报学硕士研究生。

你可能感兴趣的:(信息检索趋势系列 搜索引擎的标准化研究(转载自:中国索引学会))