信息检索技术应用的新方向:普及检索和知识检索

信息检索技术应用的新方向:普及检索和知识检索

[2001-09-26]

施水才 
    

信息检索和全文检索的发展

如何快速、准确、全面地找到信息,在知识经济时代特别重要。近年来,信息检索技术取得了飞速的发展,特别值得一提的是中文全文检索技术的发展非常迅速,并且国内自主开发的产品取得了绝大部分的市场份额,这对于一个以核心技术为竞争优势的领域是非常难能可贵的。著名的全文检索系统TRS在政府、企业、媒体和教育领域都取得了卓越的成绩,市场占有率在70%以上。目前全文检索的技术已经比较成熟,正在得到广泛的应用。

搜索引擎检索技术的发展和不足

互联网的发展大大促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,目前最著名的搜索引擎包括Google, Altavista 等。搜索引擎服务和搜索引擎技术是完全不同的两个概念,每个门户网站都会提供搜索引擎服务,但背后的搜索引擎技术是一般用户看不见的。搜索引擎技术中也普遍采用了全文搜索技术,但互联网的信息和一般企业内部信息是不同的,有两个关键问题需要解决:一是速度,传统信息检索系统一般索引库规模度在G级,但互联网网页搜索需要处理几千万上亿的网页,二是相关性,信息太多,查准和排序就特别重要。解决第一个问题的基本策略都是采用检索服务器群集技术,解决第二个问题的方法包括象Google和百度等发展了的链接分析技术。

互联网网页搜索引擎目前面临三个主要挑战。一是检索的质量仍然需要提高,目前搜索引擎中基本上没有采用智能化技术,类似“孙悟空自然语言检索”等基本上是宣传,没有实质的自然语言处理和理解成分,二是知识压缩,互联网信息重复的太多,必须去重,有专家称为知识压缩。三是如何转向企业应用,搜索引擎基本上是随着.COM的浪潮发展起来的,因此随着.COM的破灭,搜索引擎技术开发公司也陷入了困境,国外的如AltaVista 迟迟没有上市,国内的搜索引擎公司恐怕也不能例外,因此大家都转向企业市场(传统市场)寻找真正的盈利点,但是搜索引擎技术的一些优势在企业应用中常常不起作用,甚至变成劣势, 变成查不全、查不准、查不稳定的搜索技术。如排序技术,企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息在检索结果的前面,一些搜索引擎所谓的链接分析专利技术以及内容聚类(门户搜索引擎的有效手段)对查询结果的排序基本不起作用,链接分析是根据一个网页被连接次数的多少作为重要性评判的依据,而一个网站内部的网页的链接是由网站内容采编发布系统决定,其链接次数完全是偶然因素,不能作为判别重要性的依据。又比如企业应用中要求搜索结果是稳定的,但搜索引擎常常做不到,而在许多搜索引擎应用中,为了在大规模网页下提高检索速度所采用的检索策略(可以说是技巧)以及索引方法常常导致检索结果的不稳定和不可理解。比如,我们发现针对某个门户搜索引擎,查询www.shuku.net在中国的镜像",我们输入检索表达式“镜像 中国 www shuku net”没有结果,但我们查询"www shuku net""中国 www shuku net""镜像 www shuku net"结果分别为368/368/361,这是错误的,是企业用户不可接受的。还有,搜索引擎应用普遍采用服务器群集技术,这对大多数企业应用是不合适和不必要的;搜索引擎的索引和服务是分开的,这不能适应企业应用中数据的动态性增长和修改;互连网搜索引擎都基于文件系统,但企业应用中内容一般均会安全和集中地存放在数据仓库中。因此先进搜索引擎技术应用于企业应用有很多局限性。

无所不在的信息检索:普及检索(Pervasive Retrieval)

一方面信息在爆炸性增长,另一方面使用信息的模式表现出多样性,同时商业决策越来越依赖于及时准确地获得有价值的信息,因此信息检索的应用表现为无所不在的信息检索,即普及检索(Pervasive Content Retrieval)。普及检索应用的主要方向为:

1.         在操作系统中内置内容检索引擎,即将发布的Windows XP操作系统中将内置先进的检索引擎,方面使用者快速搜索和定位硬盘上的文件,其特点表现为能很好处理各种格式化的文档。

2.         各种电子出版物和信息阅读工具中内容检索引擎,如CD出版物,Ebook阅读器,PDA甚至手机中内容检索界面。

3.         海量数据库或数字图书馆应用中的内容检索。

4.         Web信息检索,这就是传统的搜索引擎应用和针对特点网站的站内(站点)检索。

5.         电子商务应用中的智能信息检索,为B2CB2B应用提供强有力的内容整合和搜索能力,从而加速电子商务应用系统中的客户满意度。

普及检索对检索技术提出了一些新的要求,包括:可伸缩性(小到PDA, 大到整个互联网搜索和企业数据仓库);支持标准(XML, J2EE, Z39.50);混合搜索能力,可用性(从专家到一般消费者)等。

检索技术为内容管理提供引擎

普及检索要获得成功,为企业创造利润,一个主要的挑战是和内容管理密切结合,成为内容管理价值链中的核心引擎,内容管理是随着互联网的普及以及电子商务的发展而产生的,内容是对传统数据和信息概念的延伸,一个内容管理系统需要管理传统数据和信息之外的东西,如一个站点的网页,体现风格的模版文件甚至一些网站的应用程序。对于无论在数量上和种类上都大大增加的一个内容管理系统,如果没有一个强大的检索引擎,是不完整的也是不可想象的。检索作为内容管理的内嵌技术核心,为了适应不同的用户使用需求和不同的数据对象,必须提供不同的上层服务接口,有的体现为对结构化数据的查询,有的体现为文档/知识库的搜索,还有的体现为个性化服务。这些不同的形式主要是为了适合不同类型用户的需要。

知识检索:信息检索技术发展的焦点和方向

全文检索解决了一般非结构化文字信息内容的查询问题,有效解决了关系数据库管理系统不能很好查询非结构化信息的问题。但是全文检索的效果需要进一步提高,其适应不同应用的能力还需要改进,其核心是发展知识检索,知识检索的发展应该能够有效解决如下一些关键问题:

1.         结构化数据和非结构化数据的混合检索,在电子商务应用中,通常都需要系统能够高效地解决结构化数据和非结构化数据的混合检索问题,如在一个人才数据库查询中,除了可以对人才的一些特征进行查询外,更重要的是对其简历中的内容进行查询,尽管有些产品具有混合检索功能,但核心数据模型上都没有很好地解决这个问题,需要进一步发展。

2.         半结构化内容的检索-XML内容检索引擎XML已经成为数据描述和交换的标准,因此针对XML的半结构化特性,可以实现比传统全文检索更好的检索效果。

3.         智能化知识检索,智能检索常常被一些厂家误导,比如检索“华人”,包含“中华人民共和国”的内容不被检索出来,检索“电脑”,可以把包含“计算机”的内容检索出来,这些都智能检索的初级阶段,智能化知识检索应该更加注重文本挖掘的功能,我们认为现阶段一个智能型检索系统至少应该包含如下一些功能:(1)具有大规模实例描述的汉语分词排歧知识库。(2)具有主题词典、广义同义词检索、拼音检索、同音检索等功能。(3)具有基于内容的相似性检索功能,具有自动分类(自动聚类)和自动摘要功能,具有知识压缩和去重功能(4)具有文本挖掘功能,比如对数字的理解,新词学习等。(5)智能代理,自动和自助式检索。

知识检索依赖于语言学工程的突破,决不是一朝一日的事情,IBM和微软中国研究院、一些大学和研究所都在这方面投入很大的力量,在产品化方面,易宝北信在取得了中文全文检索的领导地位后,在知识检索方面的研发最近取得了重大的突破,在业界首先推出了实用化的中文自动分类、自动摘要、自动去重和相似性检索技术,从而为中文内容管理技术和产品奠定了坚实的核心竞争优势。

你可能感兴趣的:(人工智能)