第六章 总结和讨论 |
第 6.1. 节 总结 ... 第 6.2. 节 讨论 ... 第6.1.节 总结信息抽取是近十年来新发展起来的领域。 MUC 等国际研讨会给予高度关注,并提出了评价这类系统的方法,定义了评价指标体系。 信息抽取技术的研究对象包括结构化、半结构化和自由式文档。对于自由式文档,多数采用了自然语言处理的方法,而其他两类文档的处理则多数是基于分隔符的。 网页是信息抽取技术研究的重点之一。通常用分装器从一特定网站上抽取信息。用一系列能处理不同网站的分装器就能将数据统一表示,并获得它们之间的关系。 分装器的建造通常是费事费力的,而且需要专门知识。加上网页动态变化,维护分装器的成本将很高。因此,如何自动构建分装器便成为主要的问题。通常采用的方法包括基于归纳学习的机器学习方法。 有若干研究系统被开发出来。这些系统使用机器学习算法针对网上信息源生成抽取规则。 ShopBot , WIEN , SoftMealy 和 STALKER 生成的分装器以分隔符为基础,能处理结构化程度高的网站。 RAPIER , WHISK 和 SRV 能处理结构化程度稍差的信息源。所采用的抽取方法与传统的 IE 方法一脉相承,而学习算法多用关系学习法。 网站信息抽取和分装器生成技术可在一系列的应用领域内发挥作用。目前只有比价购物方面的商业应用比较成功,而最出色的系统包括 Jango , Junglee 和 MySimon 。 第6.2.节 讨论目前的搜索引擎并不能收集到网上数据库内的信息。根据用户的查询请求,搜索引擎能找到相关的网页,但不能把上面的信息抽取出来。“暗藏网”不断增加,因此有必要开发一些工具把相关信息从网页上抽取并收集起来。 由于网上信息整合越来越重要,虽然网站信息抽取的研究比较新,但将不断发展。机器学习方法的使用仍将成为主流方法,因为处理动态的海量信息需要自动化程度高的技术。在文献 [52] 中提出,结合不同类型的方法,以开发出适应性强的系统,这应是一个有前途的方向。在文献 [36] 中,一种混合语言知识和句法特征的方法也被提出来。 本文介绍的系统多数是针对 HTML 文档的。以后几年 XML 的使用将被普及。 HTML 描述的是文档的表现方式,是文档的格式语言。 XML 则可以告诉你文档的意义,即定义内容而不只是形式。这虽然使分装器的生成工作变得简单,但不能排除其存在的必要性。 将来的挑战是建造灵活和可升级的分装器自动归纳系统,以适应不断增长的动态网络的需要。 |
参考文献 |
