Web信息抽取技术研究的发展历程

Web信息抽取(Web Information Extraction :WIE)的前身是文本理解,最早开始于 20世纪60年代中期,主要是从自然语言文本中获取结构化信息的研究,这被看作是信息抽取技术的初始研究。
    从20 世纪80年代末开始,信息抽取研究蓬勃开展起来,这主要有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加,另一个是“消息理解研讨 会”( MUC, Message Understanding Conference )从1987年开始到1998年共举行了七届会议对该领域的关注和推动。MUC由美国国防高级研究计划委员会(DARPA, the Defense Advanced Research Projects Agency )资助,其显著特点并不是会议本身,而在于对信息抽取系统的评测。近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几方面:利用机 器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取(Wrapper)以及对时间信息的处理等等。在 应用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强大的信息服务系统。至今,已经有不少以信息抽取技术产品 为主的公司出现,比较著名的有:Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。
   目前,除了强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所(NIST)组织的自动内容抽取(ACE, Automatic Content Extraction)评测会议。这项评测从1999年7月开始酝酿,2000年12月正式开始启动,从2000年到2007年已经举办过好几次评测。这 项评测旨在开发自动内容抽取技术以支持对三种不同来源(普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本)的语言文本的自动处 理,研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实体、关系、事件的识别与描述。与MUC相比,目前的ACE 评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统 跨文档处理(Cross-document processing)能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。
   国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面,遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。Intel中国研究中心 在ACL -2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。在MUC-6 和MUC-7 上,增加了中文系统的评测项目,国立台湾大学(National Taiwan University)和新加坡肯特岗数字实验室参加了MUC-7中文命名实体识别任务的评测,测试了中文命名实体(人名、地名、时间、事件等名词性短 语)的识别,取得了与英文命名实体识别系统相近的性能。当然这只是对中文信息提取作了比较初步的工作,并不能真正进行中文信息提取。另外,北京大学计算语 言所对中文信息提取也作了比较早的和比较系统的探讨,承担了两个有关中文信息提取项目的工作,即自然科学基金项目“中文信息提取技术研究”和IBM——北 大创新研究院项目“中文信息提取系统的设计与开发”。其目标是研究中文信息提取中的一些基础性和关键性的问题,为开发实用的信息提取技术提供理论指导,并 具体探讨信息提取系统设计的各个环节.
 

你可能感兴趣的:(网络开发)