《信心抽取研究概述》读书摘要

信息抽取(Information Extraction)主要功能是从文本中抽取出特定的事实信息(factual information)。


信息抽取与信息检索的差异

① 功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在 从文本中直接获得用户感兴趣的事实信息。
② 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不 需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析 处理后才能完成。
③ 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只 能抽取系统预先设定好的有限种类的事实信息。

术语描述:

把信息抽取最终的输出结果称为模板(Template),模板中的域称为槽(Slot),而把信息抽取过程中使用的匹配规则称为模式(Pattern)。另外,我们把要提取的特定事件或关系称为一个场景(Scenario),而领域(Domain)的概念要宽泛一些,通常一个领域可以包含多个场景。比如,在金融领域的新闻中,可能包含有建立合资公司、股票转让等很多个场景。


信息抽取的研究和应用:

在研究方面,主要侧重于以下几方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取(Wrapper)以及对时间信息的处理等等。在应用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强大的信息服务系统。至今,已经有不少以信息抽取技术产品为主的公司出现,比较著名的有:Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。除强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所(NIST)组织的自动内容抽取(ACE,Automatic Content Extraction)评测会议。


信息抽取系统的体系结构:

Hobbs曾提出一个信息抽取系统的通用体系结构 [13] ,他将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。
Hobbs认为典型的信息抽取系统应当由依次相连的十个模块组成:
1、文本分块:将输入文本分割为不同的部分——块。
2、预处理:将得到的文本块转换为句子序列,每个句子由词汇项(词或特定类型短语)及相关的属性(如词类)组成。
3、过滤:过滤掉不相关的句子。
4、预分析:在词汇项(Lexical Items)序列中识别确定的小型结构,如名词短语、动词短语、并列结构等。
5、分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分析树片段集合。
6、片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。
7、语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑形式。
8、词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。

9、共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。
10、模板生成:由文本的语义结构表示生成最终的模板。



--copy 《信息抽取研究综述》李保利 陈玉忠 俞士汶




你可能感兴趣的:(Machine,Learning,&,Data,Mining,读书,自然语言处理,wrapper,文档,domain,金融)