新闻网页中人物实体关系提取技术研究

信息抽取系统


DIPRE(Dual Iterative Parttern Relation Expansion)

DIPRE(Dual Iterative Parttern Relation Expansion)是一个利用自举方法实现命名实体之间关系抽取的系统,由 Brin于 1998 年提出。这个系统需要首先用人工的方式筛选得到少量具有某种关系的命名实体对实例作为种子集,之后发掘出与种子上下文中具有相同模式的命名实体对并把它们加入种子集中实现对关系种子的扩展。Brin 对网页中的(书名,作者)关系进行了抽取,取得了较好的效果。

FASTUS系统

FASTUS 抽取系统是由 Appelt 等人提出的,通过引入“宏”的概念(一个框架)将各种领域依赖规则以一种具有扩展性的、通用的方式进行表达。(可能是提供一个易用的具有可扩展性的框架,用户可根据具体的需求做相应的设定或扩展)。用户只需要修改相应“宏”的参数设置,就可以快速配置好特定领域任务的关系模式规则。FASTUS 系统中的所有模式规则被分成领域依赖和领域独立两部分。领域独立部分可以看作确定参数的宏。这些模式规则在一个相对粗的粒度层次上覆盖各种句法结果,目标是要对于符合模式的动词构造恰当的谓词-参数(Predicate-argument)关系。领域依赖的规则包含一些参数,这些参数必须通过“宏”的实例化来产生实际模式规则。这些领域依赖规则会指定哪一个动词载有领域相关信息,以及这些参数的领域依赖限制以及规则的语义。FASTUS 系统采用的编译时转换的方式实现了使用 12 个宏规则和 15 个领域依赖的规则就可以实现大概 100 个明确表达的模式的效果,这为系统在处理领域关系抽取任务时的配置工作节约了大量时间。

T-Rex关系抽取框架

可训练关系抽取框架(T-Rex,Trainable Relation Extraction Framework)是一个基于本体的关系抽取通用软件框架,由 José Iria 等人提出。该框架的目的是要提供语义网自动化语义标注任务需要的灵活度。由于 T-Rex 采用了参数化的插件结构,因此可以对多种基于不同抽取算法的插件进行集成和测试。T-Rex 最具特色的地方是它采用了规范的基于图的数据模型。该数据模型借助本体实现等级层次的表达结构,并允许以一致的方式任意链接子图,例如共指关系链接,语法关系链接,与 HTML 格式相关的链接等。T-Rex 数据模型的表示是等级化的,能够将语料模型化到字符级、语词级、短语级、语句级和文档级层次。通过对本体的定义和扩充,可以实现使用该多层次数据模型对于语料的多种特征集表达的一致性。

天网荟萃(WebDigest)研究项目

北京大学网络实验室于 2005 年启动天网荟萃(WebDigest)研究项目,旨在研究海量网页中实体、实体关系、事件等重要信息的提取问题,他们为此开发了一整套高效的信息提取和分析技术。该研究项目基于北京大学网络实验室天网荟萃小组开发的天网搜索引擎,高效、准确地从海量网页中提取出目标实体类型对应实体的实例(实体的实例包含实体的属性以及实体的相应活动,即事件,其中实体的属性和活动可以是相关联的),并确保提取的实例中包含目标实体类型实体的重要属性信息。同时它能从海量网页中准确提取出一个确定的实体的一类特殊属性-实体活动信息,并以恰当的方式组织起来。该系统可以在确保准确率和召回率的情况下,保证自动识别工作的高效进行。

商业公司

Intel中国研究中心

Intel 中国研究中心的 ZHANG Yi-Min等在 ACL-2000 上演示了他们开发的一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系统就是利用 MBL 算法获取规则用以抽取命名实体及它们之间的关系。他们将中文命名实体及其关系识别看作一系列分类问题。整个过程能够被分成两个阶段:第一阶段是学习过程,通过训练构建若干分类器;第二阶段是抽取过程,通过使用学习得到的分类器抽取中文命名实体和它们的关系。MBL 学习算法非常适合处理从大量不同来源获取的特征,并且能记住例外案例和低频案例,而这对于后续的推断阶段非常有用。该系统已经能够抽取的关系类型包括 Employee-of,Location-of,Product-of 和 No-relation。通过提供更多的训练数据,能够轻易扩展关系抽取类型。

微软亚洲研究院

人立方关系搜索是微软亚洲研究院网络搜索与挖掘组研发出的对象级别(object-level)互联网人物搜索引擎。它能从超过十亿的中文网页中自动的抽取人名、地名、机构名以及中文短语,并且通过算法自动计算出它们之间存在关系的可能性;同时,人立方关系搜索还索引了支持它们之间关系的网页文字。此外,人立方关系搜索能自动的找出人名之间最可能的关系描述词、与人名最可能相关的称呼、作品等词条等。人立方关系搜索从这些中文网页中自动的辨别出人名所对应的人物简介文字,并且按照这些文字是人物简介的可能性进行排序。用户给定任意搜索关键词,它能够找出与关键词最可能相关的人名、地名和机构名,并且根据它们与关键词之间的相关度排序。除此之外,人立方关系搜索还提供基于人名的新闻浏览功能,可视化关系搜索功能等。

Fish Search算法


爬行策略在网页爬取是一个十分重要的问题。一些学者提出了动态爬行策略,如 DeBra等人提出的 Fish Search 算法,它由仿生学和生物群智能演化而来,其基本思想是将整个网络比喻成一个“水池”,爬虫比喻成“鱼”,而主题相关网页比喻成“食物”。如果“食物”比较充足,则“鱼”就可以大量繁殖,否则自然饿死。(感觉很有意思

实体关系提取


文本中实体关系抽取是信息抽取的一个分支,其具体是指用自然语言处理、模式识别、机器学习等技术自动识别并提取文本中两个实体之间的关系。

实体和实体关系

实体关系抽取中涉及到的实体(Entity)是指文本语料中出现的自然界真实存在的事物。实体必须是具体的事物,可以是一个事物也可以是多个事物的集合。

ACE08定义了以下五大类、31 个小类的实体类型,具体见下表:

ACE08-5-31
ACE08也定义了七大类、19个小类的实体关系的类型,具体内容如下表(*表示这个关系是对称关系):
ACE08-7-19

实体关系提取的主要过程

1. 中文分词、词性标注

由于英语等西方语言中词与词之间是不连续的,所以也就不存在分词的问题。而中文的字与字、词与词之间是很少有分隔的,所以为了处理中文文本必须要先分词。在自然语言处理界对中文分词的研究已经有了不少成果,比较著名的有哈工大的分词系统、北大计算语言学研究所的分词系统和中科院计算所的分词系统。
词性是词的基本属性之一,只有在对词性正确分析的基础上才能够有效的识别命名实体及各种关系。所以词性的标注也是实体关系抽取的必要步骤。

2. 命名实体识别

命名实体的识别是实体关系提取中很重要的一步,是正确理解文本的基础。命名实体识别对实体关系抽取来说是至关重要的一个环节,因为只有正确识别出命名实体及其类型等信息,才有可能进行实体关系的抽取。命名实体识别的性能越好,语义关系抽取的性能也就越好。命名实体识别任务就是要找出文本中代表命名实体的词或词串,并加以归类。

3. 指代消解

在语言学中,把指代语(Anaphor)所指的对象和内容称为先行语(Antecedent),并把确定指代语的先行语的过程称为指代消解(AnaphoraResolution)。在真实的文本中实体不可能总是以正规的全名(即先行语)出现,代词和一些惯用的指代词使用的非常普遍,其中人名的指代是最为复杂的,如“他”、“小张”、“娜姐”(网球运动员、李娜)、“刘飞人”(刘翔)、“小悦悦”等。如果不能准确的建立指代词和正规名称之间的关系,那么实体关系提取的准确性和完整性就要受到很大影响。指代消解是一个非常复杂的问题,它的解决依赖于词性标注、命名实体识别、名词短语识别、句法分析、语义分析等众多相关技术。

4. 实体信息提取

实体和命名实体不同,命名实体是个名称实体,而实体则是内容丰富的实体,它不仅仅包含名称。实体信息的提取目的是尽可能多的获取实体的信息。

5. 语句筛选

这一步主要是筛选出对后续处理可能有价值的句子,目的是为了减少后续处理的工作量,提高整体的处理效率,方法是根据具体的需要设计一定的规则过滤掉不相关的句子。

6. 关系的提取

早期的研究主要是基于规则和知识库的方法,这种方法需要具有语言学功底的专家手工设定一些词法、句法和语义模式规则,然后再从自由文本中寻找相匹配的关系实例。
机器学习主要是通过在给定的标注语料库上进行训练得到一个关系抽取模型,然后再利用关系抽取模型对自由文本中出现的关系实例进行识别。这种方法往往将关系抽取问题看作为一个分类问题来研究。

7. 评价指标
评价指标

面临的问题

  • 大规模语料库的标注和获取
  • 跨句、跨段、跨文档的实体关系抽取

人名及人物属性信息提取


文本中人名识别

人名识别就是把人名从普通文本字串中准确地自动识别出来的过程。英文人名由独立的单词组成,格式固定而且这些单词是有一个比较明确的范围,所以英文人名识别起来相对容易。中文人名的识别则困难很多,一方面是因为中文人名构成复杂用字选择比较多而且经常出现一些口语化称呼,如小王、老李等;另一方面人名内部、人名与外部都有可能成词或者短语,如“东方夏天气极了”,“东方夏天”可以是一个复姓东方名夏天的人,但是“东方”和“夏天”都可以当做单独的词,同时“天气”也是一个名词。

中文人名识别的方案大致分为三种:规则方法,统计方法以及规则与统计相结合的方法。规则的方法简单且有针对性,这在处理的语料比较少的时候是适用的,一旦语料规模过大该方法就难以达到满意的效果了;统计的方法一般比较复杂而且需要大规模标注语料,这需要大量的人工劳动。目前人们一般倾向于将规则和统计的方法结合起来,调整二者的比重来来满足不同的人名识别精度和识别效率的需要。

文本中人物属性信息的识别与提取

人物属性信息主要包括:性别、出生年月、民族、籍贯、职务、文化程度等信息。通常来讲,除非在人物的简历里,否则这些信息不会同时在一个文档中出现,而且这些信息在文档中、段落中、句子中出现的位置与先后顺序也不一致。这些都对人物属性的抽取带来了不小的挑战。

目前人物属性信息的提取通常都采用一般的实体关系提取方法。这种方法把描述人属性的词也看做是实体,则人物属性抽取就被看做是实体关系抽取的具体应用。

参考链接

你可能感兴趣的:(新闻网页中人物实体关系提取技术研究)