实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。
从用户需求层面看,文本分类、文本聚类等技术能从大量的文本集合中筛选或组合出用户所需要的文本或段落。而实体关系抽取则可以从更小粒度的文本句子中挖掘出用户所需要的语义关系信息,给用户提供一项更精细的服务。实体关系抽取的结果可用于构建知识图谱或本体知识库,用户可从中检索和使用所需要的知识。实体关系抽取还能为自动问答系统的构建提供数据支持。当用户向自动问答系统提问时,自动问答系统能从其结构化数据库中快速准确地检索到答案并提供给用户。从理论价值层面看,实体关系抽取技术能为其它自然语言处理技术提供理论支持。实体关系抽取在语义网络标注、篇章理解、机器翻译方面具有重要的研究意义。
1998 年, 美国国防高级研究计划委员会( defense advanced research project agency, DARPA) 资助的最后一届消息理解会议( message understanding conference, MUC) 首次引入了实体关系抽取任务 。MUC 中的模板关系( template relation) 是对实体关系的最早描述。
1999 年, 美国国家标准技术研究院 ( nationalinstitute of standards and technology, NIST) 组织了自动内容抽取( automatic content extraction, ACE)评测,其中的一项重要评测任务就是实体关系识别 。ACE 实体关系语料定了 7 大类实体, 包括人物、组织、设施、处所、地理政治实体、车辆、武器,其中每个大类又分为多个子类。其中,中文语料由国内的哈工大自然语言处理实验室标注, 语料文本主要来自广播新闻( 40% ) 、新闻专线( 40% ) 和网络对话 ( 20% ) 。从 2009 年开始, ACE 被归入文本分析会议( text Analysis conference, TAC) , 成为了Knowledge Base Population 任 务 的 主 要 组 成部分 。
MUC、ACE 评测会议的实体关系抽取涉及的关系类型局限于命名实体( 包括人名、地名、组织机构名等) 之间的少数几种类型的实体关系, 如雇佣关系、地理位置关系、人—社会组织关系等。SemEval( semantic evaluation) 是继 MUC、ACE 后信息抽取领域又一重要评测会议,该会议吸引了大量的院校和研究机构参与测评。SemEval-2007 的评测任务 4 定义了 7 种普通名词或名词短语之间的实体关系,但其提供的英文语料库规模较小。随后,SemEval-2010 的评测任务 8对其进行了丰富和完善,将实体关系类型扩充到 9 种, 分别是: Component-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer 和 Entity-Origin。考虑到句子实例中实体对的先后顺序问题, 引入“Other”类对不属于前述关系类型的实例进行描述,共生成 19 种实体关系。SemEval-2010 评测引发了普通名词或名词短语间实体关系抽取研究的新高潮 。
实体关系抽取常采用准确率( precision) 、召回率( recall ) 、F 值 来 进 行 评 价, 其 计 算 表 达 式如下 :
precision = 某类被正确分类的关系实例个数/被判定为某类的关系实例总数
recall = 某类被正确分类的关系实例个数/测试集中某类的关系实例总数
F1 = 2 * precision* recall/precision + recall 。
根据对标注数据的依赖程度,实体关系抽取方法可分为有监督学习方法、半监督学习方法、无监督学习方法和开放式抽取方法 , 下面分别详细介绍这些方法的研究现状。
有监督学习方法是最基本的实体关系抽取方法,其主要思想是在已标注的训练数据的基础上训练机器学习模型,然后对测试数据的关系类型进行识别。有监督学习方法包括有基于规则的方法、基于特征的方法和基于核函数的方法。
基于规则的方法需要根据待处理语料涉及领域的不同,通过人工或机器学习的方法总结归纳出相应的规则或模板,然后采用模板匹配的方法进行实体关系抽取。
基于特征向量的方法是一种简单、有效的实体关系抽取方法,其主要思想是从关系句子实例的上下文中提取有用信息( 包括词法信息、语法信息)作为特征,构造特征向量, 通过计算特征向量的相似度来训练实体关系抽取模型。该方法的关键在于寻找类间有区分度的特征,形成多维加权特征向量,然后采用合适的分类器进行分类。
文献[1] 利用实体词、实体类型、引用类型等特征构造特征向量,采用最大熵分类器构建抽取模型,在 ACE RDC 2003 英文语料上的实体关系抽取实验表明, 该方法在关系小类上获得的 F 值为52. 8% 。
文献[2] 在之前的研究的基础上, 分类组织各种特征,形成平面组合核,并采用 SVM 分类器在 ACE RDC 2004 英文语料上进行实体关系抽取,获得了 70. 3% 的 F 值。
文献[3] 在已有特征的基础上,引入字特征, 并采用条件随机场 ( conditional random fields, CRF) 进行医学领域实体间关系的抽取,F 值达到 75% 以上。
基于特征向量的实体关系抽取方法能够取得较好的效果,但无法充分利用实体对上下文的结构信息。为此,人们提出了多种基于核函数的实体关系抽取方法,包括词序列核函数方法、依存树核函数方法、最短路径依存树核函数方法、卷积树核函数方法以及它们的组合核函数方法。部分学者还基于核函数的方法与基于特征向量的方法结合来进行实体关系抽取,实验结果表明基于核函数和基于特征的实体关系抽取方法可以相互补充。
文献[4] 率先提出基于 Bootstrapping 的半监督实体关系抽取方法,该方法从包含关系种子的上下文中总结出实体关系序列模式,然后利用关系序列模式去发现更多的关系种子实例,形成新的关系种子集合。
在基于 BootStrapping 方法的实体关系抽取方法中,一个关键的问题就是如何对获取的模式进行过滤,以免将过多的噪声引入迭代过程中而导致“语义漂移”问题。为了解决这个问题, 提出了协同学习( co-learning) 方法, 该方法利用两个条件独立的特征集来提供不同且互补的信息,从而减少标注错误。
无监督实体关系抽取方法无需依赖实体关系标注语料,其实现包括关系实例聚类和关系类型词选择两个过程。首先根据实体对出现的上下文将相似度高的实体对聚为一类,然后选择具有代表性的词语来标记这种关系。
文献[5] 对实体关系上下文的特征进行加权, 并采用改进的 K 均值算法进行聚类,在 ACE 语料上的抽取实验结果表明该方法优于 Hasegawa 方法。
近年来,相关专家学者提出了开放式实体关系抽取方法,该方法能避免针对特定关系类型人工构建语料库,可以自动完成关系类型发现和关系抽取任务。
开放式实体关系抽取方法的基本假设: 若已知两个实体存在某种语义关系,所有包含这两个实体的句子都潜在地表达了它们之间的语义关系。开放式实体关系抽取通过借助外部领域无关的实体知识库( 如 DBPedia、YAGO、OpenCyc、FreeBase 或其它领域知识库) 将高质量的实体关系实例映射到大规模文本中,根据文本对齐方法从中获得训练数据,然后使用监督学习方法来解决关系抽取问题。但是, 此方法获得训练语料存在较多噪声, 噪声标注的滤除成为该方法的研究重点。
distant supervision 实体关系抽取方法自提出以来,标注数据去噪问题引起了该领域专家学者的普遍关注。
文献[6] 最早提出 distant supervision实体关系抽取方法,利用 freebase 知识库和 wikipedia 文本库自动获取关系抽取训练数据( 训练数据获取过程实际上也是数据标注过程) , 并训练模型以实现关系抽取任务。在标注数据获取过程中,Mintz 等假定所有包含实体对的句子都蕴含了两者间的潜在关系。借助于该假定虽然获取特定关系类型的大量正确标注数据,同时也会引入该关系类型的大量噪声文本,称之为噪声标注。
[1] Kambhatla N. Combining Lexical, Syntactic and Semantic Features with Maximum Entropy Models for Extracting Relations[C] / / Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. 2004: 22.
[2] Zhao S, Grishman R. Extracting Relations with Integrated Information using Kernel Methods[C] / / Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. 2005: 419-426.
[3] Miao Q, Zhang S, Zhang B, et al. Extracting and Visualizing Semantic Relationships from Chinese Biomedical Text[C] / / Proceedings of the Pacific Asia Conference on Language. 2012: 99-107.
[4] Brin S. Extracting patterns and relations from the world wide web[M] . Berlin: Springer Heidelberg, 1999:172-183.
[5] 张志田. 无监督实体关系抽取方法研究[D] . 哈尔滨: 哈尔滨工业大学, 2007
[6] Mike Mintz, Steven Bills, Rion Snow, et al. Distant Supervision for Relation Extraction without Labeled Data[C] / / Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 1003-1011.