关系抽取综述《More Data, More Relations, More……》

Section2 介绍一些已有的RE方法
Section3 前沿RE正在解决的4个问题

Section2

1、关系抽取(RE)的功能
完整的关系抽取系统包括三部分:
1)NER 2)实体链接 3)关系分类
关系分类是重点和难点。
image
如图:关系分类就是把包含两个实体的句子分类为已经定义好的某种关系。
2、介绍3类方法

  • 模式方法
  • 统计方法

①基于特征的方法(为实体对及其上下文设计句法、语法、语义特征用于分类)。
②图方法——以有向无环图的方式抽取实体,文本和关系间的依赖,并使用推理模型来识别正确的关系。
③编码文本到低维的语义空间,再从这个语义向量中提取关系(受NLP其他任务的嵌入模型影响)。
④此外还有使用KG嵌入。
局限:人工设计特征或核函数,或图模型的能力有限。

  • 神经网络

优势: 更高效的抽取语义特征,泛化到更大范围的数据。
-Recursive NNs:递归学习句子的构成表示;
-CNNs:捕捉句子局部特征;
-RNNs:更好的处理长序列语句;
-GNNs:构造词汇/实体图用于推理;
-Attention-based NNs:聚合全局的关系特征;
不同于SRE ,NRE主要使用词汇编码位置编码而不是手工提取特征。
注释:位置编码指定词汇和实体间的相对距离。
-使用CNNs和RNNs来编码最短路径依赖。

  • 自2013年以来,神经网络方法带来了极大的能力提升(图为SemEval-2010数据集上的逐年分数)

关系抽取综述《More Data, More Relations, More……》_第1张图片

Section3

Section1中已经做过介绍:

作者将现阶段前沿工作分为4个方向:
使用更多数据(我理解为能放心使用大量数据,因为质量放心)
大量人工标注数据的工作可以被远程监督来替代,可远程监督下产生的自动标注数据会产生噪声样本。另外,远程监督仅使用简单的包含实体对的句子,严重削弱了提取能力。
所以这个方向的主要任务是设计一种模式来得到高质量和高覆盖率的数据。
达到更有效的学习
人类能够从一件事中学习到普遍性,所以模型也要学会去更有效地利用少得可怜的数据。
处理更复杂的内容
所有RE模型都在提取句内关系,而不是句间关系
开放域
如何自动发现没有事先定义好的关系。

1、使用更多数据

远程监督用来自动label,具体做法是用KGs中的关系来label含有同样实体对的文本。
缺点: 引入错误标签。
解决方法:
关系抽取综述《More Data, More Relations, More……》_第2张图片
因为远程监督这一块最近没有需求(我们的标记数据充足),之后再做笔记。

2、更高效学习

针对长尾分布(Addition中介绍什么是长尾分布)
解决方法:
小样本学习:
其场景通常设为:N-way K-shot,即N种随机取样的关系,每个关系具有K个样本。
两种手段:
关系抽取综述《More Data, More Relations, More……》_第3张图片

3、处理更复杂的上下文

大多数关系事实蕴含在诸如文档之类的复杂语境中,而不是从单个句子中提取,目前已有的方案如下:

  • 基于语法的方法;
  • 建立句子间实体图,利用实体间的multi-hop路径来推断正确的关系;
  • 利用图结构神经网络对句子间的相关性进行建模以进行关系抽取,从而引入记忆和推理功能;

一些值得更进一步探索的方向:

  • 需要阅读、记忆和推理才能发现句子中的关系事实,大多数RE模型在这些能力上很弱;
  • 跨文档
  • 利用搜索引擎自动搜索和分析关系抽取任务的背景信息。
4、面向开放领域

当前未在项目考虑之列,因为这一部分涉及下一代科学革命的知识。

Addition:

文中一些terms
长尾关系:那些通常使用的关系才包含足够多的训练实例,可大部分的关系的实例并不充足。
关系抽取综述《More Data, More Relations, More……》_第4张图片
上图代表两个数据库下的长尾分布,可以看到很多关系甚至不足10个实例。

你可能感兴趣的:(自然语言处理,算法,知识图谱)