Enriching Pre-trained Language Model with Entity Information for Relation Classification论文阅读

论文题目:Enriching Pre-trained Language Model with Entity Information for Relation Classification

作者:Shanchan Wu,Yifan He , Alibaba Group (U.S.) Inc., Sunnyvale, CA

原文链接:https://arxiv.org/pdf/1905.08284.pdf

github:https://github.com/monologg/R-BERT

摘要译文

​ 关系分类是提取实体之间关系的重要NLP任务。 关系分类的最新方法主要基于卷积或递归神经网络。 最近,经过预训练的BERT模型在许多NLP分类/序列标签任务中都取得了非常成功的结果。 关系分类与这些任务不同,因为它依赖于句子和两个目标实体的信息。 在本文中,我们提出了一个模型,该模型既利用预训练的BERT语言模型,又结合来自目标实体的信息来解决关系分类任务。我们定位目标实体,并通过预训练的结构和合并两个实体的对应编码来传递信息。相对于对于SemEval-2010 任务 8中关系数据集的最新方法,我们取得了显着改进。

任务描述

​ 给定一个文本序列(通常是一个句子)和一对名词“e1” 和“e2”,目的是识别“e1”和“e2”之间的关系。例如名词“kitchen”和“house”之间的“组件-整体”关系:“The [kitchen]e1 is the last renovated part of the [house]e2.”

主要思路

  • 先在两个目标实体的前后插入特殊token即符号“$”和”#“,然后再将文本输入BERT以进行fine-tuning,以识别两个目标实体的位置并将信息传递到BERT模型中。
  • 然后在BERT模型的输出embedding中找到两个目标实体的位置。
  • 使用实体的embedding以及句子编码(在BERT中设置特殊的第一个token的embedding,即[CLS])作为多层神经网络的输入进行分类。通过这种方式,既捕获了句子的语义,又捕获了两个目标实体,以更好地适应关系分类任务。

贡献

(1)提出了一种创新的方法来整合实体级信息放入预训练的语言模型中进行关系分类。

(2)实现关系分类任务的最新技术

模型框架

Enriching Pre-trained Language Model with Entity Information for Relation Classification论文阅读_第1张图片

  1. 模型输入为包含两个目标实体的单个句子,其中使用$标识第一个实体,使用#标识第二个实体,并且在开头添加[CLS]输入到bert里面。

    输入示例:在这里插入图片描述

  2. bert处理之后对应每个单词产生字向量。其中H0代表了[CLS]的embedding。由于BERT的特性,[CLS]可以代表整个句子的语义。实体1表示为对向量Hi到Hj取平均值,然后是一个全连接加激活函数。实体2是从向量Hk到Hm,处理过程与实体1相似。

    以上过程数学公式分别为:

在这里插入图片描述
Enriching Pre-trained Language Model with Entity Information for Relation Classification论文阅读_第2张图片
3. 将H’0、H′1、H’2进行拼接,再经过以一个全连接和softmax求得最终结果。
Enriching Pre-trained Language Model with Entity Information for Relation Classification论文阅读_第3张图片

实验结果

实验使用SemEval-2010 Task 8的数据集,该数据集包含9个语义关系类型和1个人工关系类型‘other’表示关系不属于9个关系中的任意一个。九种关系分别为Cause-Effect,Component-Whole, Content-Container, Entity-Destination, Entity-Origin, Instrument-Agency,Member-Collection, Message-Topic 和Product-Producer。

主要参数为:

Enriching Pre-trained Language Model with Entity Information for Relation Classification论文阅读_第4张图片

使用的BERT模型是uncased basic model,uncased代表不区分大小写,basic表示层数是12,具体的详情见https://github.com/google-research/bert和 https://arxiv.org/abs/1810.04805。

将R-BERT与最近针对SemEval-2010 Task 8 数据集发布的多种方法进行比较所得结果,可见R-BERT明显优于这些解决方案。

Enriching Pre-trained Language Model with Entity Information for Relation Classification论文阅读_第5张图片

你可能感兴趣的:(文献阅读,自然语言处理,知识图谱)