【论文笔记】Noise Mitigation for Neural Entity Typing and Relation Extraction

文章目录

  • Noise Mitigation for Neural Entity Typing and Relation Extraction
    • Abstract
    • 1 Introduction
    • 2 Related Work
    • 3 MIML Learning for Entity Typing
    • 4 Experiments

Noise Mitigation for Neural Entity Typing and Relation Extraction

这次要认真看了,因为要探究fined-grained entity typing如何优化RE的。

Abstract

本文主要针对两种不同类型information extraction问题中出现的噪音。

  1. Distant supervision的噪音
  2. 输入特征的噪音

任务为ET和RE

  1. 对于DS的噪音问题,使用MIML,将其第一个应用到Fine-grained ET问题上

  2. 对于输入特征的噪音,提出方法,优化noisy的entity type预测,并将其用于关系抽取。

我对第二点的理解就是entity type的标注会有错误,所以会导致输入特征有噪音,作者提出一种更加robust的预测,缓解了初始预测的错误导致后续任务的噪音。

1 Introduction

增加entity types作为特征可以提升RE模型的性能,然而noisy的训练数据和分类的困难会导致ET的错误预测,最终影响RE的性能。

作者提出的joint training model

其他的是将ET作为pipeline

2 Related Work

文中entity typing的种类是102种,而且与RE相比,是个multi-label问题

在joint work之中,不是只给出二元的entity type的值,而是给出概率的output。因此关系抽取可以补全entity typing导致的错误。

3 MIML Learning for Entity Typing

整体框架:

【论文笔记】Noise Mitigation for Neural Entity Typing and Relation Extraction_第1张图片

举个例子,这是一个MIML:
P ( t ∣ e ) = max ⁡ 1 ≤ i ≤ q P ( t ∣ c i ) P(t \mid e)=\max _{1 \leq i \leq q} P\left(t \mid c_{i}\right) P(te)=1iqmaxP(tci)

此处仅代表给定 e e e的情况下, t t t label的概率, t t t可以为任何label,那么就可以求出所有type T \mathcal{T} T的概率。从而决定是否为这个类型。

此外还有AVG, ATT等公式类型。

最终求得的结果是所有type T \mathcal{T} T的概率,这是确定的。 entity的训练样本从corpus中来。

获取 P ( t ∣ e ) P(t|e) P(te)之后,通过二元的cross entropy loss进行训练。
L ( θ ) = ∑ e ∑ t BCE ⁡ ( y t , P ( t ∣ e ) ) L(\theta)=\sum_{e} \sum_{t} \operatorname{BCE}\left(y_{t}, P(t \mid e)\right) L(θ)=etBCE(yt,P(te))
最终entity的信息与context进行concatenation,然后进行最终的关系预测:
t k → = f ( W t [ P ( t 1 ∣ c e k ) … P ( t T ∣ c e k ) ] ) \overrightarrow{t^{k}}=f\left(\mathbf{W}_{\mathrm{t}}\left[P\left(t_{1} \mid c^{e_{k}}\right) \ldots P\left(t_{T} \mid c^{e_{k}}\right)\right]\right) tk =f(Wt[P(t1cek)P(tTcek)])

  • W t ∈ R τ × T \mathbf{W}_{\mathbf{t}} \in \mathbb{R}^{\tau \times T} WtRτ×T 是可训练参数

  • τ \tau τ就是所有的entity type的数量

  • f f f是激活函数 tanh.

这样就把multi-label的信息encode进入RE之中了。

4 Experiments

【论文笔记】Noise Mitigation for Neural Entity Typing and Relation Extraction_第2张图片

P@1 = precision

MAP = mean average precision over types.

F1都是micro average F1

F1 head是entity frequncy > 100

F1 tail 是entity frequency < 5

总结:

主要的亮点是(1)joint learn, (2)first distant supervision to Fine grained entity typing with MIML。

模型虽然简单,但其实是distant supervised setting,会比较有趣,对两个任务的性能都有提升。

你可能感兴趣的:(深度学习,神经网络,自然语言处理,机器学习,人工智能,深度学习,算法,自然语言处理)