Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER

Abstract & Introduction & Related Work

  • 研究任务
    不连续NER

  • 已有方法和相关工作

    1. mention不嵌套或重叠,因此每个标记最多属于一个mention
    2. mention由连续的标记序列组成。嵌套实体识别解决了违反第一个假设的问题。
  • 面临挑战

    1. 需要处理不连续的mentions
    2. 识别不连续的mention尤其具有挑战性,因为穷举可能的mention,包括不连续的和重叠的跨度,在句子长度上是指数级的
    3. 现有的方法在将中间表征翻译成mention时存在模糊性。
    4. 依赖手工设计的特征
    5. Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第1张图片
  • 创新思路
    使用专门的行为和注意力机制来确定一个span是否不连续mention的组成部分

  • 实验结论
    我们在三个具有大量不连续提及的生物医学数据集上评估了我们的模型,并证明我们的模型能够有效地识别不连续mention而不牺牲连续mention的准确性。

Model

给出解析器的状态,预测一个动作,应用该动作来改变解析器的状态。这个过程重复进行,直到解析器达到结束状态(即堆栈和缓冲器都是空的)
Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第2张图片
Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第3张图片
一切尽在图中
Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第4张图片

Representation of the Parser State

首先润BiLSTM得到上下文表示,每个token的embedding用char CNN得到
在这里插入图片描述
再跟ELMo拼接起来,其中 E L M o i ELMo_i ELMoi 是预训练的 E L M o ELMo ELMo 模型的输出表示(冻结),用于第i个标记。这些标记表征c直接用于表示缓冲区中的标记。
在这里插入图片描述
BERT也用了,但是效果没有ELMo好

每当用到REDUCE的时候,就丢到一个fc层里面,得到的新表示代替原来的两个span
Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第5张图片
当stack里面的span需要与buffer里面的span结合的时候,使用一个乘法注意力机制,并且每个W是每个s独有的
Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第6张图片

Selecting an Action

最终我们用栈最上面三个span和它们注意的表示的拼接来建立一个解析表示,如同之前的a的表示,用一个简单的双向LSTM来学习,如果堆栈中的跨度少于3个或没有以前的动作,我们使用随机初始化的向量 s e m p t y s_{empty} sempty a e m p t y a_{empty} aempty 来替换相应的向量。这个解析器表示被用作最后的softmax预测层的输入,以选择下一个动作

Data sets

Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第7张图片

Experimental Results

Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第8张图片
Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第9张图片
Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER_第10张图片

Summary

我们提出了一个简单有效的基于过渡的模型,可以在不牺牲连续mention的准确性的情况下识别不连续的mention。我们在三个具有大量不连续mention的生物医学数据集上评估了我们的模型。与现有的两个不连续的NER模型相比较,我们的模型更加有效,尤其是在召回率方面

Remark

这个跟stack结合到一起的模型属于是让我耳目一新,novelty很足(虽然是站在巨人的肩膀上而不是他首创),而且也能work,问题大小呢可能小一点,但是也让我见到了一种新的NER task,是篇好paper

你可能感兴趣的:(NLP,读paper,人工智能,自然语言处理,深度学习,神经网络,nlp)