Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification

Abstract & Introduction & Related Work

  • 研究任务
    命名实体识别和分类

  • 已有方法和相关工作

  • 面临挑战

  • 创新思路

    1. 提出了第一种用于zero-shot的NERC的方法
    2. 引入一个新的架构,利用许多实体类别的文本描述自然发生的事实
  • 实验结论

在训练过程中被观察到的非实体的词有可能属于其中一个测试类别,基于这种观察我们提出几种不同的架构,基于交叉注意力在语句和类型描述之间用transformer,结合预训练模型

我们通过以下方式探索对负类的建模

  1. 使用对负类的描述
  2. 直接建立负类的模型
  3. 使用为对应于类型的类所产生的表征来建立负类的模型
    Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第1张图片

Zero-shot NERC

对于每一个类型d,交叉注意力编码器生成一个向量表示v,对于每一个在语句s中的单词w
在这里插入图片描述
进行一个线性变换,o表示单词t有多大可能属于实体类c
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第2张图片
为了能不仅仅是分类实体,并且识别它们,每一个token的得分跟属于负类的得分拼接起来,对应于不属于所考虑的任何类型:
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第3张图片
选出一个得分最高的类
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第4张图片

Cross-attention Encoder

用bert
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第5张图片

Modelling the negative class

正如第1节所讨论的,非实体类创建了一个具有挑战性的设置。在训练期间观察到的非实体单词可能属于其中一个测试类。

Description-based encoding

在这里插入图片描述

然而,这种方法要求描述的东西不是而不是是。这使得在实践中很难就最合适的描述做出明智的决定。另外,非实体的标记很可能在训练和测试中有所不同,因此固定的描述不太可能表现良好

Independent encoding

负面类可以直接建模,因为它是在训练数据中观察到的。因此,在不考虑任何描述的情况下,每个标记在句子的上下文中被表示为否定类,而不是探索交叉注意力
在这里插入图片描述

Class-aware encoding

基于描述的编码和独立编码没有对以下事实进行建模,即在zero-shot的NERC中,并非每一个在训练期间被标记为非实体的实体在测试期间都是非实体。相反,我们建议通过结合交叉注意力编码器生成的其他类别的表征来为负类建模: v t , c 0 , . . . , v t , c k v_{t,c_0}, ..., v_{t,c_k} vt,c0,...,vt,ck。然后,每个向量被线性转换,使用 w n e g − c l w_{neg-cl} wnegcl,然后串联到一个特征图m
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第6张图片

Training

为了防止注意力编码器在少量类别描述上过拟合,我们使用一个实体屏蔽形式的正则器,这种正则化避免了词汇记忆,并鼓励模型学习实体上下文与类别描述的亲缘关系,同时仍然学习纳入实体本身的各个方面(例如大写字母、形状、形态),并将它们与类型描述联系起来

因为负类标签不平衡,使用
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第7张图片

Evaluation setup

Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第8张图片
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第9张图片
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第10张图片

Experiments

Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第11张图片
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第12张图片
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第13张图片
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第14张图片
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第15张图片
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification_第16张图片

Conclusions & Future work

本文探讨了带有实体类型描述的零点拍摄NERC的任务,将知识从观察到的类转移到未见的类。我们通过提出一个多类架构来解决零点拍摄NERC的具体挑战,该架构使用类意识编码来为负面类建模,从而使非实体类的定义不明确。这些模型基于OntoNotes和MedMentions数据集的零次改编进行了评估。结果显示,所提出的模型优于强大的基线,并进一步表明高质量的实体描述(即注释指南)是将知识从观察到未见的类转移的有效途径。未来的工作将旨在纳入预测的标签之间的依赖关系

Remark

这篇文章是真的搞,NER就NER,非要说个NERC,注意力就注意力,非要说个交叉注意力,显得自己很novel是吗?好无语

你可能感兴趣的:(NLP,读paper,transformer,深度学习,机器学习,自然语言处理,人工智能)