TENER: Adapting Transformer Encoder for Named Entity Recogni

 

论文要点

这篇文章应该是第一篇使用Transformer取得比较好效果的论文,分析了Transformer的特性,同时提出两种改进:

  • 原本position embedding只体现了距离,但没有方向性,NER中方向性是非常重要的,故而使用相对距离的方法表示

TENER: Adapting Transformer Encoder for Named Entity Recogni_第1张图片

 

  • 【基于直觉】对于NER任务,可能几个上下文关键词就可以帮助判断,故而应该增强这些关键词的作用,而原始Transformer会有scale过程削弱这些词作用,故而使用un-scaled、sharp的Attention,增强稀疏性

 

模型框架:

TENER: Adapting Transformer Encoder for Named Entity Recogni_第2张图片

  1. emb由两部分组成,char_emb经过Self-Attention,然后与word emb拼接到一起
  2. 拼接结果再经过多层Transformer,然后CRF预测
  • Transformer改进:
    • position emb改进:
      • 原公式中,若以Q·K计算,pos emb部分计算结果只与绝对距离有关,而以QWK计算,则没什么直观意义:

TENER: Adapting Transformer Encoder for Named Entity Recogni_第3张图片

 

                      改进该部分公式为:

TENER: Adapting Transformer Encoder for Named Entity Recogni_第4张图片

其中:R_{t-j}直接计算了两个token相对距离关系,t-j 是相对距离存正负,cos(-x) = cos(x)捕捉绝对距离关系,sin(-x) = -sin(x)捕捉方向性

TENER: Adapting Transformer Encoder for Named Entity Recogni_第5张图片

 

  • 原始Transformer公式中,会在Softmax时作一个缩放,但这篇论文表明,没有这个缩放效果会更好

TENER: Adapting Transformer Encoder for Named Entity Recogni_第6张图片

模型效果:

TENER: Adapting Transformer Encoder for Named Entity Recogni_第7张图片

模型缺点:

  1. 模型输入为char+word的形式,需要分词、word_emb,词部分存OOV
  2. QV 方向

你可能感兴趣的:(实体识别,论文阅读,NER,实体识别,自然语言处理)