Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer

Abstract & Introduction & Related Work

  • 研究任务
    中文NER
  • 已有方法和相关工作
    1. Lexicon-based NER
    2. Lattice-based Transformer
    3. Porous Lattice Transformer,FLAT 和 Porus lattice transformer 的主要区别在于表示位置信息的方式。我们用’头’和’尾’来表示标记在格子里的位置。他们使用 ‘头’,标记的相对关系(不是距离)和一个额外的GRU。他们还使用 "porous"技术来限制注意力的分布。在他们的模型中,位置信息是无法恢复的,因为 "头 "和相对关系会导致位置信息的丢失。简而言之,相对距离比相对关系携带更多信息
  • 面临挑战
    lattice structure是复杂且动态的,很难应用GPU的并行性,推理速度慢
  • 创新思路
    将lattice structure 转化成flat structure
  • 实验结论
    在表现和推理速度上都超越了其他的基于词汇的模型

对于每个词和词汇,都加上了position index,表示其在原句子中的起始和结束位置,所以就能直接用transformer来完整建模模型输入
Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第1张图片

Model

Converting Lattice into Flat Structure

把words加在后面,原有的token首位都是一个位置,我们假设flat-lattice可以保持lattice的原始结构
Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第2张图片

Relative Position Encoding of Spans

各个span之间的关系,我们不直接编码 交叉、包含和分离这三种关系,而是用其首位信息编码其相对位置关系
Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第3张图片
把这几个位置信息经过位置编码后,再通过一个矩阵投射,再加上一层Relu
Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第4张图片
transformer的位置编码
Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第5张图片
用自注意力的变体来计算一个注意力分数,在编码后,输入给一个CRF层进行解码
Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第6张图片
在这里插入图片描述

Experiments

Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第7张图片
Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第8张图片

Raki的读paper小记:FLAT: Chinese NER Using Flat-Lattice Transformer_第9张图片

Conclusion and Future Work

在本文中,我们引入了一个flat lattice transformer,将词库信息纳入中文NER。我们模型的核心是将lattice结构转换为一组spans,并引入特定的位置编码。实验结果表明,我们的模型在性能和效率上优于其他基于词库的模型。我们将调整我们的模型以适应不同种类的lattice或图作为我们未来的工作。

Remark

这篇paper给人的第一感觉就是,简单明了,直接看模型结构图就能明白是什么样子的,然后model也是非常非常的简单,仅仅做了一个相对位置编码处理,一个变种自注意力,一个CRF层,就能达到一个好的效果,相比之前的复杂paper,让我感受到了大道至简的魅力,不愧是邱老师组的,狠狠爱了!!

你可能感兴趣的:(读paper,NLP,transformer,深度学习,人工智能,机器学习,自然语言处理)