Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition

Abstract & Introduction & Related Work

  • 研究任务
    低资源的命名实体识别
  • 已有方法和相关工作
    1. 将基于语篇标签、词形和手动创建的实体列表(称为地名索引)的语言学特征整合到神经模型中会导致 在英语数据上实现更好的NER
  • 面临挑战
    1. 但直接将地名词典特征整合到这些模型中是很困难的,因为这些语言的地名词典要么覆盖范围有限,要么完全没有。由于缺乏可用的低资源语言的注释者,扩展它们既费时又费钱。
  • 创新思路
    1. 引入了soft-gazetteers,一种基于高资源语言和大型英语知识库的现成数据来创建连续值的地名录特征的方法
    2. 使用了实体连接方法
  • 实验结论
    我们的实验证明了我们提出的软地名词典特征的有效性,在四种低资源语言中,平均比baseline提高了4个F1点。四种语言分别为:基尼亚卢旺达语、奥罗莫语、僧伽罗语和提格里尼亚语(什么牛马语言?)

Binary Gazetteer Features

二元地名录特征是用来指示对应的n-gram是否在地名录中出现

Entity Linking

实体链接(EL)是将命名实体的mention与其在结构化知识库(KB)中的相应条目联系起来的任务(Hachey等人,2013)。例如,将提到的实体 "火星 "与维基百科的条目联系起来。在大多数实体链接系统中(Hachey等人,2013年;Sil等人,2018年),第一步是筛选出候选的KB条目,这些条目由实体消歧算法进一步处理。候选检索方法,一般来说,也会根据输入的mention对每个候选结果进行评分

Soft Gazetteer Features

为低资源语言创建地名录是很困难的,我们提出一种软地名录,对比特定的指定地名录特征的值为0或1,软地名录是连续的,其值介于0到1之间

对于每一个span,我们假设有实体链接抽取方法返回一系列候选的结构化知识库,并对候选结果进行评分排名
Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition_第1张图片
尝试用不同的方式,候选名单来生成特征向量:

  1. 只选top1
  2. 选top3,三个特征向量
  3. 对于top3,判断跟候选类型t是否一致
  4. 计算前30名候选人的类型计数
  5. 计算连续两种得分间的差距
    Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition_第2张图片
    Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition_第3张图片

我们通过拼接这些特征的各自向量来试验这些特征的不同组合。连接后的向量通过一个具有tanh非线性的全连接神经网络层,然后用于NER模型中

Named Entity Recognition Model

增加一个自动编码器来重构手工制作的特征会导致NER性能的提高。自动编码器将BiLSTM的隐藏状态作为输入到一个具有sigmoid激活函数的全连接层,并重建了特征。这迫使BiLSTM保留来自特征的信息。软地名词典特征重建的交叉熵损失是自动编码器的目标, L A E L_{AE} LAE

训练损失是 CRF和自编码器的loss的综合
Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition_第4张图片

Experiments

Methods

Soft gazetteer methods

我们试验了为低资源语言设计的不同的候选检索方法。这些方法只用维基百科的小型双语词典进行训练,其规模与地名词典相似

  • WIKIMEN:WikiMention方法被用于几个最先进的EL系统中,其中,双语维基百科的链接被用来检索适当的英文KB候选
  • Pivot-based-entity-linking:这种方法使用n-gram神经嵌入法(Wieting等人,2016)在字符层面对实体提及进行编码,并计算其与KB条目的相似性。我们用两个变体进行实验,并遵循Zhou等人(2020)的超参数选择。
    1)PBELSUPERVISED:根据目标低资源语言中的少量双语维基百科链接进行训练。
    2)PBELZERO:在一些高资源语言(“支点”)上训练,并以零起点的方式转移到目标语言上。我们使用的转移语言是斯瓦希里语用于基尼亚卢旺达语,印度尼西亚语用于奥罗莫语,印地语用于僧伽罗语,以及阿姆哈拉语用于提格雷语

Oracles

作为准确率的上限,我们与两个人为的强大系统进行比较。

  • ORACLEEL:对于软地名词典,我们假设完美的候选检索,如果提及的内容不是NIL,则总是返回正确的KB条目作为首要候选。
  • ORACLEGAZ:我们通过在地名词典中增加所有的命名实体来人为地增加BINARYGAZ的容量。我们的数据集中的所有命名的实体。

Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition_第5张图片

Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition_第6张图片
Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition_第7张图片
Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition_第8张图片

Conclusion

我们提出了一种为低资源NER创建特征的方法,并在四种低资源语言上展示了其有效性。未来可能的方向包括使用更复杂的特征设计和候选检索方法的组合

Remark

模型很简单,这个软地名录方法感觉有点小复杂(

总之还行

你可能感兴趣的:(NLP,读paper,机器学习,人工智能,深度学习,神经网络,自然语言处理)