文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121

论文信息
Subjects: Computation and Language (cs.CL)

(1)题目:A Survey on Deep Learning for Named Entity Recognition (命名实体识别的深度学习研究综述)

(2)文章下载地址:https://doi.org/10.48550/arXiv.1812.09449
Cite as: arXiv:1812.09449 [cs.CL]
(or arXiv:1812.09449v3 [cs.CL] for this version)

(3)相关代码:No official code found

(4)作者信息:Jing Li

————————————————

目录

    • Abstract
    • introduction
    • background
      • 1. What is NER?
      • 2. NER Resources: Datasets and Tools
      • 3. NER Evaluation Metrics
        • 3.1精确匹配评估
        • 3.2轻松匹配评估
      • 4. Traditional Approaches to NER
        • 4.1基于规则的方法
        • 4.2无监督学习方法
      • 4.3 基于特征的监督学习方法
    • Deep learning techniques for NER
      • 1. Why Deep Learning for NER?
        • Why we use a new taxonomy in this survey?
      • 2.Distributed Representations for Input 输入的分布式表示
        • 2.1单词级表示
        • 2.2字符级表示
        • 2.3.Hybrid Representation 混合表示法
      • 3.Context Encoder Architectures 上下文编码器体系结构
        • 3.1卷积神经网络
        • 3.2循环神经网络

Abstract

Named entity recognition (NER) is the task to identify mentions of rigid designators from text belonging to predefined semantic types such as person, location, organization etc. NER always serves as the foundation for many natural language applications such as question answering, text summarization, and machine translation. Early NER systems got a huge success in achieving good performance with the cost of human engineering in designing domain-specific features and rules. In recent years, deep learning, empowered by continuous real-valued vector representations and semantic composition through nonlinear processing, has been employed in NER systems, yielding stat-of-the-art performance. In this paper, we provide a comprehensive review on existing deep learning techniques for NER. We first introduce NER resources, including tagged NER corpora and off-the-shelf NER tools. Then, we systematically categorize existing works based on a taxonomy along three axes: distributed representations for input, context encoder, and tag decoder. Next, we survey the most representative methods for recent applied techniques of deep learning in new NER problem settings and applications. Finally, we present readers with the challenges faced by NER systems and outline future directions in this area.

命名实体识别(NER)是从属于预定义语义类型(如人、位置、组织等)的文本中识别刚性指示符的任务。早期的NER系统在设计特定领域的特征和规则时,以人力工程的成本获得了巨大的成功。近年来,由连续实值向量表示和通过非线性处理的语义合成所支持的深度学习已被应用于NER系统,产生了最先进的性能。在本文中,我们全面回顾了现有的NER深度学习技术。 我们首先介绍NER资源,包括标记的NER语料库和现成的NER工具。然后,我们沿着三个轴基于分类法对现有作品进行系统分类:输入的分布式表示、上下文编码器和标记解码器。接下来,我们调查了在新的NER问题设置和应用中最具代表性的深度学习应用技术方法。最后,我们向读者介绍了NER系统面临的挑战,并概述了该领域的未来方向。

introduction

NER:命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务。 NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。.命名实体识别的准确度,决定了下游任务的效果,是NLP中非常重要的一个基础问题。

AMED实体识别(NER)旨在识别属于预定义语义类型(如人、位置、组织等)的文本中对刚性指示符的提及[1]。NER不仅作为信息提取(IE)的独立工具,而且在各种自然语言处理(NLP)应用中发挥着重要作用,如文本理解[2]、[3]、信息检索[4]、[5]、自动文本摘要[6]、问题解答[7]、机器翻译[8]和知识库构建[9]等。

我们通常将NEs分为两类:一般NEs(例如,人和地点)和域特定NEs(如,蛋白质、酶和基因)。

关于NER中应用的技术,有四个主流:

  1. 基于规则的方法,它们不需要注释数据,因为它们依赖手工编制的规则;
  2. 无监督学习方法,其依赖于无监督算法,无需手动标记训练示例;
  3. 基于特征的监督学习方法,其依赖于具有仔细特征工程的监督学习算法;
  4. 基于深度学习的方法,以端到端的方式自动从原始输入中发现分类和/或检测所需的表示。

我们简要介绍1)、2)和3),并详细回顾4)

background

我们首先给出了NER问题的正式表述。然后,我们介绍了广泛使用的NER数据集和工具。接下来,我们详细介绍了评估指标,并总结了NER的传统方法。

1. What is NER?

命名实体是一个单词或短语,它从一组具有相似属性的其他项目中明确标识一个项目。NER 是将文本中的命名实体定位并分类为预定义实体类别的过程。

形式上,given a sequence of tokens s = , NER is to output a list of tuples ,如下图所示,其中每一个都是s中提到的命名实体Is∈ [1,N]和Ie∈ [1,N]是命名实体提及的开始和结束索引;t是预定义类别集合中的实体类型。
文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第1张图片
图1显示了一个NER系统从给定句子中识别三个命名实体的示例。注意,该任务集中于一小组粗略实体类型和每个命名实体一个类型。我们将这类NER任务称为粗粒度NER。

NER是各种下游应用程序(如信息检索、问题解答、机器翻译等)的重要预处理步骤。 以语义搜索为例来说明NER在支持各种应用程序中的重要性。语义搜索 是指一系列技术,这些技术使搜索引擎能够理解用户查询背后的概念、含义和意图[34]。根据[4],大约71%的搜索查询包含至少一个命名实体。在搜索查询中识别命名实体将帮助我们更好地理解用户意图,从而提供更好的搜索结果。

为了将命名实体纳入搜索中,Raviv等人[35]提出了基于实体的语言模型 [34],该模型考虑了单个术语以及注释为实体的术语序列(在文档和查询中)。也有研究利用命名实体来增强用户体验 ,例如查询推荐[36]、查询自动完成[37]、[38]和实体卡[39]、[40]。

2. NER Resources: Datasets and Tools

标记语料库是包含一个或多个实体类型注释的文档集合。表1列出了一些广泛使用的数据集及其数据源和实体类型(也称为标记类型)的数量。表1总结了2005年之前,数据集主要通过注释具有少量实体类型的新闻文章来开发,适用于粗粒度NER任务。之后,在各种文本源上开发了更多的数据集,包括维基百科文章、对话和用户生成的文本(例如,推文和YouTube评论以及W-NUT中的StackExchange帖子)。标签编号类型变得明显更大,例如HYENA中的505。我们还列出了一些特定领域的数据集,特别是在PubMed和MEDLINE文本上开发的数据集。实体类型的数量从NCBI疾病中的1种到GENIA中的36种不等。文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第2张图片
我们注意到,许多最近的NER研究报告了它们在CoNLL03和OntoNotes数据集上的性能(见表3)。

CoNLL03包含两种语言的路透社新闻注释:英语和德语。英语数据集包含大量体育新闻,其中有四种实体类型(个人、地点、组织和杂项)的注释[11]。

OntoNotes项目的目标是注释一个大型语料库,包括各种类型(网络日志、新闻、脱口秀、广播、usenet新闻组和会话电话语音)、结构信息(语法和谓词论证结构)和浅语义(与本体和共指关联的词义)。从1.0版到5.0版共有5个版本。文本注释有18种实体类型。我们还注意到两个Github资源库1,其中包含一些NER语料库。

有许多NER工具可用于在线预训练模型。表2按学术界(顶部)和行业(底部)总结了英语NER的流行值。文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第3张图片

3. NER Evaluation Metrics

NER系统通常通过将其输出与人类注释进行比较来评估。可以通过精确匹配或放松匹配来量化比较。

3.1精确匹配评估

NER主要涉及两个子任务:边界检测和类型识别。在“精确匹配评估”[11],[41],[42]中,正确识别的实例需要系统同时正确识别其边界和类型。更具体地说,假阳性(FP)、假阴性(FN)和真阳性(TP)的数量用于计算精度、召回和F分数。

• False Positive (FP): entity that is returned by a NER system but does not appear in the ground truth.

• False Negative (FN): entity that is not returned by a NER system but appears in the ground truth.

• True Positive (TP): entity that is returned by a NER system and also appears in the ground truth

精度是指正确识别的系统结果的百分比。召回是指系统正确识别的实体总数的百分比。
在这里插入图片描述
结合精度和召回的度量是精度和召回率的调和平均值,即传统的F度量或平衡F得分:
在这里插入图片描述
此外,宏观平均F分数和微观平均F分数都考虑了多个实体类型的绩效。宏观平均F得分独立计算不同实体类型的F得分,然后取F得分的平均值。微平均F分数汇总所有实体类型的单个假阴性、假阳性和真阳性,然后应用它们来获得统计数据。后者会受到语料库中大类实体识别质量的严重影响。

3.2轻松匹配评估

MUC-6[10]定义了一种宽松的匹配评估:如果实体被分配了其正确的类型,无论其边界如何,只要与地面真实边界存在重叠,就认为是正确的类型;无论实体的类型分配如何,都会记入正确的边界。然后ACE[12]提出了一个更复杂的评估程序。它解决了一些问题,如部分匹配和错误类型,并考虑了命名实体的子类型。然而,这是有问题的,因为只有当参数固定[1],[22],[23]时,最终得分才是可比的。复杂的评估方法不直观,使误差分析变得困难。因此,复杂的评估方法在最近的研究中没有得到广泛应用。

4. Traditional Approaches to NER

NER的传统方法大致分为三个主流:基于规则的、无监督的学习和基于特征的监督学习方法。

4.1基于规则的方法

基于规则的NER系统依赖手工制定的规则。基于手工制作的语义和句法规则来识别实体。当词汇穷尽时,基于规则的系统工作得很好。由于特定于领域的规则和不完整的字典,这些系统经常观察到高精度和低召回率,并且系统不能转移到其他领域。

4.2无监督学习方法

无监督学习的一种典型方法是聚类[1]。基于聚类的NER系统基于上下文相似性从聚类组中提取命名实体。关键思想是,可以使用在大型语料库上计算的词汇资源、词汇模式和统计信息来推断对命名实体的提及。

4.3 基于特征的监督学习方法

应用特征的监督学习,NER 被投射到多类分类或序列标记任务。给定带注释的数据样本,对特征进行了精心设计,以表示每个训练示例。然后利用机器学习算法来学习模型,以从看不见的数据中识别相似的模式。

特征工程在监督NER系统中至关重要。特征向量表示是对文本的抽象,其中单词由一个或多个布尔值、数值或标称值表示[1],[56]。单词级特征(例如,大小写、形态和词性标记)[57]–[59]、列表查找特征(例如维基百科地名录和DBpedia地名录)[60]–[63]以及文档和语料库特征(例如本地语法和多次出现)[64]–[67]已广泛用于各种受监管的NER系统。

基于这些特征,许多机器学习算法已应用于监督NER,包括隐马尔可夫模型(HMM)[69]、决策树[70]、最大熵模型[71]、支持向量机(SVM)[72]和条件随机场(CRF)[73]。

Deep learning techniques for NER

近年来,基于DL的NER模型成为主流,并取得了最先进的结果。与基于特征的方法相比,深度学习有助于自动发现隐藏特征。接下来,我们首先简要介绍什么是深度学习,以及为什么深度学习适用于NER。然后,我们调查了基于DL的NER方法。

1. Why Deep Learning for NER?

深度学习 是机器学习的一个领域,它由多个处理层组成,以学习具有多个抽象级别的数据表示[87]。典型的层是人工神经网络,由正向传递和反向传递组成。正向传递 计算前一层输入的加权和,并通过非线性函数传递结果。反向传递 是通过导数链式法则计算目标函数相对于多层模块堆栈权重的梯度。深度学习的关键优势是表示学习的能力和由向量表示和神经处理赋予的语义组合。这允许机器输入原始数据,并自动发现分类或检测所需的潜在表示和处理[87]。

将深度学习技术应用于NER有三大核心优势。首先,NER 受益于非线性变换,该变换生成从输入到输出的非线性映射。与线性模型(例如对数线性HMM和线性链CRF)相比,基于DL的模型能够通过非线性激活函数从数据中学习复杂和复杂的特征。第二,深度学习节省了设计NER特征的大量精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面,基于DL的模型可以有效地从原始数据中自动学习有用的表示和潜在因素。第三,深度神经NER模型可以通过梯度下降以端到端的模式进行训练。这一特性使我们能够设计可能复杂的NER系统。

Why we use a new taxonomy in this survey?

现有的分类法[26],[88]基于字符级编码器单词级编码器标签解码器。我们认为,“单词级编码器”的描述是不准确的,因为单词级信息在典型的基于DL的NER模型中使用了两次:1)单词级表示用作原始特征,2)单词级表达(连同字符级表示)用于捕获标签解码的上下文相关性。

NER的最新进展,如下图所示的一般架构。文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第4张图片
输入的分布式表示考虑了单词和字符级别的嵌入,以及在基于特征的方法中有效的POS标签和地名录等附加特征的结合。上下文编码器是使用CNN、RNN 或其他网络捕获上下文相关性。标记解码器预测输入序列中标记的标记。

在fig.2.中,每个tag都用一个标记进行预测,标记由一个命名实体的B-(开始)、I-(内部)、E-(结束)、S-(单例)及其类型表示,或者命名实体的O-(外部)表示。注意,还有其他标记方案或标记符号,例如BIO。标记解码器也可以被训练以检测实体边界,然后将检测到的文本跨度分类为实体类型。

2.Distributed Representations for Input 输入的分布式表示

表示单词的一个简单选项是一个热向量表示。在一个热向量空间中,两个不同的词具有完全不同的表示并且是正交的。分布式表示表示低维实值密集向量中的单词,其中每个维度表示潜在特征。从文本中自动学习,分布式表示捕获单词的语义和句法属性,这些属性在NER的输入。接下来,我们回顾了NER模型中使用的三种分布式表示:单词级、字符级和混合表示。

2.1单词级表示

通常通过无监督算法(如连续袋词(CBOW)和连续跳格模型[92])对大量文本进行预训练。可以在NER模型训练期间固定或进一步微调预训练的单词嵌入。常用的嵌入词包括Google Word2Sec、Stanford GloVe、Facebook fastText和SENNA。

2.2字符级表示

从端到端神经模型学习的基于字符的单词表示,而不是仅将单词级表示作为基本输入。已经发现字符级表示对于利用诸如前缀和后缀之类的显式子词级信息非常有用。另一个优势,字符级表示的特点是它自然地处理词汇表之外的内容。因此,基于字符的模型能够推断不可见单词的表示,并共享语素水平规则的信息。提取字符级表示有两种广泛使用的架构:基于CNN的模型和基于RNN的模型。如下
文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第5张图片
利用CNN提取单词的字符级表示。然后,字符表示向量在馈送到RNN上下文编码器之前与单词嵌入连接。单词的最终嵌入被馈送到双向递归网络中。 Yang等人[102]提出了NER的神经重新排序模型,其中在字符嵌入层的顶部使用具有固定窗口大小的卷积层。最近,Peters等人[103]提出了ELMo单词表示,它是在具有字符卷积的两层双向语言模型之上计算的。
文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第6张图片
对于基于RNN的模型,长短期存储器(LSTM)和门控递归单元(GRU)是两种典型的基本单元选择。

Kuru 等人[100]提出了CharNER,一种用于语言无关NER的字符级标记器。CharNER将句子视为字符序列,并利用LSTM提取字符级表示。它为每个字符而不是每个单词输出标签分布。然后从字符级标签中获得单词级标签。 他们的结果表明,将字符作为主要表示优于将单词作为基本输入单元。

Lample 等人[19]利用双向LSTM提取单词的字符级表示。类似于[97],字符级表示与来自单词查找表的预训练单词级嵌入相连接。Gridach[104]研究了识别生物医学命名实体时的单词嵌入和字符级表示。Rei 等人[105]使用门控机制将字符级表示与单词嵌入相结合。通过这种方式,Rei 的模型动态地决定了从字符或单词级组件中使用多少信息。Tran等人[101]引入了一种具有堆栈残差LSTM和可训练偏差解码的神经NER模型,其中从单词嵌入和字符级RNN中提取单词特征。Yang等人[106]开发了一个模型,以统一的方式处理跨语言和多任务联合训练。他们使用深度双向GRU学习信息形态学单词字符序列的表示。然后,字符级表示和单词嵌入被连接以产生单词的最终表示。

使用递归神经网络进行语言建模的最新进展使得将语言建模为字符上的分布成为可能。上下文字符串嵌入使用字符级神经语言模型为句子上下文中的字符串生成上下文化嵌入。一个重要的特性是嵌入是由其周围文本上下文化的,这意味着同一个单词根据其上下文用途具有不同的嵌入。下图说明了在句子上下文中提取嵌入单词“Washington”的上下文字符串的架构。文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第7张图片

2.3.Hybrid Representation 混合表示法

基于DL的表示以混合方式与基于特征的方法相结合。
添加额外信息可能会提高NER的性能,代价是损害这些系统的通用性。

3.Context Encoder Architectures 上下文编码器体系结构

在这里,我们现在回顾了广泛使用的上下文编码器架构卷积神经网络、递归神经网络、递推神经网络和深度变换器。

3.1卷积神经网络

句子方法网络,其中在考虑整个句子的情况下对单词进行标记,如图5所示。在输入表示阶段之后,输入序列中的每个单词都嵌入到N维向量中。然后使用卷积层来生成每个单词周围的局部特征,卷积层的输出大小取决于句子中的单词数量。通过组合由卷积层提取的局部特征向量来构造全局特征向量。全局特征向量的维数是固定的,与句子长度无关,以便应用后续的标准仿射层。
文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第8张图片
两种方法被广泛用于提取全局特征对句子中的位置(即“时间”步长)进行最大值或平均值运算。最后,这些固定大小的全局特征被馈送到标签解码器,以计算网络输入中单词的所有可能标签的分布分数。 继Collbert的工作之后,Yao等人[94]提出了生物医学NER的Bio-NER。Wu等人[120]利用卷积层来生成由多个全局隐藏节点表示的全局特征。然后将局部特征和全局特征都输入到标准仿射网络中,以识别临床文本中的命名实体。

使用RNN,后一个词比前一个词对最终句子表示的影响更大。然而,重要的单词可能出现在句子的任何地方。 在他们提出的名为BLSTMRE的模型中,BLSTM用于捕获长期依赖性并获得输入序列的完整表示。然后利用CNN学习高级表示,然后将其输入到S形分类器中。最后,将整句表示(由BLSTM生成)和关系表示(由S形分类器生成)输入另一个LSTM以预测实体

传统上,长度为N的序列的LSTM的时间复杂度以并行方式为O(N)。

Strubell 等人[91]提出了 ID-CNNs,称为迭代扩张卷积神经网络,由于处理更大的上下文和结构化预测的能力,其计算效率更高。图6显示了一个扩展的CNN块的结构,其中四个宽度为3的堆叠扩展卷积产生令牌表示。实验结果表明,与Bi-LSTM CRF 相比,ID-CNN实现了14-20倍的测试时间加速,同时保持了相当的准确性。
文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第9张图片

3.2循环神经网络

递归神经网络及其变体,如门控递归单元(GRU)和长短期记忆(LSTM),在序列数据建模方面取得了显著的成就。特别是,双向RNN在特定时间帧内有效地利用过去信息(通过前向状态)和未来信息(通过后向状态)[18]。因此,由双向RNN将包含整个输入句子的证据。因此,双向RNN成为构成文本深度上下文相关表示的事实标准。
文献学习02_A Survey on Deep Learning for Named Entity Recognition_20221121_第10张图片

你可能感兴趣的:(文献阅读,笔记,深度学习,深度学习,学习,人工智能)