本文是对 《命名实体识别技术综述》的摘录和笔记。
论文链接
命名实体识别(NER)的目的是识别文本中的命名实体(边界)并将其归纳到相应的实体类型中。一般的实体类型包括人名、地名、组织机构名、日期等。
NER的主要难点在于领域命名实体识别的局限性(如军事领域命名实体识别等)、命名实体表述的多样性和歧义性、命名实体的复杂性和开放性。
NER的研究进程从最初的规则字典方法到统计机器学习方法,再到目前的深度学习方法,性能不断提高。
目前NER的研究热点主要包括:匮乏资源下的命名实体识、细粒度命名实体识别、嵌套命名实体识别以及实体链接。
NER的意义:建立一个可以支撑自然语言理解和处理的大规模知识库对于实现人工智能的目标非常重要。NER可以检测出文本中的新实体和相应类型并加入到现有知识库中,为推动人工智能发展提供可靠的知识和技术基础。NER在多种NLP任务中都有广泛的应用,例如知识图谱构建、机器翻译、知识库构建、自动问答、网络搜索等。
领域命名实体识别局限性
NER在一些特定的领域和有限的实体类型中取得了较好的成绩,如新闻语料中的人名、地名、机构组织名的识别。但不能很好的迁移到其他领域,如军事、医疗、小语种语言、生物等。一方面是不同领域的数据都有该领域独特的特征,如医疗中的命名实体包括疾病、症状、药品等,新闻领域的模型肯定不适合;另一方面,一些领域缺乏标注数据集,模型难以训练。
半监督学习、远监督学习、无监督学习方法实现数据自动构建和补足以及迁移学习技术的应用可作为该问题的核心研究方向。
命名实体表述多样性和歧义性
不同文化、领域、背景下,命名实体的外延有差异,存在命名实体表述多样、指代不明确的现象。需要充分理解上下文语义来挖掘实体语义进行识别。可以通过实体链接、融合对齐等方法,实现实体不同表示的对齐、消除歧义。
命名实体的复杂性和开放性
传统NER主关注一小部分粗粒度的实体类型,如人名、地名、组织机构名等,实际场景中实体类型复杂多样,需要识别出更细粒度的实体类型,如人名可以细分为运动员、科学家等,地名可细分为国家、城市等。开放性指的是命名实体的类型和内容并不是永久不变的,随着时间变化可能会发生各种演变。
基于规则和字典和方法
语言学家通过人工方式,依据数据集特征构建特定规则模版或者特殊词典,使用匹配的方式对文本进行处理实现NER。可扩展性比较差,不好在其他实体类型或数据集扩展。
基于传统机器学习的方法
基于机器学习的方法中,NER被看作序列标注问题。也就是对序列中的每个元素(字/词)基于标签集合进行多分类。与朴素的分类问题相比,序列中每个元素当前的预测标签不仅与当前输入特征有关,还与之前预测标签有关,即预测标签序列之间有依赖关系。如在NER中,预测标签之间会有一些限制,如I-LOC不能出现在B-LOC之前、I标签不能出现在序列首部等。
主要方法包括:HMM、最大熵、最大熵HMM、SVM、CRF等。其中CRF被看作传统机器学习方法中做NER的主流模型,它对一个位置/元素进行标注过程中可以利用内部及上下文特征信息。
基于深度学习的方法
主流模型包括BiLSTM-CRF、BiLSTM-CNNs-CRF、Bert/AlBert+(BiLSTM)+CRF等。其中的神经网络结构可以有效的建模上下文信息,CRF可以优化输出标签序列,添加一些约束。
最近,在基于神经网络的结构上加入注意力机制、GNN、迁移学习、远监督学习等热门技术是目前主流的研究方向。
一些学者采用迁移学习的方法,桥接富 足资源和匮乏资源,命名实体识别的迁移学习方法可以分为两种:基于并行语料库的迁移学习和基于共享 表示的迁移学习。利用并行语料库在高资源和低资源语言之间映射信息,Chen和Feng等[1-2]提出同时识别 和链接双语命名实体。Ni和Mayhew等[3]创建了一个跨语言的命名实体识别系统,该系统通过将带注释的富 足资源数据转换到匮乏资源上,很好地解决了匮乏资源问题。Zhou等[4]采用双对抗网络探索高资源和低资源之间有效的特征融合,将对抗判别器和对抗训练集成在一个统一的框架中进行,实现了端到端的训练。
还有学者采用正样本-未标注样本学习方法(Positive-Unlabeled, PU),仅使用未标注数据和部分不完善的 命名实体字典来实现命名实体识别任务。Yang等学者[5]采用AdaSampling方法,它最初将所有未标记的实例 视为负实例,不断地迭代训练模型,最终将所有未标注的实例划分到相应的正负实例集中。Peng等学者[6] 实现了PU学习方法在命名实体识别中的应用,仅使用未标记的数据集和不完备的命名实体字典来执行命名 实体识别任务,该方法无偏且一致地估算任务损失,并大大减少对字典大小的要求。
针对资源匮乏领域标注数据的缺乏问题,基于迁移学习、对抗学习、远监督学习等方法被充分利用,解决资源匮乏领域的命名实体识别难题,降低人工标注工作量,也是最近研究的重点。
大多数命名实体识别研究都集中在有限的实体类型上,Ling和Daniel[7]定义了一个细粒度的112个标签集,如下图所示,将标签问题表述为多类型多标签分类。
学者们在该领域已经进行了许多研究,通常学习每个实体的分布式表示,并应用多标签分类模型进行类型推断。Neelakantan和Chang [8]利用各种信息构造实体的特征表示,如实体的文字描述、属性和类型, 之后,学习预测函数来推断实体是否为某类型的实例。Yaghoobzadeh等[9]重点关注实体的名称和文本中的实体指代项,并为实体和类型对设计了两个评分模型。这些工作淡化了实体之间的内部关系,并单独为每个实体分配类型。Jin等[10]以实体之间的内部关系为结构信息,构造实体图,进一步提出了一种网络嵌入框架学习实体之间的相关性。最近的研究表明以卷积方式同时包含节点特征和图结构信息,将实体特征丰富到图结构将获益颇多[11-12]。此外,还有学者考虑到由于大多数知识库都不完整,缺乏实体类型信息,例如 在DBpedia数据库中36.53%的实体没有类型信息。因此对于每个未标记的实体,Jin等[13]充分利用其文本描 述、类型和属性来预测缺失的类型,将推断实体的细粒度类型问题转化成基于图的半监督分类问题,提出了使用分层多图卷积网络构造3种连通性矩阵,以捕获实体之间不同类型的语义相关性。
此外,实现知识库中命名实体的细粒度划分也是完善知识库的重要任务之一。细粒度命名实体识别现 有方法大多是通过利用实体的固有特征(文本描述、属性和类型)或在文本中实体指代项来进行类型推断, 最近有学者研究将知识库中的实体转换为实体图,并应用到基于图神经网络的算法模型中。
嵌套实体识别充分利用内部和外部实体的嵌套信息,从底层文本中捕获更细粒度的语义,实现更深层次的文本理解,研究意义重大。
另一些学者使用深度学习研究文本语义。Francis-Landau等[26]使用卷积神经网络学习文本的表示形式, 然后获得候选实体向量和文本向量的余弦相似度得分。Ganea和Hofmann[27]专注于文档级别的歧义消除,使用神经网络和注意力机制来深度表示实体指代项和候选实体之间的关系。Mueller和Durrett[28]将句子左右分开,然后分别使用门控循环单元和注意力机制,获得关于实体指代项和候选实体的分数。Ouyang等[29]提出一种基于深度序列匹配网络的实体链接算法, 综合考虑实体之间的内容相似度和结构相似性,从而帮助机器理解底层数据。目前,在实体链接中使用深度学习方法是一个热门的研究课题。
大部分数据集的发布官方都直接给出了训练集、验证集和测试集的划分。同时不同的数据集可能采用不同的标注方法,最常见的标注方法有 IOB,BIOES,Markup,IO,BMEWO 等,下面详细介绍几种常用的标注方法:
1) IOB 标注法,是 CoNLL 2003 采用的标注法, I 表示内部,O 表示外部, B 表示开始。如若语料(序列)中某个词标注 B/I-XXX,B/I 表示这个词属于命名实体的开始或内部(中间或结尾),即该词是命名实体的一部分,XXX 表示命名实体的类型(如Person、Location等)。当词标注为 O 则表示属于命名实体的外部,即它不是一个命名实体。
2)BIOES 标注法,是在 IOB 方法上的扩展,具有更完备的标注规则。其中 B 表示这个词处于一个命名实体的开始,I 表示内部(中间),O 表示外部,E 表示这个词处于一个实体的结束, S 表示这个词是单独形成一个命名实体。BIOES 是目前最通用的命名实体标注方法。
3)Markup 标注法,是 OntoNotes 数据集使用的标注方法,方式比较简单。例如:ENAMEX TYPE=”ORG”>LondonENAMEX> is an international metropolis,它直接用标签把命名实体标注出来,然后通过 TYPE 字段设置相应的类型。
召回率: 真正为正类的样本中,有多少被预测成正类,即:
F1 值:是精确率和召回率的调和平均指标,是平衡准确率和召回率影响的综合指标。
[1]. CHEN Y, ZONG C, SU K Y. On Jointly Recognizing and Aligning Bilingual Named Entities[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 631-639.
[2]. FENG X, FENG X, QIN B, et al. Improving Low Resource Named Entity Recognition using Cross-lingual Knowledge Transfer[C]//IJCAI. 2018: 4071-4077.
[3]. MAYHEW S, TSAI C T, ROTH D. Cheap Translation for Cross-lingual Named Entity Recognition[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017: 2536-2545.
[4]. ZHOU J T, ZHANG H, JIN D, et al. Dual Adversarial Neural Transfer for Low-resource Named Entity Recognition[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019: 3461-3471.
[5]. YANG P, LIU W, YANG J. Positive Unlabeled Learning Via Wrapper-based Adaptive Sampling[C]//IJCAI. 2017: 3273-3279.
[6]. PENG M, XING X, ZHANG Q, et al. Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning[J].arXiv preprint arXiv:1906.01378, 2019.
[7]. LING X, WELD D S. Fine-grained Entity Recognition[C]//Twenty-Sixth AAAI Conference on Artificial Intelligence, 2012.
[8]. NEELAKANTAN A, CHANG M W. Inferring Missing Entity Type Instances for Knowledge Base Completion: New dataset and methods[J]. arXiv preprint arXiv:1504.06658, 2015.
[9]. YAGHOOBZADEH Y, SCHÜTZE H. Multi-level Representations for Fine-grained Typing of Knowledge Base Entities[J]. arXiv preprint arXiv:1701.02025, 2017.
[10]. JIN H, HOU L, LI J, et al. Attributed and Predictive Entity Embedding for Fine-grained Entity Typing in Knowledge Bases[C]//Proceedings of the 27th International Conference on Computational Linguistics,2018: 282-292.
[11]. DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering[C]//Advances in Neural Information Processing Systems,2016: 3844-3852.
[12]. ATWOOD J, TOWSLEY D. Diffusion-convolutional Neural Networks[C]//Advances in Neural Information Processing Systems,2016: 1993-2001.
[13].JINH,HOUL,etal.FineGrainedEntityTypingViaHierarchicalMultiGraphConvolutionalNetworks[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP),2019: 4970-4979.
[14]. FINKEL J R, MANNING C D. Nested Named Entity Recognition[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 141-150.
[15]. JU M, MIWA M, ANANIADOU S. A Neural Layered Model for Nested Named Entity Recognition[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers),2018: 1446-1459.
[16]. LU W, ROTH D. Joint Mention Extraction and Classification with Mention Hypergraphs[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015: 857-867.
[17]. MUIS A O, LU W. Labeling Gaps Between Words: Recognizing Overlapping Mentions with Mention Separators[J]. arXiv preprint arXiv:1810.09073, 2018.
[18].WANGB,LUW.NeuralSegmentalHypergraphsforOverlappingMentionRecognition[J].arXivpreprintarXiv:1810.01817, 2018.
[19]. KATIYAR A, CARDIE C. Nested Named Entity Recognition Revisited[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2018: 861-871.
[20]. XIA C, ZHANG C, YANG T, et al. Multi-Grained Named Entity Recognition[J]. arXiv preprint arXiv:1906.08449, 2019.
[21]. LE P, TITOV I. Improving Entity Linking by Modeling Latent Relations between Mentions[J]. arXiv preprint arXiv:1804.10637, 2018.
[22]. GUPTA N, SINGH S, ROTH D. Entity Linking Via Joint Encoding of Types, Descriptions, and Context[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 2681-2690.
[23]. TAN C, WEI F, REN P, et al. Entity Linking for Queries by Searching Wikipedia Sentences[J]. arXiv preprint arXiv:1704.02788, 2017.
[24]. LIN Y, LIN C Y, JI H. List-only Entity Linking[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers),2017: 536-541.
[25].DAIH,SONGY,QIUL,etal.EntityLinkingwithinaSocialMediaPlatform:ACaseStudyonYelp[C]//Proceedingsofthe 2018 Conference on Empirical Methods in Natural Language Processing,2018: 2023-2032.
[26]. FRANCIS-LANDAU M, DURRETT G, KLEIN D. Capturing Semantic Similarity for Entity Linking with Convolutional Neural Networks[J]. arXiv preprint arXiv:1604.00734, 2016.
[27]. GANEA O E, HOFMANN T. Deep Joint Entity Disambiguation with Local Neural Attention[J]. arXiv preprint arXiv:1704.04920, 2017.
[28]. MUELLER D, DURRETT G. Effective Use of Context in Noisy Entity Linking[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018: 1024-1029.
[29]. OUYANG X, CHEN S, ZHAO H, et al. A Multi-Cross Matching Network for Chinese Named Entity Linking in Short Text[C]//Journal of Physics: Conference Series. IOP Publishing, 2019, 1325(1): 012069.
[30]. YANG P, LIU W, YANG J. Positive Unlabeled Learning Via Wrapper-based Adaptive Sampling[C]//IJCAI. 2017: 3273-3279.
[31]. SANG E F, DE MEULDER F. Introduction to the CoNLL-2003 Shared Task: Language-independent Named Entity Recognition[J]. arXiv preprint cs/0306050, 2003.
[32]. ZHANG Y, YANG J. Chinese Ner Using Lattice Lstm[J]. arXiv preprint arXiv:1805.02023, 2018.
[33]. REN X, HE W, QU M, et al. Afet: Automatic Fine-grained Entity Typing by Hierarchical Partial-label Embedding[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2016: 1369-1378.
[34]. ZHOU J T, ZHANG H, JIN D, et al. Dual Adversarial Neural Transfer for Low-resource Named Entity Recognition[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019: 3461-3471.
[35]. ZHANG Q, FU J, LIU X, et al. Adaptive Co-attention Network for Named Entity Recognition in Tweets[C]//Thirty-Second AAAI Conference on Artificial Intelligence,2018.