Chinese NER Using Lattice LSTM 论文翻译及理解

摘要

我们研究了一个面向中文NER的格子结构的LSTM模型,它编码一系列输入字符,以及所有匹配词典的潜在单词。与基于字符的方法相比,我们的模型显式地利用了单词和单词序列信息。与基于词的方法相比,格LSTM不存在分词错误。门控递归细胞使我们的模型能够从句子中选择最相关的字符和单词,以获得更好的NER结果。在不同数据集上的实验表明,lattice LSTM的性能优于基于字和基于字符的LSTM基线,取得了最好的效果。

1简介

命名实体识别(NER)作为信息抽取的一项基础性工作,近年来一直受到人们的关注。传统上,这项任务是作为一个序列标签问题来解决的,其中实体边界和类别标签是联合预测的。英语NER的当前技术水平是通过使用LSTM-CRF模型实现的,字符信息被集成到单词表示中。

汉语ner与分词相关。特别是,命名实体边界也是单词边界。一种直观的方法是在应用词序标注之前,先进行分词。然而,由于NEs是分词OOV的一个重要来源,因此segmentation→NER这条线可能会遇到错误传播的潜在问题,并且实体边界的错误分割会导致NER出错。由于跨域分词仍然是一个未解决的问题,所以在开放域中,这个问题可能会很严重。研究表明,在中文NER领域,基于字符的方法优于基于单词的方法。
Chinese NER Using Lattice LSTM 论文翻译及理解_第1张图片
然而,基于字符的NER的一个缺点是没有充分利用显式的单词和单词序列信息,这可能是有用的。为了解决这个问题,我们将潜在的单词信息集成到特征为基础的LSTM-CRF,通过使用格子结构的LSTM表示句子中的词汇词。如图1所示,我们通过将句子与一个大的自动获得的词典相匹配来构造一个单词字符格。因此,可以使用诸如“长江大桥”、“长江”、“大桥”之类的单词序列来消除上下文中潜在的相关命名实体的歧义,例如人名“大桥江”。
Chinese NER Using Lattice LSTM 论文翻译及理解_第2张图片
由于格中有指数数量的字字符路径,我们利用lattice-LSTM结构自动控制从句首到句尾的信息流。如图2所示,门控单元用于动态地将信息从不同的路径路由到每个字符。通过对NER数据的训练,lattice-LSTM可以学习从上下文中自动找到更多有用的单词,从而获得更好的NER性能。
结果表明,我们的模型在字符序列标记模型和基于LSTMCRF的单词序列标记模型上都有显著的优越性,在不同领域的中文NER数据集上都取得了最好的结果。我们的代码和数据发布于https://github.com/jiesutd/LatticeLSTM。

2 相关工作

我们的工作与现有的神经网络方法相一致。Hammerton(2003)试图使用单向LSTM来解决这个问题,LSTM是最早的神经网络模型之一。Collobert等人(2011)使用CNN-CRF结构,获得最佳统计模型的竞争结果。多斯桑托斯等人(2015)使用字符CNN来扩充CNN-CRF模型。最近的工作利用了LSTM-CRF体系结构。Huang等人(2015)使用手工制作的拼写功能;Ma和Hovy(2016)以及Chiu和Nichols(2016)使用字符CNN来表示拼写特征;Lample等人。(2016)改为使用字符LSTM。我们的基于词的基线系统采用了与这一行类似的结构。
字符序列标记一直是中国内质网的主要方法(Chen等人,2006b;Lu等人,2016;Dong等人,2016)。有明确的讨论比较了基于统计单词和基于字符的方法,显示后者在经验上是一个更好的选择(He and Wang,2008;Liu et al.,2010;Li et al.,2014)。我们发现,在适当的表示设置下,同样的结论适用于神经网络。另一方面,与单词LSTM和字符LSTM相比,lattice-LSTM是一个更好的选择。
如何更好地利用词信息一直受到研究者的关注(Gao等人,2005),其中切分信息被用作中文NER的软特征(Zhao和Kit,2008;Peng和Dredze,2015;He和Sun,2017a),联合切分和内质网的研究使用了双重分解(Xu等人,2014),多任务学习(Peng and Dredze,2016)等。我们的工作正在进行中,重点是神经表示学习。虽然上述方法会受到分割训练数据和分割错误的影响,但我们的方法不需要分词器。不考虑多任务设置,模型在概念上更简单。

利用外部信息源已经被用于NER。特别是,词汇特征已被广泛使用(Calbor等人,2011;PasSOS等人,2014;黄等人,2015;罗等人,2015)。Rei(2017)使用词级语言建模目标来增强NER训练,在大的原始文本上执行多任务学习。彼得斯等人(2017)预训练字符语言模型以增强单词表示。Yang等人(2017b)通过多任务学习开发跨领域和跨语言知识。我们利用外部数据的预训练字嵌入词典在大的自动分割文本,而半监督技术,如语言建模是正交的,也可以用于我们的lattice-LSTM模型。

lattice结构的RNNs可以看作是树结构RNNs到DAGs的自然延伸。它们已用于为NMT编码器建模运动动力学(Sun等人,2017)、依赖话语DAG(Peng等人,2017)以及语音标记化格(Sperber等人,2017)和多粒度分割输出(Su等人,2017)。与现有的工作相比,我们的LSTM在动机和结构上都有所不同。例如,被设计用于以字符为中心的格子LSTMCRF序列标记,它具有递归单元,但不具有单词的隐藏向量。据我们所知,我们首先设计了一种新的格子LSTM表示,用于混合字符和词汇词,并且第一个使用字字符格进行无分割中文NER。

3模型

我们采用最好的英文NER模型(Huang等人,2015;Ma and Hovy,2016;Lample等人,2016),使用LSTM-CRF作为主要网络结构。形式上,将输入语句表示为=c1,c2,…,cm,其中 cj表示第j个字符。可以进一步看作是一个单词序列=w1,w2,…,wn,其中wi表示句子中的第i个单词,使用汉语分词器获得。我们用t(i,k)来表示句子中第i个单词的k第个字符的索引。以图1中的句子为例。如果分段是“南京市 长江大桥”,并且索引是从1开始的,则(2,1)=4(长)和(1,3)=3(市)。我们使用BIOE标记方案(Ratinov和Roth,2009)进行基于单词和基于字符的NER标记。

3.基于字的模型

基于字符的模型如图3(a)所示。它在字符序列c1, c2, . . . , cm.上使用LSTM-CRF模型。每个字cj使用下式表示:
在这里插入图片描述
其中,在这里插入图片描述表示一个字符嵌入查找表。

一个双向的LSTM被运用于x1, x2, . . . , xm,分别在从左到右和从右到左的方向上,获得两组不同的参数在这里插入图片描述。每个字符的隐藏向量表示为:在这里插入图片描述
标准CRF模型(公式17)用于在这里插入图片描述序列标记。
• Char + bichar。在分词中,字符双元图被证明对表示字符很有用(Chen等人,2015;Yang等人,2017a)。我们通过将bigram嵌入与字符嵌入连接起来,使用bigram信息来扩展基于字符的模型:在这里插入图片描述,其中在这里插入图片描述指定了一个charater bigram查找表。
• Char + softword. 研究表明,将分割作为基于字符的NER模型的软特征可以提高性能。我们通过将分割标签嵌入连接到字符嵌入来用分割信息增强字符表示:在这里插入图片描述,其中在这里插入图片描述表示分割标签嵌入查找表。seg(cj ) 表示分词器给出的字符上的分词标签。我们使用BMES方案来表示分割(Xue,2003)。在这里插入图片描述
类似基于字的案例,在在这里插入图片描述序列标签上使用标准CRF模型(等式17)。

3.2 Word-Based 模型

基于词的模型如图3(b)所示。它用单词嵌入e(wi)来表示每个单词wi:在这里插入图片描述,其中在这里插入图片描述表示一个词嵌入查找表。一个双向LSTM(公式11)用于获得对于词在这里插入图片描述从左到右的隐藏状态序列在这里插入图片描述和从右到左的隐藏状态序列在这里插入图片描述。最后,对于每个单词Wi,连接为其表示:
集成字符表示
(由于公式太多,下面涉及公式的都不翻译了)。
Chinese NER Using Lattice LSTM 论文翻译及理解_第3张图片
• Word + char LSTM.
Chinese NER Using Lattice LSTM 论文翻译及理解_第4张图片
• Word + char LSTM’
Chinese NER Using Lattice LSTM 论文翻译及理解_第5张图片
• Word + char CNN.
Chinese NER Using Lattice LSTM 论文翻译及理解_第6张图片

3.3 Lattice模型

词-字符格模型的总体结构如图2所示,它可以看作是基于字符模型的扩展,集成了基于字的单元和用于控制信息流的附加门。
Chinese NER Using Lattice LSTM 论文翻译及理解_第7张图片
Chinese NER Using Lattice LSTM 论文翻译及理解_第8张图片

Chinese NER Using Lattice LSTM 论文翻译及理解_第9张图片
Chinese NER Using Lattice LSTM 论文翻译及理解_第10张图片Chinese NER Using Lattice LSTM 论文翻译及理解_第11张图片
Chinese NER Using Lattice LSTM 论文翻译及理解_第12张图片
Chinese NER Using Lattice LSTM 论文翻译及理解_第13张图片

3.4 解码和训练

一个标准的CRF层被用在h1,h2,…,hτ上面,其中τ对于基于字符的模型来说是n,对于基于词的模型来说是m。一个标签序列y=l1,l2,…,lτ的概率是
Chinese NER Using Lattice LSTM 论文翻译及理解_第14张图片
这里y′表示一个任意标签序列,WliCRF是针对于li的模型参数,b(li−1,li)CRF是针对li−1和li的偏置。
我们使用一阶维特比算法来寻找一个基于词或基于字符的输入序列中得分最高的标签序列。给定一组手动标注的训练数据{(si,yi)}∣Ni=1,带有L2正则项的句子层面的log-likelihood作为loss,训练模型:
在这里插入图片描述
其中,λ是L2正则项系数,Θ表示了参数集合。

4 实验

我们进行了一系列的实验来研究字词格LSTMs在不同领域的有效性。此外,本文还对不同背景下基于词和基于字符的神经网络进行了实证比较。准确率(P)、召回率(R)和F1得分(F1)作为评价指标。

4.1实验设置

数据:本文使用了四个数据集,包括OntoNotes 4(Weischedel等人,2011)、MSRA(Levow,2006)和Weibo NER(Peng和Dredze,2015;He and Sun,2017a)和我们注释的中文简历数据集。数据集的统计如表1所示。我们采用与Che等人(2013)关于OntoNotes 相同的数据分割。ontonnotes的开发集用于报告开发实验。虽然OntoNotes和MSRA数据集都在新闻领域,但Weibo NER数据集是从社交媒体网站新浪微博中提取的。
Chinese NER Using Lattice LSTM 论文翻译及理解_第15张图片

为了让测试领域更加多样化,我们从新浪财经(Sina Finance)收集了一份由中国股市上市公司高管简历组成的简历数据集。我们随机抽取1027份简历摘要,用YEDDA系统手工标注8种命名实体(Yang等人,2018)。数据集的统计如表2所示。注释者间协议为97.1%。我们发布这个数据集作为进一步研究的资源。
Chinese NER Using Lattice LSTM 论文翻译及理解_第16张图片
分割:对于ontonnotes和MSRA数据集,黄金标准分割在训练部分提供。对于ontonnotes,黄金分割也可用于开发和测试部分。另一方面,MSRA测试部分和微博/简历数据集都没有分段。因此,ontonnotes被用于研究给定黄金分割的oracle情况。我们使用杨等人的神经分词器。(2017a)自动分割基于word的NER的开发和测试集。特别地,对于ontonnotes和MSRA数据集,我们在各自的训练集上使用黄金分割来训练分割器。在微博和简历中,我们采用了杨的最佳模式,该模式是使用CTB6.0进行训练的

词嵌入:我们使用Word2VEC(Mikolov等人,2013)在自动分割的汉语Giga单词上训练单词嵌入,在最终词典中获得704.4K单词。特别是单字、二字、三字字数分别为5.7k、291.5k、278.1k。嵌入词典与我们的代码和模型一起发布,作为进一步研究的资源。单词嵌入在NER训练期间进行了微调。利用word2vec对汉字和字符bigram嵌入进行了预训练,并在模型训练时进行了微调。

超参数设置:表3显示了我们的模型的超参数值,这些值根据文献中以前的工作是固定的,没有对每个单独的数据集进行网格搜索调整。特别地,嵌入大小设置为50,LSTM模型的隐藏大小设置为200。Dropout(Srivastava等人,2014)应用于单词和字符嵌入,速率为0.5。采用随机梯度下降法(SGD)进行优化,初始学习率为0.015,衰减率为0.05。
Chinese NER Using Lattice LSTM 论文翻译及理解_第17张图片

4.2 开发实验

我们比较了ontonnotes开发集上的各种模型结构,以便为基于单词和基于字符的NER模型选择最佳设置,并了解点阵单词信息对基于字符的模型的影响。

**基于字符的NER:**如表4所示,在不使用分词的情况下,一个基于字符的LSTM-CRF模型给出了62.47%的F1发展分数。如第3.1节所述添加字符bigram和softword表示将F1分数分别提高到67.63%和65.71%,证明了这两种信息来源的有用性。另外,两者的结合得到了69.64%的F1成绩,这在各种不同的字符表示中是最好的。

**基于词的NER:**表4显示了基于word的中文NER的各种不同设置。通过自动分割,基于单的LSTM CRF基线得到64.12%的F1分数,这比基于字符的基线更高。这说明词信息和文字信息对汉语NER都是有用的。第3.2节中使用字符LSTM丰富单词表示的两种方法,即word+char LSTM和word+char LSTM,导致了类似的改进。

与LSTM字符表示法相比,CNN字符序列表示法给出的F1分数略高。另一方面,进一步使用字符bigram信息会增加word+char LSTM的F1分数,但会降低word+char CNN的F1分数。一个可能的原因是CNN固有地捕捉字符n-gram信息。因此,在剩下的实验中,我们使用word+char+bichar-LSTM作为基于单词的NER模型,得到了最好的开发结果,并且在结构上与文献中最新的英语NER模型是一致的。

**基于lattice的NER:**图4显示了基于字符和基于格的模型相对于训练迭代次数的F1分数。我们包括使用连接字符和字符bigram嵌入的模型,其中bigram可以在消除字符歧义方面发挥作用。从图中可以看出,格词信息有助于改进基于字符的NER,将最好的的开发结果从62.5%提高到71.6%。另一方面,bigram增强格点模型与原格点模型相比没有进一步的改进。这可能是因为词语对于双元组来说是字符消歧的更好的信息来源,而双元组也是模棱两可的。
Chinese NER Using Lattice LSTM 论文翻译及理解_第18张图片

如表4所示,lattice LSTM-CRF模型给出的F1发展得分为71.62%,与基于单词和基于字符的方法相比,显著更高,尽管它不使用字符双元组或分词信息。它明显优于char+softword,这表明了格型词信息相对于分词器信息的优势。
Chinese NER Using Lattice LSTM 论文翻译及理解_第19张图片

4.3最终结果

OntoNotes:OntoNotes测试结果如表5[9]所示。通过金标准分割,我们的基于词的方法在利用双语数据的数据集上为最先进的结果提供了竞争性结果。这表明LSTM-CRF对于基于单词的中文NER是一种竞争性的选择,对于其他语言也是如此。此外,结果显示我们基于文字的模型可以作为高度竞争的基线。在自动分词的情况下,word+char+bichar LSTM的F1评分从75.77%下降到71.70%,显示了分词对NER的影响。与发育集的观察结果一致,添加latttice词信息可使F1成绩从88.81%提高到93.18%,而添加bichar+soteware可使F1成绩从88.81%?91.87%。lattice模型在自动分割上明显给出了最佳的F1分数。
Chinese NER Using Lattice LSTM 论文翻译及理解_第20张图片
MSRA:MSRA数据集的结果如表6所示。对于此基准测试,测试集上没有可用的黄金分割标准。我们选择的分词器在5层交叉验证训练集上的准确率为95.93%。数据集上的最佳统计模型利用了丰富的手工特征(Chen等人,2006a;Zhang等人,2006;Zhou等人,2013)和字符嵌入特征(Lu等人,2016)。Dong等人(2016)开发具有radical特征的神经网络模型LSTM-CRF。

与现有的方法相比,我们的基于词语和基于字符的LSTM CRF模型提供了竞争的准确性。格模型显著优于基于字符和基于单词的最佳模型(p<0.01),在这个标准基准上取得了最佳结果。
Chinese NER Using Lattice LSTM 论文翻译及理解_第21张图片

微博/简历。Weibo-NER数据集的结果如表7所示,其中NE、NM和总分分别表示命名实体、名义实体(不包括命名实体)和两者的F1分数。此数据集不提供黄金标准分割。系统的现有状态包括彭和疏浚(2016)和HE和Sun(2017B),它们探索了丰富的嵌入特征、跨域和半监督数据,其中一些与我们的模型正交。[10]
Chinese NER Using Lattice LSTM 论文翻译及理解_第22张图片
简历测试数据的结果如表8所示。与ontonnotes和MSRA上的观察结果一致,格模型在微博和简历中的表现明显优于基于词和基于字符的模型(p<0.01),给出了最好的结果。
Chinese NER Using Lattice LSTM 论文翻译及理解_第23张图片

4.4讨论

F1与句子长度相反。图5显示了OntoNotes数据集上基线模型和lattice LSTM-CRF的F1分数。尽管性能相对较低,基于字符的基线在不同的句子长度上给出了相对稳定的F1分数。基于词的基线比短句子的F1分数要高得多,但长句子的F1分数要低,这可能是因为长句子的分割精度较低。与各自的基线相比,word+char+bichar和char+bichar+softword都给出了更好的性能,显示了单词和字符的表示对NER是互补的。格的准确性也随着句子长度的增加而降低,这可能是由于格中单词组合的数量成倍增加所致。与word+char+bichar和char+bichar+softword相比,格模型对增加的句子长度具有更强的鲁棒性,显示了对词信息的更有效利用。

**案例研究。**表9显示了一个比较char+bichar+softword、word+char+bichar和格模型的案例研究。在这个例子中,命名实体“东莞台协(东莞台湾协会)”有很多歧义。Word+char+bichar产生“东莞(东莞)”和“台(台湾)”实体,因为“东莞台协(东莞台湾协会)”不在分词器输出中。Char+bichar+softword承认“东莞airchase(东莞台湾协会)”,该词本身有效,但留下的“长职务后”一词不符合语法。相比之下,lattice模型通过lattice词语的“东莞”、“会长”和“职务”来正确检测组织名称。词汇中也有不相关的词,如“台湾”和“下东”,但这对NER结果没有影响。
Chinese NER Using Lattice LSTM 论文翻译及理解_第24张图片
注意,word+char +Bichar和点阵使用相同的单词信息源,即相同的预训练单词嵌入词典。然而,Word + char +Bichar首先使用分段中的词典,它将硬约束(即固定单词)强加给其在NER的子序列使用。相反,格子LSTM具有考虑所有词汇词的自由。

词典中的实体:表10示出了词典中的实体总数及其各自的匹配比率。最终的误差减少
还显示了基于最佳字符的方法(即“+bichar+soft”)上的晶格模型。可以看出,错误减少在词典中的匹配实体之间具有相关性。在这方面,我们的自动词典也在一定程度上发挥了地名词典的作用(RATINOV和罗斯,2009;Chiu和尼克尔斯,2016),但也不完全是,因为字典中没有明确的知识,哪些记号是实体。最终的消歧能力仍然在于格编码器和监督学习。
Chinese NER Using Lattice LSTM 论文翻译及理解_第25张图片

词汇的质量可能会影响我们的NER模型的准确性,因为噪声词可能会混淆NER。另一方面,我们的格模型可以在NER训练中学习选择更正确的单词。我们把对这种影响的调查留给今后的工作。

5 结论

我们实证研究了一个用于中文NER的格LSTM-CRF表示,发现它在不同的领域都比基于词和基于字符的LSTM-CRF表现出更高的性能。格子方法完全独立于分词,但由于在上下文中选择词汇词的自由度,因此在使用词信息时更有效。

你可能感兴趣的:(深度学习,自然语言处理,ner,nlp,NER,NLP)