NLP第七篇-命名实体识别

命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织机构名、时间和数字表达式结构化信息的关键内容,所以需要从文本中去识别这些实体指称及其类别,即命名实体识别和分类。

21世纪以后,基于大规模语料库的统计方法成为自然语言处理的主流,以下是基于统计模型的命名实体识别方法归纳:

NLP第七篇-命名实体识别_第1张图片

基于CRF的命名实体识别方法

基于CRF的命名实体识别方法简便易行,而且可以获得较好的性能,广泛地应用于人名、地名和组织机构等各种类型命名实体的识别,可以说是命名实体识别中最成功的方法。

其基本思路是,将给定的文本首先进行分词处理,然后对人名、简单地名和简单组织机构名进行识别,最后识别复合地名和复合组织机构名,复合指嵌套关系。

基于CRF的命名实体识别方法属于有监督的学习方法,因此需要利用已标注的大规模语料对CRF模型的参数进行训练。

在训练阶段,首先需要将分词语料的标记转化成用于命名实体序列标注的标记。接下来要做的事情是确定特征模板,特征模板一般采用当前位置的前后2~3个位置上的字串及其标记作为构成特征模型的符号。而且由于不同的命名实体一般出现在不同的上下文语境中,因此对于不同的命名实体(如中国人名、日本人名、欧美人名、俄罗斯人名)识别一般采用不同的特征模板。我们由特征得到特征函数,且不同的特征之间可以组合。

特征函数确定以后,剩下的工作就是训练CRF模型参数了。

基于多特征的命名实体识别方法

在命名实体识别中,无论采用哪一种方法,都是试图发现和利用实体所在的上下文特征和实体的内部特征,只不过特征的颗粒度有大(词性和角色级特征)有小(词形特征)的问题。考虑到大颗粒度特征和小颗粒度特征有互相补充的作用,应该兼顾使用的问题,多特征相融合的汉语命名实体识别方法被提出了。

该方法是在分词和词性标注的基础上进一步进行命名实体的识别,由词形上下文模型、词性上下文模型、词形实体词模型和词性实体词模型4个子模型组成的。

其中,词形上下文模型估计在给定词形上下文语境中产生实体的概率;词性上下文模型估计在给定词性上下文语境中产生实体的概率;词形实体模型估计在给定实体类型的情况下词形串作为实体的概率;词性实体模型估计在给定实体类型的情况下词性串作为实体的概率

系统性能表现主要通过准确率、召回率和F-测度3个指标来衡量。准确率和召回率在前面的文章中讲过了,这里说一下F-测度:

F-测度综合考虑了准确率和召回率。

你可能感兴趣的:(NLP第七篇-命名实体识别)