命名实体识别

引言

命名实体识别(Named Entity Recognition, NER)的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语加以归类。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。命名实体是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题。根据SIGHAN(http://www.sighan.org/)Bakeoff数据评测结果,未登录词造成的分词精度损失至少比歧义大5倍以上,可见命名实体地位的重要性。

 

针对“命名实体识别”和“Named Entity Recognition”两个关键词对

中国知网(http://www.cnki.net)

Google学术(http://scholar.google.com/)

ACL  Anthology(http://www.aclweb.org/anthology/)

ICML 会议(http://machinelearning.org/icml.html)

IEEE(http://ieeexplore.iee.org)

等期刊论文数据库和会议论文集进行文献检索。

 

命名实体识别研究历史

国外对于命名识别研究主要包括:Bikel等最早提出了基于隐马尔科夫模型的英文命名实体识别方法,其在MUC-6测试文本集的测试结果为:英文地名、机构名和人名的识别精度分别达到了97%、94%和95%,召回率分别达到了95%、94%和94%;Liao等提出了基于条件随机场模型,采用半监督的学习算法进行命名实体识别;Ratinov等采用未标注文本训练词类模型(Word Class Model)的方法,可以有效地提高NER系统的识别效率,并针对CoNLL-2003的数据集开发出F1值达到90.8%的命名实体识别系统。中文命名实体识别也获得了广泛关注。Tsai等提出基于最大熵的混合的方法;冯元勇等提出基于单字提示特征的中文命名实体识别快速算法;郑逢强等将《知网》中的义原作为特征加入到最大熵模型中,以此来产生性能更好的模型。

 

2004年举行的863命名实体识别评测,成绩最好的命名实体识别系统的准确率、召回率和F1值分别为81.10%,83.69%、82.83%,其中人名、地名、组织结构名各项的F1值最高分别为85.51%、82.51%、60.81%。可见中文命名实体识别评测结果比英文结果偏低,尤其中文机构名称的识别难度更大一些。

 

研究主体

命名实体是命名实体识别的研究主体,一般包括3大类(实体类、时间类和数字类)和7小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。实际研究中,命名实体的确切含义需要根据具体应用来确定,比如,可能需要把产品名称、旅游景点名称等作为命名实体。在面向生物命名实体信息抽取时,还包括蛋白质、基因、核糖核酸、脱氧核糖核酸、细胞等特殊生物实体。

 

由于数量、时间、日期、货币等实体识别通常可以采用模式匹配的方式获得较好的识别效果,相比之下人名、地名、机构名较复杂,因此近年来的研究主要以这几种实体为主。同时生物领域的实体识别也比较活跃。这些实体中以机构名和生物实体识别难度最大,普遍存在嵌套和缩写的识别问题。从研究的发展趋势上看,由原来的单独针对人名、地名等进行识别发展到开始采用统一的方法同时进行各类中文命名实体的识别,而且识别效果也得到了提高,其中部分研究成果发表在ACL(http://www.aclweb.org/)年度会议以及COLING(http://nlp.shef.ac.uk/iccl/)、SIGHAN等国际会议上。

 

这种方法虽然考虑了人名、地名和机构名的共同特点,能够有效地解决多种命名实体间的差异性,制约了整体的识别性能。

 

命名实体识别特点及难点

评判一个命名实体是否被正确识别包括两个方面:实体的边界是否正确;实体的类型是否标注正确。主要错误类型包括文本正确,类型可能错误;反之,文本边界错误,而其包含的主要实体词和词类标记可能正确。

和英语相比,汉语命名实体识别任务更加复杂,由于分词等因素的影响难度较大,其难点主要表现在如下几个方面:

(1)      命名实体类型多样,数量众多,不断有新的命名实体涌现,如新的人名、地名等,难以建立大而全的姓氏库、名字库、地址库等数据库。

(2)      命名实体构成结构比较复杂,并且某些类型的命名实体词的长度没有一定的限制,不同的实体有不同的结构,比如组织名存在大量的嵌套、别名、缩略词等问题,没有严格的规律可以遵循;人名中也存在比较长的少数民族人名或翻译过来的外国人名,没有统一的构词规范。因此,这类命名实体识别的召回率相对偏低。

(3)      在不同领域、场景下,命名实体的外延有差异,存在分类模糊的问题。不同命名实体之间界限不清晰,人名也经常出现在地名和组织名称中,存在大量的交叉和互相包含现象,而且部分命名实体常常容易与普通词混淆,影响识别效率。在个体户等商户中,组织名称中也存在大量的人名、地名、数字的现象,要正确标注这些命名实体类型,通常要涉及上下文语义层面的分析,这些都给命名实体的识别带来困难。

(4)      在不同的文化、领域、背景下,命名实体的外延有差异。对命名实体的定界和类型确定,目前还没有形成共同遵循的严格的命名规范。

(5)      命名实体识别过程常常要与中文分词、浅层语法分析等过程相结合,分词、语法分析系统的可靠性也直接决定命名实体识别的有效性,使得中文命名实体识别更加困难。

 

基于规则和词典的方法

基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

 

基于统计的方法

基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的语言学知识,并且可以在较短时间内完成。基于统计机器学习的方法主要包括:隐马尔科夫模型(Hidden Markov Model, HMM)、最大熵(MaximunmEntropy, ME)、支持向量机(Support Vector Machine, SVM)、条件随机场(ConditionalRandom Fields, CRF)等。

 

在这4种学习方法中,最大熵模型结构比较紧凑、具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。而条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔科夫模型高一些,但是隐马尔科夫模型在训练和识别的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率比较高。隐马尔科夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。

 

基于统计的方法对语料库的依赖比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。SIGHAN Bakeoff 08测评中,中文命名实体识别使用的语料主要包括:香港城市大学语料库(1 772 202 字,训练集)、微软亚洲研究院语料库(1 089 050 字,训练集)、北京大学语料库(1 833 177 字,训练集)。这些语料库比较小、因公不广泛,无法应用于大规模的NER系统。因此,目前的问题是如何最大限度地使用这些有限的语料库。

 

混合方法

自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:

(1)      统计学习方法之间或内部层叠融合,如俞鸿魁等采用层叠隐马尔科夫模型对中文进行分词。

(2)      规则、词典和机器学习方法之间的融合,其核心是融合方法技术。在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。

(3)      将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。这种方法在具体实现过程中需要考虑怎样高效地将两种方法结合起来,采用什么样的融合技术。由于命名实体识别在很大程度上依赖于分类技术,在分类方面可以采用的融合技术主要包括如Voting,XVoting, GradingVal,Grading等。

 

Lin等将最大熵方法与基于词典匹配和规则模式的后处理相结合,前一阶段运行ME方法识别文本中的生物实体,第一阶段机器学习方法可能产生一定程度的边界识别错误和语义分类错误;通过第二阶段基于词典和规则模式匹配的后处理,修正实体边界并改进实体语义分类结果,提高了系统的准确率与召回率。

 

评测组织

目前,比较有影响力的评测会议主要有信息理解研讨会(Message Understanding Conference, MUC)、多语种实体评价任务(MultilingualEntity Task Evaluation, MET)、自动内容抽取(Automatic Content Extraction, ACE)、文本理解会议(DocumentUnderstanding Conference, DUG)、SIGHAN的Bakeoff评测等。

在MUC-7之后,MUC被由NIST主导的ACE评测取代。



























你可能感兴趣的:(命名实体识别)