信息抽取之实体抽取(命名实体识别与分类)

1.命名实体识别的主要任务:
要识别出文本中出现的专有名称和有意义的数量短语并加以归类。

2.命名实体识别的主要研究内容:

就整个的命名实体识别的研究结果而言,时间表达式和数字表达式的识别相对简单,其规则的设计、数据的统计训练等也比较容易。而对于实体中的组织名、人名、地名,因为其具有开放性和发展性的特点,而且构成规律有很大的随意性,所以其识别就可能会有较多的错选或漏选。现在大多数的命名实体识别的研究都集中于对这三种实体的识别技术的研究。

3.命名实体识别的发展历程:

基于规则的方法->基于统计的方法->混合方法

4.汉语命名实体识别中的特殊难点:

(1)分词:边界模糊不仅存在于非实体词之间,也出现于实体词和非实体词之间。

(2)汉语命名实体的生成规律以及结构更加复杂,尤其是缩略语的表示形式具有多样性,很难提取构成规则,因此不可能用一种识别模型应用于所有的命名实体。

(3)与西方语言比较,汉语缺少在命名实体识别中起重要作用的词形变换特征。

(4)汉语中除比较特殊的字词外,命名实体也可包含普通字词。

(5)能用于汉语命名实体识别的开放型语料还很少,因此一方面需要开发大型命名实体标注语料库,另一方面研究不依赖大型命名实体标注文本库的算法也具有重要意义。

5.命名实体识别的结果:

(1)正确(correct) :系统识别结果和标准结果相同。

(2)丢失(missing):系统未识别而标准结果中有。

(3)虚假(spurious):系统识别但标准结果中没有。

6.衡量命名实体识别系统性能主要的两个评价指标:

查全率:正确/(正确+丢失)

查准率:正确/(正确+虚假)

有时为了综合评价系统的性能,通常还计算查全率和查准率的加权几何平均值即F指数。

7.命名实体识别方法:

(1)基于规则:

如:NTU系统、FACILE系统、OKI系统。

缺点:缺乏鲁棒性和可移植性,对于每个新领域的文本都需要更新规则来保持最优性能,而这需要大量的专门知识和人力,代价往往非常大。

(2)基于统计:

如:n元模型、隐马尔科夫模型(HMM)、最大熵模型(ME)、决策树、基于转换的学习方法、推进方法、表决感知器方法、条件马尔科夫模型等。评价性能最好的是HMM。而ME因其自身的特点仍是当前主要的研究方向。

缺点:性能较基于规则的方法而言偏低,因为基于统计的方法获取的概率知识总赶不上人类专家的专业知识的可靠性,而且有些知识获取必需专家的经验。

(3)混合方法:

借助规则知识及早剪枝,再用统计模型是比较好的方法。

参考文献:
【1】命名实体识别研究,国防科技大学计算机学院-张晓艳、王挺、陈火旺,2005.4.23

参考:
http://www.cnblogs.com/keweixiaofan/archive/2010/03/18/1689035.html
命名实体识别方法汇总

你可能感兴趣的:(知识图谱,知识图谱,信息抽取,实体抽取)