HIT中文命名实体识别

概况介绍


命名实体识别任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在当今世界,随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式呈现在人们面前。为了应对信息爆炸带来的严重挑战,人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息。于是信息抽取研究应运而生。而命名实体识别研究是信息抽取中的重要组成部分,同时它还能应用于自动问答、机器翻译以及信息检索等NLP领域,有助于它们的性能的提高。因此,研究命名实体识别具有重要的意义。

体系结构


系统包括两个部分,一是基于HMM的NE识别部分,二是规则修正部分。系统的结构图如图1所示。基于HMM的NE识别部分的输入是已分词且标注了词性的句子,它的识别结果又作为规则修正部分的输入,整个系统的输出是标注了NE标记的句子。



图1 HMM与自动规则提取相结合的中文NE识别系统

系统功能

1、较全面的覆盖了中文命名实体识别的类别,包括人名、地名、机构名、专有名词、时间、日期和数量短语共七类。
2、支持Windows和Linux操作系统。
3、提供Dll调用接口,可以方便的嵌入到其他的应用系统中。同时也可以独立运行得到识别结果。
4、系统操作方便,性能和效率较高。在普通PC机上利用10000句(1.32M)的语料进行测试,总的准确率为86.93%,运行效率为27.2K/s。

技术特点


目前系统主要采用统计与规则相结合的识别方法。统计以HMM为主,它能很好的捕捉自然语言中的统计规律,且简单、高效。规则的方法可以比较好的描述自然语言中的个性特征,两者的有效结合能使两种方法取长补短,使系统达到了较高的性能。

性能指标


在普通(1.32M)进行测试,语料库的规模为10000句。总的准确率为86.93%,运行效率为27.2K/s。

表1 NE评测结果


NE类型

NE总数

准确率(%)

召回率(%)

F值

人名

3104

93.86

92.53

93.19

地名

3725

86.69

85.83

86.25

机构名

1906

77.20

65.90

71.10

专有名词

437

77.14

80.32

78.70

时间

38

71.87

60.52

65.71

日期

1646

98.25

95.92

97.07

数量短语

6956

97.33

95.83

96.57


应用领域

1、信息抽取:如自动文摘,文本分类、聚类,事件抽取
2、机器翻译
3、自动问答
4、信息检索

你可能感兴趣的:(it)