系统包括两个部分,一是基于HMM的NE识别部分,二是规则修正部分。系统的结构图如图1所示。基于HMM的NE识别部分的输入是已分词且标注了词性的句子,它的识别结果又作为规则修正部分的输入,整个系统的输出是标注了NE标记的句子。
图1 HMM与自动规则提取相结合的中文NE识别系统
NE类型 |
NE总数 |
准确率(%) |
召回率(%) |
F值 |
人名 |
3104 |
93.86 |
92.53 |
93.19 |
地名 |
3725 |
86.69 |
85.83 |
86.25 |
机构名 |
1906 |
77.20 |
65.90 |
71.10 |
专有名词 |
437 |
77.14 |
80.32 |
78.70 |
时间 |
38 |
71.87 |
60.52 |
65.71 |
日期 |
1646 |
98.25 |
95.92 |
97.07 |
数量短语 |
6956 |
97.33 |
95.83 |
96.57 |