命名实体:中文命名实体识别简介

一、概念

1、实体

一切具有特定属性集合的物体都可以称为实体。

2、命名实体

一般包括三大类(实体类、时间类、数字类),七小类(人名、机构名、地名、时间、日期、货币和百分比)。

3、命名实体识别过程

(1)确定实体的边界,即确定哪些词属于实体。
(2)确定实体的类别,即确定实体属于人名或者机构名等。

4、命名实体识别难点

(1)各类命名实体没有严格的命名规范
(2)中文命名实体没有类似英文明确的单词边界及标志
(3)中文分词和命名实体识别相互影响
(4)网络汉语文本实体组成方式更加复杂
(5)现存标注语料老旧、覆盖面低
(6)命名实体歧义消歧困难

5、命名实体识别作用

命名实体识别是信息抽取、问答系统、语法分析、机器翻译等应用的重要工具。

二、主要方法

1、基于规则的方法

主要依靠语言学专家手工构造规则模板,选用特征,如关键字、标点符号、位置词、指向词等,基于不同的规则权值进行判断。
基于规则的方法性能上可解释性强,对于badcase的解决能力高,但构建规则库需要语言学专家且耗费时间长。

2、基于统计的方法

基于统计机器学习的方法主要包括:隐马尔科夫模型、最大熵模型、条件随机场等。
实际上是将命名实体识别转化为一个序列标注任务,这部分工具与分词及词性标注有一定的重合之处。

三、参考

1、《统计自然语言处理》 宗成庆
2、基于规则和条件随机场的中文命名实体识别方法研究 程志刚

你可能感兴趣的:(自然语言,自然语言基础)