命名实体识别(NER)理论与实战

任务目的

识别文本中具有特定意义的实体,供下游任务使用,如对话系统、机器翻译、构建知识图谱等。

实体类型

  • 常见的实体定义:人名、地名、机构名、日期、时间、数字、货币
  • 自定义类型:如在法律条文中的法律名、法官名、被告人、原告人等,在医疗领域的实体有疾病名、药物名、科室名等。

实体识别流程

获取数据

处理数据

实体识别算法

基于规则的方法

做法:

人工(通常是领域专家)编写规则,与字符串做匹配。

特点:

  • 在小数据集上准确率、召回率较高;
  • 随着数据集增大,规则集的构建周期变长,可移植性差。

基于统计的方法

主要模型:

  • HMM(隐马尔可夫模型):训练和识别时的速度较快,Viterbi算法求解命名实体类别序列的效率较高。
  • CMM(条件马尔科夫模型)
  • ME(最大熵模型):有较好的通用性,主要缺点是训练时间复杂性非常高。在正确率上要比隐马尔可夫模型高。
  • CRF(条件随机场):收敛速度慢、训练时间长。

基于深度学习的方法

特点:

端到端,不再依赖人工定义的特征。输入端为词向量,输出端为标注序列。

主要模型:

  • BiLSTM-CRF
  • BiLSTM-CNNs-CRF
  • 基于注意力机制

AlBERT-BiLSTM-CRF实战记录

知识储备:
AlBERT介绍详见[BERT系列之AlBERT]()
BiLSTM介绍详见[RNN系列模型]()
CRF介绍详见[条件随机场(CRF)]()

语料的获取

语料的标注与优化

预处理语料

搭建模型

训练

结果与分析

参考资料

王昊奋. 知识图谱——方法、实践与应用. 北京工业出版社. 2019.8, 137-142

你可能感兴趣的:(nlp)