命名实体识别_中文医学命名实体识别

Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition

总述

作者提出了融入字典信息的深度学习模型,用于解决中文医学命名实体识别问题。

融合了字典的深度模型主要的优点是,

可以克服传统深度模型难以识别出现频率少,或者从未出现的实体。

具体得,作者基于BiLSTM拓展出两个深度模型框架,并且设计了五种特征

(题外话,其实作者可以说是三种特征)

设计的五种特征

  • N-gram特征

命名实体识别_中文医学命名实体识别_第1张图片

命名实体识别_中文医学命名实体识别_第2张图片

具体的过程,首先提取出2-5gram字符串, 共有8个字符串(左右两边),

如上图一,所示xi的2-5gram字符串,

之后用独热编码表示各个字符串,如图二所示,腹壁属于body,所以编码是00001,

8个字符串,每个字符串用五维的独热编码表示,所以N-gram特征,共有40维

命名实体识别_中文医学命名实体识别_第3张图片
  • PIEF(Position-Independent Entity Type)特征

一句话概括就是,双向最大匹配算法(正向、逆向取最大长度),

对句子中的字符标注其属于的类别

如上图PIET特征所示

  • PDET(Position-Dependent Entity Type)特征

相比于PIEF融入了实体位置信息,如上图PDEF所示,

S、single单个字符实体位置,B、begin实体的开始位置,

E、end实体结束位置I、inter实体中间位置

两个模型

  • model 1

命名实体识别_中文医学命名实体识别_第4张图片

嵌入向量和特征向量直接连接,输入到双向LSTM中

  • model 2

命名实体识别_中文医学命名实体识别_第5张图片

嵌入向量和特征向量分别输入到双向LSTM中,最后在CRF层前才连接

显然第一种是最好的方式

最后的结果

命名实体识别_中文医学命名实体识别_第6张图片

你可能感兴趣的:(命名实体识别)