基于词典信息增强的中文医疗领域NER

本文基于文章:Neural Chinese Medical Named Entity Recognition with Dictionary Knowledge


  • 研究背景
  • 前人的解决方式
  • 模型核心思想
  • 具体实现细节
  • 实验结果
  • 结论

研究背景

TODO

前人的解决方式

TODO

模型核心思想

在普通的BiLSTM+CRF的NER框架基础上,加入针对中文的额外编码方式医学领域词典信息,进一步增强了模型的表现。

具体实现细节
模型总框架
  • 亮点1:
    除了character embedding外,增加了中文偏旁编码和拼音编码的方式,将所有embedding方式concat,然后输入编码器。
  • 亮点2:
    利用NER词典进行增强。
    词典示例如下:

“下肢”:body parts
“水肿”:symptom
...

增强方式分为两种:模式匹配和共同训练
1. 模式匹配
基于准确的模式匹配,直接得到input sentence的 Term Matching Embedding,加入joint embedding集合。
2.共同训练
由于文本中某些信息和dictionary中是同一个意思,但是不完全相同,模式匹配无法匹配到,因此采用共同训练的方式,即通过训练使CNN layer学到词典中NER的knowledge。

实验结果

TODO

结论

TODO

你可能感兴趣的:(基于词典信息增强的中文医疗领域NER)