命名实体识别系列文章

简称:NER:目标是识别所有文字提及的命名实体。可以分成两个子任务:确定NE的边界和确定其类型。

提取工具:

1、NLTK提供了一个已经训练好的可以识别命名实体的分类器

    http://www.cnblogs.com/createMoMo/archive/2013/05/30/3109464.html

2、基于哈工的LTP,可以安装pyltp模型,用python调用使用

pyltp官方教程  http://pyltp.readthedocs.io/zh_CN/latest/index.html

 超赞实例教程: http://blog.csdn.net/MebiuW/article/details/52496920   <代码>

 该教程包括分词、词性标注、命名实体识别、依存句法分词、语义角色标注

3、可以基于CRF++的工具包来提(可工业级使用)

      http://blog.sina.com.cn/s/blog_618985870101hvuf.html (介绍)

       https://pan.baidu.com/s/1geHjeCj  (CRF++安装包)

4、基于双向LSTM和迁移学习的seq2seq核心实体识别:http://kexue.fm/archives/3942/

5、用深度学习做NER,参考:http://www.jianshu.com/p/581832f2c458

6、现在在深度学习背景下的流行做法是基于 Bi-driectional LSTM + linear-chain CRF 的模型结构。该模型以character为基本粒度 (在这里,英文的 character 指的是单词的一个字符,中文的 character 指的是单个汉字) 去自动提取特征从而大大降低工作量 [1-6]。                  http://mp.weixin.qq.com/s/W0MO4k3IDect9aOSzu7-Zg  <附带代码>

博客参考链接:

1、  http://blog.csdn.net/lalalawxt/article/details/55804384

2、   http://www.cnblogs.com/webRobot/p/6086693.html

3、  http://blog.csdn.net/u010718606/article/details/50148261


命名实体识别部分(NER)

   model的选择: Bi-LSTM-CNN-CRF > Bi-LSTM-CRF > CRF

问:如何做实体label标注吗?就是抽取的实体,想标注类别(比如说医学的疾病类,症状类等)

答:这是一个多分类问题,

命名实体识别系列文章_第1张图片


命名实体识别系列文章_第2张图片

你可能感兴趣的:(命名实体识别系列文章)