实体识别(一)几种NER深度学习模型效果对比IDCNN+BERT+BiLISTM+CRF

纯实现上对比几种NER深度学习模型效果(有不严谨的地方:数据集、模型规模等),代码来源于Github上大神的贡献。

  • 实现上有三种模型
对比 模型
IDCNN+CRF BiLSTM+CRF(1) BiLSTM+CRF(2) BERT+BiLSTM+CRF
参考文献 文献[3] 文献[3] 文献[4] 文献[2]
数据集 100w字符 100w字符 200w字符 100w字符

       代码在参考文献部分都附有链接~

  • 三种模型抽样对比
测试 模型
句子 IDCNN+CRF BiLSTM+CRF(1) BiLSTM+CRF(2) BERT+BiLSTM+CRF
于大宝的进球帮助中国队在长沙贺龙体育中心以1-0的比分获胜 LOC, 长沙,  PER, 于大宝 ORG, 中国队,贺龙体育中心 ORG, 中国队,长沙贺龙体育中心 PER: ['于大宝'] LOC: ['长沙贺龙体育中心'] ORG: ['中国队'] LOC, 长沙, 贺龙体育中心 PER, 于大宝 ORG, 中国队
普京和特朗普通了电话,一起表示了对希拉里的鄙视 PER, 普京, 特朗普, 希拉里 PER, 普京, 特朗普, 希拉里 PER: ['普京', '特朗普', '希拉里'] PER, 普京, 特朗普, 希拉里
在万达集团的老总王健林的著名采访之后,深圳出现了一家公司叫做赚它一个亿网络科技有限公司 LOC, 深圳  PER, 王健林 ORG, 万达集团, 网络科技有限公司 LOC, 深圳  PER, 王健林 ORG, 万达集团 PER: ['王健林'] LOC: ['深圳'] ORG: ['万达集团'] LOC, 深圳  PER, 王健林 ORG, 万达集团, 亿网络科技有限公司
而且冯绍峰爆料在拍摄《知否》的那段时间里,赵丽颖就吃很少,很瘦,也根本没有胃口吃,一整天钻在剧本中无法自拔。 PER, 冯绍峰, 赵丽颖 PER, 冯绍峰, 赵丽颖 PER: ['冯绍峰', '赵丽颖'] PER, 冯绍峰, 赵丽颖
中国网财经1月30日讯(记者 刘小菲)据统计,除当年9月底上市的顶固集创外,其余27只个股的收益均为负值,曲美家居则以约50%的跌幅位列倒数第4。 PER, 刘小菲  LOC, 中国网 PER, 刘小菲  LOC, 中国网,曲,美 PER: [' 刘小菲'] LOC: ['中国'] PER, 刘小菲  ORG, 中国网, 顶固集创, 曲美家居
易居研究院智库研究中心总监严跃进等业内专家分析,各地两会透露出“稳字当头”和强化预期管理的信号,表明各地楼市调控的稳定性和连续性将会继续下去。 ORG, 易居研究院智库研究中心 ORG, 易居研究院智库研究中心 ORG: ['易居研究院智库研究中心'] PER, 严跃进 ORG, 易居研究院智库研究中心
有网络消息称,滴滴将裁员25%,涉及产品技术、网约车团队等。 [] [] [] ORG, 滴滴

   

粗略的结论:

          1) 前三种方法在抽样的结果上测试效果差别不明显

          2) BERT-BiLSTM-CRF在效果要优于前面三种方法,比如“滴滴”,“顶固集创”,“曲美家居”(后面两个是上市公司名称,如果做金融方面,可以考虑用该方法,效果还不错)

         3) BERT-BiLSTM-CRF相关参数与评测效果

  ***** Running training ***** 用GPU跑的,10min跑完
 Num examples = 20864
 Batch size = 32
 Num steps = 1956

 ***** Running evaluation*****

processed 214542 tokens with 7450 phrases; found: 7598 phrases; correct: 6894.
accuracy:  99.24%; precision:  90.73%; recall:  92.54%; FB1:  91.63
              LOC: precision:  92.06%; recall:  93.36%; FB1:  92.70  3513
              ORG: precision:  84.34%; recall:  88.04%; FB1:  86.15  2261
              PER: precision:  96.11%; recall:  96.32%; FB1:  96.21  1824

 

  • 三种模型大样本评测

      会基于一个问答数据集中实体识别进行评测,完成后会更新。

    ------------------------------------------------------------------------------------------------------------------------------------------

     20190315

     问答QA(二)基于BERT的知识库问答实战  https://blog.csdn.net/ai_1046067944/article/details/86707784

    ------------------------------------------------------------------------------------------------------------------------------------------

后续会更新下更新下三种模型代码运行的步骤

参考文献:

【1】如何入门命名实体识别开发 : https://www.jianshu.com/p/a903c24c01b8

【2】BERT-BiLSTM-CRF-NER: https://github.com/macanv/BERT-BiLSTM-CRF-NER

【3】IDCNN/BiLSTM-CRF-NER: https://github.com/crownpku/Information-Extraction-Chinese/tree/master/NER_IDCNN_CRF

【4】BiLSTM-CRF-NER: https://github.com/Determined22/zh-NER-TF

你可能感兴趣的:(9,NLP)