论文笔记(一):基于 BERT-BiLSTM-CRF 模型的中文实体识别

论文目录结构

目录

摘要 

 引言

1  相关工作

2  BERT-BiLSTM-CRF 模型

2.1  模型概述

2.2  BERT 模块

2.3  BiLSTM 模块

2.4  CRF 模块

3  实验结果与分析

3.1  实验数据集

3.2 数据集标注与评价指标

3.3 实验环境与实验参数配置

3.3.1 实验环境配置

3.3.2 实验参数配置

3.4 实验结果

3.4.1 BERT-BiLSTM-CRF 和传统经典神经网络模型的对比实验

3.4.2 BERT-BiLSTM-CRF 和现有其他工作的对比

4 结语

一、基本信息

标题:基于 BERT-BiLSTM-CRF 模型的中文实体识别

时间:2020,29(7):48−55

出版源:计算机系统应用

领域分类:NER

二、研究背景

问题定义:

大多数深度学习模型的预处理主要注重词和字符的特征抽取, 却忽略词上下文的语义信息, 使其无法表征一词多义, 因而实体识别性能有待进一步提高

难点:

(1) 命名实体类型与数量众多, 而且不断有新的实体涌现, 如新的人名、地名等; 

(2) 命名实体构成结构较复杂, 如组织机构存在大量的嵌套、别名以及缩略词等问题, 没有严格的命名规律; 

(3) 命名实体识别常常与中文分词、浅层语法分析等相结合, 而这两者的可靠性也直接决定命名实体识别的有效性

相关工作:

基于词典和规则

基于统计机器学习  HMM MEM SVM CRF  CRF+规则 

基于深度学习  LSTM-CRF  BiLSTM-CRF  CNN-CRF   BiLSTM-CRF+人工设计的拼写特征   CNN处理层+LSTM  CNN-BiLSTM-CRF   基于 attention 机制的 BiLSTM-CRF模型    联合分词与 CNN-BiLSTM-CRF 模型

结合特征模板的 CNN-BiLSTM-CRF 网络安全实体识别方法  

联合迁移学习和深度学习          迁移学习      Radical-BiLSTM-CRF 模型     

基于 attention 机制的 DC-BiLSTM-CRF 模型     Lattice LSTM 模型   WC-LSTM 模型   利用片段神经网络结构

本文提出模型: BERT-BiLSTM-CRF(全词 Mask)

三、创新方法

① 将语言预训练模型 BERT 应用到中文实体识别中

语言预训练是作为中文实体识别的上游任务, 它把预训练出来的结果作为下游任务 BiLSTM-CRF 的输入, 这就意味着下游主要任务是对预训练出来的词向量进行分类即可, 它不仅减少了下游任务的工作量, 而且能够得到更好的效果;

② BERT 语言预训练模型不同于传统的预训练模型, 

BERT 预训练出来的是动态词向量, 能够在不同语境中表达不同的语义, 相较于传统的语言预训练模型训练出来的静态词向量 (无法表征一词多义), 在中文实体识别中具有更大的优势.

四、实验

实验数据集:

人民日报语料库和 MSRA 语料

数据集标注与评价指标:

BIO标注体系     召回率 R、精确率 P 和 F1 值

实验环境与参数配置:

实验环境
超参数配置

实验结果:

表中的 BERT-BiLSTM-CRF 指的是全词 Mask 下的 BERT-BiLSTM-CRF

实验一:人民日报语料库

人民日报数据集模型对比


人民日报语料模型训练时间对比


实验二:MSRA 语料

MSRA 语料模型对比


MSRA 语料本文模型与现有其他工作的对比


五、结论

本文模型, 其最大的优势在于 BERT 能够结合上下文的语义信息进行预训练,能够学习到词级别、句法结构的特征和上下文的语义信息特征, 使得该模型相比其他模型, 具有更优的性能.同时利用 BiLSTM 对词向量做进一步处理, 再结合CRF 的优势, 进一步提高了中文实体识别的效果。

原文链接:http://www.c-s-a.org.cn/html/2020/7/7525.html#outline_anchor_31

你可能感兴趣的:(论文笔记(一):基于 BERT-BiLSTM-CRF 模型的中文实体识别)