论文目录结构
目录
摘要
引言
1 相关工作
2 BERT-BiLSTM-CRF 模型
2.1 模型概述
2.2 BERT 模块
2.3 BiLSTM 模块
2.4 CRF 模块
3 实验结果与分析
3.1 实验数据集
3.2 数据集标注与评价指标
3.3 实验环境与实验参数配置
3.3.1 实验环境配置
3.3.2 实验参数配置
3.4 实验结果
3.4.1 BERT-BiLSTM-CRF 和传统经典神经网络模型的对比实验
3.4.2 BERT-BiLSTM-CRF 和现有其他工作的对比
4 结语
一、基本信息
标题:基于 BERT-BiLSTM-CRF 模型的中文实体识别
时间:2020,29(7):48−55
出版源:计算机系统应用
领域分类:NER
二、研究背景
问题定义:
大多数深度学习模型的预处理主要注重词和字符的特征抽取, 却忽略词上下文的语义信息, 使其无法表征一词多义, 因而实体识别性能有待进一步提高
难点:
(1) 命名实体类型与数量众多, 而且不断有新的实体涌现, 如新的人名、地名等;
(2) 命名实体构成结构较复杂, 如组织机构存在大量的嵌套、别名以及缩略词等问题, 没有严格的命名规律;
(3) 命名实体识别常常与中文分词、浅层语法分析等相结合, 而这两者的可靠性也直接决定命名实体识别的有效性
相关工作:
基于词典和规则
基于统计机器学习 HMM MEM SVM CRF CRF+规则
基于深度学习 LSTM-CRF BiLSTM-CRF CNN-CRF BiLSTM-CRF+人工设计的拼写特征 CNN处理层+LSTM CNN-BiLSTM-CRF 基于 attention 机制的 BiLSTM-CRF模型 联合分词与 CNN-BiLSTM-CRF 模型
结合特征模板的 CNN-BiLSTM-CRF 网络安全实体识别方法
联合迁移学习和深度学习 迁移学习 Radical-BiLSTM-CRF 模型
基于 attention 机制的 DC-BiLSTM-CRF 模型 Lattice LSTM 模型 WC-LSTM 模型 利用片段神经网络结构
本文提出模型: BERT-BiLSTM-CRF(全词 Mask)
三、创新方法
① 将语言预训练模型 BERT 应用到中文实体识别中
语言预训练是作为中文实体识别的上游任务, 它把预训练出来的结果作为下游任务 BiLSTM-CRF 的输入, 这就意味着下游主要任务是对预训练出来的词向量进行分类即可, 它不仅减少了下游任务的工作量, 而且能够得到更好的效果;
② BERT 语言预训练模型不同于传统的预训练模型,
BERT 预训练出来的是动态词向量, 能够在不同语境中表达不同的语义, 相较于传统的语言预训练模型训练出来的静态词向量 (无法表征一词多义), 在中文实体识别中具有更大的优势.
四、实验
实验数据集:
人民日报语料库和 MSRA 语料
数据集标注与评价指标:
BIO标注体系 召回率 R、精确率 P 和 F1 值
实验环境与参数配置:
实验结果:
表中的 BERT-BiLSTM-CRF 指的是全词 Mask 下的 BERT-BiLSTM-CRF
实验一:人民日报语料库
实验二:MSRA 语料
五、结论
本文模型, 其最大的优势在于 BERT 能够结合上下文的语义信息进行预训练,能够学习到词级别、句法结构的特征和上下文的语义信息特征, 使得该模型相比其他模型, 具有更优的性能.同时利用 BiLSTM 对词向量做进一步处理, 再结合CRF 的优势, 进一步提高了中文实体识别的效果。
原文链接:http://www.c-s-a.org.cn/html/2020/7/7525.html#outline_anchor_31