bert中文预训练模型_[中文医疗预训练模型] MC-BERT

bert中文预训练模型_[中文医疗预训练模型] MC-BERT_第1张图片

Conceptualized Representation Learning for Chinese Biomedical Text Mining

作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua

作者单位:Alibaba Group

项目地址:https://github.com/alibaba-research/ChineseBLUE

预训练模型:mc_bert_base.tar.gz

  1. 背景

总结:生物医学领域的中文预训练以及评测基准数据集。

拟解决的问题:如何检索生物医学领域知识;如何在模型预训练中利用生物医学领域的知识。

2. 方法

(1)Whole Entity Masking

解决的问题:遮盖类似于”腹痛“的医疗实体,将这种医疗知识显式地注入模型中。

步骤:

1)使用实体命名识别预测医疗实体;

2)使用中文医疗知识图谱后处理实体。

(2)Whole Span Masking

解决的问题:医疗实体还不足够,医疗文本中存在类似”肚子有一点痛“,”腹部一阵一阵痛“,它们也与”腹痛“具有类似的含义。

步骤:

1)使用Autophrase提取短语;

2)从Alibaba Cognitive Concept Graph检索通用的医疗短语;

3)训练了一个二分类器,用于分类出Autophrase提取出的医学短语。

(3)整体流程总结

1)生成医疗实体,使用医疗知识图谱提纯医疗实体;

2)使用Autophrase生成短语;

3)使用规则以及fastText增强和提纯短语;

4)以15%的几率进行Whole Entity/Span Masking;

5)用BERT-base的模型参数进行初始化,然后进行预训练。

3. 实验

(1)预训练数据

预训练数据来自于中文医疗问答、中文医疗百科和中文电子病历。

bert中文预训练模型_[中文医疗预训练模型] MC-BERT_第2张图片

(2)下游任务

下游任务数据来自于新发布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。

bert中文预训练模型_[中文医疗预训练模型] MC-BERT_第3张图片

(3)实验结果

与Baseline相比,在所有任务上都有着不同程度的提升:

bert中文预训练模型_[中文医疗预训练模型] MC-BERT_第4张图片

消融实验,移除whole entity/span masking都会影响模型的效果:

bert中文预训练模型_[中文医疗预训练模型] MC-BERT_第5张图片

你可能感兴趣的:(bert中文预训练模型)