论文阅读——MC-BERT

Conceptualized Representation Learning for Chinese Biomedical Text Mining

    • 本文介绍
    • 本文动机
    • 相关工作
    • 本文方法
      • 1、 整个实体MASK
      • 2、全跨度Masking
      • 3、在生物医学领域的进一步预训练
    • 实验
      • 1、预训练数据和设置
      • 2、Finetuning任务
      • 3、实验结果
      • IC数据集个人测试

本文介绍

论文地址:https://arxiv.org/pdf/2008.10813.pdf
引用次数:40
出版社: 2020 Association for Computing Machinery

本文动机

近年来,BERT等词表示模型在研究人员中大受欢迎。由于BERT等模型主要是在维基百科等一般领域数据集上进行训练和测试的,因此很难在不失去性能的情况下适应生物医学数据集。此外,由于一般语和生物医学语料库的单词分布有很大的不同,因此很难估计它们在包含生物医学文本的数据集上的性能。此外,医学领域有难以通过语言模型学习的长尾概念术语。对于中国的生物医学文本,由于其复杂的结构和短语组合的多样性,它比较困难。

相关工作

关于生物医学领域的预训练的研究却很少,首先提出了BioBERT,这是一个在大规模生物医学语料库上预先训练的特定领域的语言表示模型。在本文中,我们进一步利用语料库图和知识图来训练一个基于BERT的增强型语言表示模型。据我们所知,我们是第一个将生物医学知识注入中国生物医学表征倾向的方法。

本文方法

1、 整个实体MASK

与BERT模型的整个词掩蔽不同,本文不掩盖随机的词,而是掩盖医学实体,如“腹痛”(“胃痛”),它可以明确地注入医学领域的知识。我们利用中国生物医学知识图和生物医学命名实体识别,提取和细化医学领域的实体,包括综合征、死亡、检查、治疗、药物等。
论文阅读——MC-BERT_第1张图片

2、全跨度Masking

汉语短语组合的复杂结构和多样性,例如,短语“肚子有一点疼”(“胃有点疼痛”)、“腹部一阵一阵痛”(“腹部疼痛”)、“腹痛”(“胃痛”)与概念“腹痛”(“胃痛”)有相同的含义,整个实体掩蔽不能明确地注入这样的知识。本文认为,一些短语知识对中国生物医学语言的理解是必要的。
利用Autophrase(是韩家炜团队在短语挖掘中的又一力作,它利用现有通用知识库(例如wiki)中出现的高质量短语,使用远程训练(减少人力投入)和a POS-guided短语切分(提升模型表现),仅需要极少人力就可以适应各个领域。)获取短语,然后从阿里巴巴认知概念图抽取医学短语,利用领域知识扩充数据,并训练一个二进制分类器来过滤那些非生物医学短语。收集了医学百科全书中实体和属性的n-gram表征作为正样本,随机采样短语作为负样本。

3、在生物医学领域的进一步预训练

本文从bert的基础上来训练模型,对最大长度为512的样本上训练了100K步,初始学习率为1e-5^5。学习率是至关重要的,我们不使用学习率热身,它将导致严重的灾难性遗忘在生物医学领域。整个预训练过程如下图所示。
论文阅读——MC-BERT_第2张图片

实验

1、预训练数据和设置

对于中文语料库,本文从阿里巴巴神马搜索引擎中收集各种数据。训练前语料库的细节如表1所示。
论文阅读——MC-BERT_第3张图片

2、Finetuning任务

文中提出的ChineseBLUE评价数据集,具体任务包含:
命名实体识别(NER):识别疾病、药物、症状等,医疗数据集包含中国电子健康档案标注的cEHRNER,和中国社区问题数据标注cMedQANER。
解释识别(PI):评价两句话是否同意。医疗数据集名为cMedQQ,它由成对的查询组成。
问答(QA):根据相似度对候选答案排序,对QA分配标签使之转化为二分类问题。使用了包含长文本的cMedQNLI和短文本的cMeQA。
信息检索(IR):根据给定的搜索查询查找最相关的文档,可视为排序任务,具体数据集是cMedIR,它包含一系列的文档及其打分。
意图分类(IC):目标是给文本打意图标签,可视为多标签分类任务,具体使用cMedIC数据集,它包含三个标签:无意图,弱意图,强意图。
文本分类(TC):给句子打多个标签,使用cMedTC数据集,由具有多个标签的生物医学文本组成。
中文医疗对话数据集(CMDD):包含医患对话的数据集。(文中评测未使用)
问题推理(QNLI):其中包含问答对,并标注是否回答正确。(文中评测未使用)
论文阅读——MC-BERT_第4张图片

3、实验结果

MC-BERT是本文的方法;w/o Entity是不含全实体掩蔽的方法;w/o span是没有全跨度掩蔽的方法;
结果显示也是有一定的性能提升
论文阅读——MC-BERT_第5张图片

IC数据集个人测试

下图为MC_BERT准确率
MC_BERT
下图为BERT_BASE准确率
BERT-BASE
试验结果表明MC_BERT比BERT_BASE效果要好一些。

你可能感兴趣的:(机器学习,论文阅读,bert,人工智能)