融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)

不同于英文字母,中文的字形和拼音都有其独特的含义, 例如'液'、'河'和'湖'都有相同的偏旁,其含义也有联系;中文汉字'乐'是一个多音字,读'yue'时代表音乐,读'le'时可能就是快乐的意思了。

模型结构

为了充分利用中文汉字的字形和拼音,论文设计了下面的模型结构

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第1张图片

图中用红色框出的四种embedding是模型的核心,其中char embedding和原生bert一致,其他几个下面逐个介绍

字形embedding

Glyph embedding如下图所示,每个汉字使用三种不同的格式:仿宋、行楷和隶书,将三种格式的图像向量化为24*24,concat之后就为24*24*3,通过flattened和全连接层之后就得到字形embedding

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第2张图片

拼音embedding

文中拼音embedding采用cnn(textcnn)提取embedding,cnn卷积核的尺度是2*hidden_size,即每次滑动窗口内两个字母的embedding,并且加入中文音调,例如'猫'为第一声,所以拼音为'mao1'。

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第3张图片

融合embedding

首先将字符embedding、字形embedding和拼音embedding concat,然后通过全连接层获得最后的fusion embedding。

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第4张图片

模型训练

MASK方式

90% 做全词掩码(Whole Word Mask, WWM),剩下10%做char mask;同原生bert相同,每个字符mask的概率值是0.15,如果字符被选中mask,那么80%时刻用mask字符代替,10%时刻随机替换成一个字符,剩余10%保持原词

模型效果

文中通过多个任务说明了Chinese BERT都比BERT效果好(还有一些BERT的优化版:ERNIE)

阅读理解

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第5张图片

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第6张图片

自然语言推理

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第7张图片

文本分类

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第8张图片

句对匹配

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第9张图片

实体识别

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第10张图片

中文分词

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)_第11张图片

个人总结

  1. 首先文中和BERT对比的收益,部分是由全词掩码(Whole Word Mask, WWM)导致的;
  2. 在实际业务中,可能有两种场景,该模型能有不错的收益
    1. 相关任务数据量小(该模型能够充分利用样本多个维度信息)
    2. 任务存在变体情况(通过字形和拼音解这部分case)

论文地址:https://arxiv.org/pdf/2106.16038.pdf

开源代码:https://github.com/ShannonAI/ChineseBert

你可能感兴趣的:(预训练模型,每天一篇自然语言顶会paper,自然语言处理,深度学习,机器学习,NLP)