ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

文章目录

  • 总体介绍
  • 具体方法
    • 字形嵌入
    • 拼音嵌入
    • 混合嵌入
  • 总结

总体介绍

  相比于英文单词,汉字是象形文字而且带有音调。因此汉字的字形在一定程度上可以代表汉字本身的含义,而音调的存在则可以在一定程度上可以处理中文的一词多义的情况。
  但是由于之前的预处理模型(BERT家族)都是基于英语的,即使是出的bert-chinese也只是将汉语的字与tensor进行了映射。
  基于上述情况Zijun等人就将汉语的拼音和字形与其本身融入到一起,在BERT的基础上提出了ChineseBERT。

具体方法

字形嵌入

  该文使用了3种类型的字体(隶书,仿宋,小楷)表示字形信息的嵌入,每张图片的大小均为24243,然后接入一个向量大小为2352(不太清楚为啥是这个数)的平滑层作为字形嵌入的输出。
ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information_第1张图片

图1 字形嵌入

拼音嵌入

  作者首先通过开源的pypinyin package包生成拼音序列,用数字代表音调。输入的拼音序列长度固定为8,当拼音序列不足8时,剩余的位置用“-”填充,然后结构宽度为2的CNN和最大池化以得到输出维度固定的拼音嵌入。
ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information_第2张图片

图2 拼音嵌入

混合嵌入

  将char embedding(对汉语来说应该是字嵌入,英文仍然是WordPiece算法的字符),拼音嵌入和字形嵌入拼接在一起形成一个3维向量再通过一个全连接层转化为1维向量作为BERT的输入。
ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information_第3张图片

图3 混合嵌入

ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information_第4张图片

图4 ChineseBERT结构

总结

  该文针对于此前的应用于中文的预训练语言模型没有考虑中文的拼音和字形的情况做了完善,以混合嵌入代替单一的汉字嵌入并取得了很好的效果,但是由于中文的复杂性而言,只考虑字而不考虑词在完整表达含义方面还是有所欠缺的。

[1]ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

你可能感兴趣的:(自然语言处理,深度学习,人工智能,bert)