【文献阅读】StyleBERT: Chinese pretraining by font style information

Abstract

因此在本文中,我们提出了中文预训练语言模型 StyleBERT,它结合了以下嵌入信息来增强语言模型的 savvy,例如单词、拼音、五笔和chaizi(拆字)。

Introduction

大规模预训练模型BERT

文本分类的应用
Nils Reimers and Iryna Gurevych. Sentence-bert: Sentence embeddings using siamese bert-networks, 2019.
Chi Sun, Xipeng Qiu, Yige Xu, and Xuanjing Huang. How to fine-tune bert for text classification?, 2020.

中文方面的应用
Haiqin Y ang. Bert meets chinese word segmentation, 2019.
Chen Jia, Y uefeng Shi, Qinrong Yang, and Y ue Zhang. Entity enhanced BERT pre-training for Chinese NER. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6384– 6396, Online, November 2020. Association for Computational Linguistics. doi:10.18653/v1/2020.emnlp-main.518. URL https://aclanthology.org/2020.emnlp-main.518.

很多作品都将汉字字形信息纳入神经模型,但并没有进行大规模的前训练,Sun等[2014],Liu等[2017],Tao等[2019],孟等[2020]。

同一个汉字“数”在语义层次和句法层次上都表达了不同的读音、不同的意思甚至不同的词性。

提出了 StyleBERT,它首先将“拆字”信息引入到中文预训练过程中,这被证明比其他中文字形信息(例如不同的字体样式信息Chinese bert)更具表现力。为了更好地掌握原始汉字的语义信息,也将单词、拼音、五笔和柴子信息放在一起。

Related work

Bert-wmm

Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, and Ziqing Y ang. Pre-training with whole word masking for chinese bert. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29:3504–3514, 2021. ISSN 2329-9304. doi:10.1109/taslp.2021.3124365. URL http://dx.doi.org/10.1109/TASLP.2021.3124365.

wmm(whole word masking),中文与英文相比,英文是掩蔽一个单词中的若干个字母,而中文的最小语义是一个汉字,因此与传统掩蔽中文词语中的一个汉字不同,我们可以采用传统的中文分词工具将文本分割成单词,并采用中文整词掩蔽来代替单个汉字

【文献阅读】StyleBERT: Chinese pretraining by font style information_第1张图片

MacBERT

调整掩蔽策略,将15%的输入词进行屏蔽,这部分的80%用相似词替换,10%的部分用随机词替换,剩下的10%作为原词。

Chinese Bert

它将汉字的字形和拼音信息结合到语言预训练中

因此,我们可以通过字形嵌入、拼音嵌入和字符嵌入相结合的融合嵌入来对汉字的独特语义属性进行建模。

字形嵌入是对不同汉语字体:隶书、行楷、仿宋

Style-Bert

Overview

每个输入汉字都嵌入到词向量、拼音向量、五笔画向量和柴子向量中。 这些嵌入向量被发送到融合层以合并到融合向量中。
代替原BERT-base模型中的token embedding

Input

拼音嵌入

在拼音编码过程中,每个给定的符号映射为一个8维向量。 每个拼音向量由两部分组成,拼音字母+声调

字形嵌入

汉字结构复杂,不像英文只有横向的

因此,采用五笔编码和拆字编码对汉字的部首结构进行编码。

五笔编码

中文部首的总量约为1.6k。 五笔编码大大减少了特征空间的大小并捕获了每个字符的几何结构。

然而,五笔画的一个显著缺点是,它减少了特征空间,使模型更难收敛。 为了减少这一问题的影响,在模型中引入了拆字编码。

拆字编码

拆字编码为每个汉字部首分配了不同的印记,大大增加了编码空间,保留了更多信息。

在拆字编码过程中引用了一个开源的 github 存储库 Doherty [2015],其中包含每个汉字的部首组合。
Liam Doherty. kfcd/chaizi. https://github.com/kfcd/chaizi, 2015.

在生成拼音、五笔和拆字编码向量后,将这些向量嵌入到embedding向量中,本文对多种嵌入方法进行了测试:

  1. TextCNN:特征编码向量被送入Text-CNN层,该层使用多个过滤器捕捉编码特征。 这种方法在许多下游任务中表现良好。 然而,Text-CNN层的一个缺点是在训练阶段花费的时间太多,特别是对于较长的语料库。
  2. 带有注意机制的RNN:为了加速训练过程,Zhou等人[2016]将Text-CNN层替换为RNN层,然后再引入注意层。 此外,该团队还增加了一个跳跃式连接,将输入编码向量添加到RNN层的输出向量中。 这种方法不仅效果好,而且花费的时间也少。
    Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hao Hongwei, and Bo Xu. Attention-based bidirectional long short-term memory networks for relation classification. In Meeting of the Association for Computational Linguistics, 2016.

将字符(词)嵌入,字音(拼音)嵌入,字形(五笔、拆字)嵌入

【文献阅读】StyleBERT: Chinese pretraining by font style information_第2张图片

你可能感兴趣的:(文献阅读,nlp)