bert做文本摘要_BERT-WWM

bert做文本摘要_BERT-WWM_第1张图片

New May 31st, 2019: Whole Word Masking Models (google-research)https://github.com/google-research/bert

Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。

简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在Whole Word Masking (wwm)中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。

bert做文本摘要_BERT-WWM_第2张图片

( 需要注意的是,这里的mask指的是广义的mask(替换成[MASK];保持原词汇;随机替换成另外一个词),并非只局限于单词替换成[MASK]标签的情况。)

中文BERT-WWM

2019年哈工大和科大讯飞联合发表中文BERT-WWM模型的论文。

论文链接:https://arxiv.org/pdf/1906.08101.pdf

bert做文本摘要_BERT-WWM_第3张图片

bert做文本摘要_BERT-WWM_第4张图片

“ 最近,BERT 的作者发布了 BERT 的更新版本,称为全字掩蔽。整个单词掩蔽主要缓解了原始 BERT 中的缺点,即如果掩蔽的 Wordpiece 分词(Wu 等人,2016 年)属于整个单词,则所有 Wordpiece 分词(构成一个完整的单词)将完全被屏蔽。这将显式强制模型恢复掩蔽语言模型 (MLM) 预训练任务中的整个单词,而不是仅仅恢复 WordPiece 分词,这更具挑战性。除了该策略,他们还为社区提供预先训练的英语模型(BERTlarge-wwm),这有利于研究人员根据这些模型设计更强大的模型。”

bert做文本摘要_BERT-WWM_第5张图片
Figure 1: Examples of the whole word masking in BERT.

相关中文模型下载 - https://github.com/ymcui/Chinese-BERT-wwm

CMRC(Chinese Machine Reading Comprehension )“讯飞杯”中文机器阅读理解评测

bert做文本摘要_BERT-WWM_第6张图片
Table 3: Results on CMRC 2018 (Simplified Chinese). The average score of 10 independent runs is depicted in brackets. Overall best performance is depicted in boldface.

原文摘要翻译

BERT在各种 NLP 任务中表现出奇妙的改进。最近,使用全字掩蔽 (WWM) 发布了 BERT 的升级版本,这缓解了在训练前 BERT 中屏蔽部分 Wordpiece 分词的缺点。在这份技术报告中,我们用中文文本对整个单词进行掩蔽,即屏蔽整个单词而不是屏蔽汉字,这可能会给屏蔽语言模型(MLM)的预训练任务带来另一个挑战。建议的模型在各种NLP任务上验证,从句子级别到文档级别,包括机器阅读理解(CMRC 2018,DRCD,CJRC),自然语言推理(XNLI),情感分类(ChnSentiCorp),句子对匹配(LCQMC,BQCorpus)和文档分类(THUCNews)。这些数据集的实验结果表明,整个单词掩蔽可以带来另一个显著收益。此外,我们还考察了中文预培训模型的有效性:BERT、ERNIE、BERTwwm、BERT-wwm-ext、RoBERTa-wwm-ext 和 RoBERTa-wwm-ext-ext。

原文摘要

Abstract Bidirectional Encoder Representations from Transformers (BERT) has shown marvelous improvements across various NLP tasks. Recently, an upgraded version of BERT has been released with Whole Word Masking (WWM), which mitigate the drawbacks of masking partial WordPiece tokens in pre-training BERT. In this technical report, we adapt whole word masking in Chinese text, that masking the whole word instead of masking Chinese characters, which could bring another challenge in Masked Language Model (MLM) pre-training task. The proposed models are verified on various NLP tasks, across sentence-level to document-level, including machine reading comprehension (CMRC 2018, DRCD, CJRC), natural language inference (XNLI), sentiment classification (ChnSentiCorp), sentence pair matching (LCQMC, BQ Corpus), and document classification (THUCNews). Experimental results on these datasets show that the whole word masking could bring another significant gain. Moreover, we also examine the effectiveness of the Chinese pre-trained models: BERT, ERNIE, BERTwwm, BERT-wwm-ext, RoBERTa-wwm-ext, and RoBERTa-wwm-ext-large.
  • Machine Reading Comprehension (MRC): CMRC 2018 (Cui et al., 2019), DRCD (Shao et al., 2018), CJRC (Duan et al., 2019)
  • Natural Language Inference (NLI): XNLI (Conneau et al., 2018)
  • Sentiment Classification (SC): ChnSentiCorp8
  • Sentence Pair Matching (SPM): LCQMC (Liu et al., 2018), BQ Corpus (Chen et al., 2018)
  • Document Classification (DC): THUCNews (Li and Sun, 2007)

预训练方法

我们下载了最新的维基百科转储,遵循Devlin et al. (2019)的论文结论,用WikiExtractor.py做了预处理 ,提取成1,307个文件。需要注意的是,我们在此转储中同时使用简体中文和传统中文。在清理原始文本(如删除 html 标记)并分隔文档后,我们会在最终输入文本中获取 13.6M 行。为了识别汉语词的边界,我们使用LTP4(Che等人,2010年)进行中文词分段(CWS)。我们使用官方创建预培训data.py将原始输入文本转换为在 BERT GitHub 存储库中提供的pre-training examples预培训样本。我们生成两组预培训样本,最长长度为 128 和 512,如 Devlin 等人 (2019) 所示,用于计算效率和学习远程依赖关系。

有用的小技巧

提示完全基于上述材料或我们使用这些模型的经验。
• 初始学习速率是最重要的超参数(无论 BERT 或其他神经网络),应始终进行优化以提供更好的性能。
• 如实验结果所示,BERT 和 BERT-wwm 的初始学习率几乎相同,因此将 BERT 的初始学习率应用于 BERT-wwm 非常简单。但是,我们发现 ERNIE 的特征并不相同,因此强烈建议调整学习速率。
• 由于 BERT 和 BERT-wwm 在维基百科数据上接受过培训,因此他们在正式文本上的表现相对较好。同时,ERNIE接受了关于更大数据(包括网络文本)的训练,这些内容对于微博(微博)等临时文本非常有用。
• 在机器阅读理解和文档分类等长序列任务中,我们建议使用 BERT 或 BERTwwm。
• 由于这些预先培训的模型在一般领域接受过培训,如果任务数据与培训前数据(BERT/BERT-wwm 的维基百科)存在严重不同,我们建议对任务数据采取另一个预培训步骤,这也是由(Devlin等人,2019 年)建议的。
• 由于在培训前阶段有很多可能性(如初始学习率、全球培训步骤、热身步骤等),因此,使用相同的培训前数据,我们的实施可能并非最佳。建议读者训练自己的模型,如果寻求另一个性能提升。但是,如果无法进行预训练,请选择这些经过预先训练的模型之一,这些模型是在与下游任务类似的域上训练的。
• 处理传统中文文本时,请使用 BERT 或 BERT-wwm。

bert做文本摘要_BERT-WWM_第7张图片
Table 10: Best initial learning rate for different task. * represents all related models. ERNIE(Enhanced Representation through kNowledge IntEgration)在Devlin等人(2019年)发布具有全字掩蔽的BERT之前,Sun等人(2019年)曾提出通过具有类似的思路的ERNIE。 Tsinghua university has also released a model called ERNIE (Zhang et al., 2019b) but was not trained on Chinese. In this paper, ERNIE refers to the model by Sun et al. (2019).

bert做文本摘要_BERT-WWM_第8张图片
Table 2: Comparisons of Chinese pre-trained models.

Reference

中文模型下载 - https://github.com/ymcui/Chinese-BERT-wwm

https://github.com/google-research/bert

https://arxiv.org/pdf/1906.08101.pdf

https://www.iflytek.com/index.html

你可能感兴趣的:(bert做文本摘要)