中文预训练模型研究进展

点击上方“AI遇见机器学习”,选择“星标”公众号

重磅干货,第一时间送达
来自:专知

中文预训练模型研究进展_第1张图片

 近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行建模和表示,但主流预训练模型大多针对英文领域。中文领域起步相对较晚,鉴于其在自然语言处理过程中的重要性,学术界和工业界都开展了广泛的研究,提出了众多的中文预训练模型。文中对中文预训练模型的相关研究成果进行了较为全面的回顾,首先介绍预训练模型的基本概况及其发展历史,对中文预训练模型主要使用的两种经典模型Transformer和BERT进行了梳理,然后根据不同模型所属类别提出了中文预训练模型的分类方法,并总结了中文领域的不同评测基准,最后对中文预训练模型未来的发展趋势进行了展望。旨在帮助科研工作者更全面地了解中文预训练模型的发展历程,继而为新模型的提出提供思路。

1 引言

自然语言处理(NaturalLanguageProcessing,NLP)是计 算机利用人类定义的算法对自然语言形式的输入进行加工处 理的过程,旨在让计算机可以像人类一样理解和生成语言,具 备如人类一样的听、说、读、写、问、答、对话、聊天等的能力,并 利用已有知识和常识进行推理分析.自然语言处理技术的发 展经历了从基于规则到基于统计的过程.随着深度学习的发 展,图像、文本、声音、视频等不同形式的信息载体被自然语言 处理技术突破,大量的神经网络被引入自然语言理解任务中, 如循环神经网络[1](RecurrentNeuralNetworks,RNN)、卷积神经网络[2](ConvolutionalNeuralNetworks,CNN)、注意力 机制[3](AttentionMechanism)等.在特定的自然语言处理任 务中,神经网络可以隐性地学习到序列的语义表示与内在特 征,因此,神经网络成为了解决复杂自然语言处理任务最有效 的方法.随着计算力的不断增强,深度学习在自然语言处理 领域中不断发展,分布式表示占据了主导地位,不仅在指定任 务中可以端到端地学习语义表示,而且可以在大规模无标注 的文本上进行自主学习,能更灵活地运用在各种下游任务中. 然而,早期在有监督数据上训练浅层模型往往存在过拟合和 标注数据不足等问题,在训练深层模型参数时,为了防止过拟 合,通常需 要 大 量 的 标 注 数 据,但 有 监 督 的 标 注 数 据 成 本较高,因此模型主要利用网络中现存的大量无监督数据进行 训练.在此背景下,预训练技术被广泛地应用在自然语言处 理领域.其中,最经典的预训练模型是 BERT [4]模型,在多个 自然语言处理任务中取得了最好结果(StateoftheArt,SOG TA).此后出现了一系列基于 BERT 的预训练模型,掀起了 深度学习与预训练技术的发展浪潮。

随着国内外研究者在预训练模型方面的深入研究,目前 已有很多关于预训练模型的综述,但缺少专门针对中文领域 的相关综述.当前,中文预训练模型蓬勃发展并取得一定的 成绩,因此,对现有研究成果进行全面的分析和总结非常必 要.本文期望能为中文预训练相关领域的学者提供参考,帮 助科研工作者了解目前的研究现状和未来的发展趋势.本文 第2节概述预训练模型的基本情况;第3节主要介绍两种基 本模型,即 Transformer和 BERT;第4节根据不同模型的所 属类别提出典型的中文预训练模型的分类方法,并汇总了中 文预训练模型的相关资源;第5节梳理了中文领域的不同评 测基准;最后总结全文并展望未来.  

2 预训练模型

2.1 预训练模型发展史 

从预训练语言模型的发展时间来看,可以将其分为静态 预训练模型和动态预训练模型.2013年,Mikolov等[5]在神 经网络语言模型(NeuralNetworkLanguageModel,NNLM) 思想的基础上提出 Word2Vec,并引入大规模预训练的思路, 旨在训练具有特征表示的词向量,其中包括 CBOW 和 SkipG Gram 两种训练方式.相比 NNLM 模型,Word2Vec可以更 全面地捕捉上下文信息,弥补 NNLM 模型只能看到上文信息 的不足,提高模型的预测准确性,Word2Vec极大地促进了深 度学习在 NLP中的发展.自 Word2Vec模型被提出以来,一 批训练词向量的模型相继涌现,例如,Glove [6]和 FastText [7] 等模型均考虑如何得到文本单词较好的词向量表示,虽然对 下游任务性能有所提升,但其本质上仍是一种静态的预训练 模型.

2018年,Peters等[8]提出的 ELMo模型将语言模型带入 动态的预训练时代.ELMo模型采用双层双向的 LSTM [9]编 码器进行预训练,提取上下文信息,并将各层词嵌入输入特定 下游任务中进行微调.该模型不仅可以学习到底层单词的基 础特征,而且可以学到高层的句法和语义信息.然而,ELMo 模型只能进行串行计算,无法并行计算,模型训练的效率较 低;此外,该模型无法对长序列文本进行建模,常出现梯度消 失等问题.而 后,OpenAI提 出 了 GPT(GenerativePreGtraiG ning)[10]模 型.与 ELMo模 型 不 同,GPT 采 用 Transformer 深度神经网络,其处理长文本建模的能力强于 LSTM,仅使用 Transformer解码器进行特征提取,在机器翻译等生成式任务 上表现惊人,但这一特点也导致 GPT 只利用到了当前词前面 的文本信息,并没有考虑到后文信息,其本质上依旧是一种单 向语言模型.为了解决 GPT等模型单向建模的问题,2018年, Devlin等[4]提出了 BERT 模型,该模型是第一个基于 Transformer的 双 向 自 监 督 学 习 的 预 训 练 模 型,在 英 文 语 言 理解评测基准[11]榜单中的多个任务上达到了SOTA 结果,此 后出现了一大批基于 BERT的预训练模型,大幅提升了下游 自然语言处理任务的性能.中文预训练模型虽然起步较晚, 但发展迅速,已经取得了一定成果,本文第4节将对其进行重 点介绍.  

2.2 研究中文预训练模型的原因 

首先,中文和英文分别是世界上使用人数最多和范围最 广的两种语言,然而在自然语言处理领域,英文预训练模型较 为普遍,例如,以 BERT 为首及其后出现的大量预训练模型 均是在单一语料英文数据集上进行训练,此外模型的设计理 念也更适用于英文,比如分词方式及掩码方式等.其次,中文 和英文语言本质上存在差异,它们的主要区别是,中文文本通 常由多个连续的字符组成,词与词之间没有明显的分隔符. 如果使用英文预训练模型去处理常见的中文任务,效果往往 不佳.因此,为了推动中文领域自然语言处理技术和预训练 模型在多语言任务方面的发展,构建以中文为核心的预训练 模型势在必行.

3 Transformer和 BERT

自2021年以来,中文预训练模型进入井喷式的发展阶 段,其架构主要基于 Transformer和 BERT 两种基础模型,本 节主要介绍这两种模型. 图1为典型的 Transformer架构,该架构由6个结构相 同的编码器和解码器堆叠而成.单个编码器由堆叠的自注意 力层和前馈神经网络组成,解码器由堆叠的自注意力层、掩码 注意力层 和 前 馈 神 经 网 络 组 成.有 关 Transformer的 详 细 细节介绍请参考文献[14].

中文预训练模型研究进展_第2张图片

BERT

BERT [4] (Bidirectional Encoder Representations from Transformers)是由谷歌提出的一种面向自然语言处理任务 的无监督预训练语言模型,由 Transformer的双向编码器表 示.BERT的架构如图2所示.

中文预训练模型研究进展_第3张图片

图2 BERT示意图[4]

4 中文预训练模型分类 

在自然语言处理领域,继 Transformer和 BERT 出现之 后,涌现出大量的预训练模型,这些模型主要针对英文领域, 中文领域的研究起步较晚.但在近两年,中文预训练模型受 到广大学者的关注并取得了一定的研究成果.为了阐明现有 的中文预训练模型,本节主要从以下6个方面对现有的预训练 模型进行分类,图3展示了典型的中文预训练模型的分类图. 

(1) 预训练模型的方法改进,主要包括掩码方式的转变、 位置编码的转变、LN 层的位置变化、MoE 层的使用、多粒度训练和其他改进. 

(2) 融入外部信息的预训练,主要包括命名实体、知识图 谱、语言学知识和特定知识.

(3) 关于多模态融合的预训练模型. 

(4) 侧重于高效计算的预训练,主要包括数据处理阶段、 预训练阶段以及技术优化. 

(5) 指特定领域的预训练,主要包括对话系统和其他领域 的预训练模型. 

(6) 介绍一些其他变体,主要侧重于典型的英文预训练模 型开源的中文版本.

中文预训练模型研究进展_第4张图片

中文预训练模型研究进展_第5张图片

图3 中文预训练模型分类图

5. 中文领域的评测基准  

5.1 为什么建立中文领域的评测基准 

首先,从使用人数上看,中国人口占世界人口的五分之 一,人数庞大,因此中文是世界上使用人数最多的语言;其次, 从语言体系上看,中文与英文差异较大;最后,从数据集角度 出发,中文领域公开可用的数据集较少,此前提出的中文预训 练模型在英文评测基准上评估,无法完全体现出模型性能. 当下预训练模型的发展极其迅速,英文领域的评测基准已步 入成熟阶段,而中文领域的缺失必然会导致技术落后,因此中 文领域的评测基准必不可少.本节主要介绍4种不同的评测 基准.

中文预训练模型研究进展_第6张图片

中文预训练模型研究进展_第7张图片

6 研究趋势与展望 

中文预训练模型已在多个领域实现商业化落地,并展现出一定的市场潜力,取得了长足发展,但也存在较多挑战,例 如预训练模型规模和性能之间的平衡问题;如何构建更加通 用型的预训练模型;如何突破现有多模态和轻量化模型的瓶 颈;如何构建融入更多中文特色的预训练模型等.本文主要 从以下几个方面对未来进行展望. 

6.1 规模 

随着以 BERT和 GPT等为代表的大规模预训练模型的 出现,逐渐掀起了预训练模型朝大规模方向发展的浪潮.大 量的研究表明,模型参数量越大,训练数据量越多的预训练模 型表现更出色.中文领域存在众多大规模预训练模型,如源 1.0参数 2457亿,训练数据集达5000GB;ERNIE3.0Titan 参数2600亿;中文多模态模型 M6参数量已经扩展至十万亿 级别.目前预训练模型还未达到模型的性能极限,增大模型 参数量和训练数据仍是提高模型性能最有效的手段,探索超 大规模预训练模型的道路还将继续,也需要更加注重模型的 创新性、训练的低碳化和应用的高效性. 然而,训练超大规模的模型仍存在很大挑战.首先,使用 最大 GPU 也不可能在内存中拟合所有参数;其次,算法优化 不足会耗费极长的训练时间;最后,搭建超大规模模型会带来 巨大的成本,让学术界和小型科技公司望而却步.如何在模 型性能和成本之间取得平衡也是当前学者探索的另外一条道 路,如探索轻量化的预训练模型.近期腾讯提出的“神农”、澜 舟科技提出的“孟子”及IDEA 研究院提出的“二郎神”等轻量 化模型,仅以十亿左右的参数量就在部分任务上达到了 SOG TA 结果,因此探索轻量化模型势在必行. 

6.2 融入外部信息 

预训练模型在部分任务上已无限接近人类,甚至超越人 类,然而,其对知识的掌握依旧不足,如何让预训练模型真正 理解并运用知识是一个值得长期研究的课题,尤其是中华民 族上下五千年形成的文化知识颇多,比如“常识性知识”和“特 定领域的知识”等.特定领域的知识可以帮助模型挖掘不同 领域特有的知识,如果能够将特定领域的行业知识与模型结 合起来训练,不仅可以将预训练模型更广泛地应用到不同的 下游任务,在各行各业中实现良好的产业落地,而且可以与脑 科学、心理学、神经学等其他学科融合,更好地发展人工智能, 服务人类生活. 除了融入知识信息之外,还可以从中文字形和字音等方 面考虑.因为中文语言的特殊性,其字符的符号也包含一些额外信息,这些额外信息能增强中文自然语言的表现力,如 ChineseBERT [46]模型中提出将中文字形和拼音信息融入预 训练模型中,以此增强模型对中文语料的建模能力,但这一方 向的研究还相对较少,仍有待完善. 

6.3 多模态领域 

现实世界离不开语言,语言离不开语音和视觉信息,类似 于人的感觉器官:眼、耳、嘴,任何一样的缺失都会影响生活. 当前,互联网音视频资源占比较大,纯文本信息只能覆盖互联 网资源的一小部分,更加丰富的音视频信息并没有被充分利 用,因此预训练模型必然朝着多模态的趋势发展.目前,多模 态预训练模型的研究大多只考虑了两种模态,图像文本或者 视频文本,而音频信息大多被忽视.中文预训练模型起步虽 晚,但成绩斐然.中科院自动化所提出了全球首个图文音(视 觉G文本G语音)三模态的预训练模型 OPT [51],该模型同时具 备跨模态理解与生成的能力.通过上述分析可知,多模态的 研究拥有很大的发展空间. 

本文主要围绕中文预训练模型的研究现状进行 概述.从模型规模上看,中文预训练模型的发展正处于两条 道路上.一是朝着超大规模预训练模型的方向发展;二是寻 求轻量化模型的发展.从外部信息来看,大多数的预训练模 型都融入了各种知识,预训练与先验知识的深度融合刻不容 缓.从高效训练上看,现有模型都在不断地探索更加高效的 训练方式.从多模态的角度上看,中文多模态预训练模型的 发展正处于上升阶段,正朝着更多模态、更加通用的方向发 展.从特定领域的模型来看,预训练模型可应用于多种领域, 具有较大的发展潜力.综上所述,中文预训练模型虽然取得 了不可忽视的成绩,但还有更大的发展空间,未来将朝着更大 规模、更加高效、适用更多领域的方向发展.

你可能感兴趣的:(神经网络,大数据,自然语言处理,编程语言,机器学习)