No.39
智源社区
预训练组
预
训
练
研究
观点
资源
活动
周刊订阅
告诉大家一个好消息,《预训练周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:
方式1:扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”。
方式2:点击本文下方的“阅读原文”,进入《预训练周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。
关于周刊
本期周刊,我们选择了10篇预训练相关的论文,涉及深度模型、提示学习、预训练应用、视觉理解、模型微调、编码器训练、可控生成、词表级语言模型、医疗文本建模、数据质量提升的探索。此外,在研究动态方面,我们选择了2篇预训练资讯,将介绍点云表示、文本生成方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
论文推荐
标题:微软|DeepNet: Scaling Transformers to 1,000 Layers(DeepNet:将变换器扩展到1000层)了解详情
作者:Hongyu Wang, Shuming Ma, Furu Wei等
简介:本文提出了一种简单而有效的方法来稳定极深变换器。具体来说,作者引入了一个新的归一化函数(DEEPNORM)修改变换器中的残差连接,伴随理论上推导出的初始化。深入的理论分析表明,模型更新可以以稳定的方式进行限制。作者所提出的方法结合了两全其美,即Post-LN的良好表现和Pre-LN的稳定训练,使DEEPNORM成为首选替代方案。作者成功地扩大了变换器到1,000层(即 2,500 个注意和前馈网络子层)难度,比之前的深度变换器要深一个数量级。值得注意的是,在包含7482个翻译方向的多语言基准测试中,作者具有32亿参数的200层模型,显著优于具有120亿个参数当前最佳48层模型,优势达5个BLEU点,这表明深度是有希望的扩展方向。
代码下载:https://github.com/microsoft/unilm/tree/master/deepnet
论文下载:https://arxiv.org/pdf/2203.00555.pdf
标题:谷歌、Waymo|HyperPrompt: Prompt-based Task-Conditioning of Transformers(HyperPrompt:Transformers 的基于提示的任务调节)了解详情
作者:Yun He, Huaixiu Steven Zheng, Zhao Chen等
简介:本文介绍了一种提示建模方法。Prompt-Tuning是一种以参数有效的方式微调预训练语言模型的新范例。在这里,作者探索使用超网络来生成超提示:作者提出了Hyper-Prompt,这是一种新颖的架构,用于变换器中基于提示的自我注意任务调节。超级提示是通过超级网络生成的端到端可学习的。HyperPrompt允许网络学习特定于任务的特征映射,其中超级提示充当任务全局记忆,供查询参与,同时实现任务之间的灵活信息共享。作者表明,HyperPrompt与强大的多任务学习基线相比,具有低至0.14%的额外任务调节参数,实现了出色的参数和计算效率。通过广泛的实证实验,作者证明HyperPrompt可以在强大的 T5 多任务学习基线和参数高效的适配器变体(包括Prompt-Tuning和HyperFormer++对GLUE和SuperGLUE 的自然语言理解基准)上实现卓越的性能跨越许多模型尺寸。
论文下载:https://arxiv.org/pdf/2203.00759
标题:清华、微信|A Simple but Effective Pluggable Entity Lookup Table
for Pre-trained Language Models(一个用于预训练语言模型的简单但有效的可插拔实体查找表)了解详情
作者:Deming Ye, Yankai Lin, Maosong Sun, Zhiyuan Liu等
简介:本文介绍了一种预训练语言模型方法。预训练的语言模型 (PLM) 不能很好地回忆起大规模语料库中展示的实体的丰富事实知识,尤其是那些罕见的实体。在本文中,作者提出建立一个简单但有效的通过聚合实体在语料库中多次出现的输出表示,按需提供可插入实体查找表 (PELT)。PELT可以兼容地插入为将补充实体知识注入PLM的输入。与以往相比知识增强预训练模型相比,PELT只需要 0.2%∼5% 的预计算,具有从域外语料库获取知识的能力,用于域适应场景。知识相关实验任务表明作者的方法 PELT 可以灵活有效地将实体知识从相关语料库转移到具有不同架构的 PLM 中。
代码下载:https://github.com/thunlp/PELT
论文下载:https://arxiv.org/pdf/2202.13392.pdf
标题:港科大、国际数字经济研究院、中科院、清华等|Vision-Language Intelligence: Tasks, Representation Learning, and Large Models(视觉语言智能:任务、表示学习和大模型)了解详情
作者:Feng Li, Hao Zhang, Lei Zhang等
简介:本文提供了一个全面的时间视角下的视觉语言智能综述。这项综述的灵感来自于这两个领域的计算机视觉和自然语言处理显著进展,以及最近从单一模态处理转变为多模态处理模态理解趋势。作者总结了发展该领域分为三个时间段,即特定任务的方法,视觉语言预训练 (VLP) 方法和更大的模型由大规模弱标记数据授权。作者先取一些以常见的 VL 任务为例介绍开发特定于任务的方法。然后作者专注于 VLP 方法和全面审查模型结构的关键组成部分和训练方法。之后,作者展示了最近的工作利用大规模原始图像文本数据来学习语言对齐,在零样本或少样本上更好地概括的视觉表示学习任务。最后,作者讨论了一些潜在的未来趋势模式合作、统一表示和知识整合。作者相信这篇综述会面向 AI 和 ML 的研究人员和从业者有所帮助,尤其是那些对计算机视觉和自然语言处理感兴趣。
论文下载:https://arxiv.org/pdf/2203.01922v1.pdf
标题:清华、微软 | NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better(噪音助力微调预训练语言模型)了解详情
作者:Chuhan Wu, Fangzhao Wu, Tao Qi, 等
简介:本文研究噪音数据对预训练语言模型微调的影响。有效地微调,对于预训练语言模型(PLM)在下游任务中的成功至关重要。然而,PLM可能存在过度拟合训练前信号的风险,并且下游任务和训练前任务之间存在一些差距。普通的微调方法很难克服预训练和下游任务之间的障碍,这会导致性能不理想。在本文中,作者提出了一种非常简单但有效的方法NoiseyTune:可以通过在微调前向PLM的参数添加一些噪声来帮助更好地微调下游任务中的PLM。更具体地,作者根据不同参数矩阵的标准偏差,提出了一种矩阵均匀扰动方法,该方法可以兼顾PLMs中不同类型参数的变化特性。在GLUE English基准测试和XTREME多语言基准测试上进行的大量实验表明,NoisyTune可以在许多下游任务中持续提高不同PLM的性能。
论文下载:https://arxiv.org/pdf/2202.12024.pdf
标题:腾讯、复旦大学 | Is Whole Word Masking Always Better for Chinese BERT?(针对中文Bert模型:整词遮罩总是更好?)了解详情
作者:Yong Dai, Linyang Li, Cong Zhou,等
简介:本文根据汉语特点进行预训练模型遮罩的策略研究。一个单词对应的所有子词的遮罩(Whole word masking ,简称:WWM) ,已促成更好的英文BERT 模型。然而,对于中文来说:没有子词,因为每个记号都是一个原子字符。词:在汉语中的意义不同,一个词是由多个字符组成的组成单元。这种差异促使作者研究 WWM 是否会为中文 BERT 带来更好的上下文理解能力。为此,作者引入了两个与语法纠错相关的探测任务,并要求预训练模型以掩码语言建模的方式修改或插入标记。作者构建了一个数据集,包括 10,448 个句子中 19,075 个标记的标签。作者分别使用标准字符级掩码 (CLM)、WWM 、以及 CLM 与 WWM 的组合训练三个中文 BERT 模型。作者的主要发现如下:首先,当需要插入或替换一个字符时,使用 CLM 训练的模型表现最好。其次,当需要处理多个字符时,WWM 是提高性能的关键。最后,在对句子级下游任务进行微调时,使用不同遮罩策略训练模型的效果表现相当。
论文下载:https://arxiv.org/pdf/2203.00286.pdf
标题:上海交大、麻省理工 | Controlling the Focus of Pretrained Language Generation Models(控制预训练语言生成模型的焦点)了解详情
作者:Jiabao Ji, Yoon Kim, James Glass,等
简介:本文研究焦点向量对预训练语言生成模型的控制。基于transformer的预训练语言生成模型的微调:通常以端到端的方式进行,其中模型学会自己处理输入的相关部分。但是,不存在直接控制模型焦点的机制。这项工作旨在开发一种控制机制,用户可以通过该机制选择上下文范围作为模型关注的“亮点”,并生成相关输出。为了实现这一目标,作者使用可训练的“焦点向量”来增强预训练模型,这些“焦点向量”直接应用于模型的嵌入,而模型本身保持固定。这些向量经过归因方法的自动注释训练,可作为上下文重要性的指标。作者在两个核心生成任务上测试作者提出的方法:对话响应生成和抽象摘要。作者的实验表明,经过训练的焦点向量可以有效地引导模型生成与用户选择的焦点相关的输出。
论文下载:https://arxiv.org/pdf/2203.01146
标题:哈工大、微软 | Pretraining without Wordpieces: Learning Over a Vocabulary of Millions of Words(没有字符的预训练:学习数以百万计的词汇)了解详情
作者:Zhangyin Feng, Duyu Tang, Cong Zhou, 等
简介:本文研究基于单词的词汇表上训练BERT风格的预训练模型。标准的BERT采用基于单词的标记化,这可能会将一个词分成两个或多个词条(例如,将“无损”转换为“丢失”和“更少”)。这在以下情况下会带来不便:(1)获得一个被分成多个单词的单词的上下文向量的最佳方法是什么?(2) 如何通过完形填空测试预测一个单词而不事先知道词条的数量?在这项工作中,作者探索了在词汇表而不是词条上开发BERT风格的预训练模型的可能性。作者称这种词级的BERT模型为WordBERT。作者使用不同的词汇表大小、初始化配置和语言来训练模型。结果表明,与基于标准词条的BERT相比,WordBERT在完形填空测试和机器阅读理解方面有显著提高。在许多其他自然语言理解任务中,包括词性标注、组块和NER,WordBERT的表现始终优于BERT。作者对WordBERT进行了中文训练,并在五个自然语言理解数据集上获得了显著的效果。
论文下载:https://arxiv.org/pdf/2202.12142
标题:Scientific Reports | Pretrained transformer framework on pediatric claims data for population specific tasks(针对特定人群任务的儿科理赔数据的预训练Transformer框架)了解详情
作者:Xianlong Zeng, Simon L. Linwood & Chang Liu
简介:本文展示了一个预训练医疗儿科数据应用案例。近年来电子健康记录已经变得普遍,这为基于数据的深入研究提供了条件,但其中满足特定人群导向的任务的却很少,这使得训练对数据要求很高的模型具有挑战性。本研究提出了一个预训练框架,它首先对整个儿科理赔数据集进行训练,然后对每个特定人群的任务进行辨别性微调。医疗事件的语义可以在预训练阶段被捕捉到,而有效的知识转移则通过任务感知的微调阶段完成。微调过程在不改变模型结构的情况下进行最小的参数修改,缓解了数据稀缺的问题,并有助于在小型患者群中充分训练深度学习模型。本文在一个拥有超过一百万条病人记录的真实世界儿科数据集上进行了实验,在两个下游任务上的实验结果证明了本文方法的有效性,此外本文的框架显示了将学到的知识从一个机构转移到另一个机构的潜力,这可能为未来跨机构的医疗模型预训练铺平道路。
论文下载:https://www.nature.com/articles/s41598-022-07545-1
标题:Nature Communication | Active label cleaning for improved dataset quality under resource constraints(在资源限制下主动清理标签以提高数据集质量)了解详情
作者:Mélanie Bernhardt, Ozan Oktay等
简介:本文讨论了数据质量提升与自监督学习的结合。数据注释中的缺陷对深度学习模型的训练是有害的,并对模型性能的评估有干扰作用。另外在资源受限的情况下,例如在医疗保健领域,雇用专家通过对大型数据集进行全面重新注释来消除标签噪声是不可行的。本文主张采用一种数据驱动的方法来确定重新标注样本的优先次序,即主动标签清理。作者建议根据每个样本的估计标签正确性和标签难度对实例进行排序,引入一个模拟框架来评估重新标注的效果,同时分析了自监督技术如何能进一步提高标签清理的性能。作者在自然图像和医学图像基准上的实验表明,清理噪声标签可以减轻它们对模型训练、评估和选择的负面影响。该方法能够在现实条件下比典型的随机选择更有效地纠正标签,更好地利用专家的宝贵时间来提高数据集质量。
论文下载:https://www.nature.com/articles/s41467-022-28818-3
研究动态
标题:南洋理工 | Unsupervised Representation Learning for Point Clouds: A Survey(点云无监督学习综述)了解详情
作者:Aoran Xiao, Jiaxing Huang, Dayan Guan, Shijian Lu
简介:本文为点云预训练综述。点云数据由于在各种不利情况下具有卓越的准确性和鲁棒性,已得到广泛探索。点云和深度学习的融合导致了许多深度点云模型的出现,这些模型主要是在大规模和密集标记的点云数据的监督下训练的。本文总结了预训练无监督的点云表征学习,旨在从无标签的点云数据中学习一般的和有用的点云表征。首先描述了最近研究的动机、一般管道以及术语。然后简要介绍了相关背景,包括广泛采用的点云数据集和深度学习架构。随后,根据技术方法对现有的无监督点云表征学习方法进行了广泛的讨论。本文还在多个广泛采用的点云数据集上对所审查的方法进行了定量的基准测试和讨论。最后,本文分享了本文对无监督点云表征学习的几个挑战和问题的拙见,这些挑战和问题可以在未来的研究中得到解决。
论文下载:https://arxiv.org/abs/2202.13589v1
标题:人大 | A Survey of Pretrained Language Models Based Text Generation(基于预训练模型的文本生成综述)
作者:Junyi Li, Ji-Rong Wen等了解详情
简介:本文为文本生成预训练综述。文本生成旨在从输入数据中产生可信的、可读的人类语言文本。深度学习通过神经生成模型,特别是预训练语言模型(PLMs)的范式,大大推动了这一领域的发展。在这项综述中,本文首先介绍了将PLMs应用于文本生成的三个关键方面:如何将输入编码为保留输入语义的表征,并将其融合到PLM中;如何设计一个有效的、性能良好的PLM作为生成模型;如何有效地优化给定参考文本的PLM并确保生成的文本满足特殊的文本属性。然后,本文找出了与这三个关键观点相对应的一些主要挑战和解决方案。接下来,本文对各种有用的资源和典型的文本生成应用进行了总结,以便与PLMs一起工作。最后,本文强调了一些未来的研究方向,这将进一步改善这些PLMs的文本生成。
论文下载:https://arxiv.org/pdf/2201.05273v3.pdf
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)