No.16
智源社区
预训练组
预
训
练
研究
观点
资源
活动
关于周刊
超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。
本期周刊,我们选择了10篇预训练相关的论文,涉及说唱生成、机器学习问答、可控生成、计算机视觉、模型量化、位置编码、语言理解、几何分子表征、抗体结构预测和属性生成的探索。此外,在研究动态方面,我们选择了6篇预训练资讯,将介绍数据增强、深度序列推荐、笔记生成、中文纠错、文本摘要和图文音多模生成等方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
论文推荐
标题:港科大、南理工、复旦等|DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling(DeepRapper:带有韵律和节奏建模的神经说唱生成)了解详情
简介:说唱生成,旨在制作歌词和相应的歌唱节拍,需要对韵律和节奏进行建模。在本文中,我们开发了 DeepRapper,一个基于变换器的可以模拟两者的说唱生成系统韵律和节奏。由于没有可用的有节奏节拍的说唱数据集,我们开发了一个数据挖掘流水线来收集大规模的说唱数据集,其中包括大量具有对齐歌词和节奏节拍的说唱歌曲。其次,我们设计了一个基于变换器的自回归语言模型模拟韵律和节奏。具体来说,我们用押韵表示和约束以相反的顺序生成歌词用于韵律增强并在歌词中插入节拍符号以进行节奏/节拍建模。
代码下载:https://github.com/microsoft/muzic/tree/main/deeprapper
论文地址:https://arxiv.org/pdf/2107.01875v1.pdf
标题:MIT|Solving Machine Learning Problems(解决机器学习问题)了解详情
简介:机器可以学习机器学习吗?这项工作训练机器学习模型以从大学本科水平课程中解决机器学习问题。我们的系统在编码器-解码器中使用变换器模型具有图形和树表示的体系结构。我们方法的一个重要方面是一种用于生成新示例问题的数据增强方案。我们还训练了一个机器学习模型来生成问题提示。因此,我们的系统会自动生成跨主题的新问题,回答开放式问题和多项选择题问题、分类问题并生成问题提示,推动人工智能教育的极限。
论文地址:https://arxiv.org/pdf/2107.01238v1.pdf
标题:布法罗大学、京东|Transformer-based Conditional Variational Autoencoder for Controllable Story Generation(基于变换器的条件变分自编码器用于可控的故事生成)
了解详情
简介:我们研究了大规模潜在变量模型神经故事生成——一种未被充分探索的应用开放域长文本——目标有两个:生成有效性和可控性。我们提倡复兴潜在变量建模,本质上是表示学习的力量,在变换器时代增强可控性而不损害最先进的生成效率。具体来说,我们将潜在表示向量与基于变换器的预训练架构,用于构建条件变分自编码器。模型组件如编码器、解码器和变分后验都是建立在预训练的语言模型之上——本文特别提到的GPT2。
论文地址:https://arxiv.org/pdf/2101.00828v2.pdf
标题:北大、华为、悉尼大学|Augmented Shortcuts for Vision Transformers(视觉变换器的增强快捷方式)了解详情
简介:我们从理论上分析了特征崩溃现象并研究变换器模型捷径与特征多样性之间的关系。然后,我们提出了一个增强的快捷方案,它在原始快捷方式上并行插入具有可学习参数的附加路径。为了节省计算成本,我们进一步探索了一种有效的方法使用块循环投影来实现增强的快捷方式。在基准数据集上进行的实验证明了提出的方法的迁移性,这使没有明显增加它们的参数和 FLOPs(每秒浮点运算次数)的视觉变换器这个最先进的方法的准确度提高了1%。
论文地址:https://arxiv.org/pdf/2106.15941v1.pdf
标题:伯克利|ActNN: Reducing Training Memory Footprint via 2-Bit Activation Compressed Training(ActNN:减少训练内存占用通过2位激活压缩训练)了解详情
简介:我们提出了ActNN,一种内存高效的存储用于反向传播的随机量化激活的训练框架。我们证明用于一般网络架构的ActNN收敛,我们描述了量化的影响通过梯度方差的精确表达式进行收敛。使用我们的理论,我们提出新的混合精度量化策略,利用激活跨特征的异质性维度、样本和层。我们在主流上评估 ActNN用于分类、检测和分割任务的计算机视觉模型。
论文地址:https://arxiv.org/pdf/2104.14129.pdf
标题:阿德莱德大学|Rethinking positional encoding(重新思考位置编码)了解详情
简介:值得注意的是,基于坐标的MLP受益匪浅——在保留高频信息——通过将坐标位置编码为傅里叶特征数组。迄今为止,这些措施的有效性的基本原理位置编码仅通过傅立叶透镜进行研究。在本文中,我们努力通过展示替代的非傅立叶嵌入函数确实可以用于位置编码。而且,我们表明它们的性能完全取决于两者之间的权衡嵌入矩阵的稳定秩和之间的距离保持嵌入坐标。我们进一步确定现在无处不在的傅立叶特征位置映射是满足这些条件的特殊情况。最后,我们提出了一个更一般的理论来分析位置编码基函数。为此,我们开发了必要的理论公式和凭经验验证我们的理论主张在实践中成立。
代码下载:https://github.com/osiriszjq/Rethinking-positional-encoding
论文地址:https://arxiv.org/pdf/2107.02561v1.pdf
标题:百度|ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION(ERNIE 3.0:大规模知识增强预训练语言理解和生成)了解详情
简介:GPT-3模型与1750亿个参数显示了其强大的与任务无关的零样本/少样本学习能力。我们提出了一个统一的框架ERNIE 3.0用于大规模的预训练知识增强模型。它融合了自回归网络和自编码网络,使得训练好的模型可以很容易地针对自然语言理解和生成进行定制零样本学习、少样本学习或微调的任务。我们用100亿训练模型由纯文本和大规模知识图组成的4TB语料库上的参数。经验结果表明,该模型在54个中文 NLP 任务上的表现优于最先进的模型,并且英文版在SuperGLUE基准测试中获得第一名,超越人类表现。
论文地址:https://arxiv.org/pdf/2107.02137v1.pdf
标题:百度、清华 | ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction(ChemRL-GEM:用于属性预测的几何增强分子表征学习)了解详情
简介:现有的图神经网络和预训练策略通常将分子视为拓扑图数据,而遗漏的分子的三维空间结构却是决定分子物理、化学和生物特性的最关键因素之一。为此,本文为化学表征学习提出了一种新的几何增强分子表征学习方法,ChemRL-GEM。它同时对分子中的原子、键和键角进行建模,为一个分子设计了编码原子-键关系,键-角关系的两个图。此外,作者通过利用局部和整体的分子三维结构来学习空间知识,提出了几种新的几何层面的自监督学习策略。实验结果显示本文方法在回归和分类任务中都能明显优于所有基线。
论文地址:https://arxiv.org/pdf/2106.06130v2.pdf
标题:约翰霍普金斯大学 | Antibody structure prediction using interpretable deep learning(使用可解释深度学习进行抗体结构预测)了解详情
简介:准确的结构模型对于理解治疗性抗体的潜在特性至关重要。本文提出了DeepAb,一种用于从序列准确预测抗体可变区结构的预训练深度学习方法,并证明了其相比其他方法,在不同的与治疗相关的基准数据集上的性能提升。除了准确性的提高,本文的方法通过引入一个可解释的注意力机制,揭示了残基间相互作用。最后,本文提出了一个来自网络置信度的新突变评价标准,并展示了某个特定的抗体的例子,其中排名靠前的突变体都能提高结合亲和力。这些结果表明,DeepAb不仅在抗体结构预测上表现优秀,且有助于设计新的稳定治疗性抗体。
论文地址:https://www.biorxiv.org/content/10.1101/2021.05.27.445982v2.full
标题:赛富时 | Deep Extrapolation for Attribute-Enhanced Generation(深度外推法用于属性增强的生成)了解详情
简介:对于需要在训练分布之外运行的深度神经网络来说,样本生成任务的属性外推是一个挑战。本文为序列生成中的外推场景制定了聚焦自然语言语义和蛋白质稳定性的任务,SST-5阳性化和ACE2蛋白稳定化改造。针对该任务作者提出了GENhance,一个基于T5模型的预训练隐空间属性增强的生成框架,不需要在训练期间接触类似的数据即可以生成强阳性的文本评论和高度稳定的蛋白质序列。通过对电影评论和计算的蛋白质稳定性数据集的训练,GENhance的生成效果优于包括MCMC,MCMC-T5,Gen-Disc在内其他生成方法。
论文地址:https://arxiv.org/pdf/2107.02968v1.pdf
标题:脸书、纽大、加州大学伯克利 | Language models enable zero-shot prediction of the effects of mutations on protein function(语言模型能够零样本预测突变对蛋白质功能的影响)了解详情
简介:本文展示了一个通用的蛋白质语言模型ESM-1v。迄今为止的方法多数使用相关序列拟合一个适合于特定家族的模型,必须为每个预测任务训练一个新的模型。而本文表明只使用零样本推断,不需要任何实验数据或额外的监督式训练,蛋白质语言模型就能捕捉到序列突变的功能影响,并表现出最先进的水平。该模型学习到了蛋白质的功能和结构信息,捕获到了由结构所决定的残基倾向性和结合位点信息,证明了大型预训练语言模型捕获蛋白领域知识的潜力。
论文地址:https://www.biorxiv.org/content/10.1101/2021.07.09.450648v1.full.pdf
研究动态
标题:达姆施塔特工业大学|A Survey on Data Augmentation for Text Classification(文本分类数据增强综述)了解详情
简介:数据增强是通过转换为机器学习人工创建训练数据,是机器学习学科中一个广泛研究的研究领域。虽然它对于提高模型的泛化能力很有用,但它也可以解决许多其他挑战和问题,从克服有限数量的训练数据到规范目标到限制数据量用于保护隐私。基于对数据增强的目标和应用的精确描述以及现有的分类法作品,该综述涉及用于文本分类的数据增强方法,旨在为研究人员和从业人员提供简洁的综合概述。
论文地址:https://arxiv.org/ftp/arxiv/papers/2107/2107.03158.pdf
标题:100层序列推荐模型也能被加速训练!这篇顶会论文带你探索Very Deep RS模型了解详情
简介:众所周知:现有的序列推荐算法大多采用浅层的神经网络结构。中科院先进所、腾讯、华南理工近日合作发表在信息检索领域顶会SIGIR2021上的一篇论文,发现通过对残差块结构进行微小的修改,序列推荐模型能够使用更深的网络结构以进一步提升精准度,即:推荐模型也能够像计算机视觉领域的模型那样拥有100层以上的深度并获得最优性能。在此基础上,论文提出一个高效且通用的框架StackRec来加速深度序列推荐模型的训练,并应用到多种实际的推荐场景。
论文地址:https://arxiv.org/pdf/2012.07598.pdf
标题:AI高仿你的笔迹只需1个词,Deepfake文字版来了,网友:以假乱真太可怕了解详情
简介:Facebook AI最新出品的“文字风格刷”,它只需要一张笔迹的照片,就能完美还原出一整套文本字迹来。除了直接实现风格替换、把印刷体都换成手写体、模拟特定字体格式等直观的效果,TextStyleBrush模型主要解决了两个问题:首先,它生成图像的方式是“随便乱打”的,也就是没办法控制输出图像特征。但TextStyleBrush必须要生成指定文本的图像。其次,StyleGAN2的整体风格不受控制,但TextStyleBrush中的风格涉及大量信息组合,包括颜色、尺度和风格转换等特征,甚至是带有个人特色的笔迹细节差异。再有,训练阶段创新地引入了自监督训练方法:结合风格分类、文本识别和GAN三种模型来保留输入的风格/文字内容,再进行替换决策。
论文地址:https://arxiv.org/pdf/2106.08385
标题:腾讯|针对中文纠错的预训练语言模型PLOME,入选NLP顶会ACL了解详情
简介:语言模型对中文纠错来说非常重要,无论是传统的pipline纠错还是近两年兴起的end2end纠错模型都离不开语言模型。然而,这些方法用到的语言模型在训练时完全没有考虑纠错任务,因此对于纠错任务来说这些语言模型并不是最优的。为此,研究者提出了一种针对中文纠错的预训练语言模型PLOME,在预训练过程中建模纠错知识。另外,中文拼写错误主要由近音字误用和形近字误用引起,因此汉字之间的读音相似性和字形相似性对该任务至关重要。已有方法主要通过混淆集建模这类知识,然而混淆集一般通过启发式规则或人工总结的方式构建,因此并不完备。为此,研究者将汉字的拼音序列和笔画序列也作为模型输入,并分别用两个子网络来计算它们的表示向量,让模型可以自动学习任意两个汉字在读音和字形上的相似度。
项目代码:https://github.com/liushulinle/PLOME
标题:腾讯推出UniKeyphrase框架:提取文章核心内容的短语集合
了解详情
简介:关键短语预测旨在为文章提取出能代表文章核心内容的短语集合,一篇文章的关键短语可按照其是否出现在文章划分为出现在原文中与未出现在原文中两大类。关键短语预测的结果可用于诸多下游NLP任务,如摘要、文本聚类、检索等。在推荐系统的内容理解中,关键短语预测结果作为文章的标签用于构建用户画像,用于排序、召回等模块。本文提出了一种新的端到端联合模型UniKeyphrase,它采用预训练语言模型作为基线,明确建模了这两个任务之间的相互关系。这为不同类型的关键短语预测带来帮助:出现在原文中的短语可以为AKG(absent keyphrase generation)提供文档的重要信息,而未出现在原文中短语则被视为高级潜在主题,而这种信息可以为PKE(present keyphrase extraction)任务提供全局语义信息。
项目代码:https://github.com/thinkwee/UniKeyphrase
标题:中科院自动化所基于MindSpore推出全球首个图文音三模态预训练模型了解详情
简介:日前,中国科学院自动化所基于全场景AI计算框架MindSpore训练完成全球首个图文音三模态预训练模型,该模型同时具备跨模态理解与跨模态生成能力,标志着预训练模型工作获得突破性进展。其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,然后通过多头自注意力机制进行通过解码器分别生成文本、图像和语音。三模态预训练模型的提出:将改变当前单一模型对应单一任务的人工智研发范式,三模态图文音的统一语义表达将大幅提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答,语音识别和合成,人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值!
论文地址:https://arxiv.org/pdf/2107.00249v2.pdf
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)