No.10
智源社区
预训练组
预
训
练
研究
观点
资源
活动
关于周刊
超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第10期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。
本期周刊,我们选择了11篇预训练相关的论文,涉及模型压缩、零样本检测、自监督学习、模型减枝、文本位置编码、符号傅里叶变换、架构优化、损失函数、文本分类、预训练微调和蛋白质结构学习的探索。此外,在研究动态方面,我们选择了4篇预训练资讯,将介绍医疗数据测评、模型使命、微调进展和训练框架等方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
论文推荐
标题:脸书|Differentiable Model Compression via Pseudo Quantization Noise(通过伪量化噪声进行可微分的模型压缩)了解详情
简介:我们建议在训练过程中向模型参数添加独立的伪量化噪声,以近似量化效果。这种方法DIFFQ是可微的关于未量化的参数,以及使用的位数。给定一个表达所需平衡的超参数在量化模型大小和准确性之间,DIFFQ可以优化训练中单个权重或一组权重使用的每一个比特位。我们通过实验验证了我们的方法优于最新的用于图像分类,语言建模、音频源分离和体系结构的几种量化技术。
代码地址:
https://github.com/facebookresearch/diffq
论文地址:
https://arxiv.org/pdf/2104.09987.pdf
标题:谷歌|Zero-Shot Detection via Vision and Language Knowledge Distillation(通过视觉和语言知识蒸馏的零样本检测)了解详情
简介:我们提出了ViLD,一种通过视觉和语言知识蒸馏的训练方法。我们从知识从预训练的零样本图像分类模型蒸馏出两阶段检测器。我们的方法对齐了检测器中的区域嵌入和由预训练模型推断出的文本和图像嵌入。使用文本嵌入作为检测分类器,将类别名称传入预训练的文本编码器中。然后,最小化区域嵌入与图像嵌入之间的距离,将区域建议传入预训练的图像编码器。
论文地址:https://arxiv.org/pdf/2104.13921v1.pdf
标题:清华、西交、微软|Self-Supervised Learning with Swin Transformers(基于Swin变换器的自监督学习)了解详情
简介:我们目睹了计算机视觉领域从CNN到变换器的建模转变。在这项工作中,我们提出了一种称为MoBY的自监督学习方法,视觉变换器作为其骨干架构。该方法基本上没有新发明,仅将MoCo v2和BYOL相结合,并进行了微调,分别使用DeiT-S和Swin-T的top-1,通过300次训练,ImageNet-1K线性评估的准确性相当高:72.8%和75.0%。这性能略优于MoCo v3和DINO的最新作品,后者采用DeiT作为骨干,但它使用了很多技巧。
代码地址:
https://github.com/SwinTransformer/Transformer-SSL
论文地址:
https://arxiv.org/pdf/2105.04553v2.pdf
标题:伦敦大学皇家霍洛威学院、北邮|Adapting by Pruning: A Case Study on BERT(修剪适应:BERT个案研究)
了解详情
简介:将预训练模型适配于下游任务已经成为获得高质量模型的标准实践。我们提出了一种新的模型适配范式、即剪枝适配:剪枝预训练模型中的神经连接,以优化目标任务的性能;所有剩余的神经网络连接都保持原有预训练模型中的权重。我们将剪枝适配问题设定为一个可微损失的优化问题,并提出了一种有效的剪枝算法。我们已证明:在标准假设下,该算法接近最优。我们使用该方法将BERT适配到多项GLUE任务中;结果表明,我们的方法可以删减BERT多达50%的权重、而同时能够产生与微调全模型类似的性能。
论文地址:
https://arxiv.org/pdf/2105.03343
标题:追一|RoFormer: Enhanced Transformer with Rotary Position Embedding(旋转变换器:以旋转位置嵌入增强变换器)了解详情
简介:变换器架构中的位置编码提供了监督元素在序列中的位置信息,并对依赖关系建模。在基于变换器的语言模型中,我们研究了位置编码方法,提出旋转位置嵌入(RoPE),在绝对位置信息带有旋转矩阵,并且将明确的相对位置相关性纳入自注意。
论文地址:
https://arxiv.org/pdf/2104.09864.pdf
标题:谷歌|FNet: Mixing Tokens with Fourier Transforms(FNet:混合符号与傅立叶变换)了解详情
简介:我们展示了可以极大地加快变换器编码器体系结构的速度,并且其局限性在于通过替换自注意力为具有简单线性变换的子层“混合”输入符号来提高准确性成本。这些线性变换以及简单的非线性前馈层足以在几个文本分类任务中为语义关系建模。最令人惊讶的是,我们发现在一个带有标准无参数傅里叶变换的变换器编码器在GLUE基准测试上可达到92%的BERT性能,但预训练和推理在GPU上速度快了7倍,在TPU上快一倍。
论文地址:
https://arxiv.org/pdf/2105.03824v1.pdf
标题:梅努斯大学|HEUNNET: EXTENDING RESNET USING HEUN’S METHODS(HEUNNET:使用HEUN方法扩展RESNET)了解详情
简介:深度神经网络的ResNet体系结构之间有一个类比以及常微分方程的欧拉求解器。每层执行的转换类似于欧拉解决常微分方程的步骤。我们考虑与单个预测器-校正器的Heun方法循环并完成类比,构建了ResNet的预测-校正结构,我们称之为HeunNet。正如Heun的方法比Euler的方法更准确一样,实验表明HeunNet与两个原始版本相比,以较低的计算(训练和测试)时间实现了高精度递归神经网络和其他ResNet变体。
论文地址:
https://arxiv.org/pdf/2105.06168v2.pdf
标题:ICLR 2021谷歌|SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION(基于锐度感知最小化的泛化性提升)了解详情
简介:仅优化训练损失值很容易导致次优模型质量。受先前工作的影响,考虑到几何形状在景观和泛化方面,我们引入了一种新颖而有效的程序来代替,同时使损失值和损失锐度最小化。特别是,我们的程序“锐度感知最小化”寻求的参数是在损失均一的地区;这种公式导致了一个最大最大优化问题,在这个问题上可以有效地执行梯度下降。
代码地址:
https://github.com/google-research/sam
论文地址:
https://arxiv.org/pdf/2010.01412v3.pdf
标题:浙江大学 、 ShannonAI | BertGCN: Transductive Text Classification by Combining GCN and BERT (BertGCN:通过结合GCN和BERT的方式对文本进行直推型分类)了解详情
简介:在这项工作中,作者提出了BertGCN,一个结合大规模预训练和直推学习的文本分类模型。BertGCN在语料库数据集上构建了一个异质图,并使用文档的BERT表征作为节点。通过联合训练BERT和GCN模块,模型能够充分利用两个领域,预训练和直推学习的优势。前者利用了大量的原始数据,后者可以通过图卷积传播标签影响,为训练集数据和未标记的测试数据联合学习表征。
代码地址:
https://github.com/ZeroRin/BertGCN
论文地址:
https://arxiv.org/abs/2105.05727v1
标题:亚马逊 、 南加州大学 | Go Beyond Plain Fine-tuning: Improving Pretrained Models for Social Commonsense (超越单纯的微调:通过社会常识改进预训练模型)了解详情
简介:最近,预训练的语言模型在许多NLP任务中表现出卓越的性能。然而,他们的社会性智能,即需要对他人的当前情况和心理状态进行常识性推理,仍在发展之中。为了提高语言模型的社会智能,本文专注于一个需要社会和情感常识推理的任务的数据集,社会IQA。在预训练的RoBERTa和GPT2模型的基础上,作者提出了一些架构变化和扩展,以及利用外部常识语料以优化社会IQA的模型。本文提出的系统取得了与排行榜上那些排名靠前的模型相比得到了具有竞争力的结果。这项工作证明了预训练语言模型的优势,并提供了改善其在特定任务中表现的可行方法。
论文地址:
https://arxiv.org/pdf/2105.05913v1.pdf
标题:索邦大学、斯坦福 、斯德哥尔摩大学、 格勒诺布尔理工学院 | Protein sequence-to-structure learning: Is this the end(-to-end revolution)? (蛋白质序列到结构学习:这就是结束「端到端革命」吗?)了解详情
简介:本文讨论了预训练等在生物蛋白领域的应用和前景。深度学习的潜力在蛋白质结构预测界已经被认识了一段时间,在CASP14中,深度学习将该领域提升到了意料之外的水平,达到了接近实验的准确性。这一成功来自于从其他机器学习领域迁移过来的技术进展,以及专门设计来处理蛋白质序列和结构的方法。新出现的方法包括:几何学习,即在图、三维Voronoi镶嵌和点云等表征上学习;利用注意力的预训练蛋白质语言模型;保留三维空间对称性的等价架构;使用大型元基因组数据库;蛋白质表征的组合;最后是真正的端到端架构,即从序列开始并返回三维结构的可区分模型。基于此,作者对过去两年中开发的并在CASP14中广泛使用的新型深度学习方法进行了概述。
论文地址:
https://arxiv.org/abs/2105.07407v1
研究动态
标题:推动医学NLP社区的发展、助力健康中国战略:国内首个中文医疗信息处理挑战榜正式发布!了解详情
简介:由中国中文信息学会医疗健康与生物信息处理专业委员会发起的中文医疗健康信息处理挑战榜-CBLUE正式上线了,这是国内首个公开的中文医疗自然语言处理领域benchmark,榜单的推出将会促进医疗领域数据科技的发展,对医疗人工智能技术的发展和创新起着重要意义。CBLUE挑战榜:覆盖了医学文本信息抽取、医学术语归一化、医学文本分类、医学问答4大类常见的医学信息处理任务,共包括8个子任务。CBLUE是国内首个医疗NLP领域的公开评测benchmark。
标题:循环智能观点| 超大规模预训练语言模型的使命:不止于规模与刷榜成绩了解详情
简介:首个千亿中文语言模型的使命,不止于规模与刷榜成绩,要为企业级应用而生!为学术研究而生的大规模预训练模型,往往以人工收集构造的相对通用化的数据集作为基准,以较理想化的设定来进行实验,这些都跟模型最终的实际落地应用有明显出入。再有,以单纯学术研究为目标的大模型,到了刷新榜单最好成绩这一步,就拿了研究项目的高光时刻,并不需要参与后面漫漫无期的落地应用过程。循环智能观点:“超大规模模型是价值最大化的基础,但刷新CLUE榜单成绩只是模型能力的初步验证,盘古NLP大模型更大的价值是带来AI落地的效率革命和应用场景扩展。”循环智能针对GPT-3等大模型很难在商业场景中得到应用的三大原因:1)大模型在应对复杂商用场景的小样本学习能力弱;2)难以结合微调扩展业务场景;3)难以融入不同领域的知识,一一进行击破。
标题:语言模型微调领域有哪些最新进展?一文详解最新趋势了解详情
简介:对预训练语言模型进行微调已成为在自然语言处理中进行迁移学习的实际标准。在过去三年中,微调已经取代了使用预训练嵌入的特征提取,而预训练语言模型由于它们提高了采样效率和性能,受到了基于翻译训练的模型、自然语言推理和其他一些任务的青睐。这些成功经验促成了开发更大的模型。实际上,近来一些模型因为很大,所以它们可以在不进行任何参数更新的情况下实现合理的性能。但是出于这种零样本设置的局限性,为了获得最佳性能或保持合理的效率,在实践中使用大型预训练语言模型时,微调仍可能是操作方式。随着模型越来越多地用于训练样例较少的挑战性任务,开发对可能的变化具有鲁棒性并且可以进行可靠微调的方法至关重要。在本篇文章中,作者重点介绍了微调的最新进展。
标题:MindSpore开源框架加持,如何炼出首个千亿参数、TB级内存的中文预训练语言模型了解详情
简介:近来中文大规模预训练语言模型圈有些热闹:26 亿参数量的「悟道 · 文源」, 270 亿参数量的 PLUG,以及华为云发布的千亿级别「盘古」NLP 大模型,预训练语言模型已经成长到仅加载就需要 TB 级的内存或显存。我们可以直观地想到,「盘古」效果理应更好,但计算量需求也更大,训练起来更困难。目前盘古是业界首创的千亿规模中文预训练模型、其中最高参数量达 2000 亿、并且刷新了CLUE榜第一:这是由华为以及北京大学相关技术团队联手完成。即使给我们足够的算力,超大模型的训练还是异常复杂,远比想象中的困难。那么量级不断拔高的盘古大模型是如何训练出来的?本文将细致解读「盘古」背后的关键技术与能力。
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码加入预训练兴趣群。