《预训练周刊》第38期: Transformer、BERT结构优化

No.38

智源社区

预训练组

《预训练周刊》第38期: Transformer、BERT结构优化_第1张图片

研究

观点

资源

活动

关于周刊

本期周刊,我们选择了12篇预训练相关的论文,涉及句子表示、变换器结构优化、数据增强、网络结构优化、动态神经网络、模型压缩、图预训练模型、零样本自然语言理解、微调探索、因果推理、幻想生成、分子结构阅读理解的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍多任务提示学习方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

告诉大家一个好消息,《预训练周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:请点击本文下方的“阅读原文”,进入《预训练周刊》Hub社区版,点击作者栏“预训练周刊”后选择“关注TA”。(注:《预训练周刊》Hub社区版内有详细的订阅步骤图示介绍)。

(本期贡献者:申德周 翟珂 吴新刚)

《预训练周刊》第38期: Transformer、BERT结构优化_第2张图片

《预训练周刊》第38期: Transformer、BERT结构优化_第3张图片

《预训练周刊》第38期: Transformer、BERT结构优化_第4张图片

《预训练周刊》第38期: Transformer、BERT结构优化_第5张图片

《预训练周刊》第38期: Transformer、BERT结构优化_第6张图片

论文推荐

标题:北大|SGPT: GPT Sentence Embeddings for Semantic Search(SGPT:用于语义的 GPT 句子嵌入搜索)了解详情

作者:Niklas Muennighoff

简介:本文介绍了一种用于检索的文本表示算法。GPT变换器是可用的最大语言模型,但语义搜索是以 BERT 变换器为主。作者提出了SGPT-BE和SGPT-CE用于将GPT模型作为双编码器或交叉编码器应用于对称或非对称搜索。SGPT-BE通过对比产生语义上有意义的句子嵌入仅对偏置张量进行微调和一种新颖的池化方法。一个58亿的参数SGPT-BE比最佳可用句子嵌入的性能高出6%BEIR上最新的最新技术。它优于同时提出的OpenAI-175B Davinci端点的嵌入,可微调 250,000倍以上参数。SGPT-CE使用来自GPT模型的对数概率,无需任何微调。61亿参数的SGPT-CE在BEIR上设置了无监督的最先进技术,在7个数据集上击败了有监督的最先进技术,但在其他数据集上显著落后。作者展示了如何通过调整提示来缓解这种情况。SGPT-BE和SGPT-CE性能随模型大小而变化,然而,增加了应考虑延迟、存储和计算成本。

代码下载:https://github.com/Muennighoff/sgpt

论文下载:https://arxiv.org/pdf/2202.08904v1.pdf

标题:康奈尔、谷歌|Transformer Quality in Linear Time(线性时间的变换器质量)了解详情

作者:Weizhe Hua, Zihang Dai, Hanxiao Liu, Quoc V. Le 

简介:本文提出了一种改进的变换器结构。作者重新审视了变换器中的设计选择,并提出解决处理长序列弱点的方法。首先,作者提出一个简单层命名为门控注意力单元,其中允许使用较弱的单头注意力,同时将质量损失降至最低。然后作者提出一种互补的线性近似方法到这个新层,它是加速器友好的和高度的质量竞争力。模型命名为FLASH(单头快速线性注意力),两个改进变换器短序列(512)和长序列(8K)上下文长度实现匹配的困惑度,实现在Wiki-40B训练速度提升高达4.9×,在自回归语言建模PG-19上提升12.1x,和屏蔽语言建模C4上的4.8×训练速度提升。

论文下载:https://arxiv.org/pdf/2202.10447.pdf

标题:麦考瑞大学、微软|PromDA: Prompt-based Data Augmentation for Low-Resource NLU Task(PromDA:基于提示的低资源NLU数据增强)了解详情

作者:Yufei Wang,Can Xu, Daxin Jiang等

简介:本文提出一种低资源自然语言理解任务的数据增强方法。作者提出了在冻结预训练语言模型 (PLM)下,基于提示的数据增强模型(PromDA)只训练小规模的软提示(即一组可训练的向量)。这避免人工收集未标记的域内数据并保持生成的合成数据的质量。此外,PromDA通过两个不同的生成合成数据使用 NLU 模型查看并过滤掉低质量的数据。四个基准的实验表明,由PromDA成功提升了NLU模型的性能,这些模型始终优于几个竞争基线模型,包括最先进的半监督模型使用未标记的域内数据。来自PromDA的合成数据也与未标记的域内数据互补,NLU模型可以进一步改进他们结合起来进行训练。

论文下载:https://arxiv.org/pdf/2202.12499.pdf

标题:英特尔|TRIMBERT: TAILORING BERT FOR TRADE-OFFS(TRIMBERT:为权衡取舍量身定制 BERT)了解详情

作者:Sharath Nittur Sridhar, Anthony Sarah, Sairam Sundaresan

简介:本文介绍了一种新的BERT网络结构改进。基于BERT 的模型在解决各种自然语言问题上已经处理(NLP)任务非常成功。不幸的是,许多这些大型模型需要大量的计算资源和/或时间来进行预训练和微调,这限制了更广泛的可采用性。尽管自注意力层已经过充分研究,在文献中仍然缺失跟随自注意力层的中间层的研究。在这项工作中,作者表明减少BERT-BASE中的中间层数量导致下游任务的微调精度损失最小,同时显著减少模型大小和训练时间。作者进一步减轻了两个关键瓶颈,通过用计算更简单的替代方法替换自注意层中的所有softmax操作并删除所有layernorm操作的一半。这进一步减少训练时间,同时保持高水平的微调精度。

论文下载:https://arxiv.org/pdf/2202.12411.pdf

标题:加利福尼亚大学 | A Survey on Dynamic Neural Networks for Natural Language Processing(NLP动态神经网络综述)了解详情

作者:Canwen Xu, Julian McAuley

简介:本文是动态神经网络在自然语言处理中的综述。有效地缩放大型Transformer 模型是自然语言处理最新进展的主要驱动力。动态神经网络是一个新兴的研究方向,它能够根据输入动态调整神经网络的计算路径,从而在计算量和时间上实现亚线性增长。动态神经网络可能是一个很有前景的解决方案,可以解决不断增长的预训练语言模型的参数数量,既可以使用数万亿个参数进行模型预训练,又可以在移动设备上进行更快的推理。在这篇综述中,作者总结了三种动态神经网络在自然语言处理中的进展:略读(skimming)、混合专家模型(mixture of experts)和早期退出推理(early exit)。作者还强调了动态神经网络目前面临的挑战和未来研究的方向。

论文下载:https://arxiv.org/pdf/2202.07101.pdf

标题:加利福尼亚大学 | A Survey on Model Compression for Natural Language Processing(NLP模型压缩综述)了解详情

作者:Canwen Xu, Julian McAuley

简介:本综述着重在NLP模型压缩的推理阶段。随着Transformer 和预训练技术等新体系结构的发展,自然语言处理(NLP)的应用取得了重大进展。然而,Transformer的高能耗和长推理延迟阻碍了NLP进入更广泛的场景,包括边缘和移动计算。有效的NLP研究的目的是全面考虑计算,时间和碳排放的整个生命周期的NLP,包括数据准备,模型训练和推理。在本次综述中,作者将重点放在推理阶段,并回顾NLP模型压缩的现状,包括基准、指标和方法,最后作者还概述了目前的障碍和未来的研究方向。

论文下载:https://arxiv.org/pdf/2202.07105

标题:西湖大学、中科院等 | A Survey of Pretraining on Graphs: Taxonomy, Methods, and Applications(图预训练综述:分类、方法和应用)了解详情

作者:Jun Xia, Yanqiao Zhu, Yuanqi Du等

简介:本文是第一个图预训练的综述。像BERT这样的预训练语言模型(PLM)已经彻底改变了自然语言处理(NLP)的格局。受其扩散的启发,人们对预训练图模型(PGM)进行了大量的研究。由于PGMs强大的模型架构,可以从大量标记和未标记的图形数据中获取丰富的知识。隐式编码在模型参数中的知识可以使各种下游任务受益,并有助于缓解图学习的几个基本问题。在这篇论文中,作者提供了第一个全面PGMs的综述。作者首先介绍了图表示学习的局限性,然后介绍了图预训练的动机。然后,根据分类法从四个不同的角度对现有PGM进行了系统分类。接下来,作者介绍PGMs在社交推荐和药物发现方面的应用。最后,作者概述了多个有前途的研究方向、作为未来研究的指导参考。

论文下载:https://arxiv.org/pdf/2202.07893

标题:伊利诺伊大学香槟分校|Generating Training Data with Language Models:Towards Zero-Shot Language Understanding(用语言模型生成训练数据:走向零样本语言理解)了解详情

作者:Yu Meng, Jiaxin Huang ,Yu Zhang等

简介:本文综合运用两类不同的预训练语言模型进行零样本学习的探索。预训练语言模型 (PLM) 在各种自然语言处理任务中表现出卓越的性能:单向 PLM(例如 GPT)以其卓越的文本生成能力而闻名;双向 PLM(例如BERT)一直是自然语言理解(NLU)任务的主要选择。虽然这两种类型的模型都取得了有希望的小样本学习性能,但它们在零样本学习方面的潜力尚未得到充分开发。在本文中,作者提出了一种简单的方法,该方法使用两种类型的 PLM 对 NLU 任务进行完全零样本学习,而不需要任何特定于任务的数据:单向 PLM 生成由提示引导的类条件文本,用作训练用于微调双向 PLM 的数据。

论文下载:https://arxiv.org/pdf/2202.04538.pdf

标题:斯坦福 | Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution(微调会扭曲预训练特征,并在分布外表现不佳)了解详情

作者:Ananya Kumar, Percy Liang 等

简介:本文为ICLR2022 oral论文,介绍了一种新的微调策略。当把预训练的模型迁移到下游任务时,两种流行的方法是完全微调(更新所有的模型参数)和线性探测(只更新最后的线性层)。众所周知,微调会获得更好的分布内(ID)准确率,然而,本文发现,当预训练的特征很好且分布偏移较大时,即分布外(OOD)时,微调可以达到比线性探测更差的精度。在10个分布偏移数据集上,微调平均获得比线性探测高2%的ID准确率,但OOD准确率低7%。当本文用固定或随机的头初始化时,微调的OOD误差很高,这是因为在微调学习头的同时,神经网络的下层同时发生变化,并扭曲了预训练的特征。本文的分析表明,简单的两步策略,先线性探测然后完全微调(LP-FT)可被用作微调的启发式方法,它结合了微调和线性探测的优点。从经验上看LP-FT在评价数据集上的表现优于微调和线性探测,ID上比全微调好1%,OOD上比全微调好10%。

论文下载:https://arxiv.org/abs/2202.10054v1

标题:美国SIFT公司 | From Unstructured Text to Causal Knowledge Graphs: A Transformer-Based Approach(从非结构化文本到因果知识图谱:基于Transformer的方法)了解详情

作者:Scott Friedman,  Sonja Schmer-Galunder 等

简介:本文利用科学文本预训练进行了因果知识图谱的构建。本文定性因果关系表达了世界上离散或连续的相互作用、依赖性、时间和单调性的约束。提取和表示这些不同的因果关系对于在从科学发现到社会科学等领域运作的认知系统来说至关重要。本文提出了一个基于Transformer的NLP架构,它结合SciBERT等预训练模型提取知识图谱信息,获得包括用语言描述的变量或因素、这些变量上的定性因果关系、限制这些因果关系的限定词和量级以及在大型本体中定位每个提取节点的词义。这个的架构并非是一个认知系统,然而它可以在现实世界的领域中准确地提取知识图谱,并且其产生的知识图谱对于进行基于图谱的推理的认知系统具备实用性。本文同时也展示了这种方法处理来自学术出版物、新闻文章和社会媒体的文本输入。

论文下载:https://arxiv.org/abs/2202.11768v1

标题:港科大 | Survey of Hallucination in Natural Language Generation(自然语言生成中的幻觉综述)了解详情

作者:Ziwei Ji, Pascale Fung 等

简介:本文对预训练生成模型中幻觉信息进行了综述。的近年来,由于基于Transformer的预训练语言模型,自然语言生成得到了指数级的改善。这种进步使得自然语言生成更加流畅和连贯,自然而然地带动了下游任务的发展。然而这种生成包括幻觉文本,幻觉是基于神经的自然语言生成的一个伪命题,由于它们看起来很流畅,因此会对用户产生误导。本文对NLG的幻觉问题的研究进展和挑战做了一个广泛的概述,分析了造成幻觉的各种因素,包括嘈杂的数据、错误的参数化知识、不正确的注意力机制、不恰当的训练策略和推理暴露偏差等。作者表明存在两类幻觉,即内在的幻觉和外在的幻觉,它们需要用不同的缓解策略来对待。本文也在相应下游任务中,包括摘要总结、对话生成、生成性问题回答、数据到文本生成和机器翻译等进行了针对幻觉的具体实例分析。

论文下载:https://arxiv.org/abs/2202.03629v2

标题:清华 | A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals(理解力可与人类专业人士相媲美的连接分子结构和生物医学文本的深度学习系统)了解详情

作者:Zhiyuan Liu & Maosong Sun 等

简介:本文介绍了一个多模态分子表征学习系统。为了加速生物医学研究进程,研究者开始通过阅读大规模的生物医学数据来自动获取分子实体的知识。受人类从分子结构和生物医学文本信息的多功能阅读中学习深度分子知识的启发,本文提出了一个知识型机器阅读系统,在一个统一的深度学习预训练框架中衔接这两类信息,它解决了现有的机器阅读模型只能分别处理不同类型的数据的问题,从而实现对分子实体的全面彻底的理解。通过在不同信息源内和不同信息源之间以预训练无监督的方式掌握元知识,本文的系统可以促进各种现实世界的生物医学应用,包括分子特性预测、生物医学关系提取等。实验结果表明,本文的系统在分子特性的理解能力上甚至超过了人类专业人士,同时也揭示了其在促进未来自动药物发现和记录方面的巨大潜力。

论文下载:https://www.nature.com/articles/s41467-022-28494-3

《预训练周刊》第38期: Transformer、BERT结构优化_第7张图片

《预训练周刊》第38期: Transformer、BERT结构优化_第8张图片

《预训练周刊》第38期: Transformer、BERT结构优化_第9张图片

《预训练周刊》第38期: Transformer、BERT结构优化_第10张图片

《预训练周刊》第38期: Transformer、BERT结构优化_第11张图片

研究动态

标题:Multitask Prompted Learning: How large language models are trained?(多任务提示学习:如何训练了大语言模型?)了解详情

简介:在现代 NLP 领域,一切都与迁移学习有关。当前基于神经网络的模型的优点是可扩展性,这意味着作者可以简单地在更大的数据集上训练更大的模型。值得庆幸的是,作者有一个成熟的自监督学习框架,并且互联网上的文本数据非常丰富——例如,Common Crawl 项目每月从网页中提取大约 20TB 的文本数据。因此,近年来,NLP 研究人员专注于开发迁移学习方法。这一切都始于这篇论文:用统一的文本到文本转换器探索迁移学习的限制。简而言之,它是一个统一的框架,将每个文本处理问题都形成为“文本到文本”问题:给出一个文本序列作为输入,模型输出一个文本序列。它允许将相同的模型、目标、训练过程和解码过程应用于每个常见的 NLP 任务(包括翻译、问答、分类等)。

《预训练周刊》第38期: Transformer、BERT结构优化_第12张图片

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

《预训练周刊》第38期: Transformer、BERT结构优化_第13张图片

你可能感兴趣的:(神经网络,大数据,算法,编程语言,python)