《预训练周刊》第27期:谷歌发布最新看图说话模型、GitHub:平台上30%的新代码受益于AI助手Copilot

本期周刊,我们选择了9篇预训练相关的论文,涉及少样本理解、图像检测、决策图、大模型微调、对话微调、分子建模、蛋白质结构预测、生物医学综述和文本分类的探索。此外,在研究动态方面,我们选择了2篇预训练资讯,将介绍代码生成和图文生成方面的一些最新内容。最后,在资源推荐方面,我们选择了1篇预训练资源,将介绍大模型知识增强方面的一些最新资源。
文章来源:智源社区
论文推荐
标题:清华、智源、MIT等|FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding(FewNLU:用于少样本自然语言理解的最先进方法基准测试)
作者:Yanan Zheng, Jie Tang, Sebastian Ruder, Zhilin Yang等
简介:本文提出一种少样本公平衡量方法。少样本的自然语言理解任务最近引起了很多关注,作者引入了一个评估框架来改进之前在三个关键方面的评估程序,即测试性能、开发测试相关性和稳定性。在这个新的评估框架下,作者重新评估了NLU任务的几种最先进的小样本方法。作者开源了FewNLU,它实现了评估框架以及一些最先进的方法。
代码地址:https://github.com/THUDM/FewNLU
论文地址:https://www.aminer.cn/pub/6153e0215244ab9dcb39a9c4?f=cs
标题:谷歌|PIX2SEQ: A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTION(PIX2SEQ:语言建模框架用于物体检测)
作者:Ting Chen, Geoffrey Hinton
简介:本文介绍了一种序列框架用于图像物体检测任务。作者简单地将对象检测作为一种语言建模任务,其条件是观察到的像素输入。对象描述被表示为离散标记序列,作者训练一个神经网络来感知图像并生成所需的序列。基于直觉是,如果神经网络知道对象位置及类别,只需要教它如何读出它们。除了使用特定于任务的数据增强,作者的方法对任务做了最小的假设,相比于高度专门和优化的检测算法,但它在COCO数据集上取得了有竞争力的结果。提出的 Pix2Seq 框架不仅适用于对象检测,而且还可以用于应用于其他产生低带宽输出的视觉任务,其中输出可以表示作为相对简洁的离散标记序列。
论文地址:https://www.aminer.cn/pub/614bf07f5244ab9dcbc5d6f4?f=cs
标题:洛桑联邦理工学院、康奈尔大学|Tree in Tree: from Decision Trees to Decision Graphs(树中树:从决策树到决策图)
作者:Bingzhao Zhu, Mahsa Shoaran
简介:本文提出一种决策树的改进算法。这个论文介绍了树决策图(TnT)中的树,这是一个扩展传统决策树到更通用和更强大的有向无环图。TnT通过递归增长决策树来构建决策图内部或叶节点,而不是贪婪训练。TnT的时间复杂度为与图中节点数成线性关系,可以构建决策图在大型数据集上。与决策树相比,作者表明TnT实现了更好的减少模型大小的分类性能,均作为独立分类器并作为bagging/AdaBoost集成中的基本估计器。作者提出的模型是广泛使用的决策树的新颖、更有效和准确的替代方案。
论文地址:https://www.aminer.cn/pub/615a709d5244ab9dcb3a728a?f=cs
标题:清华、智源|P-Tuning v2: Prompt Tuning Can Be Comparable to Finetuning Universally Across Scales and Tasks(P-Tuning v2:即时调优与跨规模和任务的通用微调相媲美)
作者:Xiao Liu, Kaixuan Ji, Yicheng Fu, Zhilin Yang, Jie Tang等
简介:本文介绍了一种微调大模型的快速有效方法。提示调优,只调优连续使用冻结的语言模型提示,大大减少了训练时每个任务的存储和内存使用。之前的工作和作者的结果表明,现有的快速调优方法对于正常大小的预训练模型在上下文NLU中表现不佳;对于较难的序列任务,缺乏普遍性。作者提出适当优化的提示调整可以在不同尺寸模型和NLU任务广泛的范围内普遍有效,它媲美微调的性能,同时具有只有0.1%-3%的调谐参数。P-Tuning v2不是一种新方法,而是针对NLU优化和改编的前缀调整版本。
代码地址:https://github.com/THUDM/P-tuning-v2
论文地址:https://www.aminer.cn/pub/6168f1a35244ab9dcbe2ffc6?f=cs
标题:英国宝莱AI | CONVFIT: Conversational Fine-Tuning of Pretrained Language Models(ConvFiT:预训练语言模型的会话微调)
作者: Ivan Vulić、 Pei-Hao Su、 Sam Coope等
简介:本文研究会话领域中预训练模型作为编码器的转化。基于Transformer的语言模型、对大型文本数据的预训练,被证明储存了丰富的语义知识。然而,1) 它们在现成使用时不能有效地作为句子编码器,并且 2) 在会话任务之中通常会落后于会话预训练编码器、如意图检测(ID)。在这项工作中,作者提出了 ConvFiT-预训练语言模型的会话微调两阶段任务:先将任意预训练的语言模型转化为通用对话编码器;然后再转化为任务专用的句子编码器 。作者证明了 1) 成熟的会话预训练不是必需的,并且语言模型可以快速转换为有效的会话编码器;2)预训练的语言模型可微调为任务专用的句子编码器,针对特定任务的细粒度语义进行优化。实验表明:基于ConvFiT的语言模型已全面实现了最先进的 ID 性能,特别是在个别设置的最具挑战性的方向上。
论文地址:https://www.aminer.cn/pub/614a9eca5244ab9dcbc38c35?f=cs
标题:哥伦比亚大学、浙大、耶鲁 | 3D-Transformer: Molecular Representation with Transformer in 3D Space(3D-Transformer: 在三维空间中用Transformer进行分子表征)
作者:Fang Wu, Huajun Chen 等
简介:三维空间结构对于确定分子的特性非常重要,而传统几何深度学习在捕捉输入原子的长距离依赖性方面计算成本很高,而且没有考虑到原子间距离的不均匀性。本文介绍了3D-Transformer,它开发了一个多尺度的自注意力模块,利用局部细粒度的模式来增加背景尺度,并设计了一个自适应位置编码模块,对小分子和大分子采用不同的位置编码方法。为了从原子嵌入中获得分子表征,本文提出了一种关注最远点采样算法,该算法在注意力分数的帮助下选择一部分原子,克服了虚拟节点和以前距离主导的下采样方法的障碍。本文在量子化学、材料科学和蛋白质组学上验证了效果,在晶体性质预测任务和蛋白质-配体结合亲和力预测任务中,3D-Transformer比最先进的预训练模型有明显的改进。
论文地址:https://www.aminer.cn/pub/615bc2735244ab9dcbdbcdfb?f=cs
标题:密苏里大学 | Geometric Transformers for Protein Interface Contact Prediction(用于蛋白质接触界面预测的几何Transformer)
作者:Alex Morehead, Chen Chen, Jianlin Cheng
简介:预测蛋白质之间的界面接触在药物发现中很重要,因为它们可以显著提高蛋白质-蛋白质对接、蛋白质功能分析和其他蛋白质生物信息学的计算方法的准确性。本文提出了几何Transformer,用于旋转变换不变的蛋白质界面接触预测,其预训练模型被整合在一个端到端的预测流程DeepInteract中。DeepInteract以两个蛋白质的三级结构为输入,预测特定的蛋白质界面接触。作者在互动蛋白质结构增强数据库(DIPS-Plus)和第13和第14届CASP-CAPRI的蛋白质复合物任务上分别达到17%和13%的最高L/5精度,优于现有的界面接触预测方法,从而验证了几何Transformer在学习丰富的几何特征方面的有效性,可用于三维蛋白质结构的下游任务。
论文地址:https://www.aminer.cn/pub/615e65735244ab9dcbf21774?f=cs
标题:曼彻斯特大学、Mila等 | Pre-trained Language Models in Biomedical Domain: A Systematic Survey(生物医学领域的预训练语言模型:系统综述)
作者:Benyou Wang, Qianqian Xie
简介:预训练语言模型已经成为大多数自然语言处理任务的事实范式,同时来自信息学、医学和计算机科学界的研究人员也提出了各种在生物医学数据集上训练的预训练模型,如生物医学文本、电子健康记录、蛋白质和DNA序列等。然而,生物医学预训练的跨学科特点阻碍了它们在社区中的传播,现有的工作是相互孤立的,没有全面的比较和讨论。本文系统地回顾生物医学预训练模型的最新进展和它们的应用,而且规范了术语和基准,同时总结了预训练语言模型在生物医学领域的最新进展以及它们在生物医学下游任务中的应用,特别是动机,并提出了现有生物医学预训练的分类法。最后,本文详尽地讨论了它们在生物医学下游任务中的应用,并说明了现在研究的局限性和未来的趋势,希望这能为研究界的未来研究提供灵感。
论文地址:https://www.aminer.cn/pub/6180d3c36750f8536d015f02?f=cs
标题:马普所、早稻田大学等 | A Legal Approach to Hate Speech: Operationalizing the EU’s Legal Framework against the Expression of Hatred as an NLP Task(处理仇恨言论的法律方法:将欧盟反对仇恨的法律框架视为一个NLP任务)
作者:Frederike Zufall, Marius Hamacher 等
简介:本文提出了一种检测仇恨言论的 “法律方法”,将决定一个帖子是否受刑事法律约束的任务转化为一个NLP任务。现有的仇恨言论的监管制度中,准确判断一个帖子是否应受惩罚通常需要法律培训。作者以欧盟的框架为基础训练了一个GBERT-base分类器,将一个帖子作为输入,并估计该帖子是否应受惩罚。实验表明,通过将法律评估分解成一系列更简单的子决策,即使是外行也能进行注释。本文在新数据集的实验表明,直接学习一个可惩罚内容的自动模型是具有挑战性的。然而不使用端到端的可惩罚性方法,而是转为学习 "目标群体 "和 "目标行为 "这两个子任务会产生更好的结果。总的来说,本文的方法还提供了比端到端模型更透明的决策,这是法律决策中的一个关键点。
论文地址:https://www.aminer.cn/pub/6180d5446750f80a3947a2e2?f=cs
研究动态
标题:GitHub:平台上30%的新代码受益于AI助手Copilot
简介:GitHub Universe大会举办期间,公司副总Oege de Moor在Axios的采访中表示,基于OpenAI GPT-3派生模型Codex的AI编程助手服务Copilot很受程序员欢迎。现在GitHub上30%的新代码已经是在Copilot的帮助下编写的,虽然目前还在技术预览阶段(使用需要排队),但已经尝试过这一服务的程序员有一半继续使用。Copilot目前已经支持Python, JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript甚至Shell语言,对Python的支持最好。它可以将注释或者语音命令转换成整行代码甚至完整的程序(比如简单的小游戏),在比较复杂的场景下,它也能大大提升程序员效率,减少出错。这次大会,Copilot除了VS Code编辑器之外,又扩展到了Neovim和JetBrains的IDE产品,包括IntelliJ IDEA和PyCharm的最新版本。
标题:谷歌发布最新看图说话模型,可实现零样本学习,多类型任务也能直接上手
简介:谷歌新推出了弱监督看图说话模型SimVLM,能够轻松实现零样本学习(zero-shot)任务迁移。从文字描述图像到回答图片相关问题,模型无需微调也能样样精通。对于一般的视觉语言预训练(VLP)模型,训练数据集中要求包含大量精准标签。而模型的任务迁移,则需要针对特定任务重新进行数据集的标签标注。总结下来,就是标注数据集不仅耗时耗力,还不能多任务通用。能不能开发出一种又简单又万能的VLP模型呢?谷歌新开发的这款模型使用了弱监督学习进行模型训练,通过利用大量的弱对齐图像-文本对进行建模,简化了VLP的训练流程,大大降低了训练的复杂性。SimVLM使用前缀语言建模的单一目标进行端到端训练,并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用,从而能够更好地实现零样本学习泛化效果。
资源推荐
标题:亚马逊最新《知识增强预训练语言模型》,全面综述知识嵌入预训练模型以及在NLU与NLG应用
简介:预训练语言模型通过在大规模文本语料库上学习信息语境化表示,建立了一种新的范式。这种新的范式已经彻底改变了整个自然语言处理领域,并为各种NLP任务设置了新的最先进的性能。然而,尽管PLM可以从训练语料库中存储一定的知识/事实,但它们的知识意识还远远不能令人满意。为了解决这个问题,将知识集成到PLM中已经成为一个非常活跃的研究领域,并且已经开发了各种各样的方法。在本文中,我们对这一新兴和快速发展的领域-知识增强的预训练语言模型(KE-PLMs)提供了一个全面的文献综述。我们引入三种分类法来对现有工作进行分类。此外,我们还调研了各种NLU和NLG应用,在这些应用上,KE-PLM表现出了优于普通PLM的性能。最后,讨论了KE-PLMs面临的挑战和未来的研究方向。

你可能感兴趣的:(AMiner论文推荐,AMiner,人工智能,github,c语言)