No.09
智源社区
预训练组
预
训
练
研究
观点
资源
活动
关于周刊
超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第9期《预训练周刊》,从论文推荐、研究动态、资源下载等维度推荐近期发生在预训练模型领域值得关注的信息。
本期周刊,我们选择了9篇预训练相关的论文,涉及音频字幕生成、多模问答、表格数据、模型结构、图像生成、表征学习、小样本学习、人像抠图和视觉语言表征的探索。此外,在研究动态方面,我们选择了4篇预训练资讯,将介绍BERT裁剪、模型压缩、目标检测和视觉预训练等方面的一些最新内容。最后,在资源下载方面,我们选择了2篇内容,将介绍了时空信号处理和可解释NLP测评工具的内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
论文推荐
标题:伦敦玛丽皇后大学、环球音乐集团|MusCaps: Generating Captions for Music Audio(MusCaps:为音乐生成音频字幕)了解详情
简介:基于内容的音乐信息检索随着深度学习迅速发展。当前通常使用音乐描述的方法分类模型,例如自动标记或体裁中的分类模型,以及情绪分类。在这项工作中,我们建议通过音频字幕描述解决音乐问题,定义像人一样为音乐生成音频内容的自然语言描述,我们展示了第一个音乐音频字幕模型MusCaps,由编码器-解码器组成时域注意力。我们的方法结合了卷积和递归神经网络结构,以通过多模态编码器共同处理音频文本输入,并利用对音频数据的预训练来获得有效的表示形式捕获并总结输入中的音乐特征。评估表明通过自动生成的字幕显示,我们的方法优于为非音乐设计的基准音频字幕。通过消融研究,我们发现绩效提升主要归因于音频编码器,以及其他设计选择(模态融合,解码策略和注意力的使用)仅作勉强贡献。我们的模型代表了从基于分类的音乐描述的转变,并在音乐信息检索中结合了需要听觉和语言理解以弥合语义鸿沟。
代码地址:https://github.com/ilaria-manco/muscaps
论文下载:https://arxiv.org/pdf/2104.11984.pdf
标题:【NAACL2021】亚马逊、威斯康星大学麦迪逊分校|A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations(初步了解:基于视觉和文本解释性的可解释的文本视频问答模型)了解详情
简介:可解释的深度学习模型在许多情况下都是有利的。以前的工作大部分通过事后方法提供单模态解释,而不是原始系统的一部分设计。解释机制也忽略图像中有用的文字信息。在本文中,我们提出了MTXNet,这是一种端到端可训练的多模式体系结构,用于生成多模态解释,其中重点是在图片中的文字上。我们提出一个全新数据集TextVQA-X,包含基本事实视觉和多参考文字说明可以用于训练和评估。然后我们定量地表明具有多模态解释的培训补充了模型性能,并超越了中的单模基线最高7%的CIDEr得分和2%IoU得分。更重要的是,我们证明多模式解释与人类的解释是一致的,帮助证明模型的决策合理,并提供有用的见解以帮助诊断错误的预测。最后,我们描述了一个实际的电子商务应用程序,用于使用生成的多模解释。
代码地址:https://github.com/amzn/explainable-text-vqa
论文链接:https://arxiv.org/pdf/2105.02626.pdf
标题:索尼、马萨诸塞大学阿默斯特分校、Adobe|TABBIE: Pretrained Representations of Tabular Data(TABBIE:表格数据的预训练表示)了解详情
简介:表格表示学习主题的现有工作使用了自训练语言模型(例如BERT)派生的自监督目标函数对表和关联文本进行联合建模。虽然这种联合预训练改善了涉及成对的表格和文本的任务(例如,回答有关表格的问题),但我们表明它在没有任何相关文本的情况下对表格进行操作的任务表现不佳(例如,填充丢失的单元格)。我们设计了一个简单的预训练目标(损坏单元检测),该目标专门从表格数据中学习,并在基于表的预测任务上达到了最新水平。与竞争方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格,行和列)的嵌入,并且所需的计算量也要少得多。对模型学习的单元格,列和行表示形式的定性分析表明,该模型可以理解复杂表的语义和数值趋势。
代码地址:https://github.com/SFIG611/tabbie
论文下载:https://arxiv.org/pdf/2105.02584v1.pdf
标题:谷歌 | Are Pre-trained Convolutions Better than Pre-trained Transformers?(预训练的卷积比预训练的transformers强吗?)了解详情
简介:在预训练语言模型的时代,Transformer是实质上的模型架构的选择。虽然最近的研究展示了卷积和CNN架构的前景,但目前鲜有研究对这些架构的预训练-微调范式进行过探索。在语言模型的背景下,卷积模型在预训练时与transformer相比有竞争力吗?本文研究了这个研究问题,并提出了几个有趣的发现。模型在 C4 数据集上进行了预训练,模型参数为大约230M,应用12层的seq2seq形式CNN架构以模拟 transformers,使用16块 TPU-v3约训练12小时。在8个数据集及任务的一些实验中,作者发现基于CNN的预训练模型是有竞争力的,并且在某些情况下优于它们的对应transformer模型。总的来说,本文的研究结果表明,将预训练和架构方面的进展混为一谈是错误的,这两种进展应该被独立考虑。我们相信我们的研究为替代架构的健康乐观发展铺平了道路。
论文地址:https://arxiv.org/pdf/2105.03322.pdf
标题:MIT & Adobe & CMU | Ensembling with Deep Generative Views (集成深度生成图像)了解详情
简介:近年来的基于大数据的生成模型已经可以做到只从无标签的图像合集中学习获得合成人工图像的能力,从而模仿真实世界的变化比如颜色或姿势的变化。在本文中,作者研究这种观点是否可以应用于真实的图像在下游的分析任务,比如图像分类。作者首先使用一个预训练的生成器,找到与给定的真实输入图像相对应的隐层编码,对编码进行扰动产生图像的自然变化,然后可以在测试时将其集成在一起以作为真实图像的图像增强。本文使用StyleGAN2作为生成增强的来源,并在涉及面部属性、猫脸和汽车的分类任务中研究这一设置。经过实验作者发现部分设计决策对上述假设及方法的奏效十分重要:图像隐层编码扰动过程、增强的图像和原始图像之间的权重,以及在增强图像上训练分类器的过程都会影响结果。总体上本文发现,虽然基于GAN增强的集成对下游任务可以提供一些小的性能提升,但剩下的主要瓶颈是GAN重建的效率和准确性,以及分类器对GAN生成的图像中的敏感性。
论文地址:https://arxiv.org/pdf/2104.14551v1.pdf
代码地址:https://chail.github.io/gan-ensembling/
标题:MIT & MIT-IBM Watson AI Lab | Curious Representation Learning for Embodied Intelligence(具体化智能的好奇表征学习)了解详情
简介:近年来,与预训练相关的自监督表征学习已经取得了显著的成功。通过颠覆对监督式标签的需求,这些方法能够有效利用互联网上和摄影数据集中存在的大量无标签图像。然而,为了建立真正的智能体,我们必须构建更强的表征学习算法,一种不仅可以从数据集中学习,还可以从环境中学习的算法。在自然环境中的智能体通常不会接收到经过人工设计的数据,相反,它必须探索它的环境,以获得它需要学习的数据。本文对此提出了一个框架,联合学习一个强化学习策略和一个视觉表征模型的好奇的表征学习(CRL)。该策略在预训练中要求最大化表征学习者的错误,并在这样做的过程中被激励去探索其环境。同时,随着策略向它提供越来越难的数据来学习,模型学到的表征变得越来越强。本文所学到的表征能够很好地转移到下游的导航任务中,在完全不使用任何监督式学习的情况下,表现得比ImageNet预训练更好或可与其相媲美。此外,尽管是在模拟中训练的,但本文学习到的表征可以在真实图像上获得可解释的结果。
论文地址:https://arxiv.org/pdf/2105.01060v1.pdf
标题:脸书 | Entailment as Few-Shot Learner(通过Entailment构建小样本学习器)了解详情
简介:大型预训练语言模型(LMs)作为小样本学习器已经表现出了非凡的能力,然而,他们的成功在很大程度上取决于模型参数量的提升,这使得其训练,部署和服务具有挑战性。在本文中,作者提出了一种新的方法,名为EFL(Entailment as Few-shot Learner),它可以将小的语言模型变成更好的小样本学习器。这种方法的关键思想是将潜在的NLP任务重新表述为一个entailment任务,然后只需用8个例子就可微调模型。我们进一步证明我们提出的方法可以 (i) 与基于无监督的对比学习的数据增强方法自然结合;(ii) 容易扩展到多语言的小样本学习。对18个标准的NLP任务进行的系统评估表明,这种方法将现有的各种SOTA几率学习方法提高了12%,并产生了与500倍大的模型(如GPT-3)具备竞争性的小样本性能。
论文地址:https://arxiv.org/pdf/2104.14690.pdf
标题:SIGGRAPH 2021 谷歌|Total Relighting:Learning to Relight Portraits for Background Replacement(谷歌人像抠图新作:人像重照明与背景替换系统)了解详情
简介:我们提出了一种新式的人像重照明和背景替换系统,该系统既能准确地保持图像的高频边界细节,又能对拍摄目标的外观进行新式照明合成,从而为任何所需场景生成逼真的合成图像。研究的亮点和核心是:通过alpha蒙版、重照明和合成进行前景估计。我们论证了:无需使用先验知识、也无需专门的采集技术,每个阶段都可以在一个连续的管道队列中处理,仅使用单个RGB肖像图片和新式的目标HDR照明环境作为输入。在“可记录众多照明条件、高质量几何形状和精确alpha蒙版”的光阶计算照明系统之中,模型训练中使用捕获的重照明肖像图片。为实现清晰真实的重照明合成,我们在(1)深度学习框架中引入了一种新式的单位像素照明表征,它能显式地对肖像图外观的漫反射和镜面反射组件进行建模,生成了具有令人信服的绝佳“非朗伯效果”的重照明肖像。(2)重照明模块Loss功能中:在前人基础上我们采取了很多策略,比如地使用“从目标反照率提取的特征”的VGG距离的平方,并且使用“基于ImageNet分类任务的预训练VGG网络”之上的反照率图像进行预测。(3)在合成阶段:我们不仅使用蒙版计算公式抽取重照前景作为照明全景的定向视图,而且还额外训练了一个基于数据的深度网络合成函数,通过学习来更正剩余的合成错误。实验表明,该方法在处理自然环境图像中有效。
论文地址:https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf
标题:北京大学、中山大学、微软亚研等|视觉语言表征学习的端到端预训练模型 SOHO了解详情
简介:文本检索中通常都是先抽取出图像中的显著区域,再与文字一一对齐。但是,由于基于区域的视觉特征只代表图像的一部分,因此现有视觉语言模型在充分理解配对自然语言的语义方面面临挑战。本文中,北京大学、中山大学、微软亚研等机构的研究者提出了 「开箱即看」(SOHO)的概念,它以完整的图像作为输入,并通过端到端的方式学习视觉语言表达。SOHO 最大的亮点是不需要边界框标注,从而使得推理速度比基于区域的方法提升了 10 倍。一系列实验也验证了 SOHO 的有效性。
论文地址:https://arxiv.org/pdf/2104.03135.pdf
研究动态
标题:ZOHO、哥本哈根大学、洛厄尔市大学|When BERT Plays The Lottery, All Tickets Are Winning(当BERT玩彩票时,所有彩票都中了)了解详情
简介:在BERT上使用幅度裁剪时,彩票假设是成立的,“好的”子网络可以重新训练以达到完整的模型性能。实验表明,BERT的高性能似乎并非来自特定BERT组件(自注意力头和MLP)的预训练权重中唯一编码的特定语言知识;它们在GLUE任务的“良好”子网中也不稳定;即使是最能幸存下来的自注意力的头部,也没有主要的自注意力模式。
论文地址:https://arxiv.org/pdf/2005.00561.pdf
标题:BERT和GAN咋压缩,且看咱PaddleSlim新利器—— OFA(Once For All)了解详情
简介:目前在深度学习领域,一方面需要追求更高的性能,采用强大、复杂的模型网络和实验方法;另一方面又需要关注如何将算法更稳定、高效地在硬件平台上落地。复杂的模型固然展现更好的性能,但过高的存储空间需求和计算资源消耗,是影响在各硬件平台上的落地的重要原因之一。尤其在NLP领域,以BERT、GPT为代表的预训练模型规模越来越大。针对部署难题,可以使用剪枝、量化、蒸馏等传统的模型压缩技术,但是这些模型压缩技术整体的流程较长,直接串行结合的效果不佳。而OFA技术巧妙地结合了剪枝、蒸馏和结构搜索策略,不仅提升了压缩效果,还简化了压缩流程。百度飞桨模型压缩工具PaddleSlim新增支持OFA这一实用功能,并在BERT和GAN模型上做了验证:对于BERT模型实现了近2倍的加速;而对GAN模型则实现了33倍的体积压缩。除此以外,PaddleSlim还为用户提供了简单易用且低侵入的轻量级接口,用户无需修改模型训练代码,即可完成OFA压缩。
标题:PP-YOLOv2开源,你的目标检测器又该升级了!性能超越YOLOv5且推理耗时保持不变了解详情
简介:本文是百度的研究员对PP-YOLO的一次升级,取得更佳的性能(49.5%mAP)-速度(69FPS)均衡,并优于YOLOv4与YOLOv5。从PP-YOLO出发,通过增量消融方式逐步添加有助于性能提升且不增加推理耗时的模块达到提升PP-YOLO模型性能的目的。本文不仅对起正向作用的改进措施进行了分析,同时还对起负面作用的方案进行了说明。总而言之,一句话:你的目标检测器又该升级了。在实际应用场景中,有效性与高效性对于目标检测器非常重要。为满足这两个问题,我们全面评估了现有提高PP-YOLO性能的改进措施同时保持推理耗时不变。本文对现有改进措施进行了分析并通过增强消融研究评估了其对最终模型的影响,此外,那些不起作用的也进行了讨论。通过组合多种有效改进,我们将PP-YOLO在COCO2017 test-dev数据上的性能从45.9%mAP提升到了49.5%mAP,并将所得到的模型称之为PP-YOLOv2。在推理速度方面,PP-YOLOv2可以达到68.9FPS;采用Paddle推理引擎+TensorRT+FP16+bs1,可以进一步将PP-YOLOv2的推理速度提升到106.5FPS。这样优秀的性能碾压了同等参数量的YOLOv4-CSP,YOLOv5l等模型。除此之外,采用ResNet101骨干的PP-YOLOv2可以在COCO2017 test-dev数据集上取得50.3%mAP指标。
论文地址: https://arxiv.org/abs/2104.10419
标题:视觉预训练神作:惊呆!不用一张图片,却训出个图像识别SOTA?了解详情
简介:视觉Transformer(ViT)最近强势进军CV界,并取得绝佳效果,大有要取代曾经的王者卷积神经网络(CNNs)的趋势。不过,ViT也有诸多问题,在预训练阶段经常需要上亿级别的真实图像数据和标注预训练才能和CNNs一较高低,这直接带来了诸如隐私保护、标注成本、AI伦理等问题。随着自监督学习方法(Self-Supervised Learning, SSL)如Moco、SimCLR的成功, 标注问题被极大地解决,但是在真实图像上进行训练仍然会触发诸如侵犯隐私和公平性保护的问题。譬如,正因为图像版权相关的问题,著名的ImageNet数据集只能用于非商业用途。如果能不使用任何真实图像数据和人工标注情况下训练ViT,还能达到甚至超过真实图像训练的最优模型,数据问题荡然无存,模型轻松放心大胆用,这简直完美,岂不快哉!本文提出了一种基于公式驱动的监督学习方法。这种方法依赖于没有自然图像的数据库,即分形数据库。通过分配分形来自动生成图像模式及其类别标签,这些分形基于现实世界背景知识中存在的自然规律。该论文另辟蹊径的在不使用任何真实图像和标注的条件下,成功训练了一个强大的ViT模型,虽然距离现在的有监督方法还有微弱差距,但是已经超过了目前最优秀的自监督模型MoCov2和SimCLRv2,是一项非常有趣的工作,相信它在AI伦理和版权保护方面有重要意义。
论文地址: https://arxiv.org/pdf/2103.13023.pdf
资源下载
标题:爱丁堡、剑桥、牛津等|PyTorch Geometric Temporal: Spatiotemporal Signal Processing
with Neural Machine Learning Models(PyTorch时空:神经机器学习模型时空信号处理)了解详情
简介:我们为PyTorch Geometric Temporal提供了一个深度学习框架,该框架结合了最新的机器学习算法,可用于神经时空信号处理。该库的主要目标是使时间几何深度学习可用于研究人员和机器学习从业人员在统一易用的框架中。PyTorch几何时态创建于基于PyTorch生态系统中现有库的基础,简化的神经网络层定义,用于批处理的临时快照生成器以及集成的基准数据集。通过类似教程的案例研究来说明这些功能。实验展示所实施模型的预测性能在软件库中了解现实世界的问题,例如流行病学预测,乘车需求预测和网络流量管理。我们对运行时的敏感性分析表明,该框架可以可能会在具有丰富的时间特征和空间结构的网络级数据集上运行。
代码地址:https://github.com/benedekrozemberczki/pytorch_geometric_temporal
论文地址:https://arxiv.org/pdf/2104.07788v1.pdf
标题:NLP模型「可理解分析+评价排行榜」,CMU最新工具助你找到好idea了解详情
简介:随着深度学习模型的快速发展,排行榜已经成为一种用来追踪各种系统性能的主流工具。然而,由于在排行榜上排名靠前的模型所具有的声望,很多研究人员只关注提高评估指标的数字,而忽略了对模型特性更深入的科学理解。CMU联合复旦、俄亥俄州立大学的研究者推出了一个将模型可理解分析和模型评价排行榜结合起来的科研辅助工具 ExplainaBoard,能够完成单系统诊断、数据集分析以及可信度分析等任务,有效提升科研人员的学术体验。NLP模型的系统排行榜,它被定位成一个科研辅助产品,巧妙地把「模型可理解分析」和「模型评价排行榜」两个看似无关的元素结合,将平时科研中很多被我们忽略却很重要的部分转化成「一键式」操作,从而提升科研人员做学术的体验。目前,ExplainaBoard 在单任务上支持分类、抽取、生成在内的 9 个主流 NLP 任务,涉及 40 多个数据集、300 多个模型;在多任务上,支持多语言评价基准,包含 40 多种语言和 9 个跨语言任务。
论文地址:https://arxiv.org/pdf/2104.06387.pdf
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
请扫描下方二维码,加入预训练兴趣群。