No.25
智源社区
预训练组
预
训
练
研究
观点
资源
活动
关于周刊
超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期《预训练周刊》,从论文推荐、研究动态、资源推荐等维度推荐近期发生在预训练模型领域值得关注的信息。
本期周刊,我们选择了11篇预训练相关的论文,涉及图像分割、多模态理论、图像问答、大语言模型、无监督强化学习、预训练优化、文本理解测评、攻击性语言识别、异构预训练、药物靶点分析和生物领域大模型的探索。此外,在研究动态方面,我们选择了2篇预训练资讯,将介绍视觉变换器综述和医学问答综述方面的一些最新内容。在资源推荐方面,我们选择了1篇预训练资源,将介绍自然语言处理数据集方面的一些最新资源。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
论文推荐
标题:南大、港大、英伟达等|Panoptic SegFormer(泛光学分割变换器)了解详情
作者:Zhiqi Li, Tong Lu, Ping Luo等
简介:本文介绍了一种先进的基于变换器的图像分割算法。作者提出泛光学分割变换器,这是一个通用框架使用Transformer 进行端到端全景分割。提出的方法扩展了可变形DETR人和物的掩码预测工作流程,使全景分割流水线简洁有效。使用ResNet-50主干,作者的方法实现了COCO的50.0%PQ值,在没有任何优化前提下以显著的优势超越了以前的最先进方法。使用更强大的PVTv2-B5骨干,在COCO验证集、测试集上,泛光学分割变换器创造了新的记录,PQ值分别为54.1%和54.4%。
论文下载:https://arxiv.org/pdf/2109.03814v1.pdf
标题:特伦托大学、哥本哈根大学|Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers(视觉与语言还是视觉语言?多模态变换器中的跨模态影响分析)了解详情
作者:Stella Frank, Desmond Elliott
简介:本文研究了多模态中各模态缺失时的模型表现。作者提出了一种基于跨模态输入的诊断方法,消融评估这些模型实际上整合了跨模态信息。这种方法从一种模态涉及消融输入,完全或选择性地基于跨模态接地对齐,并评估模型预测在另一种模式下的表现。模型效果是由特定于模态的反映模型预训练目标的任务。使用两种模态的跨模态表示构建的模型,当模态缺少一项输入时,多模态模型会表现得更差。作者发现最近提出的模型在视觉上预测文本任务上比文本预测图像更困难,表明这些模型不是对称的交叉模态。
论文下载:https://arxiv.org/pdf/2109.04448v1.pdf
标题:微软|An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA(基于小样本知识的VQA的GPT-3实证研究)了解详情
作者:Zhengyuan Yang、Lijuan Wang
简介:本文探讨了大模型在VQA中的应用。基于知识的视觉问答涉及不出现在图像中外部知识。现有方法首先从外部资源中检索知识,然后对选定的信息进行推理知识、输入图像和答案预测问题。然而,这种两步法可能会导致不匹配,从而可能限制VQA的性能。受GPT-3在知识检索和问答方面的强大启发,而不是像以前那样使用结构化的知识库工作,作者将GPT-3视为隐式和非结构化的知识库可以共同获取和处理相关知识。具体来说,作者首先将图像转换为GPT-3可以理解的标题(或标签),然后适配GPT-3解决VQA只需提供一些上下文,即可完成任务VQA示例。作者通过谨慎进一步提高性能调查:(i)哪种文本格式最能描述图像内容,以及 (ii) 如何更好地选择和使用上下文中的样本。PICa首次将GPT-3用于多模态任务,仅使用16个样本,在OK-VQA数据集,PICa就以绝对+8.6分的最先进技术水平超过了竞争对手。作者还在VQAv2上对PICa进行了基准测试,PICa也表现出不错的少样本性能。
论文下载:https://arxiv.org/pdf/2109.05014v1.pdf
标题:NAVER、Search Solutions|What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers(大规模语言模型能带来哪些变化?HyperCLOVA 的深入研究:数十亿级韩语生成式预训练变换器)了解详情
作者:Boseop Kim、HyoungSeok Kim、Sang-Woo Lee、Nako Sung
简介:本文介绍了韩语预训练大模型。GPT-3展示了在数千亿规模数据上训练的大规模语言模型的卓越上下文学习能力。作者解决了GPT-3论文较少报告的一些剩余问题,例如非英语LM、不同大小模型的性能以及最近引入的提示优化对上下文学习的影响。为了实现这一目标,作者提出HyperCLOVA,这是820亿GPT-3的韩语变体,在以韩语为中心的5600亿符号语料库上训练。通过作者的韩语特定符号化,HyperCLOVA和作者的训练配置在韩语的各种下游任务上显示了最先进的上下文零样本和少样本学习性能。此外,作者展示了基于提示的学习的性能优势,并展示了如何将其集成到提示工程流水线中。然后,作者讨论了通过引入 HyperCLOVA Studio为非机器学习专家提供AI原型制作功能来实现无编码AI范式的可能性。
论文下载:https://arxiv.org/pdf/2109.04650v1.pdf
标题:加利福尼亚大学伯克利分校|APS: Active Pretraining with Successor Features(APS:具有后续功能的主动预训练)了解详情
作者:Hao Liu, Pieter Abbeel
简介:本文为强化学习引入了一个新的无监督预训练目标。在无监督的无奖励预训练阶段,代理最大化策略诱导的任务和状态之间的互信息。作者的主要贡献是这个难以处理的数量的新下限。作者表明,通过重新解释和组合变分后继特征 与非参数熵最大化,可以有效地优化难以处理的互信息。提出的方法:具有后续功能的主动预训练 (即APS) 通过非参数熵最大化探索环境,并且可以有效地利用探索的数据通过变分后继特征来学习行为。APS解决了现有基于互信息最大化和基于熵最大化的无监督 RL 的局限性,并结合了两者的优点。在Atari 100k数据效率基准上进行评估时,作者的方法显著优于先前将无监督预训练与特定任务微调相结合的方法。
论文下载:https://arxiv.org/pdf/2108.13956
标题:谷歌|Shatter: An Efficient Transformer Encoder with Single-Headed
Self-Attention and Relative Sequence Partitioning(Shatter:具有单头自注意力和相对序列分区的高效Transformer编码器)了解详情
作者:Ran Tian, Joshua Maynez, Ankur P. Parikh
简介:本文提出一种新的变换器结构。基于自注意力的高度流行的Transformer架构虽然功能强大,但预训练此类模型所需的计算资源和时间可能令人望而却步。在这项工作中,作者提出了另一种自注意力架构 Shatter,它通过软划分相对位置的空间并将不同的值矩阵应用于序列的不同部分来更有效地编码序列信息。作者将这种机制进一步允许让 Transformer 中的多头注意力简化为单头注意力。作者进行了广泛的实验,表明通过预训练,Shatter 获得了比 BERT 更好的性能每步更快(在 TPU 上为 15%),在更少的步骤中收敛,并提供可观的内存节省(>50%)。综合上述两项能力,Shatter可在8颗V100的GPU服务器上7天就能预训练完成,并能够达到BERT-Base的性能:这让预训练成本更加低廉。
论文下载:https://arxiv.org/pdf/2108.13032
标题:北京国家信息科学技术研究中心、清华大学等|LOT: A Benchmark for Evaluating Chinese Long Text Understanding and Generation(LOT:评估中文长文本理解和生成的基准)了解详情
作者:Jian Guan, Minlie Huang
简介:本文提出了长文本理解评价的新基准。标准的多任务基准测试对于推动通用预训练模型推广到各种下游任务的进展至关重要。然而,现有的GLUE和GLGE等基准测试倾向于专注于短文本理解和生成任务,而没有考虑长文本建模,这需要许多独特的能力,例如建模远程常识和话语关系,以及模型的连贯性和可控性。因此,作者提出了LOT:一个包含两个理解和两个生成任务的基准、用于中文长文本建模评估。作者基于各种人工编写的中文故事为任务构建数据集。此外,作者发布了一个名为LongLM的编码器-解码器中文长文本预训练模型,参数高达10亿。作者在 120G 中文小说上对LongLM 进行了预训练,其中包含两个生成任务,包括文本填充和条件延续。LOT上的大量实验表明,LongLM在理解任务上与类似大小的预训练模型的性能相匹配,并在生成任务上大大优于基线。
论文下载:https://arxiv.org/pdf/2108.12960
标题:印度IIIT研究所、斯里兰卡凯斯滕大学等|Offensive Language Identification in Low-resourced Code-mixed Dravidian languages using Pseudo-labeling(使用伪标记的低资源代码混合达罗毗荼语言中的攻击性语言识别)了解详情
作者:Adeep Hande、 Karthik Puranik、 Konthala Yasaswini 等
简介:本文旨在对泰米尔语、卡纳达语和马拉雅拉姆语的达罗毗荼语言中的代码混合社交媒体评论/帖子进行分类。作者打算通过在数据集上生成伪标签来改进攻击性语言识别。自定义数据集是通过将所有代码混合文本音译为各自的达罗毗荼语言(卡纳达语、马拉雅拉姆语或泰米尔语),然后为音译数据集生成伪标签来构建的。使用生成的伪标签组合两个数据集以创建称为CMTRA的自定义数据集。在自定义数据集上微调ULMFiT会在所有三种语言的代码混合测试集上产生最佳结果。作者的方法在泰米尔语-英语的基准模型中产生了最好的结果,实现了0.7934的加权F1-Score,同时在马拉雅拉姆语-英语和卡纳达语-英语的代码混合测试集上分别获得了0.9624和0.7306的竞争加权F1-Score。
论文下载:https://arxiv.org/pdf/2108.12177
标题:清华大学、华为诺亚方舟 |TravelBERT: Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation(TravelBERT:将特定领域的异构知识整合到统一表示的预训练语言模型)了解详情
作者:Hongyin Zhu, Jinghui Xiao
简介:现有技术从不同的角度扩展了BERT,例如设计不同的训练前任务、不同的语义粒度和不同的模型体系结构。但很少有模型考虑从不同的文本格式扩展Bert。在本文中,作者提出了一种异构知识语言模型(HKLM),一种针对所有形式文本(包括非结构化文本、半结构化文本和良好结构文本)的统一预训练语言模型。为了捕捉这些多格式知识之间的对应关系,该方法使用masked语言模型学习单词知识,使用三分类目标和标题匹配目标分别学习实体知识和主题知识。为了获得上述多格式文本,作者在旅游领域构建了一个语料库,并在5个旅游NLP数据集上进行了实验。结果表明,作者的方法优于仅使用1/4数据的纯文本预训练。
论文下载:https://arxiv.org/pdf/2109.01048.pdf
标题:赫尔辛基大学 | Using BERT to identify drug-target interactions from whole PubMed(使用BERT从PubMed中识别药物与靶点的相互作用)了解详情
作者:Jing Tang, Ziaurrehman Tanoli 等
简介:本文介绍了预训练NLP模型在药物-靶点相互作用(DTIs)预测上的应用。DTI对于药物重定向和药物机制的阐明至关重要,现有数据位于大型数据库中,如ChEMBL、BindingDB和DrugBank等,然而提供这种数据的研究数量只有约10万,可能只占PubMed上所有包含实验性DTI数据的研究的一小部分。本文开发了基于BERT算法的文本挖掘文档分类器,本识别并提取了210万份以前没有被纳入公共DTI数据库研究报告中的DTIs。本文获得了约99%的准确率来识别含有药物-靶点对,预测检测格式的准确率为约90%,这为今后的研究留下了改进的空间。本文研究中的BERT模型是鲁棒的,所提出的工作流可以用来识别新的和以前被忽视的含有DTI的研究,并自动提取DTI数据点。
论文地址:https://doi.org/10.1101/2021.09.10.459845
标题:维也纳大学 | GPT-3 Models are Poor Few-Shot Learners in the Biomedical Domain(GPT-3模型在生物医学领域不是好的小样本学习器)了解详情
作者:Milad Moradi, Kathrin Blagec等
简介:本文分析了大模型和领域模型在生物医学领域的应用。在大量文本上进行预训练的Transformer语言模型可以在特定任务上表现与最先进的模型相媲美的小样本性能。然而在生物医学领域,这些大型语言模型的小样本迁移学习的能力还没有被探索。本文研究了两个强大的Transformer语言模型,即GPT-3和BioBERT,在各种生物医学NLP任务的小样本配置中的表现。实验结果表明,这两个模型的表现都不如在完整训练数据上进行微调的语言模型。尽管GPT-3已经在开放领域NLP任务上的小样本知识迁移中取得了接近最先进的结果,但它不能像BioBERT那样有效,而BioBERT比GPT-3小几个数量级。本文的研究表明,语言模型可能在很大程度上受益于特定任务的小样本学习的域内预训练,另外领域内的预训练似乎还不够,在生物医学NLP领域需要新的预训练和小样本学习策略。
论文地址:https://arxiv.org/abs/2109.02555v1
研究动态
标题:MZB人工智能大学,起源人工智能研究院,莫奈什大学等 | Transformers in Vision: A Survey(视觉Transformer综述)
了解详情
作者:Salman Khan, Muzammal Naseer等
简介:Transformer模型在自然语言任务上取得的惊人结果,吸引了视觉界研究它们在计算机视觉问题上的应用。本综述旨在提供计算机视觉学科中Transformer模型的全面概述。本文首先介绍了Transformer成功背后的基本概念,即自注意力、大规模预训练和双向编码。然后,本文介绍了Transformer在视觉中的广泛应用,包括流行的识别任务(如图像分类、物体检测、动作识别和分割)、生成模型、多模态任务(如视觉问题回答、视觉推理和视觉定位)、视频处理(如活动识别、视频预测)、低层次视觉(如图像超分辨率、图像增强和着色)和3D分析(如点云分类和分割)。本文比较了流行技术在架构设计和价值方面各自的优势和局限,并对开放的研究方向和未来可能的工作进行了分析。
论文地址:https://arxiv.org/abs/2101.01169v3
标题:清华、阿里 | Biomedical Question Answering: A Survey of Approaches and Challenges(生物医学问答:方法和挑战的综述)了解详情
作者:Xiaozhong Liu, Sheng Yu等
简介:自动问答已经成功地应用于各种领域,如搜索引擎和聊天机器人。生物医学问答(BQA)作为一项新兴的问答任务,目的在于有效地感知、访问和理解复杂的生物医学知识。在过去的二十年里,BQA有了巨大的发展,本文将其分为5种不同的方法:经典、信息检索、机器阅读理解、基于知识库的和问题的关联方法。在这项综述中,本文详细介绍了每种BQA方法的可用数据集和代表性方法,如BioELMo、BioBERT、SciBERT、ClinicalBERT和PubMedBERT等语言模型,通过在生物医学语料库上预训练进一步提高了其在领域内的性能。尽管有了这些发展,BQA系统仍然不成熟,而且很少在现实生活中使用,对此本文描述了BQA中可能导致这一问题的几个关键挑战,并讨论了一些潜在的未来探索方向。
论文地址:https://arxiv.org/abs/2102.05281v2
资源推荐
标题:HuggingFace|Datasets: A Community Library for Natural Language Processing(数据集:自然语言处理社区库)
了解详情
简介:本文介绍了一个开源NLP资源库。公开可用的 NLP 数据集的规模、种类和数量随着研究人员提出了新的任务、更大的模型和新的基准。数据集是一个旨在支持该生态系统的当代 NLP 社区图书馆。数据集旨在标准化最终用户界面、版本控制和文档,同时提供一个轻量级前端,其行为类似于互联网规模的小型数据集语料库。数据库的设计结合了一种分布式的、社区驱动的方法来添加数据集和记录用法。经过一年的发展,该库现在包括650多个独特的数据集,有超过250个贡献者,以及帮助支持了各种新颖的跨数据集研究项目和共享任务。
代码下载:https://github.com/huggingface/datasets
论文下载:https://arxiv.org/pdf/2109.02846v1.pdf
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)