《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...

No.08

智源社区

预训练组

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第1张图片

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊,我们选择了9篇预训练相关的论文,涉及模型修剪、视频生成、师生网络、多模态、贝叶斯学习、预训练评估、隐私泄露、知识库预训练和多尺度视觉网络的探索。此外,在研究动态方面,我们选择了6篇预训练资讯,将介绍千亿中文理解模型、千亿中文生成模型、训练技术、药物研发、文本纠错和大模型训练技术等方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第2张图片

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第3张图片

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第4张图片

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第5张图片

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第6张图片

论文推荐

标题:厦大、腾讯、郑州大学等|Lottery Jackpots Exist in Pre-trained Models(预训练模型中存在高性能稀疏子网)了解详情

简介:网络修剪是一种在不影响性能的情况下降低网络复杂性的有效方法。现有研究通过以下方法实现了神经网络的稀疏性耗时的权重调整或在扩展宽度的网络上进行复杂的搜索,这极大地限制了网络修剪的应用。在本文中,我们表明在未经训练的宽度未扩展的模型中,存在不涉及权重调整的高性能且稀疏的子网(称为“彩票头奖”)。例如,我们获得的高性能且稀疏的子网仅包含10%的参数,但仍能达到原始的密集VGGNet-19的性能,无需对预训练权重进行任何修改。此外,我们观察到从许多现有修剪标准得到的稀疏掩码模型中有一个与我们的高性能且稀疏的子网高度重叠,其中,基于幅度的修剪得到与我们最相似的掩码。基于这种见解,我们使用幅度修剪来初始化稀疏掩码,从而在高性能且稀疏的子网搜索中至少减少3倍的成本,同时获得可比甚至更好的性能。具体来说,我们基于幅度修剪的高性能且稀疏子网消除了ResNet-50中的90%权重,而仅使用ImageNet上的10次迭代即可轻松获得70%+的top-1精度。

代码:https://github.com/zyxxmu/lottery-jackpots

论文链接:https://arxiv.org/pdf/2104.08700.pdf

标题:伯克利|VideoGPT: Video Generation using VQ-VAE and Transformer(VideoGPT:使用VQ-VAE和变换器生成视频)了解详情

简介:我们介绍VideoGPT:一种概念简单的架构,用于扩展基于似然的生成对自然视频进行建模。VideoGPT使用VQVAE,该VQVAE通过采用3D卷积和轴向自注意力学习降采样的原始视频离散潜像表示。然后使用简单的类似GPT的架构进行自回归使用时空建模离散潜位置编码。尽管制定方法简单且易于训练,但我们的体系结构还是能够生成与最新GAN模型具有竞争力的样本,以在视频生成视频BAIR Robot数据集,并从UCF-101和Tumbler GIF数据集(TGIF)生成高保真自然图像。我们希望我们建议的体系结构可作为可复制的参考用于基于视频生成的的简约变换器生成模型。

代码:https://github.com/wilson1yan/VideoGPT

论文链接:https://arxiv.org/pdf/2104.10157v1.pdf

 

标题:脸书|Robustly Optimized and Distilled Training for Natural Language Understanding(自然语言理解的严格优化和提炼训练)了解详情

简介:在本文中,我们探索了多任务学习(MTL)作为第二个预训练步骤,以学习增强的通用语言表示变换器语言模型。我们使用MTL增强了跨多个表示自然语言理解任务,以提高性能和泛化能力。而且,我们结合了知识提炼(KD)以进一步提高性能并设计出可以有效学习的KD变体来自多位老师。通过结合MTL和KD,我们建议进行稳健的优化和蒸馏(ROaD)建模框架。我们将ROaD与ELECTRA模型一起使用获得机器阅读理解和自然语言推理的最新结果。

论文链接:https://arxiv.org/pdf/2103.08809.pdf

 

标题:谷歌、哥大、康奈尔|VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text(VATT:用于原始视频,音频和文本多模式自监督变换器)了解详情

简介:我们提出了使用无卷积从未标记数据中学习多峰表示的框架变换器架构。具体来说,我们的视频音频文本转换器(VATT)将原始信号用作输入,提取足够丰富的多模式表示受益于各种下游任务。我们使用多峰对比损失从头到尾训练VATT并通过以下任务评估其性能:视频动作识别,音频事件分类,图像分类和文本到视频的检索。此外,我们研究了与模式无关的单骨干变换器通过在三种方式之间共享权重。在下游任务中,我们展示无卷积的VATT优于基于ConvNet的体系结构。特别是,VATT的视觉变换器取得最新记录,在Kinetics-400上达到了82.1%的top-1精度,在Kinetics-600上达到了83.6%,和Moments in Time上的41.1%,同时避免有监督的预训练。在ImageNet上,迁移到为图像分类任务有78.7%的top-1准确性,相比通过从头开始训练Transformer的64.7%准确性,展示了我们模型的通用性,尽管视频和图像之间存在领域差距。VATT的音频变换器也创下了基于波形音频的新记录,通过在AudioSet上的实现事件识别上实现39.4%的mAP而无需任何有监督的预训练。

论文链接:https://arxiv.org/pdf/2104.11178.pdf

 

标题:谢菲尔德大学| Bayesian Active Learning with Pretrained Language Models(预训练模型的贝叶斯主动学习) 了解详情

简介:主动学习(AL)是一种从无标签的数据池中反复选择数据进行标注的方法,目的是为了达到比随机选择更好的模型性能。以前自然语言处理中的主动学习方法的应用范围仅限于特定任务的模型,这些模型在每次迭代时只使用手头的标记数据从头开始训练,或者使用现成的预训练语言模型,并不能有效地适应下游任务的需要。对此,本文通过引入融合BALM(贝叶斯主动学习)与预训练语言模型来解决这些限制。作者首先提出通过继续训练所有可用的无标签的数据来使预训练语言模型适应下游任务,然后将其用于主动学习。其次本文也提出了一个简单而有效的微调方法,以确保在主动学习期间,自适应的语言模型在低资源和高资源的情况下都确保可以训练。最后,作者将蒙特卡洛dropout应用于下游模型,以获得经过良好校准的用于不确定性采样的置信度分数。作者在五个标准自然语言理解任务中的实验表明,结合预训练的BALM方法与最近AL文献中提出的各种获取函数、模型和微调方法的组合相比,在数据利用效率上有很大幅度提升。

论文地址:https://arxiv.org/pdf/2104.10344v1.pdf

 

标题:斯坦福大学 | When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset of 53,000+ Legal( 预训练何时有用?评估法律自监督学习与53000+法律裁定的CaseHOLD)

了解详情

简介:虽然自监督学习在自然语言处理方面取得了快速的进展,但研究人员何时应该进行资源密集型的特定领域预训练(领域预训练)仍不清楚。令人不解的是,尽管法律语言被广泛认为是独特的,但法律领域的预训练却几乎没有产生实质性收益。作者假设这些现有的结果源于这样一个事实,即现有的法律NLP任务太过于简单以至于未能满足领域预训练的条件。为了解决这个问题,本文首先提出了CaseHOLD(关于法律裁决的案例集),这是一个新的数据集,由超过53,000个多选题组成,用于识别所引用案例的相关联裁决。这个数据集为律师提供了一个基本的任务,从NLP的角度来看,它既具有法律意义又很困难(BiLSTM基线的F1为0.4)。第二,本文评估了CaseHOLD和现有法律NLP数据集的性能提升。虽然在一般语料库(谷歌图书和维基百科)上预训练的Transformer架构(BERT)提高了性能,但使用自定义法律词汇的领域预训练(使用比BERT的大的美国所有法院的约350万个裁决的语料库)在CaseHOLD上表现出更可观的性能收益(F1提升7.2%,比BERT提高了12%),并在其他两个法律任务上有一定的性能收益。第三,本文表明,当任务与预训练语料库表现出足够的相似性时,领域预训练可能是有必要的:三项法律任务的性能提高水平与任务的领域特性直接相关。本文的发现向研究人员揭示何时应该进行资源密集型的预训练,并表明基于Transformer的架构也可以学习独特法律语言的embedding。

论文地址:https://arxiv.org/pdf/2104.08671v1.pdf

代码地址:https://github.com/reglab/casehold

 

标题:MIT、东北大学、纪念斯隆-凯特琳癌症中心等| Does BERT Pretrained on Clinical Notes Reveal Sensitive Data? (使用临床数据预训练的BERT是否透露了敏感数据)了解详情

简介:在电子健康记录(EHR)的临床记录上完成预训练的大型transformer在预测临床任务的性能很优秀。训练这种模型的成本以及数据获取权限的需要,加上它们的效用促使了参数共享,即相应预训练的模型的发布,如ClinicalBERT。虽然大多数的工作都使用了未识别的 EHR,但许多研究人员可以获得大量敏感的、未识别的 EHR,他们可以用这些 EHR 训练 BERT 模型或类似预训练模型。如果他们这样做,公布这样一个模型的权重是否安全?在这项工作中,作者设计了一系列方法,旨在从训练好的BERT中恢复个人健康信息(PHI)。具体来说,作者试图从模型中恢复病人的姓名和与之相关的病情,最终发现,简单的探测方法无法从在MIMIC-III EHR语料库中训练的BERT中有意义地提取敏感信息,然而更复杂的 "攻击 "可能会成功做到这一点。

论文地址:https://arxiv.org/pdf/2104.07762.pdf

代码地址:https://github.com/elehman16/exposing_patient_data_release

 

标题:清华、阿里巴巴 | Improving Biomedical Pretrained Language Models with Knowledge(通过知识提升生物医学预训练语言模型)了解详情

简介:预训练语言模型已经在许多自然语言处理任务中表现优秀,而许多工作正在探索将知识纳入语言模型。在生物医学领域,专家们花了几十年的精力来建立大规模的知识库,例如,统一医学语言系统(UMLS)包含数以百万计的实体及其同义词,并定义了实体之间的数百种关系。利用这些知识可以使各种下游任务受益,如命名实体识别和关系提取。为此,本文提出了KeBioLM,一个生物医学的预训练语言模型,明确地利用UMLS知识库中的知识。具体来说,作者从PubMed的摘要中提取实体,并将它们与UMLS联系起来。然后,作者训练了一个知识感知的语言模型,应用纯文本编码层来学习实体表示,同时应用文本-实体融合编码来聚合实体表示。此外,作者增加了两个训练目标,即实体检测和实体链接,对BLURB基准的命名实体识别和关系提取的实验证明了本文方法的有效性。对收集到的探测数据集的进一步分析表明,本文的模型有更好的能力来模拟医学知识。

论文地址:https://arxiv.org/pdf/2104.10344v1.pdf

代码地址:https://github.com/GanjinZero/KeBioLM

  

标题:脸书、伯克利|Multiscale Vision Transformers(多尺度视觉变换器)

了解详情

简介:我们展示了多尺度视觉变换器(MViT)结合开创性的想法进行视频和图像识别变换器模型的多尺度特征层次结构。多尺度变换器具有多种通道分辨率规模尺度,从输入分辨率和小渠道维度,各个阶段会逐步扩展通道容量,同时降低空间分辨率。这创建具有早期图层的多尺度要素金字塔,这些早期图层在高空间分辨率下运行以对简单模型进行低层的视觉信息建模,以及在空间上更深的层次粗糙但复杂的高维特征。我们先评估此基本架构,然后再对在各种视频识别任务中,视觉信号具有密集的性质,其性能优于依靠大规模外部预训练和视觉识别的并发视觉变换器,但在计算和参数上要多5到10倍的成本。进一步,我们消除时间维度并应用我们的模型用于图像分类,胜过先前的工作在视觉变换器上,MViT在ImageNet上取得了84.8%的Top1准确率。

代码:https://github.com/facebookresearch/SlowFast

论文地址:https://arxiv.org/pdf/2104.11227v1.pdf

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第7张图片

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第8张图片

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第9张图片

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第10张图片

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第11张图片

研究动态

瞄准GPT-3落地难题,首个千亿中文大模型「盘古」问世,专攻企业级应用了解详情

简介:在最近的 CLUE 榜单上,「盘古」在总榜、阅读理解排行榜和分类任务排行榜上都位列第一,总榜得分比第二名高出一个百分点。这是业界首个千亿参数的中文大模型,拥有 1100 亿密集参数,由循环智能(Recurrent AI)和华为云联合开发,鹏城实验室提供算力支持。为了训练这个模型,田奇(华为云人工智能首席科技家)与杨植麟(循环智能联合创始人)联合带领的研究团队花了近半年的时间,给模型喂了 40TB 的行业文本数据和超过 400 万小时的行业语音数据。对此田奇评论道,盘古 NLP 大模型可以实现一个 AI 大模型在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,让 AI 开发由作坊式转变为工业化开发的新模式。大模型成为一种基础设施类型的存在。杨植麟表示,「盘古」有望成为一个通用 API,开启一种新的商业模式。在这种模式中,开发者可以基于通用 API,结合业务场景,灵活高效地定制行业应用,解锁更多此前想象不到的场景。

 

华为、鹏城、北大|盘古α:华为联合鹏城实验室开源业界首个2000亿参数中文预训练模型了解详情

4月26日,华为诺亚方舟实验室与中央软件院MindSpore团队等多部门,同鹏城实验室、北大等联合发布「盘古α」,这是业界首个2000亿参数中文预训练模型!盘古α在模型设计上还引入硬件亲和概念,是算法设计协同华为全栈式软硬件生态性能和实力的一次完美亮相,牵引了超大规模自动化并行训练技术走向成熟,是国产全栈式AI基础设施支持2000亿级超大规模语言模型训练的第1次,验证了国产E级智算平台在软硬件协同优化、大规模分布式并行训练等核心关键技术的可行性,形成了国产自主可控的通用超大规模分布式训练基座及相关核心技术。

论文下载:https://arxiv.org/abs/2104.12369

代码地址:

https://git.openi.org.cn/PCL-Platform.Intelligence/PanGu-AIpha

 

百度飞桨采取了什么策略能成功地支持“文心ERNIE”千亿语言模型?了解详情

简介:当前飞桨集合通信模式已经可以支持文心 ERNIE 千亿语言模型的训练能力,其Sharding-DP策略更是在近期助力文心 ERNIE 的多项任务分数刷新 GLUE 榜单。这个Sharding-DP策略正是飞桨集合通信模式为了训练 ERNIE 这样的大规模复杂模型(ERNIE 千亿级模型采用 100 多层 Transformer 网络结构,计算复杂、训练需要占用 T 级显存资源)所支持的多种并行策略中的一种。那么飞桨是使用哪些策略成功支持文心 ERNIE 千亿语言模型训练的呢?这些策略是如何工作的呢?请参阅文章详情。

 

NVIDIA 与阿斯利康合作:基于Transformer的生成式 AI 模型,实现药物研发探索的突破!了解详情

简介:NVIDIA 携手生物制药公司阿斯利康、和佛罗里达大学的学术健康中心及健康学院,利用突破性的Transformer神经网络开展新的 AI 研究项目。近些年来新提出的基于Transformer的神经网络架构,让研究人员可以利用自监督训练方法使用批量数据集进行预训练,无需手动标注数据。这些模型可以像学习语言语法一样,学习句法规则来描述化学,并应用于跨研究领域和模式。NVIDIA与阿斯利康合作开发一种基于Transformer的生成式 AI 模型,用于药物研发的化学结构生成,这将是首个在 Cambridge-1上运行的项目(Cambridge-1将会成为英国最强大的超级计算机)。该模型将开源、在 NVIDIA NGC 软件目录中供研究人员和开发者使用,并且可部署在 NVIDIA Clara Discovery 计算药物研发平台上。另外,佛罗里达大学健康学院正在利用NVIDIA最新的Megatron框架和NGC上的BioMegatron预训练模型来开发GatorTron,这是迄今为止最大的临床语言模型。

 

拼写、常识、语法、推理错误都能纠正,云从提出基于BART的语义纠错方法了解详情

简介:近些年来,随着自动语音识别(ASR)技术的发展,识别准确率有了很大的提升。但是,在 ASR 转写结果中,仍然存在一些对人类来说非常明显的错误。我们并不需要听音频,仅通过观察转写的文本便可发现。对这类错误的纠正往往需要借助一些常识和语法知识,甚至推理的能力。得益于最近无监督预训练语言模型技术的发展,基于纯文本特征的纠错模型可以有效地解决这类问题。云从科技语音组提出了一种基于 BART 预训练模型的语义纠错技术方案,它不仅可以对 ASR 数据中常见的拼写错误进行纠正,还可以对一些常识错误、语法错误,甚至一些需要推理的错误进行纠正。

微软|ZeRO-Infinity和DeepSpeed:解锁用于深度学习训练的前所未有的模型规模

了解详情

简介:ZeRO-Infinity是一种新颖的深度学习(DL)训练技术,用于大尺度模型训练,适合从单个GPU到具有数千个GPU的大型超级计算机。它通过利用系统的全部内存容量并同时利用所有异构内存(GPU,CPU和非易失性内存Express或简称NVMe)来提供前所未有的模型大小。通过ZeRO-Infinity可在512个NVIDIA V100 Tensor Core GPU上训练具有30万亿个参数的模型,比现有技术大50倍。通过允许具有单个GPU的数据科学家微调比Open AI GPT-3(1750亿个参数)大的模型,通过简化和简化,消除了大型模型训练的入门门槛-ZeRO-Infinity可以扩展超过一万亿个参数,而无需组合多种并行技术的复杂性,也无需更改用户代码。据我们所知,这是唯一可以做到这一点的并行技术。

代码:https://github.com/microsoft/DeepSpeed

论文下载:https://arxiv.org/pdf/2104.07857

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第12张图片

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

 

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)

《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT..._第13张图片

你可能感兴趣的:(大数据,编程语言,计算机视觉,机器学习,人工智能)