No.71
智源社区
预训练组
预
训
练
研究
观点
资源
活动
周刊订阅
《预训练周刊》已经开启“订阅功能”,扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”,即可收到推送消息。
关于周刊
本期周刊,我们选择了12篇来自国内外知名研究机构的预训练相关的论文:多模态话题包括音频QA基准、统一多模态理解模型、文本图像生成、文本音频生成;自然语言话题包括语言模型替代知识图谱,主题建模;图像话题包括领域扩展、小样本异常检测;生命科学话题包括天气气候预训练和通用蛋白设计。综述方面包括图卷积、自动术语提取的2篇综述;此外,在资讯动态方面,我们选择了2篇热点行业资讯,大模型产业的格局分析和微软对OpenAI投资的幕后信息。
(本期贡献者:翟珂 吴新刚)
论文推荐
标题:谷歌 | MAQA: A Multimodal QA Benchmark for Negation(MAQA:否定的多模态 QA 基准)
作者:Judith Yue Li , Aren Jansen , Qingqing Huang 等
推荐理由:本文研究音乐领域的二进制音频QA基准,以探索最先进的理解否定的多模态模型;本文提出的基准,填补了多模态环境中缺乏以否定为中心的评估基准的空白。
简介:多模态学习可以受益于预训练大型语言模型 (LLM) 的表示能力。然而,最先进的基于 transformer 的 LLMs 通常忽略自然语言中的否定,并且没有现有的基准来定量评估多模态 transformers 是否继承了这个弱点。在这项研究中,作者提出了一种新的多模式问答(QA)基准,该基准改编自 AudioSet 中标记的音乐视频(Gemmeke 等人,2017 年),目的是系统地评估多模态转换器是否可以执行复杂推理、以将新概念识别为否定以前学过的概念。作者描述了一种新颖的数据生成过程,该过程促使 540B 参数 PaLM 模型自动生成否定 QA 示例、作为易于访问的视频标签的组合。生成的示例包含更多自然语言模式,与基于模板的任务增强方法相比,收益显著。
论文下载:https://arxiv.org/pdf/2301.03238.pdf
HUB地址:https://hub.baai.ac.cn/view/23382
标题:以色列Technion、亚马逊 | Towards Models that Can See and Read(走向可以看到和阅读的模型)
作者:Roy Ganz、Oren Nuriel、Aviad Aberdam、等
推荐理由:本文研究视觉问答(VQA)与图像捕获(CAP)统一整合的方法,并获得业界首个成功处理两种任务类型的单一模型,大幅提升了场景文本理解能力。
简介:VQA和CAP是最流行的视觉语言任务之一,它们具有类似的场景文本版本,需要从图像中的文本进行推理。尽管它们之间有明显的相似之处,但两者都是独立处理的,产生了可以看到或阅读的任务特定方法,但不能同时看到或阅读。在这项工作中,作者对这一现象进行了深入分析、并提出了UniTNT:一种统一的文本-非文本( Text-Non-Text)方法、赋予了现有的多模态架构场景文本理解能力。具体来说,作者将场景文本信息视为一种额外的模态,通过指定的模块将其与任何预训练的基于编码器-解码器的架构融合。实验表明:UniTNT产生了第一个成功处理两种任务类型的单一模型;场景文本理解能力可以分别将视觉语言模型在VQA和CAP上的性能提高3.49%和0.7CIDEr。
论文下载:https://arxiv.org/pdf/2301.07389.pdf
HUB地址:https://hub.baai.ac.cn/view/23481
标题:谷歌 | Muse: Text-To-Image Generation via Masked Generative Transformers(Muse:通过遮蔽生成transformer进行文本到图像的生成)
作者:Huiwen Chang, Han Zhang等
推荐理由:谷歌推出的最新AIGC模型,超越了Imagen 和 DALL-E 2等去年的模型。
简介:本文展示了 Muse,一种文本到图像的 Transformer 模型,它具有最先进的图像生成性能,同时比扩散或自回归模型效果更好。Muse 在离散空间中进行掩码任务的训练,基于从预训练的大型语言模型中提取的文本嵌入,训练 Muse 以预测随机遮蔽的图像token。与 Imagen 和 DALL-E 2 等像素空间扩散模型相比,Muse 使用离散token并且需要更少的采样迭代,效率显着提高。另外与 Parti 等自回归模型相比,Muse 由于使用了并行解码,因此效率更高。使用预训练的语言模型可以实现细粒度的语言理解,转化为高保真图像生成和视觉概念的理解:例如对象、空间关系、姿势、基数等。Muse 还可以直接启用众多的图像编辑应用程序:包括inpainting, outpainting等,而无需微调或反向模型。
论文下载:https://arxiv.org/pdf/2301.00704v1.pdf
HUB地址:https://hub.baai.ac.cn/view/23249
标题:谷歌 | MusicLM: Generating Music From Text(MusicLM: 从文本生成音乐)
作者:Andrea Agostinelli、Timo I. Denk等
推荐理由:目前性能最好的,可以创作出曲子特别复杂或保真度特别高的歌曲的AIGC模型。
简介:本文展示了MusicLM,能以24kHz的频率生成高质量的音乐的大模型应用。该模型生成的音乐可以在几分钟内保持一致,同时忠实于文本信号。该模型也可以扩展到其他条件信号,如根据文本提示合成旋律。为了适配该模型,作者发布第一个专门为文本-音乐生成任务收集的评估数据集MusicCaps,由音乐家准备的5.5千首音乐-文本对的手工整理的高质量数据集。具体来说,本文采用三个模型来提取音频表征,并用于条件自回归音乐生成,SoundStream 模型用来处理 24 kHz 单声音频,从而得到 50 Hz 的嵌入,具有 600M 参数的 w2v-BERT 模型用于建模中间层,MuLan 模型用于提取目标音频序列的表示。MusicLM 在与文本生成音乐的基线方法 Mubert 、 Riffusion 的比较上,所生成的音频质量得分更高。
论文下载:https://arxiv.org/pdf/2301.11325.pdf
HUB地址:https://hub.baai.ac.cn/view/23616
NLP研究
标题:印度Optum公司 | 语言模型敲响了知识图谱的丧钟(Language Models sounds the Death Knell of Knowledge Graphs)
作者:Kunal Suri、Atul Singh、Prakhar Mishra、等
推荐理由:本文研究语言模型(LLS)替代知识图谱(KG)解决特定领域的问题,并通过实验证明了如何使用基于特定领域数据的LLS来替换涉及识别同义词的任务的KG;引发思考:LLS与KG在方案选择时的优劣势取舍。
简介:医疗保健领域通常使用典型的 NLP 任务(如问题回答、信息提取、命名实体识别和搜索)来简化和改进流程。然而,为了确保结果的稳健应用,NLP 从业者需要对其进行规范化和标准化。实现规范化和标准化的主要方法之一是使用KG。KG捕获特定领域的概念及其关系,但创建非常耗时、并且需领域专家的手动干预。医疗保健一直在处理有关不同类型的药物、疾病和程序的信息爆炸。本文认为:使用KG并不是解决该领域问题的最佳解决方案。作者展示了在医疗保健领域使用LLS的实验,以证明LLS提供与KG相同的功能,从而使KG变得多余。
论文下载:
https://arxiv.org/ftp/arxiv/papers/2301/2301.03980.pdf
HUB地址:https://hub.baai.ac.cn/view/23408
标题:美国埃塞克斯大学、英国南安普顿大学 | 语境化注意力嵌入中的主题(Topics in Contextualised Attention Embeddings)
作者:Mozhgan Talebpour、Alba Garcia Seco de Herrera、Shoaib Jameel
推荐理由:本文已被第45届ECIR会议采纳;在过去十年中,主题建模一直是主导的建模范式;主题模型已经被证明可以改善信息检索结果;在当前预训练、大模型的时代背景下,本文聚焦研究语言模型(LM)中的哪个组件有助于捕获主题信息。
简介:通过预训练的LM获得的上下文词向量,编码了已在应用程序中利用的各种知识。这些LM的补充是从文本中学习主题模式的概率主题模型。最近的工作表明:对来自LM的词级上下文表示进行聚类可以模拟在潜在狄利克雷分配的词的潜在主题中发现的词簇。重要的问题是:当LM尚未明确设计为对潜在主题建模时,如何通过聚类在LM中自动形成此类主题词集群。通过设计了不同的探测实验,作者发现注意力框架在建模此类单词主题集群中起着关键作用,并期望其工作为进一步研究概率主题模型和预训练LM之间的关系铺平道路。
论文下载:https://arxiv.org/pdf/2301.04339.pdf
HUB地址:https://hub.baai.ac.cn/view/23410
CV研究
标题:Adobe、特拉维夫大学、卡内基梅隆大学 | Domain Expansion of Image Generators(图像生成器的域扩展)
作者:Yotam Nitzan 、 Michael Gharbi、Richard Zhang、等
推荐理由:本文研究图像生成新的领域适应方法:领域扩展;不同于领域自适应技术,本文提出的方法:可以学习额外的知识、同时保持现有知识的完整性、并且可扩展到数百个新领域。
简介:能否将新概念注入已训练好的生成模型,同时尊重其现有结构和知识?作者提出了一项新任务:域扩展——来解决这个问题。给定一个预训练的生成器和新颖(但相关)的域,作者扩展生成器以和谐地联合建模所有新旧域。作者发现潜在空间提供了未使用的“休眠”方向,这不会影响输出。这提供了一个机会:通过“重新利用”这些方向,作者可以在不扰乱原始表示的情况下表示新的域。实验表明:经过预训练的生成器有能力添加多个、甚至数百个的新领域!基于作者的扩展方法,一个“扩展”模型可以取代许多特定领域的模型、而无需扩展模型大小。
论文下载:https://arxiv.org/pdf/2301.05225.pdf
源码下载:https://yotamnitzan.github.io/domain-expansion/
HUB地址:https://hub.baai.ac.cn/view/23385
标题:爱尔兰科学基金会机器学习研究培训中心、都柏林大学 | FewSOME: Few Shot Anomaly Detection(小样本的异常检测)
作者:Niamh Belton, Misgina Tsighe Hagos, Aonghus Lawlor, 等
推荐理由:本文研究异常检测的小样本场景,并在业界率先提出Lstop止损表示的方法。
简介:近年来,异常检测领域取得了相当大的进步,但代价是训练管道越来越复杂。此类技术需要大量训练数据,导致计算量大的算法。作者提出了 :小样本异常检测---FewSOME,一种深度单类异常检测算法;该算法已在正常类的“少量”示例上进行训练,而没有异常类的示例。作者将 FewSOME 描述为低复杂度,因为它的数据要求低且训练时间短。FewSOME 借助基于 Siamese 网络的架构的预训练权重。通过消融研究,作者展示了本文提出的损失“止损”如何提高 FewSOME 的稳健性。实验表明:FewSOME 在基准数据集 MNIST、CIFAR-10、F-MNIST 和 MVTec AD 上的表现达到了最先进的水平,同时仅对 30 个正常样本进行了训练(这是现有方法训练数据的一小部分)。最值得注意的是:FewSOME 在仅存在少量正常类示例的场景中甚至优于高度复杂的模型。
论文下载:https://arxiv.org/pdf/2301.06957.pdf
HUB地址:https://hub.baai.ac.cn/view/23457
生命科学研究
标题:微软、UCLA | ClimaX: A foundation model for weather and climate(ClimaX:天气气候基础模型)
作者:Tung Nguyen, Johannes Brandstetter等
推荐理由:ClimaX是第一个可以有效地使用异质气候数据集进行扩展的数据驱动预训练模型。
简介:现有的天气和气候建模方法的问题在于,或者是计算密集型的物理信息数值模型,或者使用同质的气候数据集来训练特定的时空任务,因此缺乏数值模型的通用性。本文展示了ClimaX,一个用于天气和气候科学的灵活和通用的深度学习模型,可以使用跨越不同变量、时空和物理基础的异质数据集来训练。ClimaX用新的编码和聚合模块扩展了Transformer架构,高效计算同时保持通用性。ClimaX在来自CMIP6的气候数据集上用自监督方式进行了预训练,可以被微调以解决更大范围气候和天气任务,包括那些涉及大气变量和预训练中未见的时空尺度的任务。与现有的数据驱动的基线模型相比,ClimaX即使在较低的分辨率和计算预算下进行预训练,依旧在天气预报和气候预测的基准上有更高的性能。
论文下载:https://arxiv.org/abs/2301.10343
HUB地址:https://hub.baai.ac.cn/view/23650
标题:Evozyne、英伟达 | ProT-VAE: Protein Transformer Variational AutoEncoder for Functional Protein Design(ProT-VAE: 用于蛋白设计的蛋白Transformer变分自编码器)
作者:Rama Ranganathan, Anthony B. Costa, Andrew L. Ferguson等
推荐理由:ProT-VAE是经过实验验证的通用蛋白设计方法。
简介:本文介绍了一个深度生成模型,称为ProT-VAE,它融合了变异自动编码器的优点,以学习可解释的、低维的隐嵌入和生成解码的条件序列设计。该模型在通用预训练的Transformer编码器和解码器堆栈之间添加了一个轻量级的、针对特定任务的变分自编码器,以无监督或半监督的方式进行无对齐训练以促进对功能序列的理解、优化和生成设计。本文使用英伟达公司的BioNeMo框架,验证了其在功能预测和设计新型蛋白质序列方面的性能,并进行了实验合成和测试。结果显示ProT-VAE隐空间展示了和进化与功能的关联,可以有条件地产生具有高功能和大量序列多样性的新序列。本文预计,该模型可以提供一个可扩展的通用平台,用于机器学习指导的定向进化,以数据驱动的方式设计具有功能的新型合成蛋白质。
论文下载:
https://doi.org/10.1101/2023.01.23.525232
HUB地址:https://hub.baai.ac.cn/view/23651
综述分享
标题:悉尼科技大学 | A Network Science perspective of Graph Convolutional Networks: A survey(综述:图卷积网络的网络科学视角)
作者:Mingshan Jia, Bogdan Gabrys, Katarzyna Musial
简介:图结构信息的挖掘和利用一直是复杂网络研究的重点。网络科学中传统的结构测度主要从网络结构的角度对复杂网络进行分析和建模 ,它们已成为研究和理解图的基本工具。相比之下,图神经网络、尤其是图卷积网络 (GCN),在通过邻域聚合和消息传递将节点特征集成到图结构中特别有效,并且已被证明可以显着提高各种学习任务的性能。然而,这两类方法通常被分开对待,相互之间的引用有限。在这项工作中,为了建立它们之间的关系,作者提供了 GCN 的网络科学视角。作者的新分类法从三个结构信息角度对 GCN 进行分类,即分层消息聚合范围、消息内容和整体学习范围。此外,作为从网络科学角度审查 GCN 的先决条件,作者还总结了传统的结构措施并为它们提出了新的分类法。最后也是最重要的是:作者阐述了传统结构方法和图卷积网络之间的联系、并讨论了未来研究的潜在方向。
论文下载:https://arxiv.org/pdf/2301.04824
HUB地址:https://hub.baai.ac.cn/view/23387
标题:法国拉罗谢尔大学、斯洛文尼亚Jozef Stefan研究所 | The Recent Advances in Automatic Term Extraction: A survey(综述:自动术语提取的最新进展)
作者:Hanh Thi Hong Tran, Matej Martinc, Jaya Caporusso, 等。
简介:本文是一篇综述、是针对对自然语言处理 (NLP) 任务之一的自动术语提取 (ATE)进行全面研究,偏重在基于Transformer的细分方向的自动术语提取的最新进展 。ATE是一项NLP任务,它通过提供候选术语列表来简化从特定领域的语料库中手动识别术语的工作。作为特定专业领域的知识单元,提取的术语不仅有利于多项术语任务,而且还支持和改进多项复杂的下游任务(例如信息检索、机器翻译、主题检测和情感分析)。几十年来,ATE 系统以及带注释的数据集已得到广泛研究和开发,但最近观察到用于当前任务的新型神经系统激增。尽管有大量关于 ATE 的新研究,但仍缺乏涵盖新型神经方法系统的调查研究。作者对基于深度学习的 ATE 方法进行了全面调查,重点是基于 Transformer 的神经模型。该研究还对这些系统与以前的 ATE 方法(基于特征工程和非神经监督学习算法)进行了对比分析 。
论文下载:https://arxiv.org/pdf/2301.06767.pdf
HUB地址:https://hub.baai.ac.cn/view/23450
行业动态
标题:a16z|大模型产业格局的分析
简介:近日大家开始看到生成式人工智能 (Generative AI) 技术生态的早期阶段已经出现。有足够的早期数据表明大变革正在发生。现在已成为关键的问题是:这个市场的价值将在哪里积累?通过在过去的一年里,作者访谈了数十位直接负责生成式 AI 的初创公司创始人和大公司的操盘手。最终观察到,基础设施供应商可能是该市场迄今为止的最大赢家,获得了流经技术生态的大部分收入。应用公司的收入增长非常快,但往往在留存率、产品差异化和毛利率方面苦苦挣扎。而大多数模型提供商,虽然是这个市场的支柱,但商业化尚未获得较大规模。换句话说,创造最大价值的后两类公司并没有获得大部分价值。作者认为其中关键是生态的哪些部分是真正差异化和有护城河的。到目前为止,在守成企业的传统护城河之外,很难在生态的任何地方找到结构性防御。
HUB地址:https://hub.baai.ac.cn/view/23520
标题:微软对OpenAI 100亿美元世纪投资的背后细节
简介:近日,由于chatGPT的火爆,微软计划对OpenAI投资100亿美元的消息,引起了广泛关注。对此,The Information和Fortune的报道透露了OpenAI融资的很多背景细节,包括:2021年OpenAI就以200亿美元的估值获得了美国头部风投的投资,包括红杉和老虎。微软此前已经向OpenAI投资了30亿美元。外部投资者的最终收益是有上限的,微软最高920亿美元,风投最高1500亿美元,总体还是非盈利的。OpenAI 2022年可能亏损5.4亿美元之多。所以短期内并不乐观。盖茨并不支持微软CEO Satya Nadella对OpenAI的投资。
HUB地址:https://hub.baai.ac.cn/view/23292
关于周刊
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。您可添加yuzhong125微信号和智源社区取得联系。