【AI周报】无需训练自动扩展的视觉Transformer来了;达摩院推出新型预训练对话模型,取得显著提升

01 # 行业大事件

无需训练,自动扩展的视觉Transformer来了

来自德克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究者提出了一个无需训练就能自动扩展框架 As-ViT,其能以高效和有原则的方式自动发现和扩展 ViT。

当前 Vision Transformers (ViT)领域有两个主要的痛点:1、缺少对 ViT 进行设计和扩展的有效方法;2、训练 ViT 的计算成本比卷积网络要大得多。

为了解决这两个问题,来自得克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究者提出了 As-ViT(Auto-scaling Vision Transformers),这是一个无需训练的 ViT 自动扩展框架,它能以高效且有原则的方式自动设计和扩展 ViT。

【AI周报】无需训练自动扩展的视觉Transformer来了;达摩院推出新型预训练对话模型,取得显著提升_第1张图片

论文链接:https://arxiv.org/abs/2202.11921

具体来说,研究人员首先利用无训练搜索过程设计了 ViT 拓扑的「种子」,这种极快的搜索是通过对 ViT 网络复杂性的全面研究来实现的,从而产生了与真实准确度的强 Kendall-tau 相关性。其次,从「种子」拓扑开始,通过将宽度 / 深度增加到不同的 ViT 层来自动化 ViT 的扩展规则,实现了在一次运行中具有不同数量参数的一系列架构。最后,基于 ViT 在早期训练阶段可以容忍粗粒度 tokenization 的经验,该研究提出了一种渐进式 tokenization 策略来更快、更节约地训练 ViT。

作为统一的框架,As-ViT 在分类(ImageNet-1k 上 83.5% 的 top1)和检测(COCO 上 52.7% 的 mAP)任务上实现了强大的性能,无需任何手动调整或扩展 ViT 架构,端到端模型设计和扩展过程在一块 V100 GPU 上只需 12 小时。

首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升

如何将人类先验知识低成本融入到预训练模型中一直是个难题。达摩院对话智能团队提出了一种基于半监督预训练的新训练范式,通过半监督的方式将对话领域的少量有标数据和海量无标数据一起进行预训练,将标注数据中蕴含的知识注入到预训练模型中去,新提出的半监督预训练对话模型(Semi-Supervised Pre-trAined Conversation ModEl)SPACE 1.0 版本在剑桥 MultiWOZ2.0,亚马逊 MultiWOZ2.1 等经典对话数据集上取得了 5%+ 显著效果提升。

那个在国际翻译大赛上夺冠的模型,字节刚刚给开源了(附夺冠代码)

Transformer 等文本生成主流算法的逐词生成对适合并行计算的 GPU 并不友好,会导致 GPU 利用率低下。并行生成有助于解决这一问题。前不久,字节跳动火山翻译团队的并行生成翻译系统 GLAT 拿下了 WMT2021 De-En/En-De 的双料冠军。为了帮助大家跟进这一成果,火山翻译开源了一个名为 ParaGen 的 Pytorch 深度学习框架,其中包含 GLAT 模型复现和 WMT21 的代码。

【AI周报】无需训练自动扩展的视觉Transformer来了;达摩院推出新型预训练对话模型,取得显著提升_第2张图片

代码地址:https://github.com/bytedance/ParaGen

文本生成是自然语言处理的一个重要研究方向,具有广泛的应用场景。比如文本摘要、机器翻译、文案生成等等。不同于一般的分类、标注等任务,文本生成不仅要考虑每个词的重要性,提高单词的预测准确性,也要兼顾词语之间的搭配,保持整个文本的流畅度。因此一般的做法是逐词生成,每产生一个词都会考虑和已有词的关系。

经过以上步骤进行文本生成的这类模型称为自回归模型,比如目前主流的生成算法 Transformer。该模型首先对原始文本进行编码,比如机器翻译中的待翻译文本或者是文本摘要中的原文。然后再从左到右逐词解码产生翻译好的文本或是摘要。基于该算法的开源软件有 tensor2tensor、fairseq 等。然而逐词生成对适合并行计算的 GPU 来说并不友好,导致 GPU 利用率低下,句子生成速度慢。因此近年来有很多研究探索如何并行生成文本,降低响应延时。

此前,字节跳动人工智能实验室 (AI-Lab) 的火山翻译团队研发了并行生成的翻译系统 Glancing Transformer (GLAT)(参见《ACL 2021 | 字节跳动 Glancing Transformer:惊鸿一瞥的并行生成模型》),并且使用它一举拿下了 WMT2021 De-En/En-De 的双料冠军 (参见《并行生成奇点临近!字节跳动 GLAT 斩获 WMT2021 大语种德英自动评估第一》),彰显出了并行生成的强大潜力。ParaGen 正是在这个背景下应运而生。团队的研究者们发现,对于并行生成来说,单单是模型的改进已经不能满足研究的需求,训练方法、解码算法的改进也变得日益重要。而 ParaGen 的开发正是为了解放并行生成研究的生产力。

在 ParaGen 中,火山翻译开源了 GLAT 模型复现和 WMT21 的代码,帮助大家更好地去跟进并行生成的研究结果。在未来,火山翻译也将开源更多并行生成相关的技术,推动并行生成技术的进一步发展,帮助并行生成这一技术逐渐走向更多的生产应用。与此同时,除了并行生成以外,ParaGen 也支持了多元化的自然语言处理任务,包括自回归翻译、多语言翻译、预训练模型、生成任务、抽取任务、分类任务等,并提供从零复现的代码,帮助刚接触自然语言处理研究的同学更快进入到研究的状态。

ParaGen 让开发更灵活、更自由、更简便

【AI周报】无需训练自动扩展的视觉Transformer来了;达摩院推出新型预训练对话模型,取得显著提升_第3张图片

02 # 程序员专区

Facebook开源可扩展文本编辑器库Lexical

Facebook开源可扩展文本编辑器库Lexical,采用MIT许可证。Lexical的核心是一个文本编辑引擎,一个构建功能丰富的Web编辑器平台。Facebook相信用户不应该在每一个实现中重复编写相同的富文本功能。Lexical提供了一组模块化包,可用于添加常见功能如列表、链接和表格。

Google 将 AI 写作视为自动生成内容

OpenAI 的文本生成神经网络 GPT-3 被认为能产生以假乱真的文章,那么搜索引擎应该如何对待它生成的内容?Google 表示 AI 工具自动生成内容将被视为垃圾信息,此类内容可能会在搜索结果中受到惩罚。但 Google 的系统如果没有人类审阅者的帮助可能检测不出 AI 生成的内容。特定类型的 AI 写作助手在今天的媒体中实际上很常见。Google 的 Search Advocate John Mueller 表示如果 Google 的 webspam 团队发现了 AI 生成的内容,他们被授权可以对此采取行动。

.NET Framework 4.5.2, 4.6 和 4.6.1 本月底结束支持

微软官博发布公告称,.NET Framework 4.5.2、4.6和4.6.1 将于2022年4月26日终止支持。在此日期之后,微软将不再为这些版本提供更新,包括安全修复和技术支持。如果您当前使用的是 .NET Framework 4.5.2、4.6或4.6.1运行时,则需要将已部署的运行时更新到更新的版本(至少在2022年4月26日之前的 .NET Framework 4.6.2)才能继续接收更新和技术支持。您无需针对 .NET Framework 4.6.2重新定位或重新编译您的应用程序。

【AI周报】无需训练自动扩展的视觉Transformer来了;达摩院推出新型预训练对话模型,取得显著提升_第4张图片

你可能感兴趣的:(AI周报,深度学习,人工智能,神经网络)