【标题】Bottleneck Transformers for Visual Recognition
【时间】2021-1-27
【来源】伯克利大学、Google 研究院
【链接】https://arxiv.org/abs/2101.11605
【内容摘要】
团队推出的 BoTNet 是一种功能但概念简单的架构,将自注意力纳入了多种计算机视觉任务,仅在 ResNet 三个瓶颈模块当中使用了全注意力替换空间卷积。该方法在市里分割和对象检测上取得了良好实现,改善了基线,减少了参数,同时具有低延迟成本的特点。在使用 Mask-CNN 框架情况下,BoTNet 在 COCO 实例分段基准上实现了 44.4% 的 MASK AP 和 49.7% 的 Box AP,超过了先前在 COCO 验证集上的模型结构。在 ImageNet 基准测试中,该设计具有 84.7% 精度的强大性能。
【标题】Implicit coordination for 3D underwater collective behaviors in a fish-inspired robot swarm
【时间】2021-1-13
【来源】Florian Berlinger,Melvin Gauci, ProfileRadhika Nagpal
【链接】https://robotics.sciencemag.org/content/6/50/eabd8668?rss=1
【内容摘要】
鱼群可成千上万和谐地聚集游动,不管是迁移还是躲避捕食者,规避动态动作,都表现出令人印象深刻的集体行为。这种复杂的三维行为来自对邻近个体的观察,相比之下,许多水下机器人使用的是集中的水上通信,协调复杂度有限。本文仅使用产生和感测蓝光介导的隐式通信,展示了复杂而动态的三维聚集行为。
【标题】SELF-ORGANIZING INTELLIGENT MATTER: A BLUEPRINT FOR AN AI GENERATING ALGORITHM
【时间】2021-1-14
【来源】DeepMind Karol Gregor, Frederic Besse
【链接】https://arxiv.org/pdf/2101.07627.pdf
【内容摘要】
来自 DeepMind 的研究者提出了一种人工生命框架,旨在促进智能生物出现,没有明确的代理概念,存在由原子元素组成的环境,这些元素包含神经操作,通过信息交换和环境进行类似物理的规则交互。
文章讨论了进化过程如何使得多原子元素组成新的生物体的机制,同时讨论如何构成通用AI 生成算法的基础。目前已经创建了系统的一个版本,总结了系统的核心属性,有包含神经网络的元素,这些元素可以交互、通信、形成更大单元,从而有效地实现更大的网络。这里有机体和机器之间没有区别,元素可以写入其他元素,可以复制,可以写入其他信息来创造有用的机器,或者创造出全新的机器。这些机器既可以创造新的“个体”也可以是新的大脑创造出更好的算法。
【标题】ZeRO-Offload: Democratizing Billion-Scale Model Training
【时间】2021-1-18
【来源】Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He
【链接】https://arxiv.org/pdf/2101.06840.pdf
【内容摘要】
大规模模型训练往往需要昂贵的 GPU 集群等,ZeRO-Offload 在单个 GPU 上就可以实现 130 亿参数模型的训练,和 PyTorch 之类的框架相比,它的大小增加了 10 倍,而无需进行模型更改和牺牲效率。她通过将数据卸载到 CPU 上进行大型训练,只在最大程度减少 GPU 网站的数据移动同时降低 CPU 计算时间。最大程度上节省 GPU 的内存。结果可以在单个 N 卡 V100 GPU 上针对 10B 参数是模型实现 40 TFlops/GPU 。而对 1.4B 参数模型,仅使用 PyTorch 可以实现 30Tf,在内存没有用完的情况即可进行最大的训练。ZeRO-Offload 还只在可用多个 GPU 上扩展,在 128 个 GPU 上提供接近线性的加速。
【标题】ML and NLP Research Highlights of 2020
【时间】2021-1-19
【来源】Sebastian Ruder
【链接】https://ruder.io/research-highlights-2020/
【内容摘要】
来自 DeepMind 的专家 Ruder 针对自己兴趣总结了在 2020 年机器学习和自然语言处理工作中的亮点。有以下十项:
发生了什么?2020 年我们见证了更大的语言和对话模型,例如 Turing-NLG、BST、GPT-3 等等,而研究人员也越来越注意到这些模型的价格和能耗并致力于缩小模型的工作,例如通过修剪、量化和蒸馏压缩等方式。它为什么重要?因为扩大模型规模能够突破当前模型的功能范围,而它也必须搞笑,通过压缩大模型会导致更加强大和高效的模型出现。下一步是什么呢?基于人们对于增长效率的兴趣,不光是模型的性能和参数数量的报告,未来报告能效也会越来越普遍,这对于全面评估模型具有重要意义。
大型模型已经显示出从预训练的数据中获得令人惊讶的知识,这给他们回答问题带来了方便,不过这些知识隐式存储在模型参数中效率很低,并且需要更大的模型来保留信息。最近的方法联合训练和检索和大型语言模型,从而在知识密集型 NLP 任务和语言建模当中有良好表现。这些方法的优点是将检索直接继承到语言模型预训练当中,从而减轻事实回忆,专注 NLP 当中更具挑战性的方面。它为什么重要呢?检索可以将事实正确性和真实性、生成文本的相关性和构成两方面的优点结合起来。下一步将通过直接提供预测数据帮助系统更容易解释。
目前我们处于可以用几十个实例演示给定任务的阶段,快速学习的一个非常自然的范例就是将任务重构成语言建模,代表性的就是 GPT-3 的上下文学习方法,不过这种设置还有局限性,需要庞大的模型+模型无需现有知识进行更新+模型可使用知识量受到上下文窗口限制,且需要手工制作。近期的工作和可控神经文本生成的广泛领域相关,快速学习可以让模型快速适应多任务,不过每次更新所有参数是一种浪费,最好进行局部更新。少样本学习仅仅通过几个示例就能像模型讲授任务,减轻了机器学习和自然语言处理的入门障碍,也增加了数据收集的空间。未来将在提高一次性性能领域进行改进。
对比学习,从否定样本当中学习区分优劣样本的能力,例如从否定采样和噪声当中对比估计是表示学习和子监督学习的主要内容。近期,对比学习在计算机视觉和语音的子监督表示学习当中越来越受欢迎。数据增强对于对比学习来说至关重要,这也可以解释为什么数据增项不普遍的自然语言处理当中进行无监督对比学习并不成功,它不会尝试使类中的所有特征相似,但会保留实例信息。语言建模当中的但标签和模型输出对数之间的交叉熵目标存在局限性,而对比学习则可以帮助完善这一不足。下一步,对比学习和隐蔽语言建模将是我们学习更加丰富和强大的表示形式。
自然语言处理很多模型已经实现了超人的性能,但是我们任务的简单性能指标并不能包含模型的局限性,该领域有两个关键的主题:1.精选当前模型难以实现的示例;2.超越诸如准确性之类的简单指标,进行更加细分的评估。对前者的方法是在数据集创建之时使用对抗过滤,过滤掉当前模型正确的实例。关于第二点的方法在本质上相同,不过不是针对特定示例,而是用示例来探查感兴趣的任务共有的现象。机器学习模型取得有意义的进步的同时,我们也要了解它是否会导致某些错误和无法捕获的现象。通过对模型进行细粒度诊断,将更容易识别模型的确行并提出解决方案。
和 2019 年相比,语言模型分子侧重于此类模型捕获的语法、语义和世界知识,但是微调的过程中发现容易受到后门攻击,攻击者可以操纵模型。众所周知,经过预训练的模型可以捕获有关受保护属性(例如性别)的偏见。大型预训练模型受到了很多机构的训练,并在实际场景当中得到积极部署,这里我们不仅要意识到他们的偏见,还要了解可能带来的不良后果。下一步应该从开发过程中就将偏见与公平等问题纳入考虑问题当中。
世界各地开发者们采用不同的语言构建大规模模型,出现了越来越多的语言通用基准。其中有两份文件给了很大的启发,它们强调了使用英语之外语言的紧迫性,同时警告不要将语言社区及数据视为商品。对多语言进行自然语言处理是一种很好的挑战,并且能够给社会带来巨大的影响。下一步应该确立最具挑战设置的模型并确定哪些情况下构成当前模型的失败。
Transformer 在自然语言处理当中取得了极大的成功,但是在计算机视觉领域成就不高,卷积神经网络依然占据主导。与卷积神经网络和循环神经网络相比 transformer 的偏置更小,尽管在理论上不如循环神经网络,但是基于足够的数据和钩摹将会胜过其他对手。它们将特别适用于有足够的计算和数据用于无人监管的预训练的情况。在小规模的设置当中,卷积神经网络依然是首选。
AlphaFold 在蛋白质折叠挑战赛当中展示了惊人的突破,此外,机器学习在自然可选当中还有其他的显著发展,例如降水预报、神经网络比商业代数系统更好地了解微分方程,平流层气球导航等等。对于目前新冠病毒的传播预测也起到了重要的作用。自然科学可以说是机器学习最有影响力的应用领域,改善和生活相关的方方面面,对世界产生了深远的影响。
单一的强化学习 Agent 首次在 57 个Atari 游戏当中取得了超人性能。该 Agent 的多功能性来自于神经网络,可以使其在探索性策略和剥削策略当中来回转换;另一个成果就是 MuZero 的发展,它预测了对于准确规划最重要的环境方面,在没有任何游戏动态知识的情况下达到了先进的性能。强化学习算法有许多的实际意义,通过实现更好的环境规划、建模和动作预测,对领域中基本算法的改进都会产生很大的影响。
【时间】2020-1-26
【来源】百度研究院
【链接】http://research.baidu.com/Blog/index-view?id=151;https://arxiv.org/pdf/2012.15674.pdf
【内容摘要】
研究表明,经过预训练的跨语言模型在下游语言任务上表现出色,这种改进源于学习了大量单语言和并行语料库,团队提出了一种新的训练方法 ERNIEM 使得模型将多语言表示和单语言语料库对齐,打破并行语料库大小对模型性能的束缚。将反向翻译的思想整合到预训练过程当中。实验表明,该方法优于现有的跨语言模型,在各种跨语言下游任务上提供了最新的结果。
ERNIE-M 可以理解 96 种语言,即使在数据稀疏的语言上也可以提升模型的跨语言传递性。
【标题】DARTS-: Robustly Stepping out of Performance Collapse Without Indicators
【时间】2021-1-26
【来源】中科院计算所/美团
【链接】https://arxiv.org/abs/2009.01027
【内容摘要】
可微分架构搜索(DARTS)是神经网络架构搜索(NAS)中最流行的方法之一,但是它长期存在性能不稳定的问题,为了加固这种方法,需要从恶化的结果中寻找线索,通过使用各种指标作为性能崩溃前的搜索信号,但是对阈值的设置有极高的要求。本文采用了更加直接的方式来解决问题,利用辅助跳过连接对于其他候选操作具有明显优势,可以创建公平竞争,在严格控制的设置下降低了 3 倍搜索成本,优于最新的 RobustDARTS,大大提升了鲁棒性。
【时间】2021-1-28
【链接】https://www.dm-ai.cn/news/%e9%87%8d%e7%a3%85%ef%bc%81%e6%9a%97%e7%89%a9%e6%99%ba%e8%83%bd%e5%ae%8c%e6%88%905%e4%ba%bf%e5%85%83a%e8%bd%ae%e8%9e%8d%e8%b5%84/
【内容摘要】
暗物智能科技已于2020年年中完成5亿元人民币的A轮融资。本轮融资由赛领资本和吉富创投共同领投,联想创投、广州基金、将门创投、花城创投跟投。
暗物智能由全球著名计算机视觉专家、统计与应用数学家、人工智能专家朱松纯教授于2017年创办。公司基于朱松纯提出的“小数据、大任务”技术范式,以人机交互与跨领域融合为主攻方向,致力于打造新一代基于强认知的人工智能技术平台,并通过与教育、新零售等垂直行业深度融合,构建以强认知AI为核心的产业生态。
【标题】Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
【时间】2021-1-28
【来源Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng, Shuicheng Yan
【链接】https://arxiv.org/abs/2101.11986
【内容摘要】
针对ViT的特征多样性、结构化设计等进行了更深入的思考,提出了一种新颖的Tokens-to-Token机制,用于同时建模图像的局部结构信息与全局相关性,同时还借鉴了CNN架构设计思想引导ViT的骨干设计。
用于图像分析的 Vit(Vision Transformers)在中型数据集例如ImageNet 上从头训练时,性能不如 CNN,分析认为因为输入图像的简单标记化无法相对相邻像素之间的重要局部结构建模,另外 ViT 的冗余注意力骨干网设计导致固计算的功能有限,为了克服这些限制,文章提出了 T2T-ViT 引入了逐层 Tokens 转换,通过递归将相邻的 Tokens 聚合为T2T,由 CNN 架构退队的具有深窄结构的高校主干用于视觉转换器。在ImageNet 上训练时,可以将原始的ViT 参数和mac 减少 200%,实现 2.5% 的性能提升。和 ResNet50 相当大小的 T2T-ViT 在 ImageNet 上也有 80.7% 的精度。
【来源】北京大学
【链接】http://www.ai.pku.edu.cn/info/1086/1772.htm
【内容摘要】
由于新冠病毒疫情的影响,第66届国际电子器件大会(IEDM)于2020年12月12日至18日首次采取线上会议形式,也为这个历史悠久的顶级学术会议带来不一样的感受。在本届IEDM上,北京大学黄如院士团队发表了4篇高水平学术论文,研究成果覆盖了先进逻辑器件、神经形态器件、神经网络硬件、智能传感器等多个领域,这也是北京大学微纳电子研究院连续14年在IEDM大会上发表论文。
阻变器件是后摩尔时代构建新型存算一体及类脑芯片、突破冯•诺依曼体系结构瓶颈的关键电子器件技术之一。但阻变器件的非理想效应以及高密度集成带来的热效应会相互耦合,成为阻变器件在存储及神经形态计算应用中的关键挑战。蔡一茂教授、黄如院士课题组系统研究了阻变器件非理想效应的物理机制,提出了准确描述多种非理想效应的集约模型,建立了能够综合评估器件技术、阵列拓扑及算法设计的跨层次验证平台,掌握了非理想效应和热串扰对存储及神经形态计算应用的影响,为器件-阵列-算法的协同优化设计提供了重要指导。蔡一茂教授应邀作了题为《Technology-Array-Algorithm Co-Optimization of RRAM for Storage and Neuromorphic Computing: Device Non-idealities and Thermal Cross-talk》的特邀报告。微纳电子学系2017级博士研究生喻志臻为共同第一作者,蔡一茂教授、王宗巍助理研究员和黄如院士为论文的通讯作者。