AI周报丨字节在图像级弱监督语义分割上的巨大提升;Meta AI提出SplitMask,超越ImageNet

01# 行业大事件

性能媲美GPT-3的RETRO却只有4%参数量?

构建越来越大的模型并不是提高性能的唯一方法。

从 BERT 到 GPT-2 再到 GPT-3,大模型的规模是一路看涨,表现也越来越惊艳。增大模型规模已经被证明是一条可行的改进路径,而且 DeepMind 前段时间的一些研究表明:这条路还没有走到头,继续增大模型依然有着可观的收益。

但与此同时,我们也知道,增大模型可能并不是提升性能的唯一路径,前段时间的几个研究也证明了这一点。其中比较有代表性的研究要数 DeepMind 的 RETRO Transformer 和 OpenAI 的 WebGPT。这两项研究表明,如果我们用一种搜索 / 查询信息的方式来增强模型,小一点的生成语言模型也能达到之前大模型才能达到的性能。

AI周报丨字节在图像级弱监督语义分割上的巨大提升;Meta AI提出SplitMask,超越ImageNet_第1张图片

在大模型一统天下的今天,这类研究显得非常难能可贵。

Meta AI提出SplitMask,超越ImageNet预训练

目前,计算机视觉神经网络被大量参数化:它们通常有数千万或数亿个参数,这是它们成功利用大型图像集合的关键。然而,这些高容量模型往往会在小型甚至中型数据集上过度拟合。因此,学习 CNN 的过程相当于估计模型数百万个参数,这需要大量的带标注的数据。 

 当今应对数据匮乏问题的主流学习范式是,即先在大型数据集上对模型进行预训练,之后基于特定的任务以较少的数据集微调模型。这一训练过程通常优于从头开始训练,尽管这种方法取得了成功,但我们很难将这种大规模标签数据集提供的好处与预训练范式的局限性区分开来。除此以外,在一个数据集上预训练模型并在另一个数据集上对其进行微调会引入差异。

来自 Meta AI 等机构的研究者,考虑了一个仅利用目标任务数据的自监督预训练场景。所用数据集包括如 Stanford Cars、Sketch 或 COCO,它们的数量级小于 Imagenet。
该研究表明,与来自 ImageNet 预训练相比,该研究获得了具有竞争力的性能。在 COCO 上,当仅使用 COCO 图像进行预训练时,在检测和实例分割任务上,性能超过了监督 ImageNet 预训练。

AI周报丨字节在图像级弱监督语义分割上的巨大提升;Meta AI提出SplitMask,超越ImageNet_第2张图片

在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升

论文提出了一种面向图像级标签的弱监督语义分割的激活值调制和重校准方案。该方法利用注意力调制模块挖掘面向分割任务的目标区域,通过补偿分支产生的CAM图校准基准的响应图,得到图像的伪标签,该方法在PASCAL VOC2012数据集上获得了SOTA性能。

图像级弱监督语义分割(WSSS)是一项基本但极具挑战性的计算机视觉任务,该任务有助于促进场景理解和自动驾驶领域的发展。现有的技术大多采用基于分类的类激活图(CAM)作为初始的伪标签,这些伪标签往往集中在有判别性的图像区域,缺乏针对于分割任务的定制化特征。 

为了解决上述问题,字节跳动 - 智能创作团队提出了一种即插即用的激活值调制和重校准(Activation Modulation and Recalibration 简称 AMR)模块来生成面向分割任务的 CAM,大量的实验表明,AMR 不仅在 PASCAL VOC 2012 数据集上获得最先进的性能。实验表明,AMR 是即插即用的,可以作为其他先进方法的子模块来提高性能。论文已入选机器学习顶级论文 AAAI2022,相关代码即将开源。

AI周报丨字节在图像级弱监督语义分割上的巨大提升;Meta AI提出SplitMask,超越ImageNet_第3张图片

GitHub 7.5k star量,各种视觉Transformer的PyTorch实现合集整理好了

近一两年,Transformer 跨界 CV 任务不再是什么新鲜事了。自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来,各式各样视觉 Transformer 开始在图像合成、点云处理、视觉 - 语言建模等领域大显身手。

之后,在 PyTorch 中实现 Vision Transformer 成为了研究热点。GitHub 中也出现了很多优秀的项目,今天要介绍的就是其中之一。

该项目名为「vit-pytorch」,它是一个 Vision Transformer 实现,展示了一种在 PyTorch 中仅使用单个 transformer 编码器来实现视觉分类 SOTA 结果的简单方法。

项目当前的 star 量已经达到了 7.5k,创建者为 Phil Wang,ta 在 GitHub 上有 147 个资源库。

AI周报丨字节在图像级弱监督语义分割上的巨大提升;Meta AI提出SplitMask,超越ImageNet_第4张图片

项目地址:https://github.com/lucidrains/vit-pytorch

02# 极链新动态

1.图像语义分割深度网络SegNet模型上线

SegNet是Cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,开放源码,基于caffe框架。SegNet基于FCN,修改VGG-16网络得到的语义分割网络,有两种版本的SegNet,分别为SegNet与Bayesian SegNet,同时SegNet作者根据网络的深度提供了一个basic版(浅网络)。

2.高分辨率语义分割模型RefineNet上线

RefineNet提出了多路径网络,利用多级别的抽象用于高分辨率语义分割;通过使用带残差连接的同态映射构建所有组件,梯度能够在短距离和长距离传播,从而实现端到端的训练;提出了链式残差池化模块,从较大的图像区域俘获背景上下文。使用多个窗口尺寸获得有效的池化特征,并使用残差连接和学习到的权重融合到一起。 

03# 程序员专区

Qt 6.2 添加WebAssembly支持

Qt for Webassembly允许开发者在Web上运行Qt应用程序。WebAssembly(缩写为 Wasm)是一种二进制指令格式,旨在在虚拟机中执行,例如在 Web 浏览器中。使用 Qt for WebAssembly可以将应用程序作为在浏览器沙箱中运行的Web应用程序进行分发。这种方法适用于不需要完全访问主机设备功能的Web分布式应用程序。

数据集成平台SeaTunnel成功进入Apache孵化器

SeaTunnel(原名Waterdrop) 正式通过世界顶级开源组织Apache软件基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目!这也是 Apache 基金会中第一个诞生自中国的数据集成平台项目。SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台,架构于Apache Spark和Apache Flink之上,支持海量数据的实时同步与转换。

NumPy 1.22.0 发布

NumPy 1.22.0 是一个大型版本,其中包含153位贡献者的工作,分布在609个拉取请求中。此版本进行多项改进,其中值得关注的有:主命名空间的注解基本完成,上游是一个不断变化的目标,因此可能会有进一步的改进,但主要工作已经完成。这可能是此版本中用户最明显的增强功能。提供了提议的 Array-API 的初步版本、NumPy 现在有一个 DLPack 后端。此外,该版本的Python 版本为 3.8-3.10,Python 3.7已被删除。

IntelliJ IDEA 2021.3.1 发布,改进远程开发

据Jetbrains官博显示显示,IntelliJ IDEA发布了2021.3.1版本,为减轻和降低未知的不可信来源对打开项目的相关风险,在IntelliJ IDEA 2020.3.3版本中引入了可信项目概念。在最新的v2021.3.1中,官方更改了Trusted Project对话框的行为和实现。该版本带来了一些重要修复,例如修复了对话框在macOS Big Sur错误窗口中的问题,

AI周报丨字节在图像级弱监督语义分割上的巨大提升;Meta AI提出SplitMask,超越ImageNet_第5张图片

你可能感兴趣的:(AI周报,深度学习,人工智能,神经网络)