2022 全球 AI 模型周报

本周介绍了 5 个计算机视觉领域的 SoTA 模型: Neuman 帮你创造新视频、PeRFception 助力三维重建、Xmodal-Ctx 输入辅助信息生成更好的图像描述、ExpansionNet 探索序列长度的影响、GRIT 用更多图像特征与文字交互。

如果你觉得我们分享的内容还不错,请不要吝啬给我们一些免费的鼓励:点赞、喜欢、或者分享给你的小伙伴。 https://github.com/towhee-io/towhee/tree/main/towhee/modelsicon-default.png?t=M85Bhttps://github.com/towhee-io/towhee/tree/main/towhee/models


苹果发表 NeuMan,用一段十秒人物素材创建新视频

出品人:Towhee 技术团队 何俊辰、顾梦佳

伯克利和谷歌联合打造了 NeRF(Neural Radiance Fields神经辐射场),能够实现三维重建任务。在此基础上,苹果发表了新框架 NeuMan,首次实现对背景和人物的同时重建。简单来讲,只需提供一段 10s 左右的人物视频,该框架就能合成一个新视频,使该人物在各种场景下做不同的动作。

2022 全球 AI 模型周报_第1张图片

Overview of NeuMan

NeuMan 主要分为两个模型:人体 NeRF 和场景 NeRF。该框架首先会将人物和背景分离,分别处理之后再合并。人体模型会根据动作对人物外观和几何形状进行编码,而场景模型则会提取视频背景的粗略几何信息。为了将人物置于新的视角和动作,NeuMan 还会对齐人体和场景模型。实际操作会首先训练场景模型,然后以训练好的场景为基础,再训练人体模型。

相关资料:

  • 模型代码:GitHub - apple/ml-neuman: Official repository of NeuMan: Neural Human Radiance Field from a Single Video (ECCV 2022)

  • 论文链接:NeuMan: Neural Human Radiance Field from a Single Video


PeRFception 构建隐式数据集,助力三维重建任务

出品人:Towhee 技术团队 王翔宇、顾梦佳

目前的隐式三维表示(神经辐射场 NeRF)已经可以用可微的方式进行了精确逼真的三维重建。这种新的表示可以高效的将数百高分辨率的照片以紧凑的形式传递并且生成新的视角。PeRFception 使用了一种 NeRF 的变体(Plenoxels),为感知任务创建了第一个大规模的隐式数据集,可以用于图像分类和分割任务。

2022 全球 AI 模型周报_第2张图片

Overall Illustration of PeRFceptio

PeRFception 分别构建了隐式数据格式为输入的分类和分割模型,并且使用了新的数据增强方法来防止过拟合。它用紧凑的方式传达了视觉特征(球面谐波系数)和几何特征(密度和稀疏体素网格)。该数据可以被应用到二维分类、三维分类、三维切割。

相关资料:

  • 模型代码:GitHub - POSTECH-CVLab/PeRFception: Official implementation of PeRFception: Perception using Radiance Fields.

  • 论文链接:https://arxiv.org/abs/2208.11537


添加辅助输入,Xmodal-Ctx 成为图像描述生成任务新SoTA

出品人:Towhee 技术团队 张晨、顾梦佳

图像描述生成目前已有很大进展,大多数模型主要依赖预训练的图像特征和后来的固定目标检测器。然而,此类方法的模型输出仅基于以对象检测器的输出,这一假设是不现实的,尤其限制了检测器跨数据集传输信息。Xmodal-Ctx 建议在以往的架构中添加一个辅助输入,用于表示缺失的信息(例如对象关系)。Xmodal-Ctx 对每个组件和预训练多模态模型的重要性进行了全面分析,验证了其在图像描述生成任务上的有效性。实验结果表明,该方法能够显著改进当前技术水平,特别是在数据集 CIDEr (+ 7.5% )和 BLEU-4 (+ 1.3%)上。

2022 全球 AI 模型周报_第3张图片

Xmodal-Ctx Architecture

Xmodal-Ctx 特别建议从 Visual Genome 数据集中挖掘属性和关系,并以此为基础设置描述生成模型。更重要的是,Xmodal-Ctx 使用多模态预训练模型(CLIP)来检索此类上下文描述。此外,该架构提出了一种图像适应方法,对物体检测模型的特征进行调整,使其更适应当前的数据集和任务。

相关资料:

  • 模型代码:https://arxiv.org/pdf/2205.04363v2.pdf

  • 论文链接:Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

  • 更多资料:CVPR 2022论文分享(5) - 知乎


ExpansionNet 改变序列长度,用新方法自动生成图像描述

出品人:Towhee 技术团队 顾梦佳

近年来大多数模型都由三种主流架构组合或变异而成:卷积、循环、自注意力机制。ExpansionNet 别出心裁地改变序列长度,动态或静态地将序列输入转换成不同长度的序列,为序列模型探索新的研究方向。该方法在Image captioning 任务的标准数据集 MS-COCO 上表现出了竞争力,并且使用了一种对大多数计算资源来说更加方便的训练策略。

2022 全球 AI 模型周报_第4张图片

Expansion Mechanism

ExpansionNet 主要介绍了三大主流架构以外的一种新方法——拓展机制(Expansion Mechanism),能够利用不同的长度与原始输入的长度做相比。与注意力机制不同,拓展机制将信息分布到随机取样的元素上。首先,正向拓展(forward expansion)会将序列转换成不同长度的新序列。而反向拓展(backward expansion)在新的维度上经过一些序列的通用操作后,能够重新得到原始序列长度。基于拓展机制,ExpansionNet 使用拓展编码器(Expanded Encoder)和拓展解码器(Expanded Decoder)。该模型结构打破常规,其实验结果表明网络不一定会受到输入长度限制,探索了新的思考方向。

相关资料:

  • 模型代码:https://github.com/jchenghu/ExpansionNet

  • 论文链接:ExpansionNet: exploring the sequence length bottleneck in the Transformer for Image Captioning


融合更多图像特征,GRIT 为图像描述生成任务提供新思路

出品人:Towhee 技术团队 顾梦佳

在图像描述生成任务上,目前先进的方法都基于目标检测获得的区域特征,根据对象级别的信息描述图片内容。这一特性难免会导致上下文信息的缺失,目标检测的精度也会影响整体效果。为了解决这些问题,知名日本人工智能研究中心 RIKEN AIP 提出了 GRIT (Grid-based and Region-based Image captioning Transformer)。以 Transformer 作为核心架构,该模型能够有效地融合网格级别与区域级别的图像特征,从而更好地生成描述。实验证明,GRIT 不仅提升了精度,还能加速模型推理。

2022 全球 AI 模型周报_第5张图片

Overview of GRIT

GRIT 架构选用 SWIN Transformer 用于基本的图像特征提取,利用 DETR 的一个变种模型识别图像中的目标,并获得局部特征。将局部特征与网格特征同时输入描述生成器,与文本特征一起通过交叉注意力机制,最终模型会以自回归的方式生成一个句子描述。

相关资料:

  • 模型代码:https://github.com/davidnvq/grit

  • 论文链接:GRIT: Faster and Better Image-captioning Transformer Using Dual Visual Features


如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!

活动信息、技术分享和招聘速递请关注:你好,数据探索者https://zilliz.gitee.io/welcome/

如果你对我们的项目感兴趣请关注:

用于存储向量并创建索引的数据库 Milvus

用于构建模型推理流水线的框架 Towhee

你可能感兴趣的:(Towhee,深度学习,人工智能,计算机视觉)