ECCV 2022 Oral | 满分论文!视频实例分割新SOTA:SeqFormer & IDOL

前言

本文主要介绍最近两篇 ECCV 2022 Oral 的工作,分别在 offline 和 online 范式下的视频实例分割(Video Instance Segmentation, VIS)任务上取得了目前最高的性能,并在CVPR2022第四届大规模视频物体分割挑战赛( 4th Large-scale Video Object Segmentation Challenge)的视频实例分割赛道上取得第一名,模型和代码均已开源!

SeqFormer:https://arxiv.org/abs/2112.08275

IDOL: https://arxiv.org/abs/2207.10661

官方代码地址: https://github.com/wjf5203/VNext

SeqFormer:Sequential Transformer for Video Instance Segmentation, ECCV, 2022 (Oral).

SeqFormer:用于视频实例分割的序列Transformer

基于 vision transformer, 该文章提出了一种 offline 的 VIS 算法:SeqFormer。SeqFormer为视频中的每一个物体建立对应的特征,并使该特征拥有提取全局信息的能力。与现有的算法不同,SeqFormer 提出了一个 Query 分离的机制,将 Instance Query 分离成 Box Query,在每一帧分别去提取该物体对应位置的信息,然后进行聚合以在 video-level 更有效地表示每个 instance。在不使用任何tracking branches以及后处理的情况下,SeqFormer 在 YouTube-VIS 达到了 47.4 AP (ResNet-50&#x

你可能感兴趣的:(手把手带你学python,python之数据分析可视化,人工智能,音视频,算法,深度学习,计算机视觉,目标检测)