CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度

关注公众号,发现CV技术之美

本文是 CVPR 2022 的一篇文章『SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization』,探讨了如何利用帧间冗余以及帧内冗余来加速视频实例分割(Video Object Segmentation,VOS)。

详细信息如下:

CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度_第1张图片

  • 论文链接:https://tianyu-yang.com/resources/swem.pdf

  • 代码链接:https://github.com/lmm077/SWEM

      01      

摘要

为解决视频实例分割(VOS)任务中的低效率推理现象,作者提出了基于EM算法的去除视频帧间冗余与帧内冗余框架,在保持性能不下降的同时大幅提升了推理速度。

主要贡献:

  1. 提出一种新颖的 SWEM 模型,提出SWEM,降低了帧间与帧内冗余,加速推理。

  2. 提出一种weighted EM 加权方法,可以使得模型更好的应对难样本的学习。

  3. 在现有公开数据集上取得sota性能,并且FPS 接近 36。

      02      

相关工作

2.1 Expectation-Maximization Attention EMA

EMA算法是一种基于EM算法的Attention,其将图像中pixel维度 N 映射为 K ,从而降低图像中的冗余信息。具体的:

EMA的三个迭代量为:X = {Xn} ∈ N×C、M = {μk} ∈K×C、Z = {znk} ∈ N×K,其中 X 为图像原信息,M为潜在变量,Z为参数。N为图像中pixel数量,C为通道数,K为潜在变量维数。EMA就是通过EM算法,将原先的N×C 维的 X 映射为 K×C 维的 M。

E步:

eee51c46ab71c9e01598a3a725d4c1da.png

M步:

adbaeb71a2788fe5bcb4acbf94a6c58a.png

2.2 Redundancy of the Space-time Memory 时空冗余

作者通过计算像素点间的相似度来衡量视频中的帧间冗余(时间维度)和帧内冗余(空间维度)。

  • 帧间冗余:通过计算相邻帧对应像素点间的相似度得到。

  • 帧内冗余:通过计算某一帧中的像素点对间的相似度,并对其求均值获得该帧的相似度。再统计不同相似度的帧的数量。

CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度_第2张图片

      03      

方法

3.1 Weighted Expectation-Maximization :加权EM模块

提出一种前背景分离的加权EM方法,分别对前景与背景信息进行提取。

07ed17345727758bee055f2a667e8b56.png

如上式所示,其中wn为针对每个pixel位置不同的而定义的自适应权重。

为了区分前景与背景,作者分别为前景与背景初始化了不同的潜在变量,并且通过图像中pixel与潜在变量间的相似度计算来构建前景与背景分类器。

037fc5d0c1ee30f023db3d3b9f5ec82e.png

此后,再根据模型输出的mask与前背景概率来估计权重wn

3.2 Sequential Weighted EM :时序加权EM

将WEM应用于时序上,对每一帧构建一个权重。

a817765c222ff066fb96698b9f2b42e6.png

并且利用时序更新公式来推导后续帧的信息。 

E步:

3df479fe2fd29e0325a2d9dcb8a397ee.png

M步:

95036c6fb0d964cbe2935d3e9dd65fc3.png

W步:

CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度_第3张图片

最终获取低维的紧凑表征变量V:

6084d777b731fd869142ddb3f224c9cc.png

      04      

实验

在公开数据集YouTube-VOS与DAVIS上进行了测试

实验效果:

   YTB:

CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度_第4张图片

   DAVIS: 

 CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度_第5张图片

由上表可看出,SWEM在保证精度的同时,FPS取得较大提升。

消融

潜在变量维数K:控制迭代次数R = 4

CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度_第6张图片

迭代次数R:控制 K = 128

CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度_第7张图片

      05      

结论

提出了一个快速而准确的半监督视频实例分割模型,称为顺序加权期望值-最大值(SWEM)网络的半监督视频对象分割,该网络能够构建具有低冗余的紧凑型目标模板,以实现像素级匹配。

加入「视频目标分割交流群备注:VOS

CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度_第8张图片

你可能感兴趣的:(算法,python,机器学习,人工智能,深度学习)