关注公众号,发现CV技术之美
本文是 CVPR 2022 的一篇文章『SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization』,探讨了如何利用帧间冗余以及帧内冗余来加速视频实例分割(Video Object Segmentation,VOS)。
详细信息如下:
论文链接:https://tianyu-yang.com/resources/swem.pdf
代码链接:https://github.com/lmm077/SWEM
01
摘要
为解决视频实例分割(VOS)任务中的低效率推理现象,作者提出了基于EM算法的去除视频帧间冗余与帧内冗余框架,在保持性能不下降的同时大幅提升了推理速度。
主要贡献:
提出一种新颖的 SWEM 模型,提出SWEM,降低了帧间与帧内冗余,加速推理。
提出一种weighted EM 加权方法,可以使得模型更好的应对难样本的学习。
在现有公开数据集上取得sota性能,并且FPS 接近 36。
02
相关工作
2.1 Expectation-Maximization Attention EMA
EMA算法是一种基于EM算法的Attention,其将图像中pixel维度 N 映射为 K ,从而降低图像中的冗余信息。具体的:
EMA的三个迭代量为:X = {Xn} ∈ N×C、M = {μk} ∈K×C、Z = {znk} ∈ N×K,其中 X 为图像原信息,M为潜在变量,Z为参数。N为图像中pixel数量,C为通道数,K为潜在变量维数。EMA就是通过EM算法,将原先的N×C 维的 X 映射为 K×C 维的 M。
E步:
M步:
2.2 Redundancy of the Space-time Memory 时空冗余
作者通过计算像素点间的相似度来衡量视频中的帧间冗余(时间维度)和帧内冗余(空间维度)。
帧间冗余:通过计算相邻帧对应像素点间的相似度得到。
帧内冗余:通过计算某一帧中的像素点对间的相似度,并对其求均值获得该帧的相似度。再统计不同相似度的帧的数量。
03
方法
3.1 Weighted Expectation-Maximization :加权EM模块
提出一种前背景分离的加权EM方法,分别对前景与背景信息进行提取。
如上式所示,其中wn为针对每个pixel位置不同的而定义的自适应权重。
为了区分前景与背景,作者分别为前景与背景初始化了不同的潜在变量,并且通过图像中pixel与潜在变量间的相似度计算来构建前景与背景分类器。
此后,再根据模型输出的mask与前背景概率来估计权重wn
3.2 Sequential Weighted EM :时序加权EM
将WEM应用于时序上,对每一帧构建一个权重。
并且利用时序更新公式来推导后续帧的信息。
E步:
M步:
W步:
最终获取低维的紧凑表征变量V:
04
实验
在公开数据集YouTube-VOS与DAVIS上进行了测试
实验效果:
YTB:
DAVIS:
由上表可看出,SWEM在保证精度的同时,FPS取得较大提升。
消融
潜在变量维数K:控制迭代次数R = 4
迭代次数R:控制 K = 128
05
结论
提出了一个快速而准确的半监督视频实例分割模型,称为顺序加权期望值-最大值(SWEM)网络的半监督视频对象分割,该网络能够构建具有低冗余的紧凑型目标模板,以实现像素级匹配。
加入「视频目标分割」交流群备注:VOS