《FMODetect:Robust Detection of Fast Moving Objects》论文解读

本文将FMO检测任务划分成检测+抠图+去模糊的任务,并且能够实现实时检测。

思路总结

本文方法类似于双阶段目标检测算法,双阶段目标检测算法例如Fast-RCNN。第一阶段先通过RPN找到感兴趣的区域然后第二阶段对感兴趣的区域内进行目标框的回归以及类别的分类。而本文的算法可以理解为先对疑似FMO的区域进行筛选和裁剪操作,然后对小范围进行FMO的判别、轨迹拟合以及抠图。将抠图解码得到的图像块再进行后续的去模糊。之所以本文能实现实时检测,个人认为主要原因是其与双阶段目标检测的原理类似,通过减小检测的范围从而实现高速检测。

网络结构

检测网络

《FMODetect:Robust Detection of Fast Moving Objects》论文解读_第1张图片

 检测网络的输入是带有FMO的模糊图像以及背景图像,输出是每个像素点与FMO轨迹的距离函数,如下所示:

 这里的目的就是对整幅图像有可能是FMO的区域进行筛选。如图中所示,像素点距离运动轨迹越远检测网络输出该像素点对应的值就越大。本来运动轨迹是一条直线,网络输出的距离函数会显示为一个区域,这个区域就是可能含有FMO物体的区域。网络的损失函数约束如下:

 抠图和拟合网络

检测网络输出的结果需要进行阈值的筛选,然后对小于阈值的部分进行裁剪,并针对具有FMO的图像和背景图像都进行相应的裁剪。再将三个裁剪的结果一起送入抠图和拟合网络中,抠图和拟合网络由一个编码器和三个解码器组成。三个解码器对应的是抠图解码器,其输出是前景图像和其对应的mask;判别解码器,其输出是是否为FMO的二分类结果;最后是拟合解码器,其输出是FMO的运动轨迹。其网络结构如下图所示:

《FMODetect:Robust Detection of Fast Moving Objects》论文解读_第2张图片

 抠图解码器这块就是普通的监督学习;拟合解码器这块本文主要针对三种轨迹情况进行建模,分别是直线、抛物线和分段的具有反弹性质的直线,如下所示:

 轨迹为直线时c2和c3都为0;抛物线的时候c3为0;分段直线的时候c2为0。

整个抠图和拟合网络的损失函数分别对三个解码器的输出进行约束,其损失函数如下:

 去模糊网络

去模糊网络本文将该问题描述为一个优化问题,如下所示:

 针对前景与mask和模糊核H进行交替优化,最终输出去模糊的结果。

实验结果

《FMODetect:Robust Detection of Fast Moving Objects》论文解读_第3张图片

《FMODetect:Robust Detection of Fast Moving Objects》论文解读_第4张图片

论文链接: ICCV 2021 Open Access Repository

你可能感兴趣的:(目标检测,深度学习,计算机视觉)