论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video

这是一篇2019CVPR(oral)的文章,也是我几个月前看的,有人说这篇文章有点水,给CVPR颁“金酸莓奖”,知乎网友热议最差论文,战火烧到Reddit论坛,所以我当时也没认真看了。

论文地址:Accel: A Corrective Fusion Network forEfficient Semantic Segmentation on Video
code:https://github.com/SamvitJ/Accel

论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video_第1张图片

Conclusion:Accel是一种快速、高精度视频分割系统,利用组合预测能力的两个网络途径:(1)一个参考分支NR的引用,引用关键帧提取优质特性,这些特性和扭曲提出使用增量光流估计,和(2)一个更新分支NU促进修正当前帧累积的时间错误引用表示。综合实验证明了一系列的精确推理速度模式,从高吞吐量的Accel版本,它比可比的单帧模型更快,更准确,到高精度的版本,它超过了最先进的水平。在所有关键帧间隔上,Accel模型的整体性能始终优于之前的工作,而消融研究表明,相对于单个组件,Accel具有显著的精度提高。最后,Accel体系结构是模块化和端到端可训练的,为如何在视频上高效地执行密集预测任务提供了一个通用的例子。

创新点:Accel模型,引入光流或者运动矢量的概念,提升了分割精度的同时降低了计算量,比较模型为deeplab

       这篇文章和上一篇文章《Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation》都是同一作者,所以你懂的。

流程图如下:
论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video_第2张图片
与上一篇文章相比,这篇文章不仅用了关键帧的特征提取,对于非关键帧也使用了特征提取,然后将两个网络的结果进行简单的combine。

论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video_第3张图片
框图流程
       对于关键帧:直接用deeplab Resnet-101进行语义分割
       对于非关键帧:
              第一步、先提取前一位关键帧的光流或者运动矢量并进行扭曲后使用N_task分类;
              第二步、用轻量级网络deeplab Resnet-18进行语义分割;
              第三步、对上两步求出的语义分割结果进行fusion取最终结果。
       更多细节在文中有阐述,自行查找。

论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video_第4张图片

论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video_第5张图片
       作者认为这就提高了分割精度,但是代码我还没有跑过,只是瞟了一眼,如果有大佬跑过了该代码的话,分享一下也挺好的 /嘿嘿

你可能感兴趣的:(图像处理,目标检测追踪相关)