Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events

Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events

  • 摘要
  • 1.介绍
  • 2.相关工作
  • 3.方法
  • 4.实验
  • 阅读总结

文章信息:
Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events_第1张图片
发表于:ACM International Conference on Multimedia 2020(CCF A类会议)
原文地址:https://arxiv.org/pdf/2008.11988.pdf
源码地址:https://github.com/yuguangnudt/VEC_VAD

摘要

在媒体内容解释中,视频异常检测(VAD)是一个备受关注的主题,通过深度神经网络(DNN)已经取得了显著的进展。然而,现有方法通常采用重建或帧预测例程,存在两个主要问题:(1)它们不能以既精确又全面的方式定位视频活动;(2)它们缺乏充分的能力来利用高级语义和时序上下文信息。

受到语言学习中常用的填空测试的启发,我们提出了一种全新的VAD解决方案,称为视频事件补全(VEC),以解决上述问题。首先,我们提出了一个新颖的流程,实现对视频活动的精确而全面的封装。外观和运动被作为相互补充的线索,用来定位感兴趣区域(RoIs)。从每个RoI构建一个标准化的时空立方体(STC),作为视频事件的基础,同时也充当基本处理单元。

其次,我们通过解决视觉填空测试来鼓励DNN捕捉高级语义。为了构建这个视觉填空测试,我们擦除了STC的特定区域,形成一个不完整事件(IE)。DNN学习从IE中推断缺失的区域,以恢复原始视频事件。为了融入更丰富的运动动态,我们还训练了另一个DNN来推断被擦除区域的光流。

最后,我们提出了**两种集成策略,使用不同类型的IE和模态,以提高VAD性能,充分利用时序上下文和模态信息。VEC在常用的VAD基准测试中始终表现出显著的优势(通常为1.5%-5% AUROC)。我们的代码和结果可以在github.com/yuguangnudt/VEC_VAD上验证。

1.介绍

作者的贡献如下:

  • VEC首次结合了外观和运动线索来定位视频活动并提取视频事件。它克服了“封闭世界”的问题,实现了视频活动的精确和全面封闭,为VEC中的视频事件建模奠定了坚实的基础。
  • VEC首次将视觉完形填空设计为一种新的学习范式,它训练DNN来完成不完整视频事件的擦除补丁,以取代经常使用的基于重建或帧预测的方法。
  • VEC还学习完成擦除斑块的光流,从而整合更丰富的运动动力学信息。
  • VEC利用两种集成策略来融合不同类型的不完全事件和数据模式产生的检测结果,这可以进一步提高VAD的性能。
    Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events_第2张图片
    总结:作者采用完型填空的思想,将输入的帧擦除一帧,并对其进行预测。除了对原始图像的预测,还有对光流的预测。两者结合。

2.相关工作

3.方法

Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events_第3张图片
作者提出的视频RoIs提取的方案如上图d所示。定位策略的比较:滑动窗口(a)或仅运动(b)产生不精确的定位,而仅外观(c)产生不全面的定位结果。所提出的(d)策略同时实现了更精确和更全面的定位。
作者将目标检测和图像梯度二值化来提取图像中目标的外观信息还有运动信息,二者结合起来作为视频帧RoIs的提取策略。

4.实验

Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events_第4张图片
将提取到的RoIs视频序列,通过擦除序列中的某一帧,并对这一帧进行预测,如上图所示,同时,也对该位置的光流图进行预测,二者的损失函数相加为整个的损失函数。需要注意的是,对于每个位置的擦除和预测,都要单独训练一个模型。
Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events_第5张图片
上图是作者用到的网络结构。灰色的预测结果为RGB图,红色的预测结果为光流图。作者的方案是5帧为一个输入立方体。

最后效果不错

阅读总结

  • 目标检测和图像梯度二值化提取RoIs,结合外观还有运动信息
  • 完型填空的方式去重构擦除的帧和光流图,二者结合

你可能感兴趣的:(论文阅读,深度学习,论文阅读,论文笔记,计算机视觉)