Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读

Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读

  • Abstract
  • Introduction
  • Related Work
  • Methodology
  • Experiments
  • Conclusion
  • 阅读总结

论文标题:Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection
文章信息:
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读_第1张图片
发表于:AAAI(CCF A)
原文链接:https://ojs.aaai.org/index.php/AAAI/article/view/19898
源代码:无代码

Abstract

视频异常检测的目的是通过对正常视频的学习,自动识别出异常的物体或行为。以前的方法倾向于使用简单的重构或预测约束,这导致对正常数据的学习表示不足。因此,我们提出了一种具有三个一致性约束的新型双向架构,从像素级、跨模态和时间序列级别对预测任务进行全面正则化。首先,提出了预测一致性,考虑了运动和外观在向前和向后时间上的对称性,从而保证了像素级高度逼真的外观和运动预测。其次,关联一致性考虑不同模态之间的相关性,并使用一种模态来正则化另一种模态的预测。最后,时间一致性利用视频序列之间的关系,确保预测网络生成时间一致的帧。在推理过程中,异常帧的模式是不可预测的,因此会导致更高的预测误差。实验表明,我们的方法优于先进的异常检测器,并在UCSD Ped2,中大大道和上海科技数据集上取得了最先进的结果。

Introduction

视频异常检测(VAD)是视频监控系统的关键。为VAD开发机器学习方法的一个关键挑战是,很少甚至没有异常数据样本可用于学习。这使得它成为一个单类分类问题(Perera和Patel 2019),其中必须仅基于正态距离学习分布。VAD方法隐式学习模型内的正态分布;然后通过模型无法重建来检测异常(Zhou et al. 2019;Gong et al. 2019;Nguyen and Meunier 2019)或预测(Liu et al. 2018;Lu et al. 2019;Zhou et al. 2019b)一些数据样本。在推理过程中,假设正常样本具有较低的重构或预测误差,而具有较高重构或预测误差的样本为异常。当然,“正常”模型必须具有足够的表达能力,才能使这种假设成立。学习像视频这样丰富的高维媒体的模型尤其具有挑战性。捕捉视频的内在属性的能力,如外观、动态信息和时间排序都起着重要的作用。在我们的方法中,我们采用了一种基于补丁的预测方法,通过双向架构进行VAD。之前的一些VAD工作预测了整个帧(Liu et al. 2018;Lu et al. 2019);我们遵循(Yu et al. 2020)并根据检测到的物体仅预测与视频事件相关的补丁,从而避免了不相关背景的干扰。利用外观和光流正向和反向的预测误差来检测异常事件。如图1所示,该架构支持全面的一致性约束,从像素级、跨模态和时间序列级别对预测任务进行规范化。

与以往模型的简单重建或预测约束不同,我们提出了基于视频固有特征的多粒度一致性约束。首先,在我们的预测一致性中,向后处理提供了在运动和外观预测中执行向前向后约束的可能性。这种一致性是基于运动和外观在时间上向前和向后的对称性。向前方向的外观应与向后预测的相应像素处的外观一致。同样,正向预测中的光流应该是反向预测的倒数。然而,以往的方法(Liu et al. 2018;Zhou et al. 2019b)对预测质量施加外观和运动约束,而不需要反向。它们的约束只在向前的方向上最小化生成的图像和它的真实值之间的差异。

其次,除了在每个模态预测中使用预测约束外,我们还根据不同模态之间的相关性设计了关联约束。添加了多模态鉴别器来区分匹配与非匹配的外观和运动预测,以实现关联一致性。在我们的关联一致性中,我们考虑了VAD中外观和运动之间的一致相关性,这被以前的方法所忽略(Tang et al. 2020;Yan et al. 2018)。最近,AMMC-Net(Cai et al. 2021)通过复杂的记忆模块对规则外观和运动之间的一致性进行了建模。它学习了两个从外观内存池特征到运动内存池特征的映射函数,反之亦然。不同的是,避免设计一个额外复杂的网络,我们的简单多模态鉴别器估计真实值外观与其相应的输入运动之间的关联。

最后,我们增加了一个时间一致性约束,以确保预测网络预测更多的时间一致性帧。增加了序列鉴别器来区分真实序列和假序列,以保持时间一致性。尽管之前的方法(Cai et al. 2021;Yu et al. 2020)通过运动信息考虑时间特征来正则化预测任务,运动(光流)只能表示相邻两帧之间的短期时间关系。在这些方法中,视频序列中发生的事件的长期时间关系也不受关注。我们的模型能够获得正常视频事件的丰富而有区别的表示,这很容易与异常事件分开,即使我们在训练期间没有后者的样本。实验评估表明,我们的方法在几个VAD基准测试中超越了最先进的技术。

我们总结了我们的贡献如下:

  • 我们从像素级、跨模态和时间序列级别引入了三种一致性正则化;这些一致性在以前的作品中是没有考虑到的。
  • 通过假设外观和流动的前后对称,预测一致性通过一种新的双向预测框架使模态预测规范化。
  • 关联一致性通过多模态鉴别器显式地模拟模态之间的校正。时间一致性通过序列识别器捕获视频序列的时间关系。
  • 大量的实验表明,我们的方法可以在几个VAD基准测试中超越最先进的方法。在ShanghaiTech上,我们的方法达到了78.1%的帧级AUC。

Related Work

Reconstruction VAD Methods
在训练过程中尝试捕获正常视频的分布并以高质量重建这些视频。在推理过程中,异常样本的分布应该远离学习的分布,从而导致较大的重建误差。有些人提出了卷积自动编码器来重建输入帧序列(Hasan et al. 2016; Tran and Hogg 2017)。最近的工作探索了卷积自动编码器的变体,例如双流递归框架(Yan et al. 2018),参数密度估计器(Abati et al. 2019)和内存增强自动编码器(Gong et al. 2019)。基于重建的方法试图从头开始重建整个帧,但它们有时会遭受过度拟合(Kieu et al. 2019),甚至可以很好地重建异常事件(Liu et al. 2018),无法轻松成功地区分正常和异常数据。

Prediction VAD Methods
旨在基于先前帧的上下文来预测未来帧。他们(Liu et al. 2018; Lu et al. 2019; Fan,Zhu,and Yang 2019)假设正常事件是可预测的,而异常事件是不可预测的。前面的方法已经提出了一些规则化预测任务的方法。例如,(Liu et al. 2018)提出了一种方法,通过简单的强度和梯度约束来预测正常事件的未来帧质量更高。它们通过比较地面实况图像和预测图像之间的每个像素的值来正则化预测结果。除了单一模态约束外,(Cai等人,2021)还尝试通过复杂模态记忆池对外观和运动信息之间的一致性进行建模。它结合了多种模态特征,以建立一个更强大的正常事件的特征表示。最近,受用于语言理解的完形填空(Taylor 1953)的启发,Yu et al.(Yu等人2020)提出了一种新的预测任务,通过预测不完整视频事件的擦除补丁并充分利用视频中的时间信息。然而,它仍然简单地采用以前的像素级约束来正则化预测任务,而忽略了光流和视频帧之间的相关性。

与VAD中以前的预测方法不同,我们的重点是探索和利用视频中包含的向前和向后的全部信息。此外,我们还考虑通过一个简单的多模态模型来建模外观和运动之间的关系。它估计真实外观与其对应的输入运动之间的关联。最后,还考虑了视频序列中的时间关系。它是由序列式正则化,区分假包含序列从真序列

Methodology

该框架(参见图2中的概述)由双向预测网络(BPN)、多模式鉴别器(MD)和顺序鉴别器(SD)组成。三种综合一致性规则化包括预测一致性、关联一致性和时间一致性。
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读_第2张图片
在给定前后顺序的不完整视频序列的情况下,BPN预测丢失帧的外观和在两个方向上的运动。为了做出高真实感的外观和运动预测,三个一致性从像素、跨模式和时间序列级别对预测任务进行了规律化。首先,在BPN中,预测一致性惩罚了预测帧和目标帧之间的像素差异。其次,关联一致性确保每个预测的运动与目标外观强烈相关。多模式鉴别器(MD)确定每个输入外观与其对应运动之间的关联。最后,为了预测时间上一致的帧,使用外观和运动序列鉴别器(ASD,MSD)来判断序列是否包含预测样本。在推理过程中,通过BPN中的视频事件完成任务来检测异常。当视频事件异常时,丢失帧的外观和运动预测误差应该高于正常视频事件。
Video Event Extraction
我们希望避免背景的影响,专注于场景中呈现的对象。为此,我们在每一帧上应用一个预训练的级联R-CNN(Cai和Vasconcelos,2018)作为目标检测器。由于现有公共数据集中的所有异常事件(Lu、Shi和Jia,2013;Luo、Liu和Gao,2017;Tan等,2021)都由异常对象或行为定义,我们在预处理阶段执行基本的目标检测,以避免对背景的推断,并专注于对象的模式。对于时间t的一帧,每个检测边界框都被应用为从t−(n−1)到t的帧中提取轨迹的感兴趣区域(ROI)。我们将调整大小后的轨迹(调整为固定分辨率32×32)定义为视频事件;每个事件可以通过删除任何一个帧生成n(例如n = 5)个不同的不完整序列。然后,预测任务是推断这个缺失的帧。除了由RGB帧定义的外观之外,我们还估计相应的n帧光流轨迹。
Bi-directional Predictive Networks
双向预测网络具有前向和后向分支(见图2(a))。
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读_第3张图片

每个分支包含两个U-Net架构(Ronneberger,Fischer和Brox,2015),分别从视频事件的某些不完整序列中预测RGB和光流的缺失帧。在前向分支中, F a F_a Fa F m F_m Fm分别表示外观和运动预测器;同样, B a B_a Ba B m B_m Bm在后向方向上表示外观和运动预测器。对于给定的包含n帧的视频事件X,我们将不完整序列 X / i X_{/i} X/i表示为其中第 i i i x i xi xi缺失。通过预测器找到预测的帧 x ^ i \widehat{x}_i x i,表示为 x ^ i \widehat{x}_i x i = F a F_a Fa ( X / i , θ a ) (X_{/i}, θ_a) (X/i,θa)。类似地,如果后向序列表示为 X ′ X' X,则相应的缺失帧 x ^ i ′ \widehat{x}_i' x i也可以通过预测得到,即 x ^ i ′ \widehat{x}_i' x i = B a B_a Ba ( X / i ′ X_{/i}' X/i, θ a ′ θ_a' θa)。对于运动预测,我们将 y ^ i \widehat{y}_i y i = F m ( X / i , θ m ) F_m(X_{/i}, θ_m) Fm(X/i,θm) y ^ i ′ \widehat{y}_i' y i = B m B_m Bm( X / i ′ X_{/i}' X/i, θ m ′ θ_m' θm)分别表示前向和后向运动预测器。所有四个预测器使用相同的U-Net架构,它们的唯一区别在于输出大小 - 外观预测器具有RGB输出的三个通道,而运动预测器具有光流输出的两个通道。每个预测器都有其独特的参数集。
Predictive Consistency
我们设计了预测一致性损失函数,以确保前向和后向预测之间的一致性。对于外观预测,我们结合了逐像素均方误差(MSE)损失和感知拉普拉斯金字塔损失(Ling和Okada,2006),以逼近预测器 x ^ i \widehat{x}_i x i x ^ i ′ \widehat{x}_i' x i与相应的地面真实值 x i x_i xi x i ′ x_i' xi。我们受到了(Bojanowski等人,2018)的启发,其提倡使用拉普拉斯金字塔损失来捕捉边缘和多尺度上下文,以提高预测准确性。外观的预测一致性损失可以表述为:
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读_第4张图片
在上述公式中:
第一项和第三项分别是相对于前向和后向预测 x ^ i \widehat{x}_i x i x ^ i ′ \widehat{x}_i' x i均方误差(MSE)损失
公式中的第二项和第四项分别是相对于前向预测 x ^ i \widehat{x}_i x i和后向预测 x ^ i ′ \widehat{x}_i' x i拉普拉斯金字塔损失,其中 L a p j ( ⋅ ) Lap^j(·) Lapj()是拉普拉斯金字塔表示的第j层。 x i x_i xi是第i个原始帧,被表示为外观的真值。

与外观预测不同,后向运动预测的方向应该与前向运动相反(所以公式的第二项采用加法)。我们采用了L1损失来最小化预测运动与目标运动之间的距离:
在这里插入图片描述
其中, y i y_i yi是原始序列 X X X中第 i i i帧的目标运动。请注意,公式中的第二项起到了将目标运动 y i y_i yi和预测的后向运动 y ^ i ′ \widehat{y}_i' y i之间的方向推开的作用。
Multi-modal Discriminator
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读_第5张图片
图 b :其实就是将预测的光流图和真正的 r g b 图组合最为伪样本对让判别器识别,有两个判别器,正向和反向的 \color{red}{图b:其实就是将预测的光流图和真正的rgb图组合最为伪样本对让判别器识别,有两个判别器,正向和反向的} b:其实就是将预测的光流图和真正的rgb图组合最为伪样本对让判别器识别,有两个判别器,正向和反向的

BPN的正则化项集中于前向流和后向流之间的一致性,但不能关联外观和运动本身之间的任何相关性或缺乏相关性。因此,我们建议通过添加多模态的预测来构建外观和运动预测之间的关联。真实外观片块 x i x_i xi及其对应的地面实况运动片块 y i y_i yi被视为真实的对,而地面实况外观片块 x i x_i xi和生成的运动片块 y ^ i \widehat{y}_i y i或运动片块 y ^ i ′ \widehat{y}_i' y i是伪对。由被擦除的补丁及其运动的串联提供的数据,学习在假的和真实的对之间进行分类。多模态卷积的结构基于DCGAN(拉德福、梅斯和Chintala 2016),其中大小为32×32×5的输入层由视频补丁及其运动的级联提供。因此,用于前向方向的多模态鉴别器的目标函数可以表述为:
在这里插入图片描述
类似地,在向后的方向上,多模态SNR通过 L m d b L_{mdb} Lmdb将真实的对与伪对区分开:
在这里插入图片描述
其中 − y ^ i -\widehat{y}_i y i是所生成的向后运动 y ^ i \widehat{y}_i y i的逆。多模态损耗可以用公式表示为:
在这里插入图片描述
Sequence-wise Discriminator
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读_第6张图片

最后,我们提出了序列级对抗训练以确保时间一致性。它决定了序列是否包含了预测的(伪造的)图像。假设N表示一组包含来自前向和后向预测器的生成补丁的2n个伪造序列,P是地面真实的视频事件,即真实序列。序列鉴别器的客观函数可以表达如下:
在这里插入图片描述
具体来说,对于每一个模态(外观和运动),我们分别设计了序列图。它们具有相同的结构和独立的参数,只是前者的每个序列有3个输入通道(图像),而后者有2个输入通道(光流)。
对于外观流,作为伪造序列,我们通过将第i个位置的真实序列替换为来自前向和后向预测器的预测 x ^ i \widehat{x}_i x i x ^ i ′ \widehat{x}_i' x i,构建 X ^ a i ( F ) \widehat{X}_{ai}^{(F)} X ai(F) X ^ a i ( B ) \widehat{X}_{ai}^{(B)} X ai(B),即:
在这里插入图片描述
因此,我们可以通过连接前向和后向预测器中所有预测位置,进一步构建一个包含2n个序列的伪造外观序列集 X ^ a \widehat{X}_a X a
外观序列鉴别器(ASD)试图在地面真实序列 X a X_a Xa和伪造序列之间进行2n次区分。外观序列鉴别器的客观函数Eq. 6可以用 L s d a L_{sda} Lsda表示:
在这里插入图片描述
类似地,对于运动部分,我们还设计了运动序列鉴别器的客观函数 L s d m L_{sdm} Lsdm,用于将输入的运动序列分类为真实或伪造。客观函数表述如下:
在这里插入图片描述
其中, X m X_m Xm是地面真实的运动序列。与构建伪造外观集 X ^ a \widehat{X}_a X a类似, X ^ m \widehat{X}_m X m是一个包含来自前向和后向预测器的伪造运动序列 X ^ a i ( F ) \widehat{X}_{ai}^{(F)} X ai(F) X ^ a i ( B ) \widehat{X}_{ai}^{(B)} X ai(B)的序列数为2n的伪造运动序列集。注意,来自后向预测器的运动的伪造序列构建方式为:
在这里插入图片描述
Anomaly detection
对于训练,通过向前和向后的外观和运动预测损失来优化BPN。我们最小化以下目标函数,其包括外观和运动预测损失(即,等式1和2),多模态和两个序列对抗性损失(即,等式6、8和9):
在这里插入图片描述
其中 λ 1 λ_1 λ1 λ 5 λ_5 λ5是用于平衡五个损失函数的超参数。

在推断期间,视频事件由对象检测器从当前帧和四个先前帧中提取。每个视频事件通过擦除第i个位置处的补丁来产生n个不同的不完整序列。经训练的BPN输出用于向前和向后方向的预测外观( x ^ i \widehat{x}_i x i x ^ i ′ \widehat{x}_i' x i)和运动( y ^ i \widehat{y}_i y i y ^ i ′ \widehat{y}_i' y i)。外观和运动的总预测误差 S a S_a Sa S m S_m Sm定义为:
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读_第7张图片
其中, w a w_a wa w a ′ w_a' wa w m w_m wm w m ′ w_m' wm表示前向和后向的外观和运动预测误差的权重。最后,基于视频事件计算的帧级异常分数S如下所示:
在这里插入图片描述

Experiments

Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection 论文阅读_第8张图片

Conclusion

在本文中,我们提出了一种新的双向预测框架的视频事件完成的视频异常检测。为了学习更多的判别表示,我们引入了三个正则化输出预测,从像素级,跨模态和时间序列级。在五个基准数据集上进行的大量实验表明,与最先进的方法相比,该方法具有上级性能增益。

阅读总结

创新点:

  • 正向反向预测
  • 跨模态判别,rgb图像和光流图作为一对,真实的rbg图和真实的光流图为ture,真实的rgb和预测的光流图为false。
  • 时间序列判别,真实的时间序列为ture,将预测的替代真实的为false

个人感觉还是网络还是有点复杂的。

你可能感兴趣的:(论文阅读,论文阅读,视觉检测,深度学习,论文,python)