关键词:异常检测、视频序列数据集、帧级别的注释、监督训练学习、深度卷积网络、时空信息特征
然而,现有的异常检测数据集有两个主要问题。首先,数据集的规模是有限的。其次,训练集只包含视频级的标签,表明在整个视频过程中存在异常事件,而缺乏精确的时间持续时间的注释(缺乏帧级别的注释)。
作者建立了一个新的大规模异常检测(Large-scale Anomaly Detection-LAD-)数据库作为视频序列异常检测的基准,它具有两个方面的特点。
1)它包含2000个视频序列,包括正常和异常的视频剪辑,有14个异常类别,包括坠机、火灾、暴力等。由于场景变化较大,因此成为迄今为止最大的异常分析数据库。
2)提供标注数据,包括视频级标签(异常/正常视频、异常类型)和帧级标签(异常/正常视频帧),便于异常检测。
利用LAD数据库的上述好处,我们进一步将异常检测定义为一个全监督的学习问题,并提出了一个多任务的深度神经网络来解决它。
作者首先利用( Inflated 3D convolutional (I3D))的三维卷积(I3D)网络获得了局部的时空上下文特征。然后作者构建一个输入局部时空上下文特征的循环卷积神经网络,提取时空上下文特征。利用全局时空上下文特征,通过多任务神经网络可以同时计算异常类型和得分
实验结果表明,该方法在本数据库和其他公共异常检测数据库上优于最先进的异常检测方法。在http://sim.jxufe.cn/JDMKL/ymfang/anomaly-detection.html.上可以获得详细的资料。
论文具体细节介绍
对于异常检测来说,大多数现有的异常检测方法都是基于任何不同于学习到的正常模式的模式都被视为异常的假设而设计的,是的,会有弊端,就是说在这种假设下,不同场景中的相同活动可以被表示为正常活动,比如说,跑这个动作在一些场景中就会是正常的。同时下图也举出了一些相同的例子!
![在这里插入图片描述](https://img-blog.csdnimg.cn/cd15b3dabac04cec935c2b1b25344112.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56CU6YCU5Y-v
6L6-,size_20,color_FFFFFF,t_70,g_se,x_16)
作者新的数据集介绍对比:
详见以前的专题文章里面有总结
它由两个组件组成,即局部时空上下文感知流和全局时空上下文感知流。
作者设计了一个局部时空上下文感知子模块和一个时空上下文感知子模块,如图所示 4.
In particular, we first encode each video sequence by feature representation with a pretrained Inflated 3D convolutional network (I3D) . Given a video sequence with M frames, we divide it into N clips, and each clip contains m video frames.
LAD数据集的对比比较:
1.作者为视频序列中的异常检测提供了一个大规模的基准。它包含2000个不同的视频序列,有14个异常类别。
2.作者提供注释数据,包括视频级标签和帧级标签。所提出的数据库使在完全监督的方式下研究异常检测成为可能。
3.然后,作者通过有效地学习视频序列的局部和全局时空背景特征,提出了一种异常检测的多任务计算模型。在所提出的多任务深度神经网络中,首先通过一个三维卷积网络从每个视频片段中提取局部时空特征。
4.再然后,作者将这些局部时空上下文特征输入到一个循环的卷积结构中,以学习全局时空上下文特征。
5.最后,通过两个子网络的全卷积层的输出来预测异常得分和异常事件类别。
作者展望:In the future, we will further investigate anomaly detection to improve the performance of anomaly detection for video sequences.