2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用

A Temporal Fusion Approach for Video Classification with Convolutional and LSTM Neural Networks Applied to Violence Detection

通过读该文章,想起之前复现的一个代码,与本文不同的是,代码采用帧率从视频片段中截取图片,视频的帧率都是25,也就是1s提取25张图片,这样会有很多重复帧,本文采用的是1s提取2帧,代码采用的是文章中提到的早期融合(Early Fusion),把40帧串联起来送入模型中提取空间特征,这样会影响之后LSTM层提取时间特征,本文采用的是慢融合,也就是10帧分别放入CNN模型中提取空间特征后,再放入LSTM层中提取时间特征。本文对提取空间特征的模型也进行了测试,结果表明MobileN模型性能更好一些,代码采用的是ResNet152模型。接下来想尝试改一下之前复现的代码。

作者采用的数据集为RealLife violence detection,由2000个平均时长为5s的片段组成,分为暴力和非暴力。作者认为单独分析这些帧从静态图像检测暴力行为是困难的,但是当按顺序分析这些帧时,区分每一类的特征就容易一些,因此作者使用了深度学习分析帧。
作者使用了交叉验证技术,K=10,意味着数据被分为10个相等的部分,其中一部分当做验证集,其他部分用作训练集,重复10次,也就是说每个部分都要用来当做验证集一次。

时间融合方法

Late Fusion:使用每个例子的第一帧和最后一帧,由模型单独处理,该技术通过对帧间时间距离最长的帧特征进行处理,即划分场景的序列和结尾,称为延迟融合。
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第1张图片
Early Fusion:使用每个例子的连续帧进行处理,数据的合并发生在被处理之前。
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第2张图片
Slow Fusion:通过模型分别处理每个帧,然后以相关方式处理模型,由于经过一定的处理后,多个帧之间有了时间关联而被称为慢融合。
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第3张图片
这些方法只适用于帧数不多的情况,作者使用每秒2帧,每个视频也就是10帧。如果帧的持续时间与平均持续时间不同,则将它们从与时间相关的的等距帧中移除。

将输入属性传递到卷积层,进行帧的空间特征提取,接着传到LSTM层提取时间特征,最后利用感知器神经元的前馈层分类。如下图
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第4张图片

神经网络结构

2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第5张图片
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第6张图片

实验

late fusion:VGG16模型性能最好
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第7张图片
Early Fusion:10帧串联起来给模型,因为串联是在CNN提取空间特征之前进行的,所以在LSTM层提取时间特征会有一定的损失。MobileNet为最佳模型
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第8张图片
slow fusion:慢融合呈现最大数量的单个空间特征提取,有助于LSTM层从卷积块的输入数据中提取时间特征。MobileNet性能最好。
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用_第9张图片

你可能感兴趣的:(暴恐检测,计算机视觉,深度学习)