利用fft计算时域卷积重叠法保留_C3D:使用3D卷积网络学习时空特征

利用fft计算时域卷积重叠法保留_C3D:使用3D卷积网络学习时空特征_第1张图片

文章:Learning Spatiotemporal Features with 3D Convolutional Networks

链接:https://arxiv.org/abs/1412.0767v4

一个较好的翻译:https://www.jianshu.com/p/09d1d8ffe8a4

引言:在上一篇文章中(琪瑞:Large-scale VideoClassification with CNN(CVPR2014)),我们介绍了深度学习在视频领域的开山之作,其基本思想还是提取各帧画面的特征,实验了各种特征融合方法,最后发现使用Slow Fusion的方法可以取得较好的效果,实际上,Slow Fusion就已经变相使用到了3D卷积。

在图像处理领域,被卷积的都是静态图像,所以使用2D卷积网络就足以。而在视频理解领域,为了同时保留时序信息,就需要同时学习时空特征,如果用2DCNN来处理视频,那么将不能考虑编码在连续多帧之间的运动信息,而C3D网络就在这样的背景下横空出世了。

第一部分:首先需要说明的是,3D convolution 最早应该是在“3D convolutional neural networks for human action”中被提出并用于行为识别的。该论文提出的模型尝试从空间和时间维度中提取特征,从而捕获在多个相邻帧中编码的运动信息。

主要贡献如下:

1、我们提出应用3D卷积运算从视频数据中提取空间和时间特征以进行动作识别。 这些3D特征提取器在空间和时间维度上操作,从而捕获视频流中的运动信息。

2、我们开发了基于3D卷积特征提取器的3D卷积神经网络架构。该CNN架构从相邻视频帧生成多个信息信道,并在每个信道中分别执行卷积和子采样。最终的特征表示是通过组合所有频道的信息获得的。

3、我们提出通过增加具有作为高级运动特征计算的辅助输出的模型来规范3D CNN模型。 我们进一步提出通过组合各种不同架构的输出来提高3D CNN模型的性能。

具体操作:通过同时堆叠多个连续帧形成的立方体与一个3D核进行卷积。通过这个构建,卷积层上的特征图连接到了前一层的多个连续帧,从而捕捉动作信息。

第二部分:C3D介绍

3D ConvNets 更适合学习时空特征,通过3D卷积和3D池化,可以对时间信息建模,而2D卷积只能在空间上学习特征。3D和2D的区别如下:

2D卷积网络输入图像会产生图像,输入视频输出的也是图像,3D卷积网络输入视频会输出另外一个视频,保留输入的时间信息。

利用fft计算时域卷积重叠法保留_C3D:使用3D卷积网络学习时空特征_第2张图片

C3D卷积网络将完整的视频帧作为输入,并不依赖于任何处理,可以轻松地扩展到大数据集。

Notations:

video clips size: c*l*h*w 其中,c是通道数量,l是帧长度,h是帧高,w是帧宽

3D kernel size: d*k*k d是核时域深度(d

Common network settings:

输入:UCF101的视频片段 视频帧调整大小为128*171 为原始视频分辨率的一半,视频分割为不重叠的16帧视频片段,作为网络输入,输入维度为3*16*128*171,训练时通过抖动,维度调整为3*16*112*112。

通用的网络包括5个卷积层和5个池化层(一个卷积层后面跟着一个池化层),2个全连接层,1个softmax分类层来预测行为标签,卷积层的滤波器数量依次为:64、128、256、256、256。所有的卷积核的时域深度都是d,改变d来寻找最好的3D架构。池化核尺寸为2*2*2(除第一层),第一层为1*2*2,步长为1。两个全连接层有2048个输出,使用30个剪辑的迷你批次训练网络,初始的学习率为0.003,每4个epochs学习率除以10,训练16个epochs后停止。通过实验得出depth-3是最好的,卷积核最好的尺寸是3*3*3.

网络结构

网络有8个卷积层(filter:3×3×3,stride: 1×1×1),5个池化层(filter:2×2×2,stride: 2×2×2,除了第一个filter:1×2×2,stride: 1×2×2),2个全链接层(4096),和1个softmax分类层,最终的网络结构如下图所示。

利用fft计算时域卷积重叠法保留_C3D:使用3D卷积网络学习时空特征_第3张图片

第三部分:应用

C3D能同时对外观和运动信息建模,具有高效、简单、紧凑的特点,C3D在Action recognition、Action Similarity Labeling、Scene and Object Recognition等任务上取得了较好的成绩。

你可能感兴趣的:(利用fft计算时域卷积重叠法保留_C3D:使用3D卷积网络学习时空特征)