Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification

论文地址:https://arxiv.org/pdf/1711.08200

本文最大的贡献就是提出了一种模型迁移的方法,同时引入一种新的时域层temporal layer给可变时域卷积核深度建模,这个层叫做temporal transition layer(TTL) ,作者将这个新的temporal layer嵌入到提出的3D CNN,该网络叫做Temporal 3D ConvNets(T3D)。本文将DenseNet 结构从2D扩展到3D中。另一个贡献是将知识预先训练好的2D CNN转移到随记初始化的3D CNN以实现稳定的权值初始化。

在当下,提出的许多卷积神经网络不能够捕获长范围的时序信息,这限制了模型的表现,同时他们面临着如下问题:(1).这些视频结构相比2D卷积网络有许多参数;(2).训练这些模型需要相对大型的数据集;(3).光流图的获取是比较费力的,而且对于大型数据集来说,难以获取。文章提出了解决上述问题的方案:(1).采用一种网络结构可以有效的捕获视频的空间和时间特征,从而替代光流图;(2).采用一种可以在不同网络之间进行迁移的方法,从而避免网络从头训练。作者基于此提出了可变时序的3D卷积核,这种卷积核可以捕获短中长时序信息,作者将具有该特点的卷积层命名为temporal transition layer(TTL)。其中T1、T2、T3表示不同的时间深度。
Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification_第1张图片
之后作者将TTL嵌入到DenseNet中,替换DenseNet结构中的transition层,也就是所谓的T3D(Temporal 3D ConvNets),具体如下图,可以进行端到端训练。作者选择DenseNet的原因有:简单且有很高的参数效率,采用密集知识传播,在图像分类任务上有非常好的表现。同时将2D DenseNet中卷积核池化核替换为3D的网络称为DenseNet3D。为了避免从头训练T3D,作者采用了跨结构迁移学习的方法,具体,作者现在ImageNet数据集上训练2D CNNs,之后通过指导性迁移来对一个随机参数初始化的3D CNNs进行学习,来获得稳定的初始化权重。之后作者在三个有挑战的数据集HMDB51,UCF-101,Kinetics上对T3D进行评估,结果显示T3D相比当下一些3D卷积网络,取得了很好的表现。
在这里插入图片描述
文章比较重要的就是实现了跨结构迁移学习,从与训练好的2D ConvNets到3D ConvNets。这里2D ConvNets假设已经学到了很好的图像表示,而3D ConvNets的权重采用随机初始化的方法,具体迁移学习的方法使用帧和视频片段之间的对应关系,因为它们同时出现在一起。给定一组X帧和同一时间戳的视频片段,帧和视频中的视觉信息是相同的。跨结构迁移利用这种思想来在2D和3D ConvNet架构之间的图像视频通信任务来学习中级特征表示,具体如图5。使用预先训练过的ImageNet 2D DenseNet CNN和T3D网络作为V,2D DenseNet CNN最后有4个DenseBlock卷积层和一个全连接的层,而3D架构是4个3D-DenseBlocks和一个全连接的层。作者简单地concat两个体系结构的最后一个fc层,并将它们与2048维fc层连接,之后依次连接到两个具有512和128大小的fc层(fc1,fc2)和最终的二元分类器层。作者使用一个简单的二值(0/1)匹配分类器:具体给定X个视频帧和视频片段 - 判断他们是否属于同一个时间戳。对于给定的成对X图像及其相应的视频片段,精确步骤如下:X个帧顺序送入I并且平均X最后2D fc特征,产生1024-D特征表示,并行视频片段被提供给V,我们提取3D fc特征(1024-D),并将它们连接起来,然后传递给fc1-fc2进行分类。在训练期间,I的模型参数被冻结,任务是有效地学习V的模型参数。属于同一视频的相同时间戳的对是正例,反之则为负例。在反向传播过程中,仅更新V的模型参数,即将知识从i转移到v。
Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification_第2张图片
实验表明V的权值初始化是稳定的,当对目标数据集进行微调时,可以使模型快速适应目标数据集,从而避免从头开始训练模型,从而提高性能。在UCF101这样的小数据集上之间训练3D ConvNets,取得比从头开始训练更好的性能。
作者将T3D与其他模型在UCF101数据集上进行对比,所有模型都是从零开始训练的:
Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification_第3张图片
输入图片尺寸大小对精度的影响:(增加图片尺寸来增加准确率)
在这里插入图片描述
实验结果采样率为2时性能最好,也就是说并不是每帧图片都输入能够取得最佳结果。
在Kinetics数据集上T3D模型与其他最新方法比较:带*号表示在Sports-1M上预训练的C3D
Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification_第4张图片
在UCF101和HMDB51数据集上进行比较:
Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification_第5张图片
总结:
这篇文章基于densenet进行扩展并提出TTL层得到一个性能优良的三维卷积网络结构,同时将预训练过得二维网络的知识迁移给三维网络,能够一定程度上使三维网络初始化在比较好的参数空间中,但是这种方法使得参数量增加了所以还需要进一步优化。三维卷积本来参数量就很大,使用作者的方法参数量增加了1.3倍,如果考虑跨结构迁移学习还要同时训练2D模型,所以对GPU的要求很高,我觉得这种方法对我来说不是很现实。

你可能感兴趣的:(视频分类,计算机视觉)