基于三维卷积网络的时空特征学习

摘要

本文提出了一种基于大规模监督视频数据集的深三维卷积网络(3D卷积网)的时空特征学习方法。我们的研究结果有三方面:1)三维卷积网比2d卷积网更适用于时空特征学习;2)在所有层中具有小3×3×3卷积核的均匀Ar-构造是三维卷积网性能最好的结构之一;3)我们的学习特征,即c3d(卷积3D),其简单线性分类器在4种不同基准上优于状态-技术方法,并与其他2种基准上的最佳方法相媲美。此外,其特点是紧凑的:只需10个二次体就可在ucf 101数据集上达到52.8%的精度,而且由于凸网的快速输入,计算效率也很高。最后,它们在概念上非常简单,易于训练和使用。

1.

互联网上的多媒体技术发展迅速,每分钟都有越来越多的视频被分享。为了对抗信息爆炸,理解和分析这些视频对于搜索、推荐、排名等不同的姿势是必要的。计算机视觉社区几十年来一直致力于视频分析,并解决了不同的问题,如动作识别[26]、异常事件检测[2]和活动理解[23]。通过采用不同的具体解决办法,在这些个别问题上取得了相当大的进展。然而,对通用视频描述符的需求仍在增长,这种描述符有助于以同构的方式解决大规模视频任务。

一个有效的视频描述器有四个属性:(i)它需要是通用的,因此它可以在区分的同时表示不同类型的视频。例如,互联网视频可以是风景、自然场景、体育、电视节目、电影、宠物、食物等;(ii)解说者需要是紧凑的:当我们正在与大量的视频打交道时,紧凑的描述符有助于处理、存储和检索更多可扩展的任务;(iii)需要对计算机进行有效的计算,在现实世界系统中每一分钟都会处理数以千计的视频;以及(iv)它必须是简单的实现。最好使用简单的模型(e.g.linear分类器),而不是使用COMPLICATION的特征编码方法和分类器。 
在图像学[24]的深度学习突破的启发下,过去几年在特征学习方面取得了迅速的进展,各种预先训练的卷积网络(ConvNet)模型[16]可用于提取图像特征。这些特性是网络的最后几个完全连接的层的激活,它们在传输学习任务上表现良好[47,48]。然而,由于缺乏运动模型,这种基于图像的深层特征并不直接适用于视频(如我们在第4、5、6节中的实验所示)。本文提出了一种利用深三维卷积网学习时空特征的方法,实验结果表明,用简单的线性分类器学习的特征能够很好地处理各种视频分析任务。虽然3D卷积网是在[15,18]之前提出的,但据我们所知,本工作在大规模监督训练数据集和现代深层次结构的背景下,利用3 dconv网来实现不同类型视频分析任务的最佳性能。这些三维凸网的特征封装了与视频中的对象、场景和动作相关的信息,使得它们在不需要为每个任务建立模型的情况下对各种任务都很有用。c3d具有良好描述符应该具有的属性:它是泛型的、紧凑的、简单的。总之,我们在这份文件中的贡献是: 
•我们通过实验显示,3d卷积深网络是同时建模外观和运动的良好特征学习机器。•我们经验发现,所有层的3×3×3卷积内核在有限的探索架构组中都能发挥最佳工作。•具有简单线性模型的特征在4个不同任务和6个不同基准上执行或接近当前最佳方法(见表1)。它们也是紧凑和高效的计算。 

2.

计算机视觉技术对相关工作视频的研究已有几十年的历史。近年来,人们提出了各种问题,如动作识别[26]、异常检测[2]、视频重三代[1]、事件和动作检测[30,17]等等。这些作品中有相当一部分是关于视频表现的。Laptev和Linde-berg[26]提出了将Harris角点探测器扩展到3D的时空感兴趣点。SIFT和HOG也被扩展到SIFT-3D[34]和HOG3d[19]进行动作识别。美元等提出用于行为识别的长方体特征[5]。萨达南德和科索建立了行动识别交流银行[33]。最近,Wang等人。提出了改进的密集轨迹(IDT)[44],这是目前最先进的手工制作功能。IDT描述符是一个有趣的例子,表明时间信号可以与空间sig-nal的处理方式不同。它不是将Harris角点检测器扩展到三维,而是从视频帧中密集采样的特征点开始,并利用光流来跟踪它们。对于每一个跟踪器COR-NER,沿着轨迹提取不同的手工制作的特征。尽管该方法具有良好的性能,但其计算量大,在大规模数据集上难以实现。 

随着最近强大的并行机器(GPU,CPU集群)的出现,加上大量的训练数据,卷积神经网络[28]已经在视觉识别[10,24]方面取得了突破。在图像[12]和视频[13]中,凸网也被应用于人体姿态估计问题。更有趣的是,这些深层网络被用于图像特征学习[7]。同样,周等人。并能很好地完成转移的学习任务。深度学习也被应用于无监督环境下的视频特征学习[27]。在Le等人案中。[27]研究人员使用叠加的isa来学习视频的时空特征。该方法虽然在交流识别方面取得了较好的效果,但在训练过程中计算量仍然很大,难以在大型数据集上进行测试。三维凸集被提出用于人体动作识别[15]和医学图像分割[14,42]。3D对流也被用于限制Boltzmann机器学习时空特征[40]。最近,Karopathy等人。[18]对大型视频数据集的深层网络进行了视频分类培训。Simonyan和Zisserman[36]使用两个流网络来获得最佳的动作识别结果。

在这些方法中,三维对流网方法[15]与我们的关系最为密切。该方法利用人体检测器和头部跟踪技术对视频中的人体主体进行分割。分割后的视频卷被用作3层卷积层3D ConvNet的输入,用于对动作进行分类。相反,我们的方法以完整的视频帧作为输入,不依赖于任何预处理,因此很容易缩放收费数据集。我们也有一些相似的卡尔帕等。[18]Simonyan和Zisserman[36]的术语是使用完整的框架来训练ConvNet。然而,这些方法建立在仅使用2d卷积和2d池运算的基础上(除[18]中的慢融合模型外),而我们的模型执行3D卷积和3d池,在网络中的所有层传播时间信息(详见第3节)。我们也表明,逐渐集中空间和时间信息,建立更深层次的网络,取得了最好的效果,我们在3.2节中讨论了更多关于架构搜索的内容。

3.

本节详细介绍了3DConvnet的基本操作,从经验上分析了3dconvnet的不同架构,并阐述了如何在大规模数据集上对其进行特征学习。 

3.1.三维卷积和合并我们认为3D ConvNet非常适合于时空特征学习。与2d ConvNet相比,3D ConvNet通过三维卷积和3D池操作能够更好地模拟时间信息。在3d卷积网中,卷积和池运算是在时空上进行的,而在2d卷积网中它们只在空间上进行。图1说明了不同之处,应用在图像上的2 d卷积将输出图像,2 d卷积应用于多个图像(将它们视为不同的通道[36])也会导致图像。因此,每次卷积运算后,二维卷积网就会丢失输入信号的时间信息。只有三维卷积保持输入信号的时间信息,从而产生输出体积。同样的现象也适用于2d和3D轮询。在[36]中,虽然时态流网络以多帧作为输入,但由于2d卷积,在第一卷积层后,时间信息完全折叠。在[18]中,融合模型采用2d卷积,大部分网络在第一卷积层后失去输入的时间信号。只有[18]中的慢融合模型在前3个对流层中使用3D卷积和平均池。我们相信这就是为什么在[18]中所研究的所有网络中,它每一种形式都是最好的关键原因。然而,在第三层转换层之后,它仍然会丢失所有的时间信息. 

在这一节中,我们尝试用经验性的方法来找出一种适用于三维对流网的好的Ar结构.由于在大规模视频数据集上进行深层网络培训非常耗时,我们首先用ucf 101,一个中等规模的数据集进行实验,以寻找最佳的体系结构。我们在一个大规模数据集上验证了这一发现,该数据集具有较少的网络前处理能力.根据2d ConvNet[37]的研究结果,结构较深的3×3卷积核的小接受场得到了最好的结果。因此,在我们的结构搜索研究中,我们将空间接受场固定为3×3,并且只改变三维卷积核的时间深度。

说明:为了简单起见,从现在开始,我们指的是c×l×h×w的视频剪辑,其中c是通道数,l是帧数的长度,h和w分别是帧的高度和宽度。我们还参考了d×k×k的三维卷积和池核大小,其中d是核的时间深度,k是核的空间大小。公共网络设置:在本节中,我们描述了我们培训的所有网络所共有的网络设置。网络的建立是为了将视频片段作为输入,对属于101个不同动作的类标签进行预测。所有视频帧被调整为128×171。这大约是ucf 101帧的一半分辨率。视频被分割成不重叠的16帧剪辑,然后作为网络的输入。输入维数为3×16×128×171。在训练过程中,我们还使用3×16×112×112×112的随机作物进行抖动训练。该网络有5个卷积层和5个池层(每个卷积层紧接着是一个池层)、2个完全连接的层和一个用于预测动作标签的Softmax损失层。从1到5的5个卷积层的滤波器数目分别为64、128、256、256、256。所有卷积核的大小都是d,其中d是内核的时间深度(我们稍后将改变这些层的值d,以寻找一个良好的3D体系结构)。所有这些卷积层都有适当的填充(空间和时间)和步长1,因此从输入到这些卷积层的输出的大小没有变化。所有的池层都是最大池,内核大小为2×2×2(第一层除外),步长为1,这意味着与输入信号相比,输出信号的大小减少了8倍。第一池层的内核大小为1×2×2,其目的是不要过早地合并时间信号,也可以满足16帧的剪辑长度(例如,在完全折叠时间信号之前,我们最多可以用因子2进行4次时间池)。两个连接的层有2048个输出。我们从零开始训练网络,使用小批30个剪辑,初始学习率为0.003。每4个时代后,学习率除以10。16世纪后停止训练。 

不同的网络体系结构:为了本研究的目的,我们主要关注如何通过深层网络来聚合数据。为了寻找一个良好的3D ConvNet架构,我们只会改变卷积层的内核-时间深度di,同时保持上述所有其他公共设置的固定。我们对两种结构进行了实验:1)均匀分布深度:所有卷积层的时间深度相同;2)不同的时间深度:核-时间深度在各层间发生变化。对于均匀设置,我们在核时间深度d等于1、3、5和7的4个网络上进行了实验,我们将网络作为深度d,其中d是它们的均匀分布深度。请注意,深度-1网相当于在不同的框架上应用2d卷积。对于不同的时间深度设置,我们实验了两个时间深度增加的网络:3-3-5-5-5-7和递减:7-5-5-3-3从第一卷积层到第五卷积层。我们注意到,所有这些网络在最后一个池层都有相同的输出信号,因此它们对于完全连接的层具有相同的参数。由于不同的内核时间深度,它们的参数仅在卷积层上不同。与在完全连接的层中的数百万参数相比,这些差异是非常微小的。例如,上述任何两个时间深度差为2的网,彼此之间只有17k个参数。最大的参数差异是深度-1网和深度-7网,其中深度-7网多参数51k,不到每个网络1750万个参数表总数的0.3%。这表明网络的学习能力是相当的,不同的参数不应该影响我们的架构搜索结果。 

3.2.

探索核时态深度,我们在ucf 101的分裂1上对这些网络进行训练。图2显示了ucf 101测试Split 1上不同体系结构的剪辑精度。左图显示了具有齐次时间深度的网的结果,右图显示了改变内核时间深度的网的结果。深度-3在同质网中表现最好。请注意,深度-1明显比其他网差,我们认为这是由于缺乏运动模型。与不同时间深度网相比,深度-3是表现最好的,但差距较小.我们还在更大的水疗接收场(例如5×5)和/或全输入分辨率(240×320帧输入)下进行了实验,并仍然观察到类似的行为-IOR。这表明,3×3×3是三维卷积网的最佳核选择(根据我们的实验子集),三维卷积网在视频分类方面始终优于2d卷积网。我们还验证了3D ConvNet在大规模内部数据集(I380 K)上的性能优于2d ConvNet。 

 

 

C3d学到了什么?我们使用[46]中解释的反褶积方法来理解C3d在内部学习什么。我们观察到c3d从关注前几帧中的外观开始,并跟踪后续帧中的显着运动。图4可视化了两个C3d卷积5b特征映射的反视觉效果,并将其投影到图像空间。在第一次考试中,这个功能集中在整个人身上,然后跟踪撑杆跳在其余的框架中的动作。同样,在第二个例子中,它首先关注眼睛,然后跟踪在化妆时眼睛周围发生的运动。因此,c3d不同于标准的2d凸网,因为它有选择地兼顾运动和外观。我们在补充材料中提供更多的可视化,以便更好地了解所学的特性。 

4.动作识别数据集:我们在ucf 101数据集[38]上评估c3d特征。该数据集由101个人类行动类别的13,320段视频组成。我们使用了这个数据集的三个分割设置。分类模型:我们提取c3d特征,并将它们输入到多类线性svm中进行训练。我们用3种不同的网络对c3d描述符进行实验:c3d训练在i380 k上,c3d训练在运动1M上,c3d训练在i380 k上,c3d训练在运动1M上。在多网设置中,我们将这些网的L2规范化的c3d描述符连在一起。 

基线:我们使用caffe‘simagenet预处理模型,将c3d特征与一些基线进行比较:当前最好的手工制作的特征,即改进的密集轨迹(Idt)[44]和流行的深层图像特征,即ImageNet[16]。对于IDT,我们使用字包表示,IDT的每个特征通道的码本大小为5000,包括轨迹、HOG、Hof、mbhx和mbhy。我们分别用L1范数对每个信道的直方图进行归一化,并将这些归一化直方图连在一起,形成一个视频的25k特征向量。对于ImageNet基线,类似于c3d,我们为每个帧提取ImageNet fc6特征,将这些帧特征平均为makevideo描述符。为了进行公平的比较,这两个基线也使用了多类线性svm。

基于三维卷积网络的时空特征学习_第1张图片

图6.特征嵌入。使用t-sne[43]在ucf 101数据集上嵌入ImageNet和c3d的特征可视化。与ImageNet相比,c3dproperties在语义上是可分离的,这表明它是一个更适合视频的特性。每个剪辑都被可视化为撇号,属于同一动作的剪辑具有相同的颜色。最好是在颜色上观看。 

 

你可能感兴趣的:(计算机视觉,c3d)