视频行为识别论文阅读[3]

[3]Deep Local Video Feature for Action Recognition[CVPR2017]

这篇文章是TSN网络的一种改进,其首先使用TSN提取局部特征,并探索了从网络的那一层提取特征比较合适,实验结果表明在最后一个卷积层提取特征具有更好的效果,作者认为有三个原因:(1)卷积层相对于全连接层有更少的参数,具有更少的过拟合风险(2)全连接层没有保存空间信息(3)后期的卷积层解码了更多的全局(空间)信息。
第二部分网络作者探索了集中不同的融合策略,例如,Mean,Max、Mean_std、BoW、FV、VLAD等方法,最终选择的是Max作为融合策略。相对于原始算法,大约具有1.3%的提升。

[4]Temporal Relational Reasoning in Videos[2017]

这篇文章给出了一种观点:认为人具有推理功能(即给出不连续的两帧图片,人能够猜测出中间发生了什么),而UCF101、SPort1M、THUMOS数据集以及依靠这些数据集的双流法和I3D等并不具备这种推理功能。这些数据集仅仅动作具有重复性,对时间的依赖性比较低。因此,作者使用了Something-Something,Jester,Charades三种数据集,首先确定固定的帧长度,然后对间隔采集两帧,间隔采样三帧,五帧进行训练测试,最后进行平均。
视频行为识别论文阅读[3]_第1张图片
个人觉得和之前的TSN等网络并没有太多不同,只是对于网络的理解方式改变了(对网络的推理功能)

[5]Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Jo[CVPR2017][I3D]

因为当前的两个数据集UCF101和HMDB51视频数据量较少,因此,导致当前主流的几种框架在数据级上的表现差别不大,无法判断哪一个更好一些,这里提出了新的数据集kinetics人体行为数据集。另一方面,大规模的图像数据集的预训练当应用到其他领域中,也有不错的效果。作者使用大规模的视频数据集应用到动作分类中也有性能的提升。文章对比了五种方案应用到当前数据集,包括ConvNet+LSTM、3D ConvNets 3D、Two-Stream Networks LSTMs、3D-fused Two-Stream以及本文提出的Two-Stream 3D-ConvNet(I3D)
视频行为识别论文阅读[3]_第2张图片
最终结果表明了在kinetics上进行预训练,然后迁移到UCF101和HMDB51上均取得了更好的效果。本文提出的I3D模型也取得了更好的效果。

[6]Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification[2017]

时序3D卷积,视频分类新框架和迁移学习(T3D)
这篇文章主要两个贡献:
(1)作者设计了TTL层,并将TTL层应用到DenseNet网络架构,命名这个网络为T3D。
视频行为识别论文阅读[3]_第3张图片
(2)设计迁移学习,从2D网络到3D网络,避免了从头开始训练3D卷积网络。
视频行为识别论文阅读[3]_第4张图片

[7]End-to-end Video-level Representation Learning for Action Recognition[2017]

不同动作类别中的相似帧容易被混淆(例如:扣篮和打篮球),这是因为现有的很多网络是基于观察的部分内容做出的判断。例如很多双流网络进行帧级别的判断,最后进行融合。还有很多网络没有端到端的训练或者是限制了单一时间的模型。这篇文章提出了金字塔池化的深度网络(DTPP),这个网络采用了双流网络的双流架构,前期的输入使用了TSN网络的稀疏采样输入,主要在于在时间和空间网络的最后一个卷积层使用金字塔池化。所谓金字塔池化,就是多帧输入的结果中,分层进行池化,最底层是将所有的输出进行池化,倒数第二层则是所有输出的前一半进行池化,后一半在进行池化得到两个结果,第三层将整个输出划分成3段进行池化,以此类推,得到不同的池化大小的结果。最后通过全连接层进行链接。
视频行为识别论文阅读[3]_第5张图片
最终实验结果表明,网络达到了最先进的效果(论文截止日期).

[8]Deep Temporal Linear Encoding Networks[cvpr2017]

本文提出了一个叫做时序线性编码的层,简单来说,就是当视频分段输入到并行的网络的时候,原来会产生n个结果,这里使用的TLE对这产生这n个结果的网络中的某一层进行处理(就是所说的线性编码),将这n个结果进行融合,得到视频级别的动作类别得分值。文中首先研究了聚合的处理方式,一个是选择元素数最大,一个选择元素相乘。这里X就是经过聚合之后的结果。
视频行为识别论文阅读[3]_第6张图片
然后使用编码(或汇集)方法E:X→y,得到线性编码的特征向量y,y∈Rd,其中d表示编码的特征维度。最终编码方式选择双线性编码。
这里写图片描述
括号里面表示外积,中括号表示将矩阵转换成向量。之后文中给出了反向传播方法。网络结构,双流和C3D。

视频行为识别论文阅读[3]_第7张图片
视频行为识别论文阅读[3]_第8张图片
本文在当时达到了最好的表现 ,HMDB51(71.1%) UCF101(95.6%)

你可能感兴趣的:(行为识别论文)