2022-10-16学习记录

2022-10-16学习记录

一、动作识别领域backbone之I3D和SlowFast

I3D网络

  I3D主要是将2D CNN的网络扩展为3D CNN。为了检测搭建的模型是否正确,作者将2D网络中输入的一帧视频帧重复复制为多帧送入3D网络结构中(a boring video),同时将2D filter的参数也复制粘贴n次,并将3D filter中的每个2D filter的参数w除以n,。这样使单张图片通过2D CNN的输出结果和设计的a boring video通过3D CNN的输出结果大小维度一致,检查它们最后的输出结果是否相同。
  I3D最初提出是通过对Inception-V1网络进行膨胀扩张得到的,但之后普遍使用的是resnet3d网络。本来在Inception-V1中第一个Max-Pool的kernel为33,stride为22。inflate之后却保持133和122,包括之后的大多数研究者发现最好不要在时间维度上面做下采样。
2022-10-16学习记录_第1张图片
  回顾一下原始resnet系列网络的网络结构,其中11->33->1*1是经典的bottleneck architecture,这种设计使网络的参数减少了很多,深度也加深了,训练更加容易。扩展后的I3D网络的瓶颈结构为Kernel (3,1,1)->(1,3,3)->(1,1,1)。
2022-10-16学习记录_第2张图片

SlowFast结构

2022-10-16学习记录_第3张图片
Resnet3dslowfast 返回的是out=(x_slow,x_fast)
x_slow和x_fast经过全连接头之前的处理(先pool再cat)
2022-10-16学习记录_第4张图片

二、目标检测分类和时空动作检测分类

目标检测的方法大致分为三类:

  1. 密集预测的目标检测方法 one-stage和anchor-free
  2. 密集到稀疏预测的目标检测方法 提取proposal的two-stage
  3. 稀疏预测目标检测方法:DETR使用了一个带有稀疏物体查询的transformer进行稀疏预测,根据预测结果和标注物体之间的二分匹配来构建监督信号。它的稀疏预测结果需要直接输出,不需要非极大抑制。DETR的其他变种进一步将物体查询限制为参考点的领域或者稀疏选择的点,而不是全局特征图,以获得更好的收敛速度和性能。

时空动作检测:

  1. 根据数据集标注不同,现有的时空检测方法也分为两类,一类针对UCF101-24和JHMDB这类密集标注的数据集,需要预测出动作类别、时序边界和人物框跟踪;另一类针对AVA这样的稀疏标注的数据集,只需要在关键帧进行人物定位和动作分类即可。
  2. 基于深度学习的动作识别任务可分为两大类:双流和3D网络。

三、omnisource


四、Rethinking Spatiotemporal Feature Learning Speed-Accuracy Trade-offs

参考:https://zhuanlan.zhihu.com/p/419199898

卷积神经网络在视频上取得的成果显然没有在图像上取得的成果大,前期主要是由于缺乏较大的数据集。目前主要面临三个挑战:1、如何表示空间特征;2、如何表示时间特征;3、如何权衡模型复杂度和训练速度。

针对以上问题,作者在I3D的基础上,提出了几个疑问:

Botton or Top Heavy结构,哪种在效率和性能上更优?
Bottom-Heavy-I3D:底层使用3D卷积核,顶层使用2D卷积核
Top-Heavy-I3D:底层使用2D卷积核,顶层使用3D卷积核
3D卷积是否可分离?分成时间卷积核空间卷积
实践?
对于 Botton or Top 问题,作者发现 Top-Heavy-I3D 在效果和速度上都比较好。

对于 3D卷积是否可分离 问题,作者用空间和时间分离的3D卷积来代替正常的3D卷积核,即使用1×k×k结合 kt×1×1来代替kt×k×k。kt表示时间维度的长度,k表示卷积核长宽。作者把这种卷积核称为S3D(separable 3D CNN)。作者发现S3D的参数比I3D少很多,而且效果还比I3D好。

五、Space-Time Correspondence as a Contrastive Random Walk

  这篇文章依然使用timecycle的方法,将当前帧中的像素点通过向后几帧的映射再反向映射回来,将映射回来的表示和原始表示,使用对比学习进行比较。整体采用自监督的方式,每一帧到下一帧的领域位置的映射采用构建映射矩阵的方式,权重为相邻位置的表示和当前位置表示的相似性,并采用softmax进行权重归一化处理。这篇文章的方法主要应用在video object segmentation,video semantic segmentation等领域。

六、Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization

2022-10-16学习记录_第5张图片

你可能感兴趣的:(论文阅读笔记,深度学习,计算机视觉)