【视频理解论文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition(ICCV2019)

一、个人直观解读:

  • 文章动机:就是为了对基于3DCNN的视频行为识别中的参数进行控制,同时想要达到3DCNN的效果
    原文的描述就是一句话“reduce the complexity by decoupling the spatial and temporal filters
  • 采取的方式:还是借鉴了TSN,TRN,这一类的利用2DCNN的网络结构,然后再次基础上拓展了P3D的工作,如下图所示也就是在我用红框圈出来的地方做文章的。
    【视频理解论文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition(ICCV2019)_第1张图片
  • 其他:主要借鉴了分组卷积的思路,重新设计了上图中红框的部分,变成了两个分支,一个称之为Temoral conv用3DCNN来实现时序建模,另外一个是Spatial conv继续用2DCNN来进行空间建模。
  • 嗯,以上基本就是这篇文章的整体思路了。并不难。

二、Introduction中有价值的点

  • 1.是沿着channel dimension进行时-空分解的
  • 2.是受到group convolution的启发的
  • 3.本方法之所以有效的动机或者假设:对于 输入或者中间的一些feature map, 推测其中一些channel 是对空间信息更敏感的或者说更相关的,另一方面,其中还有一些就是对时序信息更相关的了,也可以说成是motion features
  • 4.之前的一些方法呢,spetial 和temporal features 是被混在一起进行处理的,together cross channels,也就是整个channels是同时包含时空信息的,那么可想而知直接对所有的channel进行同样的操作那么显然不能获得最优解并且并不是最高效的。
  • 5.对于分组卷积的解读:之前类似于Res3D什么的也有,但是他们都是直接的进行group convolution操作,对得到的两组进行同样的操作,可以理解为分成了symmetric group,这样的话就还是没有什么长进。所以这篇文章其实就是我还是这么分组,但是分组之后呢,我就给每个group进行不同的操作,也就是沿着channels维度分开,然后以非堆成的处理方式分别进行处理。

【视频理解论文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition(ICCV2019)_第2张图片
CUDA_VISIBLE_DICES = 4, 5, 6, 7
python main.py --root_path /home/guanls/dataset/ --dataset somethingv1 --checkpoint_dir /home/renb/PycharmProjects/GST-video/checkpoints --type GST --arch resnet50 --num_segments 8 --beta 2 --alpha 4

python main.py --root_path /data/Datasets/renb/ --dataset somethingv1 --checkpoint_dir /home/renb/PycharmProjects/GST-video/checkpoints --type GST --arch resnet50 --num_segments 8 --beta 2 --alpha 4

CUDA_VISIBLE_DICES = 4, 5, 6, 7
python main.py something-v1 RGB --arch BNInception
–num_segments 8 --consensus_type avg
–batch-size 16 --iter_size 2 --dropout 0.5
–lr 0.01 --warmup 10 --epochs 60 --eval-freq 5
–gd 20 --run_iter 1 -j 16 --npb --gsm

你可能感兴趣的:(深度学习系列)