视频动作识别

  • 3.9,2020
    TSM: Temporal Shift Module for Efficient Video Understanding
    TSM是利用2D卷积来处理视频数据的一种做法。卷积操作可以切分成data movement和computation两个阶段,第一阶段的data movement可以发生在spatial上,也可以发生在temporal上。通过在相邻timestamp的对应channel之间进行shift,也可以捕捉temporal信息,达到建模时序关系的效果。其中,图b适用于offline的情况,图c适用于online情况,这种情况下,由于无法获取future frame,因此当前帧只能与历史帧进行shift。这篇文章的想法直观简洁,而且文章写的也很好,读起来非常舒服。

  • 3.20
    AFO-TAD: Anchor-free One-Stage Detector for Temporal Action Detection
    这篇文章是一篇anchor-free的一阶段TAD方法,以C3D作为视频特征编码器,每次采样768帧作为一个clip,clip之间的overlap 25%,在每个clip的每个temporal position上做预测,预测分为类别预测和前后帧offset预测,其中,offset预测的是每个temporal position与这个动作的起始帧以及结束帧之间的offset。为了在时序上获得动态的视野域,这两个预测分支都采用了deformable temporal convolution。

你可能感兴趣的:(视频动作识别)