《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记

这篇论文的核心思想是通过在2DCNN中位移temporal维度上的channels,来实现视频中时间维度上的信息交互。作者分析了一般的卷积操作,其主要分为两个部分,1是位移,2是对应位置的权值相乘再相加。其中位移不消耗计算资源,所以,作者想到能否可以在temporal维度上位移,达到不同帧的特征信息交融来增强模型对视频信息的理解。位移过程如下图所示:

《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记_第1张图片
上图中,不同颜色代表不同帧的特征,其大小为chw*。图b中,在T方向上,将第一列向下位移1位,第二列向上位移1位,空出的部分补0填充。

**这样的位移方法也有它的弊端。**其一,大步长的位移会导致原始特征中补充的0太多,导致丢失重要信息。2、给硬件造成了负担,增加了内存的占用。3、降低了空间维度的建模能力,由于原有的空间特征被破坏,所以可能会导致变差。

为了去研究其优势和劣势,作者测量了TSM模型和2Dbaseline在不同硬件设备上的推理延迟。使用ResNet-50主干和8帧输入测量模型,使用无移位(2D基线)、部分移位(1/8、1/4、1/2)和全移位(移动所有通道)进行比较(下面曲线图a)。1000 次运行后(之前有200次的热身),发现位移操作相比baseline的确有延迟影响。移动所有通道,延迟开销将占到CPU推理时间的13.7%,移动1/8,延迟开销限制在3%.

《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记_第2张图片

接下来测试它在理解视频的能力上表现如何,为了降低空间维度的建模能力,作者在原有的卷积上添加了个残差分支,将TSM放残差模块中。如下图b,(a是原本设想的方法)
在这里插入图片描述

作者在Kinetics数据集上比较了所有部分位移和a,b两种方法,实验证明b的效果比较好(看上曲线图的b)。且位移程度在1/4时效果高于1/8,虽然其延迟略高一点,所以作者认为1/4最佳。

TSM的优势在于,它的计算成本和2DCNN一样,但其功能可以类似于P-3D。

除此之外,作者还提出了一个线上的TSM模型(如下图)。其思路是,在卷积处理每个帧的时候,可以用内存保存residual块中前1/8的特征,下一帧来的时候,用前1/8和后一帧7/8进行组合,以此达到位移的效果。对于每帧,只需要替换和缓存1/8的功能,而不需要额外的计算。而且占用内存也很少。
《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记_第3张图片

实验中,作者对Kinects,something-somethingv1,v2,ucf101,HMDB51,Jester上做了测试,以TSN做baseline,少则在kinects上Acc1增加了3.5%,多则在something-somethingv2上增加了31.3%。
《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记_第4张图片
最后,在和目前先进的模型进行比较对比中,TSM的计算量和参数量与大多数2DCNN网络并无差异,但它在something-something上表现尤其突出,超过了TRN,ECO等优秀的2DCNN模型,与Non-local I3D相聘美。
《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记_第5张图片

你可能感兴趣的:(《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记)