TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】

目录

0、前沿

1、标题

2、摘要

3、结论

4、重要图表

5、解决了什么问题

6、采用了什么方法

7、达到了什么效果


0、前沿

        泛读我们主要读文章标题,摘要、结论和图表数据四个部分。需要回答用什么方法,解决什么问题,达到什么效果这三个问题。 需要了解更多视频理解相关文章可以关注视频理解系列目录了解当前更新情况。

        TSM论文下载:

https://openaccess.thecvf.com/content_ICCV_2019/papers/Lin_TSM_Temporal_Shift_Module_for_Efficient_Video_Understanding_ICCV_2019_paper.pdfhttps://openaccess.thecvf.com/content_ICCV_2019/papers/Lin_TSM_Temporal_Shift_Module_for_Efficient_Video_Understanding_ICCV_2019_paper.pdf

1、标题

        TSM: Temporal Shift Module for Efficient Video Understanding

        用于高效视频理解的时间位移模块

2、摘要

       The explosive growth in video streaming gives rise to challenges on performing video understanding at high accuracy and low computation cost. Conventional 2D CNNs are computationally cheap but cannot capture temporal relationships; 3D CNN based methods can achieve good performance but are computationally intensive, making it expensive to deploy. In this paper, we propose a generic and effective Temporal Shift Module (TSM) that enjoys both high efficiency and high performance. Specifically, it can achieve the performance of 3D CNN but maintain 2D CNN’s complexity.

        TSM shifts part of the channels along the temporal dimension; thus facilitate information exchanged among neighboring frames. It can be inserted into 2D CNNs to achieve temporal modeling at zero computation and zero parameters. We also extended TSM to online setting, which enables real-time low-latency online video recognition and video object detection. TSM is accurate and efficient: it ranks the first place on the Something-Something leaderboard upon publication; on Jetson Nano and Galaxy Note8, it achieves a low latency of 13ms and 35ms for online video recognition. The code is available at: https://github. com/mit-han-lab/temporal-shift-module.

        视频流的爆炸性增长给视频理解的高精度和低计算成本带来了挑战。传统的2D CNN计算成本低,但不能捕获时序关系;基于3D CNN的方法可以获得良好的性能,但计算量大,部署成本高。我们提出了一种通用的、有效的、具有高效率和高性能的时间转移模块(TSM)。具体来说,它既能达到3D CNN的性能,又能保持2D CNN的复杂性。

        TSM沿时间维度转移部分通道;从而促进相邻帧之间的信息交换。它可以插入到2D CNN中,实现零计算、零参数的时态建模。我们还将TSM扩展到能在线设置,实现实时低延迟在线视频识别和视频对象检测。TSM准确度高且高效:它在SS数据上排名第一;在Jetson Nano和Galaxy Note8上,它的在线视频识别延迟较低,分别为13ms和35ms。代码放在:https://github. com/mit-han-lab/temporal-shift-module.

3、结论

        We propose Temporal Shift Module for hardware-efficient video recognition. It can be inserted into 2D CNN backbone to enable joint spatial-temporal modeling at no additional cost. The module shifts part of the channels along temporal dimension to exchange information with neighboring frames. Our framework is both efficient and accurate, enabling lowlatency video recognition on edge devices.

        我们提出了硬件处理高效的视频识别时间移位模块。 它可以插入到2D CNN骨干网络中,以实现联合时空建模,而无需额外的成本。该模块沿时间维度移动部分信道以与相邻帧交换信息。我们的框架既高效又准确,能够在边缘设备上实现低延迟的视频识别。

4、重要图表

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第1张图片

         图1:时间转移模块(TSM)通过沿时间维移动特征图来执行高效的时间建模。它在2D卷积的基础上无需计算,但具有很强的时间建模能力。TSM能有效支持离线和在线视频识别。双向TSM将过去、未来帧与当前帧混合,适合高吞吐量的离线视频识别。单向TSM只将过去帧和当前帧混合,适合低时延的在线视频识别。

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第2张图片

        图2: (a)由于数据移动导致的TSM延迟开销(b)残差TSM的性能优于直接位移。我们选择1/4比例的残差位移作为默认设置。它以微小的开销实现了更高的精度。        

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第3张图片

         图3:残差位移比直接位移更好。直接位移发生在卷积层之前。残差位移融合了残差分支的时间信息

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第4张图片

         图4:适用于在线视频识别的单向TSM

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第5张图片

表1: 我们的方法在无需额外计算的情况下,在多个数据集上始终优于2D对应方法

 TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第6张图片

        表2:在SS数据集上比较TSM和其他方法

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第7张图片

         表3:TSM可以提高不同骨干网络在Kinetics上的性能。

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第8张图片

         表4:SSv2上,TSM获得SOTA

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第9张图片

         表5:在SSv1上,TSM比I3D族和ECO族有更好的性价比(精度-成本权衡)

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第10张图片

        表5: TSM具有较低的GPU推断时延和较高的吞吐量。V/s表示每秒视频数量,越高越好。

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第11张图片

        表6:不同的数据集上比较离线和在线TSM。在线TSM的时延可忽略不计。 

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第12张图片

        图6:在UCF101的早期识别情况。TSM只需要观察一小部分视频,就能给出较高的预测精度。在主干设计中,我们将所有TSM替换为3X1X1卷积,表示该模型为I3D replace。它仍然比TSM慢得多,性能也更差。

 

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第13张图片

        表7:ImageNet-VID的视频检测任务结果

TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】_第14张图片

        表8:TSM能高效的运行在边缘设备上

5、解决了什么问题

        3D CNN成本高,2D CNN成本低,精度高,但不能作用与视频上

6、采用了什么方法

        相邻帧交换信息,构建TSM模块

7、达到了什么效果

        SS排名第一,边缘设备依然可用

你可能感兴趣的:(论文阅读笔记,目标检测,神经网络,深度学习,计算机视觉,视觉检测)