视频理解论文精读笔记

视频理解论文精读笔记_第1张图片
视频理解领域发展历程:
1.2D时代:在深度学习出来之后就有将深度学习用于视频理解领域的工作了(deepvideo),但效果很差,甚至远远不如手工提特征的IDT,于是有人想到了将运动的轨迹(光流)与一个静态图特征提取网络相叠加,因此就有了双流网络,在此基础上也有许多人做了其他工作,如将双流网络的后混改为前混(early fusion);改变双流网络的主干网络等等。
2.3D时代:对于视频理解,一个很直觉的操作就是将原来用于识别图片的网络增加一个维度(时间),用于视频理解任务,因此就有了3D网络的想法,第一个工作是C3D,就是直接将2D卷积神经网络增加一个维度用于视频理解,但效果并不好,有人认为是因为网络初始化不好导致模型不好训练,于是有了I3D网络:在用imagenet数据集预训练了一个2D模型后直接扩展成3D模型,效果不错,因此也有了后续工作,如将主干网络改成resnet的R3D等;将3D时空特征分开处理以减少3D模型的内存显存占用量的R(2+1)D等、为了更好地利用视频里的时序信息,采用LSTM、non-local等结构的LTC、T3D、non-local模型等、利用生物学知识,将输入拆分为一个快特征和一个慢特征输入的slowfast模型等,最后X3D由于其模型可以自己搜索效果好的网络模型,参数量也更少,终结了3D网络的探索。
3.transformer时代:由于vision transformer的诞生,就产生了基于vit的在视频理解上的工作,有timesformer、vidtr、vivit、mvit等,其核心思想基本相同,都是将视频输入3维的特征拆分为时间和空间来单独做自注意力,或拆分为局部和全局做自注意力,主要是为了降低显存的占用,同时也没有掉精度,并且timesformer训练和推理的开销都很低。有了video transformer,视频理解可以尝试更长时间的任务。
视频理解领域的前景:
视频本身作为一个多模态的输入,就是一个很好的视觉特征,目前视频理解领域的工作还在起步阶段,能做的还有很多,如利用多模态输入对比学习得到一个很好的特征(如图片和文本交叉领域的CLIP)等。

你可能感兴趣的:(深度学习,transformer,人工智能)