论文解读2 OTAM《Few-Shot Video Classification via Temporal Alignment》少镜头动作识别

Few-Shot Video Classification via Temporal Alignment

基于时间对齐的少镜头视频分类

  • 有序时间对齐模块(OTAM):通过有序的时间对齐明确地利用了视频数据中的时间排序,提出的pipline在其对齐路径上学习关于新类代理的查询视频的深度距离测量,
  • 用于少镜头视频分类的有序时间对齐模块(OTAM),学习使用支持集中的相应代理来估计查询视频的有序时间对准分数。通过仅沿有序时间对齐路径整合片段距离来学习每个潜在查询支持对的匹配分数,这将强制预测距离以保持时间顺序。OTAM是完全可微的,因此可以对模型进行端到端训练,以优化少镜头学习目标。

语义匹配的帧对用蓝色虚线连接。箭头显示有序时间对齐路径的方向,如下图所示。
论文解读2 OTAM《Few-Shot Video Classification via Temporal Alignment》少镜头动作识别_第1张图片
流程图如下图所示:
论文解读2 OTAM《Few-Shot Video Classification via Temporal Alignment》少镜头动作识别_第2张图片

流程图的理解:
1.跟所有第一步处理都类似,先embed,把特征提取出来
按惯例时间维度的长度都为T(遵循TSN中描述的稀疏采样协议,该协议将视频序列划分为T个片段)
embed是使用CNN网络最后一个完全连接层之前的激活作为特征嵌入,不过全连接层,则得到了特征feature map ,n维度就是n way中的n(支持视频的种类)
2.图中得到两个 feature map,下面进行的是Inner Product ,即
在这里插入图片描述

相当于计算了一个余弦距离D,维度为(T,T,n),就是黄色的矩形D
在这里插入图片描述

最小化对准矩阵W和在帧级距离矩阵D之间的内积
理解:因为W⊂{0,1}T×T是可能的二进制对齐矩阵的集合,其中∀W∈ W、
如果视频xi的第l帧与第m帧对齐,则W lm=1。而此时,D应该是一个偏小的值,趋近于0的值;反之,当帧未对齐W lm=0,则两帧的差别较大,则D是应该是一个比较大趋近于1的值
故所以两者的内积在最小化时,达到最理想的情况,式2怎么解的,原文有说,就不赘述了
argmin算法的具体实现就是应用的DTW算法
csdn上面很多文章讲的已经很好了1.可参考12.可参考2

3.因此合理的视频距离度量:
在这里插入图片描述
即是图中的Alignment Score ,和训练时打好的标签lable一起,去做交叉熵损失,LOSS即如图2中最后和式8所示。
在这里插入图片描述

这张图就举了例子,如果不对齐,可能错误的support的分数就比之前的低,就错误的匹配了,但是,对齐之后,就产生了正确的匹配,从而得到了正确的结果。
论文解读2 OTAM《Few-Shot Video Classification via Temporal Alignment》少镜头动作识别_第3张图片

你可能感兴趣的:(深度学习,人工智能)