论文解读3 TRX《Temporal-Relational CrossTransformers for Few-Shot Action Recognition》少镜头动作识别 CVPR2021

Temporal-Relational CrossTransformers for Few-Shot Action Recognition

用于少镜头动作识别的时间关系交叉变换器

使用CrossTransformer注意力机制来构建类原型,以观察所有支持视频的相关子序列
本文中,关注K>1的K-shot,即支持集包含多个视频
论文解读3 TRX《Temporal-Relational CrossTransformers for Few-Shot Action Recognition》少镜头动作识别 CVPR2021_第1张图片
流程图如上,也比较好理解。

准备:

C-way K-shot
Q={q1,··,qF}是具有F个均匀采样帧的查询视频
对于类C,其支持集Sc包含K个视频,其中第K个视频表示为Sck={sck1,··,sckF}(含F帧)

Temporal CrossTransformer

索引p=(p1,p2)的查询视频中采样一对有序帧,其中1≤ p1

一、查询表示定义为:

在这里插入图片描述
式中Φ:RH×W×3 → RD是用于获得输入帧的D维嵌入的卷积网络,PE(·)是给定帧索引的位置编码PositionalEmbedding,最终维度为R2*D

二、支持集视频定义为:

在这里插入图片描述
所有sckm(满足视频集的数k在k shot内,m在Ⅱ内)
在这里插入图片描述
在这里插入图片描述
即意味着视频种类c编号为k的视频取两帧在编号(1-F帧内),然后也进行了卷积神经网络提取特征RH×W×3 → RD,并且PositionalEmbedding,最终维度为R2*D

三、提出了一种基于空间CrossTransformer(帧对),以计算特定于查询的类原型。

CrossTransformer包括查询Γ、键Γ和值∧线性映射,这些映射在类之间共享:
在这里插入图片描述
,将R2*D转化为Rdv、dk

两者的对应关系:
在这里插入图片描述
其中L是标准层归一化
在这里插入图片描述
Softmax归一化一下,对应关系强的在后续占比大,对于所有k,对于所有m,即意味着对于c类,只单对一种支持视频而言,该视频所有的k shot,每一shot的所有帧数,去做一个加权的归一化。所以该公式这么去写

为了计算特定于查询的原型,结合支持集的值嵌入:
在这里插入图片描述
在这里插入图片描述
特征转化为dv维,即得到query和support的value,
然后用关系加权技术去对每一个块做一下加权和,求出对于该特定C类support而言
Query的value
在这里插入图片描述
所以从该选出的两帧query对该c类support的距离为
在这里插入图片描述
所以,穷尽所有查询中的两帧组合,得到了最终的距离:
在这里插入图片描述
训练时,每个query-class距离取负作为损失进行传播,在预测时,选取最小距离的类作为query视频的类
在这里插入图片描述

四、但是想要找到一对能最好的表示该视频动作是一件非常困难的任务

因为作者提出构建多个随机选取的帧对来进行比较。同时作者通过考虑任意长度的有序子序列将temporal crossTransformer扩展到temporal Relational CrossTransformer(即还考虑了2.3.4维的情况,即随机取2.3.4张query的帧)。
论文解读3 TRX《Temporal-Relational CrossTransformers for Few-Shot Action Recognition》少镜头动作识别 CVPR2021_第2张图片

你可能感兴趣的:(人工智能,深度学习,算法)