论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022

Spatio-temporal Relation Modeling for Few-shot Action Recognition

少镜头动作识别的时空关系建模

文章链接:https://arxiv.org/abs/2112.05132
C-way K-shot L帧
论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022_第1张图片
第一步:
常规操作,L视频帧通过图像特征提取器,该提取器输出空间分辨率为P×P的D维帧特征,对帧特征进行空间展平,维度变为p2×D(reshape)

第二步:
通过spatio-temporal enrichment module 中的Enriching Local Patch Features(PLE)
增强单个帧中的局部补丁特征,在每个帧内局部地聚集空间上下文。这使得能够聚焦于帧中的相关对象。
论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022_第2张图片
先position embedding一下输入的xi,值嵌入通过查询和键之间的标准化成对得分重新加权,以获得关注特征αi。
在这里插入图片描述
最后将attention通过子网络(3-layer Bottleneck MLP followed by a residual layer),得到输出结果
在这里插入图片描述

第三步:
通过spatio-temporal enrichment module 中的frame level enrichment (FLE)
增强全局帧特征在时间上跨越视频中的帧,在视频内的帧之间全局地富集时间上下文。
(引入了MLP 作为Google ViT团队最近刚提出的一种的CV框架,MLP-Mixer使用多层感知机(MLP)来代替传统CNN中的卷积操作(Conv)和Transformer中的自注意力机制(Self-Attention))

论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022_第3张图片
先 avg一下(torch.mean())得到FLE的输入
论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022_第4张图片
再通过两个MLP模块(nn.Linear+nn.ReLU+nn.Linear,再加上本身)
论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022_第5张图片
空富集模块利用了局部和全局、样本依赖和样本不可知的富集机制的优势,以改进行动的空间和时间上下文的聚合。结果,随着在较低基数表示中同化高阶时间关系,获得了特定于类的区分特征。

第四步:
Loss由两部分组成,交叉熵损失,λ=0.1
在这里插入图片描述

你可能感兴趣的:(深度学习,人工智能)