[AM-GCN Applied Intelligence2021] Triplet attention multiple spacetime-semantic graph convolutional

论文:[AM-GCN Applied Intelligence2021] Triplet attention multiple spacetime-semantic graph convolutional network for skeleton-based action recognition;

在本文中,最主要的工作就是采用了时空特征与语义特征双流的特征提取操作,并使用3个维度的注意力机制在每个流中提高准确性,最后将两个流中的特征进行融合。以此通过语义信息的加成增强不同动作特征的特异性,并且加之以3个维度的注意力,也可以减少复杂动作对冗余视频帧的敏感性。

动机:对不同动作而言需要保证模型所提取到特征的特异性,如添加语义信息,那么模型的识别精度能够提高;

具体而言:

1)在基于GCN的网络模型中,前、中和后曾得到的特征图时间维度分别为:t,t/2和t/4,随后作者将这些层级的特征图分别表示为fi,fj和fk。并直接将fk(即骨干网络最终的原始输出)作为语义信息,表示为fse;

其时空特征图计算如下图所示:

[AM-GCN Applied Intelligence2021] Triplet attention multiple spacetime-semantic graph convolutional_第1张图片

当个连接中的通道维度都是通过1*1卷积变换,fk开始的t/4是通过上采样变为t/2;两个连接特征图维度翻倍是通过拼接将两个特征图合并的。

最后得到的c*2t*n就是最终的多时空特征图表示fst。

2)随后进行多维的注意力机制操作,如下图所示:

[AM-GCN Applied Intelligence2021] Triplet attention multiple spacetime-semantic graph convolutional_第2张图片

3)紧接着就是双流信息的融合操作:

[AM-GCN Applied Intelligence2021] Triplet attention multiple spacetime-semantic graph convolutional_第3张图片

其中这里的μatt就是3维注意力;

[AM-GCN Applied Intelligence2021] Triplet attention multiple spacetime-semantic graph convolutional_第4张图片

fstout,fseout将得到两种预测结果;

4)故:AM-GCN的总体网络结构如下图所示:

[AM-GCN Applied Intelligence2021] Triplet attention multiple spacetime-semantic graph convolutional_第5张图片

你可能感兴趣的:(骨架动作识别,人工智能,计算机视觉,深度学习)