【论文阅读笔记】Spatial Temporal Transformer Network for Skeleton-based Action Recognition

Author: Chiara Plizzari
Chinese Title: 《基于骨架动作识别的时空Transformer网络》
Classification: Action Rec
Progress: Finished
Publication: ICPR 2020
Reading Date: November 24, 2021

Intro:

多亏了3D姿态估计设别的优势,基于骨骼的动作识别近些年发展很快。但是对于提取上下文感知的细粒度时空特征,有潜力释放真正潜力在动作识别上的算法和神经网络目前还是很缺乏这类文献。

目前广泛流传,效果不错的方法就是AAAI发表的ST-GCN。有了非欧几里德数据的有效表示,该网络因此可以有效地捕捉时间和空间信息。

欧几里德数据:它是一类具有很好的平移不变性的数据。对于这类数据以其中一个像素为节点,其邻居节点的数量相同。所以可以很好的定义一个全局共享的卷积核来提取图像中相同的结构。常见这类数据有图像、文本、语言。

非欧几里德数据:它是一类不具有平移不变性的数据。这类数据以其中的一个为节点,其邻居节点的数量可能不同。常见这类数据有知识图谱、社交网络、化学分子结构等等。

但它也同样存在一些结构上的局限性

  • 对于所有层和动作,表示人体结构的拓扑图是固定的,这就导致无法获取更丰富的表示。
  • 空间和时间上的卷积只能应用标准的2维卷积,因此只能局限操作在领域范围内。
  • 由于以上两点,,在人体骨骼中没有连接的身体关节之间的相关性则会被低估,例如拍手时,左手和右手,他们实际相对位置较远。

Contributions:

  • 提出一个创新性的双流Transformer模型,分别把自注意力应用在时间和空间维度上。
  • 设计了一个空间注意力模块SSA来动态构建关节点之间的联系,表示人体部位之间的关系。在时间维度上,我们引入时间注意力模块TSA去学习时间上节点的动态信息。
  • 我们的方法超过了ST-GCN基准以及其他在NTU数据集表现优异的方法。

Spatial Temporal Transformer Networks:

【论文阅读笔记】Spatial Temporal Transformer Network for Skeleton-based Action Recognition_第1张图片

Spatial Self-Attention(SSA)

t时刻,第i个结点的query 和第j个结点key 进行dot product后的得到分数:αij, 再用j的value 进行加权求和。

α i j t = q i t ⋅ k j t \alpha_{ij}^t=q_i^t \cdot k_j^t αijt=qitkjt

z i t = ∑ s o f t m a x j ( a i j t d k ) v j t z_i^t = \sum softmax_j(\frac{a_{ij}^t}{\sqrt{d_k}})v_j^t zit=softmaxj(dk aijt)vjt

新求出的z组成了结点i新的映射embedding。

Temporal Self-Attention(TSA)

沿着时间维度上,每个结点的动态信息都是单独研究地。框架之间的相关性是通过沿着时间维度比较同一身体关节的特征来计算的。
其公式刚好与SSA的对称, i v i^v iv j v j^v jv 代表同一关节点在两不同的时刻

α i j v = q i v ⋅ k j v \alpha_{ij}^v=q_i^v \cdot k_j^v αijv=qivkjv

z i v = ∑ s o f t m a x j ( a i j v d k ) v j v z_i^v = \sum softmax_j(\frac{a_{ij}^v}{\sqrt{d_k}})v_j^v ziv=softmaxj(dk aijv)vjv

该模块通过提取结点之间的帧间关系,可以学习将互相之间的帧联系起来,捕捉到标准卷积不可能捕捉到的判别特征,因其受卷积核大小的限制。


Two-Stream Spatial Temporal Transformer Network:

为了结合SSA和TSA,采用了一种双流结构。在两个流中,简单的特征提取通过三层残差网络提取,其中每一层通过GCN处理空间维度上的输入,并通过标准的二维卷积TCN处理时间维度上的输入,如ST-GCN。SSA和TSA分别应用在S-TR和T-TR以替代GCN和TCN,每个流都通过标准交叉熵损失进行训练,子网络的输出最后再通他们的softmax分数融合来计算预测值。

【论文阅读笔记】Spatial Temporal Transformer Network for Skeleton-based Action Recognition_第2张图片

Spatial Transformer Stream(S-TR)

S − T R ( x ) = C o n v 2 D ( 1 ∗ K t ) ( S S A ( x ) ) S-TR(x) = Conv_{2D(1*K_t)}(SSA(x)) STR(x)=Conv2D(1Kt)(SSA(x))

Conv是卷积核大小为Kt的时序卷积

Temporal Transformer Stream(T-TR)

T − T R ( x ) = T S A ( G C N ( x ) ) T-TR(x) = TSA(GCN(x)) TTR(x)=TSA(GCN(x))

主要挖掘帧之间的时序关系,与S-TR一样,在每个T-TR层内都包含一个标准图卷积子模块,TSA作用在整个时间维度上的相同关节点链接的图


Results:

【论文阅读笔记】Spatial Temporal Transformer Network for Skeleton-based Action Recognition_第3张图片

将自己的方法在NTU-60与NTU-120上与其他利用关节和关节+骨骼信息的单流或双流结构方法进行了比较。数据结构表示都优于之前方法,证明了本文方法比只依赖于卷积的结构更有优势!


Conclusion:

  • 提出一个基于骨骼动作识别的创新Transformer框架以替代图卷积方法
  • 通过在NTU-60和NTU-120进行实验表明我们的SSA可以取代图卷积,实现更灵活和动态的表示。TSA克服了标准卷积的严格定位,可以进行全局动作模式的提取。
  • ST-TR在NTU-RGB-D数据集上实现了SoTA表现

你可能感兴趣的:(论文笔记,计算机视觉,深度学习,分类)