Author: Chiara Plizzari
Chinese Title: 《基于骨架动作识别的时空Transformer网络》
Classification: Action Rec
Progress: Finished
Publication: ICPR 2020
Reading Date: November 24, 2021
多亏了3D姿态估计设别的优势,基于骨骼的动作识别近些年发展很快。但是对于提取上下文感知的细粒度时空特征,有潜力释放真正潜力在动作识别上的算法和神经网络目前还是很缺乏这类文献。
目前广泛流传,效果不错的方法就是AAAI发表的ST-GCN。有了非欧几里德数据的有效表示,该网络因此可以有效地捕捉时间和空间信息。
欧几里德数据:它是一类具有很好的平移不变性的数据。对于这类数据以其中一个像素为节点,其邻居节点的数量相同。所以可以很好的定义一个全局共享的卷积核来提取图像中相同的结构。常见这类数据有图像、文本、语言。
非欧几里德数据:它是一类不具有平移不变性的数据。这类数据以其中的一个为节点,其邻居节点的数量可能不同。常见这类数据有知识图谱、社交网络、化学分子结构等等。
但它也同样存在一些结构上的局限性:
t时刻,第i个结点的query 和第j个结点key 进行dot product后的得到分数:αij, 再用j的value 进行加权求和。
α i j t = q i t ⋅ k j t \alpha_{ij}^t=q_i^t \cdot k_j^t αijt=qit⋅kjt
z i t = ∑ s o f t m a x j ( a i j t d k ) v j t z_i^t = \sum softmax_j(\frac{a_{ij}^t}{\sqrt{d_k}})v_j^t zit=∑softmaxj(dkaijt)vjt
新求出的z组成了结点i新的映射embedding。
沿着时间维度上,每个结点的动态信息都是单独研究地。框架之间的相关性是通过沿着时间维度比较同一身体关节的特征来计算的。
其公式刚好与SSA的对称, i v i^v iv 和 j v j^v jv 代表同一关节点在两不同的时刻
α i j v = q i v ⋅ k j v \alpha_{ij}^v=q_i^v \cdot k_j^v αijv=qiv⋅kjv
z i v = ∑ s o f t m a x j ( a i j v d k ) v j v z_i^v = \sum softmax_j(\frac{a_{ij}^v}{\sqrt{d_k}})v_j^v ziv=∑softmaxj(dkaijv)vjv
该模块通过提取结点之间的帧间关系,可以学习将互相之间的帧联系起来,捕捉到标准卷积不可能捕捉到的判别特征,因其受卷积核大小的限制。
为了结合SSA和TSA,采用了一种双流结构。在两个流中,简单的特征提取通过三层残差网络提取,其中每一层通过GCN处理空间维度上的输入,并通过标准的二维卷积TCN处理时间维度上的输入,如ST-GCN。SSA和TSA分别应用在S-TR和T-TR以替代GCN和TCN,每个流都通过标准交叉熵损失进行训练,子网络的输出最后再通他们的softmax分数融合来计算预测值。
S − T R ( x ) = C o n v 2 D ( 1 ∗ K t ) ( S S A ( x ) ) S-TR(x) = Conv_{2D(1*K_t)}(SSA(x)) S−TR(x)=Conv2D(1∗Kt)(SSA(x))
Conv是卷积核大小为Kt的时序卷积
T − T R ( x ) = T S A ( G C N ( x ) ) T-TR(x) = TSA(GCN(x)) T−TR(x)=TSA(GCN(x))
主要挖掘帧之间的时序关系,与S-TR一样,在每个T-TR层内都包含一个标准图卷积子模块,TSA作用在整个时间维度上的相同关节点链接的图
将自己的方法在NTU-60与NTU-120上与其他利用关节和关节+骨骼信息的单流或双流结构方法进行了比较。数据结构表示都优于之前方法,证明了本文方法比只依赖于卷积的结构更有优势!