Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition[ICCV2021]

Paper: https://openaccess.thecvf.com/content/ICCV2021/papers/Chen_Channel-Wise_Topology_Refinement_Graph_Convolution_for_Skeleton-Based_Action_Recognition_ICCV_2021_paper.pdf

Code: https://github.com/Uason-Chen/CTR-GCN

目录

motivation

图卷积方法——CTR-GC

Feature transformation:

Channel-wise Topology Modeling.

Channel-wise Aggregation.

 基于骨骼的人体行为识别网络:CTR-GCN

创新点  


motivation

st-gcn的拓扑关系是手动定义的,很难实现非自然链接的关节之间的关系建模,并且限制了gcn的表示能力。为了改进这一点,2s-AGCN、DGCN和SGN等采取了注意力等机制来自使用学习骨骼点间的拓扑特征。但这些文章虽然使用了注意力等机制来自适应的学习拓扑特征,但是在每一次卷积时,所有通道的拓扑结构都是相同的,这其实就限制了特征提取的灵活性。在人体姿态估计这一领域,作者说不同的通道代表不同类型的运动特征(因为是分类任务),不同运动特征下的关节之间的相关性并不总是相同,因此使用一个共享的拓扑并不是最优的。

之前有过一篇工作为每个通道设置了单独的参数,来单独学习每个通道的特征,但是这使得模型变得很大。并不像之前的文章单独学习每个通道的拓扑特征这样粗暴的方式,CTR-GC同时学习了两个特征:一个共享的拓扑特征和通道特定的相关性。共享拓扑特征就是邻接矩阵,充当所有通道的先验,并提供顶点之间的一般关系。

Shared topology是为所有通道共享的邻接矩阵,充当先验;不同的颜色代表不同的通道;线的厚度表示顶点的关系强度。channel specific correlations是学习出来的,两者相加就得到了逐通道的拓扑结构。

Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition[ICCV2021]_第1张图片

作者将目前的方法按两种角度分别分成了两类:Static / Dynamic Methods、Topology-shared / Topology-non-shared Methods. 目前在基于骨骼点的行为识别领域topology-non-shared gcn很少被研究。并且作者说这篇文章是第一个建模dynamic channel-wise topologies的工作。

static method: 拓扑结构提前定义,在训练过程中保持不变;dynamic method:在推理过程中动态地推断gcn的拓扑结构。

Topology-shared方法中,动态和静态方法的拓扑结构在所有通道中都被共享。限制了模型 上界。Topology-non-shared方法在不同的channel或channel-group之间使用不同的拓扑结构,

图卷积方法——CTR-GC

Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition[ICCV2021]_第2张图片

Feature transformation:

T(·)就是一个全连接层,将(N,C)维的特征转换成(N,C')的特征,以在尺寸上与待会的the channel-wise topologies R 相匹配。

Channel-wise Topology Modeling.

邻接矩阵A是学习得到的,所有通道共享。对原始的特征X∈中的xi和xj∈(1,C),先使用两个全连接层ф和ψ对其进行降维至(1,c)以减小计算量,然后使用M(·)对这对顶点在每个通道上的连接关系进行建模,文章给出了两种建模公式:

 

 σ是激活函数,||表示拼接操作。M函数输出的结果为(1,c),ξ是一个全连接层,转换维度至C'。 对每一对i,j执行上面的操作,就得到了Q∈(N,N,C'),每一层都是逐通道的连接关系,使用Q来细化共享的邻接矩阵A,就得到了the channel-wise topologies R ∈ (N×N×C′)  

Channel-wise Aggregation.

每一个通道都有一个特定的邻接矩阵和特征。最后对每个通道上的特征执行图卷积并拼接。得到输出Z。  

  

 基于骨骼的人体行为识别网络:CTR-GCN

Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition[ICCV2021]_第3张图片

创新点  

是一种动态的拓扑不共享的图卷积方式,不仅层与层之间的拓扑关系不同,通道与通道间的拓扑关系也不同,这使得GCN在对拓扑信息表征能力得到提升;

你可能感兴趣的:(论文阅读笔记,人工智能,深度学习,神经网络)