[AAM-GCN Neurocomputing2021] Attention adjacency matrix based graph convolutional networks for skele

论文:[AAM-GCN Neurocomputing2021] Attention adjacency matrix based graph convolutional networks for skeleton-based action recognition;

该论文最主要的工作就是提出了一个注意力邻接矩阵(AAM:attention adjacency matrix,其中这个矩阵包含两部分EPN和ATM),从而解决了以往图卷积对过平滑(over-smoothing)的问题,且由于该矩阵引入了更加灵活的分区策略增强了泛化能力与灵活性;即与ST-GCN相比,该策略有两个优点:1)有效地解决了图卷积中的过平滑问题,成功地摆脱了对手工设计的重心的依赖;2)进一步实现了随着图的拓扑结构复杂度的增加而自动增加卷积核数的功能。

还有一个就是引入了3个维度的注意力机制:时间维度、通道维度和节点维度,以提高模型的性能,增强了各维度的区分性。

动机:图卷积的存在特征过平滑的问题,即图卷积的邻居节点的特征混合使得所有节点的特征缺乏分辨性。这主要是由于分区策略(也就是邻接矩阵)导致的。而且依赖与人工设计的中心来分区也缺乏灵活性;泛化能力有限。

具体来说:

这篇论文主要的工作有:

1)在传统图卷积框架(ST-GCN)中,首先将其中的Conv-s部分引入了深度可分离卷积(depthwise separable convolution),当然其也做了更改:

[AAM-GCN Neurocomputing2021] Attention adjacency matrix based graph convolutional networks for skele_第1张图片

参见Google的Xception;

与Xception相比有3点不同:

1】先进行Pointwise卷积再进行Depthwise卷积;

2】将Depthwise卷积换成了GCN;

3】中间进行了注意力attention_C。

而与st_gcn相比,这里PointWise卷积与其中图卷积的第一步:使用3*in_channel个1*1卷积扩充通道为3倍并乘以权重的作用基本一致;而不同的是第二步进行Depthwise卷积中的图卷积相当于不再使用输入特征图通道共享权重(换句话也就是共享卷积核)了,而是每个通道使用不同的卷积核(也就是邻接矩阵A),而且卷积核(A)个数也有3个变为D个。

2)紧接1),其中引入深度可分离卷积中“将Depthwise卷积换成了GCN”中的GCN,其卷积不再使用传统的ST-GCN分为3个子集进行卷积,而是引入AAM作为邻接矩阵:其中该邻接矩阵的生成有两大部分:

1】分区策略的EPN:

通过EPN,模型摆脱了重心的依赖,建立了与卷积核数量之间的关系;EPN平等地对待每个节点及其邻居,而不是根据它们与重心的距离对它们进行分类。

其将子集分为D份,其中这个D为所有节点中的最大邻居数;也就是将A(已加自连接)分为A1~AD;

A1包含A中对角元素,注意此时:A=A-A1

然后按从上到下的顺序分别:

A2包含A中每一列第一个非0元素,此时A=A-A2;

A3包含A中每一列第一个非0元素,此时A=A-A3;(后面以此类推)

直至A中所有元素为0则停止。

最后就可以得到一个D个子集的分区;分好区后进行赋权重操作。

2】自注意力ATM:

对于A中所有节点赋权重后的结果进行自注意力生成node*node尺寸的注意力图,并将该注意力图按元素加到EPN分好区赋好权重后的结果中;并得到最终的邻接矩阵。

整个过程以3个节点的情况举例,全过程如下图:

[AAM-GCN Neurocomputing2021] Attention adjacency matrix based graph convolutional networks for skele_第2张图片

2dimension-attention

分别从3个维度进行注意力操作,具体如下图所示:

[AAM-GCN Neurocomputing2021] Attention adjacency matrix based graph convolutional networks for skele_第3张图片

3)总体框架如下图所示:

[AAM-GCN Neurocomputing2021] Attention adjacency matrix based graph convolutional networks for skele_第4张图片

你可能感兴趣的:(骨架动作识别,人工智能,计算机视觉,深度学习)