Skeleton-Based Action Recognition with Shift Graph Convolutional Network

基于shift图卷积网络的骨架动作识别

https://blog.csdn.net/qq_33331451/article/details/106860828

Abstract

利用骨骼数据进行动作识别是计算机视觉领域的研究热点。近年来,将人体骨骼建模为时空图的图卷积网络(GCNs)取得了显著的性能。然而,基于GCN方法的计算复杂度相当高,通常一个动作样本的计算复杂度超过15 GFLOPs。最近的作品甚至达到100 GFLOPs。另一个缺点是空间图和时间图的感受野都不灵活。虽然一些工作通过引入增量式自适应模块来增强空间图的表达能力,但其性能仍然受到规则GCN结构的限制。本文提出了一种改进的移位图进化网络(Shift-GCN)来克服这两个缺点。Shift-GCN不使用heavy regular 图卷积,而是由新的移位图操作和轻量点卷积组成,其中移位图操作为空间图和时间图提供了灵活的感受野。在基于骨架动作识别的三个数据集上,本文提出的Shift-GCN算法的计算复杂度明显比目前SOTA方法少10倍以上。

1.Introduction

传统的依靠ST-GCN(时空图卷积网络)的人体动作识别通常引入增量模块以增强表达能力和网络capacity。但是有两个缺点

(1)计算复杂度太高。ST-GCN达到16.2 GFLOPS,由于引入了增量模块和多流融合策略,有向无环图网络甚至达到了100 GFLOPS。

(2)空间图和时间图的接受域都是启发式预定义的,虽然双流网络进行了空间邻接矩阵的学习,但是表达能力仍然受到GCN空间规则的限制。

本文提出了移位图卷积网络(shift-GCN)来解决这两个缺点。Shift-GCN的灵感来自Shift CNNs,它使用轻量级的移位操作作为2D卷积的替代,并且可以通过简单地改变移位距离来调整感受野。提出的Shift GCN由空间Shift 图卷积和时间Shift 图卷积两部分组成。对于空间骨架图,作者提出了一种空间移位图操作,将信息从相邻节点转移到当前卷积节点,而不是使用三个具有不同邻接矩阵的gcn来获得足够的感受野。

通过将空间移位图操作与点卷积交错,信息在空间维度和通道维度上混合。具体来说,我们提出了两种空间移位图操作:局部移位图操作和非局部移位图操作。对于局部移位图操作,接收场由身体物理结构指定。在这种情况下,不同的节点具有不同数量的邻居,因此分别为每个节点设计了局部移位图操作。然而,局部移位图操作有两个缺点

  • 接受域是heuristically(试探性的/启发式)的预定义和局部的,不适合于建模骨骼之间的多样关系。
  • 由于不同节点的移位操作不同,一些信息直接被丢弃。为了解决这两个缺点,我们提出了一种非局部移位图操作,使得每个节点的接收场覆盖整个骨架图,并自适应地学习关节之间的关系。大量的烧蚀实验表明,即使规则空间图卷积的邻接矩阵是可学习的,我们的非局部移位图卷积仍优于规则空间图卷积。

对于时间骨架图,该图构造时间维度连续的帧的连接来实现。提出了两种时态移位图操作:单纯的时态移位图操作和自适应的时态移位图操作。单纯的时态移位图操作的感受野是人工设置的,这对于时间建模是不理想的:(1)不同的层可能需要不同的时间感受野。(2) 不同的数据集可能需要不同的时间感受野。这两个问题也存在于规则的一维时间卷积中,其核大小是手动设置的。我们的自适应时间移位图操作通过自适应地调整接收场来解决这两个问题。大量的消融研究表明,自适应时移图卷积比常规时移图卷积有更高的效率。

本文的主要工作如下:

  • 1)提出了两种空间骨架图建模的空间移位图操作。非局部空间移位图运算在计算上是有效的,并且取得了很强的性能。
  • 2) 针对时间骨架图模型提出了两种时间移位图操作。自适应时间移位图操作可以自适应地调整接收场,并且在计算复杂度上优于常规时间模型。
  • 3)在基于骨架的动作识别的三个数据集上,本文提出的移位GCN算法的计算量比现有的方法少10倍以上。
    Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第1张图片

2. Preliminaries

在本节中,我们简要概述了以前基于GCN的骨架动作识别模型和CNN中的移位模块。

2.1 基于GCN的骨骼动作识别

基于时空图卷积已经成功的应用于基于骨骼动作识别。空间图卷积一般将邻接矩阵分为3个部分:(1)本征点(2)离心点(3)向心点。时间卷积是通过连接连续帧的节点在时间维度上进行1D卷积作为时间卷积,通常设定卷积核为9。然而缺点是:(1)计算量太大。(2)感受野受限,表达能力受到规则GCN结构的限制。

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第2张图片

2.2. Shift CNNs

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第3张图片

3. Shift graph convolutional network

通过以上讨论,促使我们将轻量级移位操作引入到基于GCN的重型动作识别模型中。在本节中,我们提出了移位图卷积网络,它包括空间移位图卷积和时间移位图卷积。

3.1. Spatial shift graph convolution(空间移位图卷积)

引入从CNNs到GCNs的移位操作是具有挑战性的,因为图的特征不像图像的特征映射那样是有序的。在本小节中,首先讨论从CNNs到空间GCNs的类比。在此基础上,提出了空间骨架图的空间移位图卷积方法。

CNNs与GCNs的类比

CNNs中的规则卷积核可以看作是几个点卷积核的融合,每个核在指定的位置上操作,如图2(a)所示,颜色不同。例如,3×3卷积核是9个点卷积核的融合,每个点卷积核在“左上”、“上”、“右上”…“右下角”。

类似地,空间GCNs中的规则卷积核是3个点卷积核的融合,每个核在指定的空间分区上操作,如图2©所示,颜色不同。如第2.1节所述,空间分区由3个不同的相邻矩阵指定,分别表示“向心”、“root”、“离心”。

CNNs中的移位卷积包含移位操作和点卷积核,其中感受野是由shift操作,如图2(b)所示。

因此,移位图卷积应包含移位图操作和点方向卷积,如图2(d)所示。移位图操作的主要思想是将相邻节点的特征转移到当前卷积节点。具体地,我们提出了两种移位图卷积:局部移位图卷积和非局部移位图卷积。

Local shift graph convolution

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第4张图片

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第5张图片

Non-local shift graph convolution

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第6张图片

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第7张图片

3.2. Temporal shift graph convolution(时间移位图卷积)

在为每个骨架帧建立轻量级空间移位图卷积模型之后,设计轻量级时间移位图卷积来对骨架序列进行建模。

Naive(简单的,纯的) temporal shift graph convolution

图的时间处理是在时间维度上连接连续帧来构造。因此,CNNs中的移位操作可以直接扩展到时域。将通道平均划分为2 u + 1个分区,每个分区分别具有− u , − u + 1 , ⋅ ⋅ ⋅ ⋅ , 0 , ⋅ ⋅ ⋅ ⋅ , u − 1 , u的时间移位距离。移位后的通道被截断,空通道用零填充。在移位操作之后,每个帧从其相邻帧获取信息。通过将这种时间移位操作与时间点卷积相结合,我们得到了简单时间移位图卷积。

一般情况下,基于GCN的动作识别中规则时间卷积的核大小为9。与常规时间卷积相比,纯时间移位图卷积的计算量减少了9倍。

Adaptive temporal shift graph convolution(自适应时间移位图卷积

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第8张图片

3.3. Spatiotemporal shift GCN

为了与目前SOTA的方法进行比较,我们使用相同的主干(ST-GCN)来构建我们的时空位移GCN。ST-GCN骨干网由一个输入块和9个残差块组成,每个块包含一个规则的空间卷积和一个规则的时间卷积。我们用空间移位操作和空间点卷积来代替规则空间卷积。用时间移位操作和时间逐点卷积来代替常规的时间卷积。

将移位操作与逐点卷积相结合有两种模式:移位Conv和移位Conv shift,如图4所示。Shift-Conv-Shift模式具有更大的接收场,通常可以获得更好的性能。我们在烧蚀研究中证实了这一现象。

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第9张图片

4. Experiments

在本节中,我们首先进行详尽的消融研究,以验证我们提出的空间移位图操作和时间移位图操作的有效性和效率。 然后,我们将时空平移GCN与三个数据集上的其他最新方法进行了比较。

4.1 数据集和实验设置

NTU RGB+D. NTU RGB+D[19]包含56,880个骨骼动作序列,是评估基于骨骼的动作识别模型最广泛使用的数据集。动作样本由40名志愿者执行,并分成60个类。每个样本包含一个动作,保证最多有2个受试者,由3个Microsoft Kinect v2相机从不同视角同时捕捉。这个数据集的作者推荐了两个基准测试:

(1) cross-subject (X-sub) benchmark:训练数据来自20名受试者,测试数据来自另外20名受试者。

(2) cross-view (X-view) benchmark:训练数据来自摄像头视图2和视图3,测试数据来自摄像头视图1。

NTU-120 RGB+D. NTU-120 RGB+D[15]是目前最大的具有3D关节标注的数据集,用于人类动作识别。数据集包含120个操作类中的114,480个操作示例。样本由106名志愿者用3个摄像头拍摄。此数据集包含32个设置,每个设置表示一个特定的位置和背景。这个数据集的作者推荐了两个基准测试:

(1) cross-subject (X-sub) benchmark:将106名受试者分为训练组和测试组。每组53名受试者。

(2)交叉设置(X-setup)基准测试:训练数据来自设置id为偶数的样本,测试数据来自设置id为奇数的样本。

Northwestern-UCLA. Northwestern-UCLA数据集[29]由三个Kinect摄像头捕获。它包含了涵盖10个类别的1494个视频剪辑。每个动作由10个演员执行。在[29]中我们采用相同的评估协议,我们使用来自前两个摄像机的样本作为训练数据,另一个摄像机的样本作为测试数据。

Experiment Settings. 我们使用带有Nesterov动量(0.9)的SGD训练模型140个纪元。 学习率设置为0.1,然后在第60、80和100步除以10。对于自适应时间移位操作,将移位参数初始化为-1和1之间的均匀分布。对于NTU RGB + D和NTU-120 RGB + D ,批处理大小为64,我们在[21]中采用了数据预处理。 对于Northwestern-UCLA,批量大小为16,我们在[22]中采用数据预处理。 消融研究中的所有实验均使用上述设置,包括我们提出的方法和常规GCN方法。

4.2. Ablation Study

4.2.1 Spatial shift graph convolution(空间移位图卷积)

在本小节中,我们首先展示了空间移位图操作可以显著提高点卷积基线的性能。结果表明,空间移位图卷积的计算量比常规空间GCNs要少3倍以上。

改进空间点基线。 为了验证空间移位图运算能有效地扩大感受野,我们将ST-GCN中的规则空间卷积替换为简单的点卷积,构建了一个轻量级空间点向基线。我们的空间移位GCN和这个点向基线之间的唯一区别是插入空间移位操作。如表1所示,通过移位图操作,可以显著提高空间点向基线。具体来说,我们的非局部移位操作可以在NTU RGB+D X-view任务中提高3.6%的基线。

表1. 空间逐点卷积和我们的空间移位图卷积之间的比较

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第10张图片

空间移位图卷积的变体。 如表1所示,非局部移位图操作比局部移位图操作更有效。这说明非局部感受野对于基于骨架的动作识别具有重要意义。对于局部位移和非局部位移模型,Shift-Conv-Shift模式优于Shift-Conv模式。这是因为Shift-Conv-Shift模式具有更大的感受域。通过在移位特征上引入一个可学习的掩模,进一步提高了算法的性能。

与常规空间GCNs的比较。表2中,我们比较空间转变之下有三个常规空间GCN有效性和效率:a) ST-GCN[34],在相邻矩阵是固定一个预定义的人类图,b)适应性GCN[21],相邻矩阵是可学的,c) Adaptive-Nonlocal GCN[21],在相邻矩阵由非本地关注预测模块。表2中的所有模型都使用同一时间模型,这样我们可以集中评估不同空间模型的有效性和效率。

表2. 常规空间GCNs与我们的空间移位图GCN的比较

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第11张图片

如表2所示,我们的local shift GCN优于ST-GCN [34];我们的非局部shift GCN优于所有三家常规GCNs。更重要的是,我们的移位图卷积比常规的GCNs高效得多。与ST-GCN[34]和adaptive GCN[21]相比,我们的shift GCN轻3.6倍。与引入非本地注意模块的自适应非本地GCN[21]相比,我们的shift GCN轻5.2。在表2中,我们还仅使用一个以a为后缀的相邻矩阵构建了一个普通GCN的轻量级版本,这种方法的性能明显较差。这说明规则空间GCNs需要多个相邻矩阵来建模骨架之间的不同关系,导致计算成本较高。我们的非局部移位卷积可以用一种轻量的点向卷积来模拟不同骨架和不同通道之间的不同关系,更加有效和高效。

4.2.2 Temporal shift graph convolution(时间移位图卷积)

在本小节中,我们将空间模型固定为ST-GCN[34]的规则空间卷积,评估不同时间模型的有效性和效率。

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第12张图片

表3.时间点卷积、规则时间卷积、原始时间移位卷积和自适应时间移位卷积的比较。时间偏移卷积的计算代价比规则时间卷积小kt,其中kt是规则时间卷积的核大小。

改善时间点基线。 通过将ST-GCN[34]的常规时间卷积替换为时间点卷积,我们建立了一个时间点态基线。我们的时间移位图卷积和这个基线的唯一区别就是插入我们的时间移位操作。如表3所示,通过我们的时间移位图操作,可以显著改善点向基线。具体来说,我们的自适应时间移位操作可以提高15.0%的基线在NTU RGB+D X-view任务。

自适应时间移位的优越性。 我们比较了三种不同的时态模型:a)规则时间卷积;b)朴素时间移位操作;c)自适应时序移位操作。常规时间卷积和朴素时间移操作的接受野均由人工设置,而自适应时间移操作可以自适应地调整接受野。在表3中,我们穷举搜索时域卷积和朴素时域移位运算的最佳接收域。

自适应时间移位的可视化

我们分别在NTU RGB+D和Northwestern-UCLA上对自适应时移参数进行可视化训练。ST-GCN[34]中有10个时间块,每个块都被我们的移位-对流-移位模块替换,因此在一个模型中有20个自适应时间移位操作。我们将学习的位移参数从底层(输入层)可视化到顶层(输出层)。从图5中可以看出,顶层的移位参数往往大于底层,这意味着顶层需要更大的时间感受域,而底层则倾向于学习空间关系。注意,在视频分类领域,我们在[33]中穷尽搜索,找出哪一层应该使用时间卷积,他们的结论是在顶层应用时间卷积更有效。我们的自适应时间移操作学习适当的时间接受场每一层没有启发式设计或手动穷举搜索。

自适应时移操作的另一个优点是提高了模型在不同数据集上的泛化能力。如图5所示,在NWUCLA数据集上训练的位移参数往往小于NTU RGB+D数据集。这是合理的,因为NTU RGB+D中action样本的平均帧数(71.4帧)大约是NW-UCLA(39.4帧)的两倍。

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第13张图片

图5. 自适应时间移位的可视化

4.2.3时空移位GCN

空间移位图卷积和时间移位图卷积都比规则图卷积更有效。我们进行时空移位图卷积,进一步提高了性能和效率。如表4所示,时空移位GCN比ST-GCN[34]表现好1.7%,计算成本少6.5倍。

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第14张图片

表4.时空平移图卷积的有效性和效率。 精度是在NTU RGB + D X视图任务上执行的

4.3. Comparison with the state-of-the-art

许多最先进的方法都采用了多流融合策略。为了进行公平的比较,我们采用了与[20]相同的多流融合策略,该策略使用了4个流。第一个流使用原始骨架坐标作为输入,称为联合流;第二种流使用空间坐标的微分作为输入,称为骨流;第三流和第四流以时间维度上的差异为输入,分别称为关节运动流和骨运动流。将多个流的softmax分数相加,得到融合的分数。

我们的时空偏移GCN (shift -GCN)有三种设置:1-stream,只使用联合流;2-流,同时使用关节流和骨流;4-stream,它使用所有4个流。为了验证我们方法的优越性和通用性,我们将shift GCN与最先进的方法在三个数据集上进行比较:NTU RGB+D数据集[19]、西北- ucla数据集[29]和最近提出的NTU-120 RGB+D数据集[15],分别如表5、表6和表7所示。我们给出了在NTU RGB+D X-sub任务上达到85%以上的方法的计算复杂度2。

在NTU RGB + D上,1s-Shift-GCN的精度高于2s-AS-GCN [12],而计算成本却降低了10.8倍; 2s-Shift-GCN可以与当前的最新方法4s-Directed-GNN [20]相比较,但计算量却少25.4倍。 4s-Shift-GCN显然比4s-directed-GNN [20]减少了12.7倍的计算量,超过了所有现有技术。 在Northwestern-UCLA数据集上,我们的2s-Shift-GCN在0.9%的情况下优于当前最新的2s-AGC-LSTM [22],计算复杂度降低了33.0倍。 在NTU-120 RGB + D数据集上,我们显然超过了以前报告的所有性能。

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第15张图片

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第16张图片

Skeleton-Based Action Recognition with Shift Graph Convolutional Network_第17张图片

  1. Conclusion

本文提出了一种新的基于骨架的移动图卷积网络(shift - gcn),该网络由空间移动图卷积和时间移动图卷积组成。我们的非局部空间移位图卷积在计算量少的情况下明显优于常规图卷积。我们的自适应时移图卷积可以自适应地调整接收域,并且具有很高的效率。在三个基于骨架的动作识别数据集上,提出的Shift-GCN明显超过了目前最先进的方法,计算成本减少了10倍以上。

你可能感兴趣的:(自己的笔记,深度学习)