Graph Convolutional Networks (GCNs)已经展示了其对不规则数据(如人体动作识别中的骨骼数据)建模的强大能力,这提供了一种令人兴奋的新方法,为居住在图中不同部分的节点融合丰富的结构信息。在人类动作识别中,现有的研究引入了动态图形生成机制,以更好地捕捉隐含的语义骨架连接,从而提高了识别性能。在本文中,我们提供了一种正交的方法来探索底层连接。而不是引入昂贵的动态。我们认为这是一个更适合对图数据进行建模的空间,可以使提取的表示与嵌入矩阵相匹配。具体来说,我们提出了一种新的时空GCN (ST-GCN)架构,它是通过庞加莱几何学定义的,这样它就能够更好地建模结构数据的潜在解剖结构。为了进一步探索黎曼空间的最优投影维数,我们在流形上混合了不同的维数,为每个STGCN层的维数探索提供了一种有效的方法在最终的结果架构中,我们在两个目前规模最大的3D数据集(即NTU)上评估我们的方法RGB+D和NTU RGB+D 120。比较结果表明,该模型在40%模型规模的情况下,在任何给定的评价指标下都能取得比之前的最佳GCN方法更好的性能,证明了该模型的有效性。
人的动作识别是计算机视觉研究的重要课题之一。它可以为许多潜在的应用做出贡献,如人类行为分析、视频理解和虚拟现实。一般来说,有几种不同的模态,例如,外观,深度,光流,骨架数据,被利用在动作识别任务。最近,基于骨架的人类动作识别引起了相当多的关注,因为紧凑的骨架数据使模型对于视点和环境的变化更加有效和健壮。在本文中,我们关注的是基于骨架的三维动作识别问题,并期望提供一个更鲁棒的神经网络来完成这项任务。最近,graph convolutional networks (GCNs) (Defferrard, Bresson, and Vandergheynst 2016;在基于骨架的动作识别中,成功地采用了时间卷积网络ST-GCNs (Kipf and Welling 2016),保持了骨骼的自然拓扑结构。Yan等首先提出了时空图卷积网络(Yan, Xiong, and Lin) 2018),该任务将神经结构解耦为GCN来捕获空间信息和1D卷积过滤器来建模动态信息。在GCN部分,当前的ST-GCN方法提供了一个预定义的图嵌入矩阵来编码骨架拓扑这个矩阵和骨架序列数据一起被送入ST-GCNs以提取高级表示。然而,正如工作中提到的(Peng et al.)。2020),固定的图嵌入矩阵会将约束引入到特征学习过程中,可能不利于更高层次的表示,对最终的分类产生负面影响。因此,在(Shi et al. 2019;Peng et al. 2020)提出了一种全局或分层动态图生成范式,以打破学习约束。实验证明了动态图生成机制可以进一步提高该任务的性能。
本文旨在从另一个角度处理基于骨架的人类动作识别任务。代替提供一个动态的嵌入图,我们转向探索一个更好的建模空间的骨架图序列。尽管目前深神经网络在欧氏空间的特征表示取得了成功,但图数据被证明具有高度非欧氏潜在解剖学特征但据我们所知,之前的ST-GCNs (Yan, Xiong, and Lin 2018;Shi等2019年;(Peng et al. 2020)是在欧几里得空间中定义的,这可能不是层次图数据建模的最佳选择。我们认为,神经网络操作直接定义在一个数据相关的空间,例如,双曲人ifold (Benedetti and Petronio 2012)对学习过程有益。为此,在本文中,我们提出了一个特殊的双曲几何模型上的时空图卷积网络,即庞加模型(Benedetti and)
Petronio 2012)。双曲几何,这是一个非欧几里得几何与常数负高斯曲率,最近在深度神经网络的背景下获得了越来越多的动量,tree-likeliness属性。在双曲几何上建立STGCN可以从双曲距离中受益,因为不相关样本之间的距离会以指数形式大于相似样本之间的距离。我们的方法与动态图生成方法是正交的,本文研究了一种更合理的流形投影,使投影特征更适合给定的嵌入矩阵,而不是通过计算节点嵌入相似度来生成动态嵌入图。双曲空间中样本之间的关系可以强调相似样本,抑制不相关样本。此外,我们的方法对于图序列数据也更通用,因为它们自然处于非欧几里得空间。然而,采用具有非欧几里得设置的深度神经网络是具有挑战性的,因为基本操作(如卷积)的原则性推广并非无关紧要。受工作的启发(Gulcehre et al. 2018),我们从双曲空间和切线空间之间的投影中得到帮助。由于它们之间存在双射,所以在切空间上进行卷积操作,然后提取的特征将被投影回流形上的一条轨迹。通过将特征投影回流形,可以得到嵌入在双曲空间上的图。为了进一步探索非欧几里得空间中的最优投影维数,我们将不同维数混合到双曲空间中,为每个图神经网络层的维数探索提供了一种有效的方法。最后,得到ST-GCN我们在两个目前最具挑战性的基于骨架的三维数据集上评估我们的方法,即NTU RGB+D (Shahroudy等人)。和NTU RGB+D 120 (Liu et al. 2019a)。与各种先进的方法相比,我们的方法在任何给定的评估方案下都能得到最佳的结果。此外,在模型大小方面,目前最佳的模型(Peng et al.)。甚至比我们的模型大2.5倍,证明了我们方法的有效性。我们的贡献可以总结如下:
我们通过庞加莱几何学提出了一种新的时空图卷积网络,给了我们一个全新的视角ST-GCN用于黎曼流形上的图序列建模。
该方法基于庞加莱模型学习每个图的多维结构嵌入。为了提供更卓越的表现,我们提供了一种有效的方法,通过混合庞加莱模型上的维度来探索更好的投影空间。
要评价我们方法的有效性,请理解在两个目前最具挑战性的基于骨架的三维动作识别任务上进行了大规模的实验。结果表明,该模型在任何给定指标下都能以一种有效的方式获得最佳的分类精度。
本文的其余部分组织如下。本节回顾了相关的方法并讨论了它们与目前工作的关系。本节详细描述了该方法和相应的神经结构。我们以分段的方式进行实验,并在不同的数据集上报告实验结果。在本节中,实验包括在NTU RGB+D数据集上进行的消融实验以及与最先进方法的性能比较。最后,对全文进行了总结。
图卷积网络(GCNs)
将卷积神经网络从常规数据,如图像,推广到不规则数据,如图形数据,是近年来一个活跃的话题。图卷积网络是最成功的代表之一(Monti等人2017年;Velickoviˇc et al . 2018;2016年Kipf和Welling;Defferrard, Bresson和Vandergheynst(2016),包括时空图卷积网络(ST-GCNs),在许多研究领域日益受到关注,并取得了很好的成果主要根据如何定义图形卷积,GCNs可以分为两类,即频谱域方法和空间域方法。频谱仪将图形数据转换为其频谱,并在频谱域应用滤波器。这一流派中有许多具有代表性的作品它可以一次处理整个图像。同时,尤其对于大型图,它是费时的。另一个限制是光谱结构被限制在一个单一的领域,因为光谱滤波器系数是基依赖的。如果可以跨不同的域构造兼容的正交基,这个问题就可以解决。然而,这种构造需要领域之间的对应关系的专家知识,这在大多数情况下是极其困难的。相反,基于空间的方法直接在空间域中设计卷积运算它类似于传统的容积式过滤器,因为它是用于图像的。空间域方法通过信息聚合直接在图域内进行卷积,因而对大型图具有更强的可伸缩性。然而,缺点是难以建模全局结构。为图形序列建模动态信息,例如动作的骨架剪辑获得认可,多次获得ST-GCNs(严、熊、林2018年;Shi等2019年;彭等(2020)提出。然而,据我们所知,即使是骨架数据也存在于非欧几里得空间中,所有的ST-GCNs都是在欧几里得空间中定义的。相反,在本文中,我们提出了一个全新的GCN模型,它在非欧几里得空间中模拟人类行为。我们注意到也有工作和Kiela 2017;Ganea Becigneul和Hofmann, 2018年;´Liu, Nickel和Kiela(2019))在黎曼空间中定义神经网络,但它们要么基于传统的前向网络,要么只是为只有两到三层的网络设计转换和聚合函数。相反,我们提供了一个深度空间时间图卷积网络来处理动态图序列。
:行动表彰(严、熊、林2018;彭、红、赵2019年;(Peng et al. 2020)是产业界和学术界最重要的领域之一。在现实生活中,RGB数据无处不在,我们可以找到很多以前基于RGB图像或视频的动作识别作品。然而,他们的一个缺点是,学习的表示容易分心,因为整个区域的视频帧被利用来学习表示目前,骨架数据更容易访问,并且在此任务中越来越流行。与基于RGB的动作识别相比,基于骨架的动作识别对于复杂多变的背景具有更强的鲁棒性。本课题的作品主要有以下三个方面:1)手工制作特征,其中作品利用手工制作特征来利用关节运动的动力学,包括利用LOP特征来克服类内方差问题构建三维关节位置的直方图(Xia, Chen, and Aggarwal 2012),并在李群中建模三维几何关系(Vemulapalli, Arrate, and Chellappa 2014)。这些方法需要大量的专业知识。2)传统的深度学习方法,提供了一种自动的特征学习策略,已成为主流方法。Work (Kim and Reiter 2017)根据手工设计的转换规则,对图结构骨架数据进行重新排列,并将其建模为伪图像,使构建的网格数据直接受益于cnn由于输入是时间序列数据,因此也有很多尝试利用RNN和LSTM对动态信息建模。代表作有(杜、王、王2015;Shahroudy等人2016;Song等,2017;Zhang et al. 2017;
其中,他们通过将RNN扩展到时空域、将人体骨骼分割成部分或为这项任务提供一个全连接的深度LSTM来建模骨骼序列。但由于没有充分考虑图数据的物理结构和拓扑结构,性能难以进一步提高。3)方法更流行,更适合这个任务。直观地说,骨架特征可以表示为一个图结构,因为它们的组成部分是同形的。因此,可以将骨架中的关节和骨头定义为图的顶点和连接。Yan等开发了时空图卷积网络(STGCN) (Yan, Xiong, and Lin 2018),将骨架数据建模为图结构,利用了对不规则数据建模的强大能力,取得了比以往方法更好的性能。ST-GCN成为处理基于骨架的操作的通用框架识别任务。在此基础上,工作in (Shi et al. 2019)探索了一种全局自适应嵌入矩阵生成方法,进一步提高了性能。Peng等人引入了神经架构搜索,并为该任务自动设计了GCN (Peng et al. 2020)架构。该工作(Peng et al. 2020)取得了目前最好的结果。我们的工作也是基于ST-GCN,但是我们提供了一种更有效的方法来建模图序列,因此甚至不需要构造一个动态图。黎曼流形上的神经网络流行的深度学习方法通常使用函数相似性等策略将数据嵌入到低维的欧氏向量空间中,以捕获语义表示。这很简单,因为我们对现实世界的直觉与欧几里得空间密切相关。然而,在许多领域,如基因组学、社交网络和基于骨架的动作识别,数据的潜在解剖结构是由非欧几里得空间(如黎曼流形)定义的。以往的深度神经网络大多直接应用于这类d然而,优化建模空间的能力不仅可以减少计算量,而且可以进一步提高任务的性能。近年来,将层次数据嵌入到黎曼空间中取得了很好的效果,在深度学习中得到了广泛的应用。例如,通过构造黎曼空间,Mathieu等人提出了一种庞加莱变分自动编码器(Mathieu’et al. 2019),并对分层结构显示了更好的泛化。Cho等人提供了一种批处理标准化的黎曼方法并取得了优越的性能。这里我们关注双曲几何,这是一个常数负高斯曲率的非欧几里得几何。这个几何的一个重要的内在性质是指数增长。在这个领域已经有一些设计神经网络的尝试。特别是镍和基拉(Nickel and Kiela)(2017)报告了在双曲空间中学习表示的开拓性研究。然后,工作在(Ganea, Becigneul,’和Hofmann 2018)介绍了双曲神经网络将双曲几何与深度学习联系起来。
在此之后,作品还提供了传统操作的双曲类比,其中开发了其他算法,如庞加莱手套(Tifrea, B’ecigneul,’和Ganea 2018)和双曲注意力网络(Gulcehre et al. 2018)。我们也发现这是可行的(Liu, Nickel, and Kiela 2019;Chami等人2019)使用双曲几何构造图神经网络,这与我们的工作相似。但是,我们的模型不同于这些工作,因为我们处理的是动态图序列,而它们只关注静态图。此外,我们提供了一种有效的方法来探讨投影维数对网络的影响,而这些维数都没有涉及到这个问题。
图1:框架的说明。在我们的框架中主要有三个阶段,包括(a)图形特征嵌入,(b)在庞加莱模型中提取图,(c)在欧几里得空间中进行分类。在第一阶段,我们使用GCN过滤器来捕获每一帧的图形表示,然后使用时间过滤器来捕获动态信息。对于第一阶段的输出,我们混合了不同的维度,然后将它们投影到切空间,其中ST-GCN用于提取更高级别的图表示。然后该特性被映射回来 注意,ST-GCN基于阶段(a)中的相同模块,这里的流形空间基于庞加莱模型。我们将阶段(b)中的几个模块堆叠起来,以捕获更高级别的语义表示。之后,如阶段(c)所示,将图形特征投影回欧几里得空间,这样可以使用欧几里得损失函数来优化这一过程。
在本节中,我们将描述在庞加勒模型上定义的ST-GCN。该框架如图1所示。我们的网络的基本模块包括一个GCN和一个卷积滤波器。这样的块被多层堆叠,以捕获图序列的高级表示。时空模型由庞加莱几何学定义。最后,学习到的特征被提前返回到欧几里得空间进行预测。下面我们将详细介绍框架的重要组件。
时空图卷积网络
对于社会网络、生物信息等复杂结构的建模,图形数据是一种非常有用的数据结构,而神经网络对这类不规则数据的建模并不容易。定义G为骨架序列的一个框架。假设骨架由N个节点组成,节点连接在邻接处进行编码表示具有N个节点的图(骨架)的输入表示。为了提取G的特征表示,对其进行傅里叶变换,然后对变换后的信号进行滤波等基本运算。因此,一个规范化的拉普拉斯图
L = In - D−1/2AD−1/2用于傅里叶变换。这里,对角度矩阵D由元素Dii =构造P j Aij。然后,用算子g循环过滤,用循环的参数化的图可以表示为:
Y在哪里提取的图像特征和U是傅里叶基础受到L = UΛUT和Λ作为其对应的特征值。根据(Hammond, Vandergheynst, and Gribonval 2011)的建议,过滤器g的微分逼近可以进一步用k阶的Chebyshev多项式逼近,这样计算负担显著减少。这是
为了进一步提高稳健性,(Shi等人。
2019;Peng et al. 2020)提出了一个ST-GCN块,该块基于节点相关性生成动态嵌入矩阵。而不是提供动态的,我们设计我们的
Poincare模型中的ST-GCN块,使节点repre-’语句符合原始图结构。通过这种方法,我们可以用更少的参数来捕获图的特征。在这一节中,我们将讨论如何在黎曼流形上定义STGCN。这里,我们关注的是双曲空间中的庞加莱模型(Reynolds 1993),是一个最大对称的单连通黎曼流形,具有恒定的负截面曲率。双曲空间类似于具有常正曲率的n维球体。作为一个特例,庞加莱模型可以通过双曲面模型在z=0平面的单位圆上的立体投影来推导。这很难想象,因为很难想象在一个弯曲的温泉我们可以嵌入二维双曲几何模型到伪欧几里得空间称为闵可夫斯基空间(Tataru 2001)。这里,一个n维的闵可夫斯基空间是一个实维n的实向量空间,其中有一个常数闵可夫斯基度规。如图2,庞加莱圆盘,即二维庞加莱模型,是由上半部双曲面在z=0处投影到单位圆盘上。庞加莱圆盘打破了“”的规则欧氏空间,例如,如图3所示,给定一条线←→AB与a点C /∈←→AB,则至少可以画两条穿过C但不相交的线
←→AB。通过C的两条直线,记为直线l1和直线l2。与欧几里得二维空间不同,我们有这个←→AB同时平行于l1和l2,但同时l1和l2并不平行。还要注意,l2与欧几里得空间的不同之处在于它与一对平行线(l1)相交,但不与另一条平行线相交(
←→AB)。在双曲几何中,一个重要的内在性质是指数增长,而不是多项式增长欧几里得几何学。这意味着不相关样本之间的距离将以指数形式大于相似样本之间的距离。因此,双曲空间中样本之间的关系可以强调相似样本,抑制不相关样本。因此,双曲几何在一些特殊的任务,如学习层次嵌入优于欧几里得几何这里,我们正式定义了这个流形。设M是一个n维流形。对于流形M有三个重要的基本分量,即测地线、切空间和黎曼度规。测地线是一条直线到弯曲空间的一般化,定义为一条可以平行移动切向量而不变形的曲线。在我们的双曲面模型,如图2所示,测地线(或我们的双曲线)被定义为由两点所定义的平面和原点(即坐标(0,0,0))与双曲面相交而形成的曲线。所以一个端点必须先向下然后再向上到达另一个点。这个距离不是用欧几里得空间表面上的最短路径直接指向它,而是绕圆周运动。形式上,x, y∈M的距离定义为:
切线空间TxM x点被定义为一阶线性近似的M x。一个黎曼度量g是一家集内积gx: Tx×Tx→R庞加莱模型不同顺利,x。,开放´单位球配备黎曼度量张量,定义了:
在gE = In表示欧几里得度规张量,它与欧几里得度规张量保角。那么,一个黎曼流形(M, g)就是一个具有群黎曼度量g的流形。
现在,我们在庞加莱几何模型上构建时空图卷积网络,为时序图序列提供更灵活的表示。双曲空间的一个优点是它提供了双曲空间和切空间在某一点上的双射,这样双曲流形上的点的运算可以在切空间上执行,然后映射回去,反之亦然。双射由指数映射完成,它将切空间上的点映射到流形上,定义为expxTxM→M。对数映射,作为逆步骤,将切空间上的点映射回流形,被定义为logx: M→TxM。数学上,通过上述投影函数,我们可以在庞加莱模型上执行GCN操作。由于“黎曼空间中没有向量空间的定义,受(Ganea, Becigneul, and Hofmann 2018)的启发,”我们通过将图形嵌入到对数映射中来对切空间进行特征提取。这样,可以利用神经操作所进行的欧几里得变换对双曲空间中的特征进行处理。具体来说,如图1所示,有三种:
图2:2D庞加莱模型的说明。对于双曲面上的任何一点,我们把它延伸到一个焦点(0,0,-1)来形成一条直线。那么在z=0平面上的交点就是它在庞加莱模型中的投影点
框架中的阶段。首先通过特征嵌入网络对输入的原始数据进行编码。然后将捕获的特征投影到切空间中,通过GCN和时间滤波器进行滤波
这里,Xi表示输入的第i个框架,{Yi}T是GCN之后的整个T帧的表示。{一}然后将T输入到核T×1的时域滤波器中。还将有一个激活函数来执行Y上的非线性投影。最后,我们用logx函数映射回欧几里得空间,从而用欧几里得损失函数优化网络。
Mix-Dimensions在廖使用上述方法,我们可以在上面构建ST-GCN黎曼流形。然而,手工确定流形上各层的投影维数仍然不容易。对于一个10层的ST-GCN,会有数以千计的组合,这显然不可能手动评估每个设置并找出最好的一个。这里,我们提供了一种有效的方法来探索每一层的最佳设置。灵感来自于可瘦身的网络他们训练了一个可瘦身的网络来进行网络剪枝,我们在每个投影点混合不同的维度来有效地探索每一层的最佳投影维度。具体地说,我们在庞加莱模型上提供了一组投影维数。这样,在切线空间上就会有一组对应的ST-GCN块。我们让高维投影共享低维投影的操作,而不是在那里构造一组ST-GCN块。这样,我们就可以建立一个超级模型,对高维的探索就不需要从头训练了,因为他们可以从对低维的训练中获益。为此,我们在切向空间上构建了相应的可切换批处理归一化(Yu et al. 2018)和可瘦身网络。
图3:庞加莱模型的特性说明。穿过点C,可以画多条平行于AB线的直线(l1和l2)。
事实上,这种混合维方法在一次提供了庞加莱模型上ST-GCNs的数千个组合。我们没有评估所有这些组合的性能,而是计算该任务的相对建模能力。我们假设基于混合维数方法的超级模型可以提供每个个体维数设置的估计。因此,我们通过将每一层划分为特定的组来构建ST-GCN模型,并试图找出这个网络的最佳组合。例如,在一个层中,我们将图形表示投影到64维的庞加莱模型中。与只提供这种投影不同,我们同时将图投射到一组维度[32,48,64,80,96]。我们对其他层进行同样的处理。因此,这一层将有5个不同的ST-GCN块。因此,但是,对于一个深度的GCN模型来说,它将花费昂贵的计算费用。所以我们不用建立所有的模型,而是用一个最小的最大的模型来构建网络。在每次迭代中,我们随机抽取一个投影维数的组合和相应的ST-GCN进行激活和训练。在训练阶段结束后,我们随机选择一批投影组合。根据它们对该任务的相对预测精度,我们选择最佳的作为我们在庞加莱模型上的ST-GCN。
本节从数据集、架构、训练细节、比较结果和分析等方面对实验进行了描述。
图4:ST-GCN块的示意图。在Eq.(6)中有两个输入,分别为L和X,其中GCN为空间图形卷积网络,Conv-T为时间滤波器。随后是批处理规范化(BN)层和激活层(ReLU)。此外,为每个块添加一个剩余连接。输出和原始的L被送入下一个区块