An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记

论文题目–《基于注意力增强图卷积LSTM网络的骨骼动作识别》

摘要:

基于骨架的动作识别是一个非常重要的任务,需要从给定的骨架序列之中去理解一个人的活动。最近的研究已经展示,在骨架序列上探索空间和时间的特征,是非常重要的对于这个任务。除此之外,如何去有效去提取有判断力的空间和时间特征仍然是一个具有挑战的问题。在这篇文章中,我们提出一个新颖的注意增强图卷积LSTM网络(AGC-LATM)来对人类动作进行识别从骨架数据中。提出的AGC-LSTM不仅能捕获有判别性的特征在空间和时间的维度上,也能探索在空间和时间领域中的共现关系。我们也展示一个时间层次结构来增强时间接收域在AGC-LSTM层中,提高了学习高层的语义信息的能力和减少计算损失。此外,为了选择特别的空间信息,注意机制用来去增强每一个AGC-LSTM层中关键关节的信息。实验结果在两个数据集上所提供:NTU RGB+D 数据集和 Northwestern-UCLA数据集。比较结果证明我们的方法是是当前最先进的方法。

1.主要贡献:
1.作者提出了一个新的AGC-LSTM网络的模型针对基于骨骼的动作识别。
2.这个提出的AGC-LSTM模型能够高效的捕获特别的空间时域特征。除此之外,这个注意力机制也被用于增强关键节点的特征信息,有助于提高空间时域信息的表达能力。
3.提出的模型在2个数据集上面取得了当前最好的效果。

2.相关工作:
图的神经网络:关于图神经网络目前主要有两种框架。第一种框架就是GNN(图神经网络)。该方法是将图和循环神经网络结合起来,通过多层次的传递和递归,各个节点之间不断地传递信息和更新节点的信息,让每一个节点都捕获到邻居节点之间的语意和结构信息。第二种框架是GCN(图卷积神经网络)。其图卷积神经网络又分为两种分支,第一种就是基于谱域的,通过傅里叶变换和拉普拉斯矩阵,用切比雪夫不等式做一个近似,将图结构近似为新的图卷积公式H=AXW。第二种方法就是基于空间域的图卷积,通过自定义的卷积核,让中心节点聚合邻居节点的信息,实现卷积的效果。本文就是用的基于空间的图卷积。
基于骨骼的动作识别:描述了当前基于骨骼工作识别的进展。

3.模型构建
3.1图卷积神经网络
图卷积神经网络是一个针对学习图结构数据普遍且高效的框架。各种各样的GCN都在许多任务中实现了当前最好的效果。针对基于骨骼的动作识别,我们令在这里插入图片描述
代表在某一帧的时间节点t的人体骨骼图,其中Vt是这个N个节点的集合,另外一个是边的集合。邻居节点Vti被定义为:
在这里插入图片描述
其中d(vti,vtj)是指vtj到vti之间的最短距离。那么说这个公式的意思就是,根据人为的定义D的大小,我们就可以确定其邻居节点的集合就是两个点之间的距离小于D的邻居节点。另外还有一个图标签函数:
在这里插入图片描述
”其作用是为每一个节点分配标签。这样就能够将节点分为K个数据集。
然后就是图卷积的计算公式:
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第1张图片
其中X是指节点Vtj的特征,W(.)是一个权重函数通过节点的标签,为其分配权重。前面的Z的一些列,是特征的标准化(所有邻居节点的权重特征值相加的均值)。Y(Vti)代表输出这个节点的图卷积的结果。更加具体的,对于邻接矩阵来说,公式1可以表达为下列的方式:
在这里插入图片描述
针对整个邻接矩阵的图卷积,那么说图卷积的结果就可以用以上公式计算。对于谱域上的图卷积已经是很熟悉了,A是邻接矩阵,X是特征矩阵,W是权重矩阵,另外一个是度矩阵。

3.2 注意力增强图卷积LSTM网络
针对基于序列的模型,许多的研究已经证明了LSTM,作为循环神经网络RNN的改进,
对于长期依赖的 时域问题有很好的效果。有很多种的LSTM网络模型都被用来学习骨骼序列的动态时域信息。但是由于LSTM内部众多的算子的各种连接,LSTM也有很多的限制,它忽略了信息之间的空间相关性。但是本文提出的AGC-LSTM网络,不仅仅能够捕获空间和时域上的特征,而且能够探索时域和空间信息之间的关系。
和LSTM网络一样,AGC-LSTM也包括3个门,输入门i,遗忘门f,输出门o,而且,在这些门中也包含有图卷积算子。输入的Xt,隐藏层数据Ht,和记忆细胞Ct都是图结构数据。具体细节如图:
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第2张图片
如上图所示,是单个AGC-LSTM层的结构,其中W是参数,是通过网络模型学习到的参数不是人为定义的
其中it是输入门,起到更新信息的作用对应的公式是:
在这里插入图片描述
其中W*X代表节点i的t时刻的图卷积,可以写成公式1,Ht-1值上一层输出门输出的特征信息,b代表偏执参数。外面是一个激活函数。
然后就是ft,ft是遗忘门,作用是对于输入该门的数据进行筛选,将不需要的数据,或者没有作用的数据去掉。具体公式:
在这里插入图片描述
具体含义和上面的一样
接下来是ot,ot代表输出门,作用是输出信息,作用是确定我们得到的数据,我们将要输出的是那一部分。比如数据集【1,2,3】,这个门的作用就是输出是1还是2,还是3.
具体公式:
在这里插入图片描述
具体参数和上面一样。
然后是一个新的候选值向量ut,就是上图中最左边的部分,其作用是产生一个新的候选值向量。最开始我们是通过的sigmod激励函数产生的候选值向量嘛,现在,我们需要一个新的候选值向量,这个新的候选值向量不同于sigmod函数产生的,是通过tanh函数产生的,tanh函数也是激励函数的一种,其中需要的参数和之前的一样,具体公式是:
在这里插入图片描述
具体含义和上面的一样。
然后接下来就是细胞的更新了:
在这里插入图片描述
其中Ct-1就是上一层留下来的旧的细胞状态,旧的细胞状态和遗忘门想点积得到的是将丢弃我们想要丢弃的信息,然后再加上新的候选向量和更新门点积,得到的就是更新的信息。这样的话新的细胞状态就产生了,然后根据需要再传入到下一层,所谓细胞状态就是数据的特征,例如一个节点的特征。
然后得到最新的细胞状态之后,通过输出门将得到的细胞状态确定那一部分我们将要输出,也就是说,细胞C中的特征信息,是我们所需要的,具体公式如下:
在这里插入图片描述
输出门和得到的细胞状态通过tanh函数处理之后的数据进行点积,得到最终我们需要的隐藏状态H。
最后在得到H之后,我们再用一个注意力机制再对关键节点的信息加以选择。再求两者的和。
在这里插入图片描述
以上公式中需要的H,X,C都有初始值设置,需要的参数都是一层一层的向下一层传的

接下来就是注意力网络,如图:
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第3张图片
这个注意力网络被用作自适应的聚焦关键节点,用一个软注意力机制,能够自动的计算节点的重要性。如图所示,在临时的隐状态Ht之中包含了丰富的空间结构信息和动态的时域信息。所以首先先聚合是所有节点的信息如图的左边,具体公式:
在这里插入图片描述
聚合所有节点的特征信息,作为一个查询特征。其中W是一个可学习的参数矩阵
然后对于所有节点的注意力得分可以用公式计算:
在这里插入图片描述
其中αt的结构为:
在这里插入图片描述
就是每个节点的注意力得分。U,W都是可学习的参数矩阵。b是偏执。有了每个节点的注意力得分之后,我们通过公式:
在这里插入图片描述
来表示加入注意力机制之后的隐状态。加入注意力机制之后的隐状态将被送入下一层的神经网络。
然后,在最后一层聚合所有节点的特征信息作为全局特征,然后聚焦节点的加权和作为局部特征:
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第4张图片
最终,全局特征和局部特征一起呗用作人体动作识别的预测。

3.3 AGC-LSTM网络
文中提出的一个端到端AGC-LSTM网络。如图:
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第5张图片
首先输入骨骼数据然后通过特征映射(FC),映射到特征空间,然后在通过FA(特征的增强)也就连接操作,将空间特征信息和时域特征信息连接到一起。LSTM的作用是消除2种不同特征之间的尺度差异。然后就是一个时域平均池化层,就是一个平均池化在时域空间的一种实现。然后就是AGC-LSTM层,3个AGC-LSTM能够更好的去辨别空间时域特征信息。最后,用所有关节的全局特征和聚焦关节的局部特征,来预测人体的行为识别。
然后讨论一下文中需要注意的细节:
1.关节特征的表示:首先我们将3D坐标输入映射到高维的特征空间,通过一个线性层将3维左边编码成一个256维的向量作为这个位置特征:
在这里插入图片描述
后者表示一个关节的位置特征向量。
但是由于关节不仅仅只包含空间上的位置信息,我们还需要更多的特征。我们将不同帧的差异特征也加入进来,但是由于两种特征的尺度大小不一样,我们需要将两者统一,因此,使用LSTM层进行两种特征的尺度统一化:
在这里插入图片描述
其中Eti就是聚合了关节的空间特征和时域信息的增强特征。
2.时间层次结构:在LSTM层之后,通过输入序列特征使模型更加适应空间和时域上的特征。然后利用时域平均池化层,让模型对动态的时域感知更加敏感。这样不仅提高了模型的性能,而且也减少了计算量。
3.AGC-LSTM网络的学习
最后模型通过全局特征和局部特征转换成otg和otl,其中ot=在这里插入图片描述
然后计算最终的标签用公式:
在这里插入图片描述
最后是损失函数:
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第6张图片
前面两部分是用全局特征生成的标签和用局部特诊生成的标签的交叉滴损失。后面的部分是注意力机制的损失。

在最后虽然作者用基于关节的AGC-LSTM网络取得了当前最好的效果,但是人的身体也可以分为很多个部位,如同基于关节的网络一样,作者首先捕获人体的部分特征信息,然后如同之前一样,输入到网络,最终实验表明2中方法的双流结构能够进一步的提升实验效果。如图:
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第7张图片
上面是捕获基于关节的特征,而下面是捕获基于局部的特征,例如(头,手,脚)。

4.实验
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第8张图片
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition-论文笔记_第9张图片

你可能感兴趣的:(论文笔记)