目录
1 引 言
2 相关工作
2.1 行为识别
2.2 图卷积网络方法
3 图神经网络
3.1频谱方法的应用
3.2基于空间的图卷积神经网络
4 基于图卷积的行为识别网络设计
4.1 构造图拓扑结构的变化
4.1.1 按照输入特征区分
4.1.2 按照图的完整性区分
4.1.3 按照图的方向性区分
4.1.4 按照图的动态性区分
4.2 不同的GCN模型
4.3 目标函数的设计
5 基于图卷积的行为识别算法分析
5.1 数据集及评价指标
5.2算法比较与分析
6 行为识别中GCN的问题与挑战
7 对GCN在行为识别中的展望
8 结 语
参考文献(References)
摘 要: 随着计算机行业和互联网时代的不断发展与进步,图神经网络已经成为人工智能和大数据重要研究领域。图神经网络是对相邻节点间信息的传播和聚合的重要技术,可以有效地将深度学习的理念应用于非欧几里德空间的数据上。简述图计算、图数据库、知识图谱、图神经网络等图技术领域的相关研究历史,分类介绍不同类型的图结构。分析对比不同的图神经网络技术,重点从频域和空间与的信息聚合方式上分类比较不同的图卷积网络算法。由于图可能是不规则的,一个图可能具有可变大小的无序节点,并且图中的节点可能具有不同数量的邻居,因此一些重要的运算(例如卷积)在图像域中易于计算,但难以应用于图域。此外,现有机器学习算法的一个核心假设是实例彼此独立。这种假设不再适用于图数据,因为每个实例(节点)通过各种类型的链接(如引用、友谊和交互)与其他实例(节点)相关。近年来,图形数据的深度学习方法得到了越来越多的关注。同时,给出了针对空间域图卷积神经网络效率低的改进模型这一新的分类标准.并总结了针对图神经网络表达能力、理论保障等的讨论分析,增加了新的框架模型.在应用部分,阐述了图神经网络的最新应用。
关键词: 图神经网络;图结构;图计算;深度学习;图神经网络应用
深度学习,特别是卷积神经网络,在最近的时间里彻底改变了许多机器学习任务。例子包括图像分类、视频处理、语音识别和自然语言处理。这些应用的特点是数据来自欧几里得空间。最近,出现了许多关于为图数据扩展深度学习方法的研究。这些研究的动机来自于一些应用的出现,在这些应用中,数据来自非欧几里得领域,然后被表示为图,以便捕捉对象之间的复杂关系和相互依赖。事实上,许多数据集和相关问题可以更自然地以图的形式表示和分析。例如,图神经网络(GNN)已被越来越多地用于分子和社会网络分类和生成、三维网格分类和对应、动态交互对象的行为建模、程序合成、强化学习任务以及其他许多令人兴奋的问题。
尽管图神经网络在新兴应用中的效用很有前景,但图数据的复杂性对许多现有的机器学习算法提出了重大挑战。例如,在图像处理领域,图卷积网络(GCN)的使用仍然只限于少数例子。通过一些精心手工制作的图形构建方法或其他监督方法,图像可以被转换为能够被GCN处理的结构化图形。在这些GNN中,图像的每个像素都被认为是一个图节点,这很麻烦,在很多情况下是不必要的。使用"超级像素 "来代替从单个图像像素中学习,可以解决这个问题,并有助于减少图的大小,从而减少计算的复杂性。图也允许我们在数据中施加一个关系性的归纳偏见,例如通过先验知识。基于空间的方法主要有消息传递与聚合、图采样与聚合、图结构序 列化、关注卷积方式、基于注意力机制、关注感知域的方法,方法的详细介绍见第1.2节.本文的组织结构如图1所示.
图 1 组织结构
根据行为复杂程度可将行为识别分为3大类:个体行为(actions),交互动作(interactions)以及团体活动(groupactivities).其中:个体行为是指单个人的基本运动动作,如挥手、跑步等,也可以看作是多个姿势的组合;交互动作一般指的是人与人的交互或者人与物的交互,如握手、弹琴等,也是目前较受关注的行为识别类型;团体活动是指一个场景中包含多人和多物的活动,如排球比赛、团体会议等,也是最复杂的行为识别类型.行为识别的方法分为传统的方法和深度学习的方法.传统的方法是基于手工特征和规则提取特征的方法,例如SIFT方法、HOG方法、SURF方法、iDT方法等,虽然识别性能逐步提升,难以应用到复杂的场景中.基于深度学习的行为识别方法比较主流的有two-stream网络、3D网络和长短期记忆网络(longshort-termmemory,LSTM)等,利用端到端的学习,提取图像域中共享的局部特征,通过深度架构能减少网络中的参数数量.尽管该领域已取得丰硕的研究成果,但卷积架构适合图像序列等规则数据的处理,而且在复杂应用场景中,目标通常会受光照变化、噪声、环境等因素的影响,有较大的外观变化,导致算法性能下降.而基于人体骨架的行为识别方法因对光照和场景变换具有很好的鲁棒性,得到了越来越多的关注.通过人体姿态检测算法或高精度的深度摄像头可以较易获取骨架特征,且骨骼点连接的人体关节自然形成图结构.给定人体关节位置的时间序列,能应用图卷积网络学习人体行为.在群组行为识别中,个体的行为决定群组的行为,对于“组”这个群体而言,每个个体可视为一个节点,则图卷积网络也可以推广到群组行为识别中。
随着GCN方法的发展,其方法主要分为两大类:基于频谱的方法(spectral-based)和基于空间的方法。以“降低复杂度”为主线,将常用于图像的卷积神经网络应用到图数据上.其主要方法如表1所示, K 为阶数,E为边数.
表 1 频谱图卷积方法
基于频谱的图卷积通过添加自我连接单位矩阵
归一化邻接矩阵A的方式,解决了基于空间的图卷积忽略节点自身特征、邻接矩阵过于庞大的两个问题. 基于频谱的图卷积方法存在灵活性不高、普适性不强、运行效率较低等问题,而基于空间的图卷积方法利用邻域聚合的思想降低了复杂度,增强了泛化能力,提高了运行效率,是行为识别领域在图结构数据上进行分析的基本思想. 行为识别的空间图卷积涉及到的主要方法如表2所示.
表 2 空间图卷积方法
从图的构成上来进行区分,图结构主要可以分为空间和时间两个角度。空间上图结构的变化可以从节点和边来进行区分,如边异构的有向图、权重图和边信息图,以及节点异构图。时间上引入节点在时序变化中的差异从而形成了时空图结构
1)有向图是指在图结构中,连接节点之间的边包含指向性关系,即节点之间的关联就包含了方向的传递性关系,对于图神经网络而言,这种传递关系和深度学习神经网络神经元中信号传递的结构近似,有向图的输入是各个节点所对应的参数。
针对单向图的处理方式,Niepert等人提出了适用于有向图的无监督判断不同节点标签方式的理论。而就可能存在的双向关系,Kampffmeyer等人在利用知识图谱解决零样本学习的方法中提出了通过双向权重对应的双向邻接矩阵表示双向关系,从而实现给神经网络传递更多的信息。
2)权重图是指图结构中的边包含权重信息,可以有效地描述节点之间相互作用的可靠程度,定量地表现关系的连接程度。对于权重图的处理,Duan等人提出了通过对动态权重有向图进行归一化处理,利用节点之间的关联关系权重动态实现了信息挖掘的方法。
3)边信息图是对于存在不同结构边的图结构,节点之间的关联关系可以包含权重、方向以及异构的关系,比如在一个复杂的社交网络图中,节点之间的关联关系既可以是单向的关注关系,也可以是双向的朋友关系。对于包含复杂边信息的图结构而言,复杂的关联关系不能直接通过简单的权重约束来表示,G2S[19]提出了一种将原始图转换成二分图的方式,在处理自然语言处理任务中,将每一个词节点之间的关联关系采用独立分开编码方式,从而大幅提升了语义理解的效率。
4)节点异构图是指在图中的节点属于多个不同的类型的图结构,这种图结构往往可以根据异构节点的类型,对节点进行向量表示,这里可以通过独热编码等编码方式来实现节点的向量表示。MetaGraph2Vec提出了一种通过元路径对异构图结构的文本进行编码的方式,这种方法根据异构节点的类型对邻居节点进行分组,可以应用于节点分类、节点聚类以及相似度搜索等问题。
5)时空图是一种属性图结构,其特点是高维特征空间f*中的特征矩阵X会随着时间而变化,这里我们定义为
图结构随着时间序列的引入,可以有效地处理包含动态和时序关系类型的任务,Yan等人[21]提出了一种基于时空图卷积神经网络的骨架运动检测方法,You等人基于视频标签节点之间的邻接关系相似度,利用提出了一种多标签视频分类的图神经网络方法。
图神经网络对于非欧几里德数据在深度学习中的应用有着非常重要的地位,尤其是利用图结构在传统贝叶斯因果网络上可解释的特点,在定义深度神经网络关系可推理、因果可解释的问题上有很大的研究意义。如何利用深度学习方法对图结构的数据进行分析和推理吸引了非常多的研究和关注。
这里我们将现有的图神经网络的算法进行了总结与归纳,给出一个通用的图神经网络结构如图2所示,将图神经网络推理过程通过图节点预表示、图节点采样、子图提取、子图特征融合、图神经网络的生成和训练子过程来表示,具体步骤如下:
STEP1图节点预表示:通过图嵌入(Graph Embedding)的方法对图中每一个节点进行嵌入表示;
STEP2图节点采样:对图中每个节点或存在的节点对的正负样本进行采样;
STEP3子图提取:提取图中每一个节点的邻节点构建n阶子图,其中n表示第n层的邻节点,从而形成通用的子图结构;
STEP4子图特征融合:对每一个输入神经网络的子图进行局部或全局的特征提取;
STEPS生成图神经网络和训练:定义网络的层数和输入输出的参数,并对图数据进行网络训练。
利用注意力结构替代卷积的图注意力网络、针对无监督模型的图自动编码器以及时域空间的图时空网络;讨论图嵌入作为图神经网络的模型结构和多种实现方式。最后对上述网络模型从聚合方式、网络基础和应用优势的角度对比分析图神经网络模型之间的差异。
深度学习的流行与卷积神经网络的广泛适用性密不可分,图神经网络的研究中时间最长、研究成果最多的就是图卷积神经网络,从特征空间来看图卷积神经网络主要可以分为频域和空间域两个类型。
图卷积神经网络将原始图结构的数据G=(V, E)映射到一个新的特征空间:
以单层向前传播图卷积神经网络为例,第i层神经网络的特征用wi表示,对于图结构中的每一个节点vi在计算时
对于图神经网络中的注意力机制,可以简单理解为借助于注意力(attention )模块取代了一般图卷积神经网络中的卷积激活器,在不同的方法中,可以结合门控信息来提升注意力机制感受域的权重参数,达到更好的推理和应用性能。
图卷积神经网络实现了对图结构数据的节点分类,而注意力机制目前在自然语言处理领域有着非常好的效果和表现。对于图注意力机制(Graph Attention Network)而言,邻居节点的特征做累加求和的过程与图卷积神经网络则完全不同,通过全局注意力机制替代了卷积分层传递的固化操作,可以有效地选择在图结构中更为重要的节点或子图、模型、路径分配更大的注意力权重。
Zhang等人提出了一种通过卷积子网络来控制分配权重的自我注意力机制,基于循环门控单元用于解决流量速度预测的问题。Abu-El-Haija等人提出了一种注意力游走的方法,将图注意力机制应用到节点嵌入中。
基于谱的主要方法已经在第1节介绍.在行为识别邻域,ChebyNet及一阶ChebyNet是主流.在2017年提出的一阶ChebyNet,即GCN是使用最广泛的图卷积模型,从2018年开始,许多行为识别方法围绕上述谱方法展开.
1)不同构图方式.GGCN是基于骨架的行为识别的广义图卷积网络,此网络根据权重区分强弱连接,捕捉关节坐标的变化,实现高效的动作特征学习与识别.由于3个连续帧构成,建模过程中忽略了内部帧之间的关联,未来还需要挖掘广义图的内部关系,提高其扩展性.与GGCN构图方式不同,给定骨骼点视频序列,DPRL深度渐近式强化学习利用连续帧的关节空间关系建模,与利用马尔科夫决策过程提取的关键帧相互结合、相互优化,实现行为类别预测.此模型结构图的邻接矩阵使用手工参数,灵活性不足,因此有必要探索一些自动设计权重的方法来提高图的自适应能力.NAS打破主流谱GCN一阶近似结构.
2)复杂图应用.为了简化卷积核,早期图卷积网络只能处理低维数据,卷积核关注局部特征[57]而限制了其灵活性能,不能处理大规模的复杂图.基于此,一种新型频谱图卷积网络AGCN[58]被提出.此网络的输入是多种不同的图结构,频谱卷积核不再共享,而是设置不同的拉普拉斯矩阵,定制不同的频谱滤波器,使之富有灵活性.这为行为识别推广到复杂图提供了借鉴和参考.BayesianGC-LSTM中的对抗先验算法可以自主调整模型参数,提高了模型的泛化能力.同时,为了更好地捕捉数据的随机性和变异性,将整个模型在贝叶斯框架下扩展为概率模型,用一个贝叶斯推理问题来解决分类问题.此类方法由于存在密集矩阵运算,计算复杂度高,还需要采取合适的优化策略,以方便训练和计算.
3)深层网络研究.用于行为识别的图卷积网络,普遍存在网络层次不深、节点特征容易平滑的缺点,PPNP和APPNP网络的提出对此问题的解决提供了方向.使用GCN与PageRank之间的关系推导基于PageRank的个性化传播方案,增加传回中心节点的机会,保留了局部性,避免过渡平滑.与大多数模型相比,此模型使用更少的参数和训练时间,且计算复杂度与边的数量呈线性关系.然而,特征传播过程不进行参数学习,因此可用在半监督任务中,限制其通用性能,可作为行为识别领域日后继续研究的内容.
1)提升灵活性.基于骨架建立的时空模型ST-GCN,弥补了基于RGB模型中的不足,其灵活性能为行为识别开辟了新的方向和可能.但是,ST-GCN只构造人体的自然连接图,忽视了非物理连接关节点间的联系,缺乏对所有层中包含的多级语义信息进一步建模的灵活性和能力.同时,此模型对数据依赖性不强,对诸如“跳起来”和“坐下去”这种类似动作不好区分.基于此,自适应的双流图卷积网络2S-AGCN允许加入自然连接以外的新连接来动态调整图结构,以更好地适应模型的层次结构.AS-GCN增加自监督的动作和结构连接,分别挖掘潜在的关节联系和高阶邻域信息.此模型结构复杂,不易计算,但可扩展到未来姿态预测的研究领域.值得注意的是,ST-GCN中只利用了节点的二维或三维坐标的一阶特征,特征单一,而骨骼的长度和方向等特征对于行为识别而言更具信息性.为此,PB-GCN将几何特征和运动特征相结合代替位置坐标,丰富特征,分图卷积.但对于不相连的子图,特征传播比较困难,不利于优化与收敛.因此,有向无环图神经网络(DGNN)被提出,这个模型不仅能提取关节点和骨骼信息,还能提取它们之间的方向关联信息.以上研究主要应用的是普通图卷积的一阶邻域信息,限制了网络的感受野.
2)关注感受野.为了提升感受野,更好地挖掘图卷积网络的高阶信息,同时为了加深网络深度,避免图中节点信息过于平滑,一些研究分别从细化卷积方式、改变网络体系结构、丰富输入网络的特征信息等方面展开.在行为识别中,Wang等通过构建不同的图结构,加强了物体间的相关关系,关注了感知域的提升.Wen等提出了可编码空间分层结构,利用可变的时间密集块捕获不同范围内骨骼序列的局部高阶信息.Non-local模块被证明可以提高网络的感受野,但是模型中的图节点只有一种信息.为此,AGC-LSTM网络被提出,它不仅能提升时间接受域,还能强化高层特征学习.但感受野的提升只能应用在小规模图结构上,对于大图,易造成网络负担影响性能.所以,感受野的“度”需要适当把握.
3)注意力机制应用.原始的GCN无法捕捉哪些节点是关键的邻节点,不知道节点对中心节点的分类贡献大小.有些研究提出了辨别邻居节点贡献能力的注意力机制,并取得了不错的实验效果.RAGCN对每一个邻接矩阵,学习新的矩阵表示边的重要性,间接获取注意力.双向注意图卷积网络BAGCN在聚焦过程中,引入注意模块学习帧的隐式依赖,增强了节点上下文信息的传递.虽然注意力机制使神经网络易于通过反向传播进行有效学习,但同时也导致了二次计算代价.对于位置敏感的模型,易出现决策困难、框架不可微、难以优化等问题.因此,注意力机制需要在注意力类型选择、计算效率、可微性等方面进行参数权衡.
4)权值共享的研究.在之前介绍的图卷积中,为了使图卷积网络应用在任意的拓扑结构上,核函数W对关系图中的边权值共享,这样导致邻边及其图内部结构不能充分利用.语义图卷积SemGCN解决了这一问题,通过动态更新邻接矩阵的值间接调整W不再共享.此模型为今后的研究提供了思路,例如,如何整合视频的时态信息等.针对此类问题,应合理设置权重分配,考虑不同标签策略,也可为节点学习独立权重;关于邻接矩阵的设计,既可让网络自学习,也可以根据先验知识调整.
5)应用拓展.GCN除应用在单人行为识别领域之外,也被应用到群组行为识别领域和人-物交互领域.群组行为识别中,根据个体的位置和外貌特征,以每个个体为节点,以个体之间的关系为边建立多个关系图.图卷积网络ARG对关系图进行关系推理,将各个关系图的推理结果融合在一起,生成所有参与者个体的关系表示,分别进行个体行为识别和群组行为识别.图解析神经网络GPNN可以检测和识别图像或视频中人-物的交互,是一种端到端可微的集成框架.图卷积网络形为识别的应用扩展开辟了新的研究道路.
基于图卷积的行为识别网络模型的设计如图2所示.其中:“BN”代表正则化,“ATT”代表注意力机制,“TCN”代表时域图卷积,“POOL”代表池化操作,“FC”代表全连接;残差连接下面的块可视为一个图卷积模型块.通过观察图2可知,不同的图卷积行为识别模型设计的区别主要在于构造图拓扑结构和GCN两大部分.
谱方法的构图方式已在2.1节介绍,本节重点介 绍基于空间的图卷积在行为识别中的构图. 按照输 入特征,分为基于点的构图和基于面的构图;按照图 的完整性,分为部分图和拆解图;按照图的方向性,分 为有向图和无向图;按照图的动态性,分为固定图和 自适应图.
基于点的构图主要是骨架图,骨架图的构造建立在空间域和时域上,如图3所示.空间域是帧内图构造,图中的实心圆点是关节点,特征表示为坐标,关节点之间的连边代表骨骼.时域是帧间构造,是相同关节点在不同时间点的连接.基于面的构图是对于交互[51,55]和群组行为[54]识别.在空间域,一个标定框形成的面构成一点,构图输入除了点的坐标还有一些外观特征、运动特征等.
部分图是将人体的完整骨架图划分为多个子图,每一部分分别卷积再进行特征融合.这种划分方式能更好地抽取局部关节信息,同时加快信息传播速度.但是,部分图划分数量不易控制,数量过少,关节之间的差异性容易平滑,数量过多,非边缘节点间的信息传播困难.拆解图是将骨架图拆分为点图和边图,将骨骼流独立于关节点流进行训练,如图4(a)所示.预测时,两个分支融合,得到最终行为结果.关节点数据和骨骼数据的拆解增强了数据,提高了网络对空间特征的抽取能力,但构图方式比较复杂.
骨架无向图简单、易操作,但不能将骨头和关节 点之间的依赖关系完全探索出来. 骨骼信息包含人 体骨头的方向和长度,它和关节点坐标信息紧密相 连. DGNN以关节点为节点、骨头为边设计了一个有 向无环图网络,增强了关节点和骨头信息间依赖关系 的提取,进一步提高了抽取空间特征的细粒度,促进 了行为识别,如图4(b)所示,但参数数量相对较多.
仅使用人体物理连接构造的固定结构图使得模 型在行为识别中应用狭窄,只能识别挥手、跑步等简 单的动作,不能充分利用骨架数据的图形结构,难以 推广到具有任意形式的骨架. 对于超越物理连接的 动作,比如拥抱、拍手、下蹲等,需要根据样本数据 自适应地调整图的拓扑结构,这种数据驱动的 方法提高了模型的灵活性,为适应各种数据样本带来 了更广泛的通用性.
假设图卷积网络只有一层,则图卷积定义如下:
从式(1)可以看到,等式右侧的激活函数主要涉及邻接矩阵A、输入特征X和连接权值W三部分,因此图卷积网络的不同设计主要体现在这3个方面.行为识别中,图卷积网络设计的变化及解决的问题如图3所示.
图 3 行为识别图卷积网络设计
在行为识别中,基于空间的图卷积目标函数主要是在ST-GCN的基础上进行设计与改进.目标函数的 改变正是针对图5中提到的邻接矩阵A、输入特征X 和连接权值W三大方面,以此来改变图卷积的网络 结构.左侧是经过图卷积后的输出. 基于频谱图卷积的行 为识别目标函数主要是切比雪夫多项式,表达式如下:
其中:*代表卷积运算,和是需要学习的卷积核 和参数,是归一化的拉普拉斯矩阵,是k阶切比雪夫多项式.切比雪夫一阶近似为
其中:D是度矩阵表示与图中节点的连接数量
表 3 数据集汇总表
表4 基于图卷积的行为识别方法的准确率比较
用于图卷积网络行为识别的数据集主要有Kinetics、NTU-RGB+D、HDM05、Northwestern-UCLA、UT-Kinect、MSRAction3D、UTDMHAD、SYSU及Florence3D,汇总见表4.
在Kinetics数据集中,用top-1和top-5准确率进行表示,其他数据集都是用最高准确率表示.各种算法的识别率如表5所示.
ST-GCN在两个大规模的数据集上减少人工设计,取得了优越的性能,成为其他行为识别方法的基准.由于ST-GCN存在的问题(见2.2节),AS-GCN提出action和structure两种结构,找到行为的隐藏关节点,利用了高阶特征;2S-AGCN加入物理连接之外的新连接形成自适应结构;DGNN提出有向图,较Kinetics数据集的top-1分别提高3.1、5.4和6.2个百分点.
在行为识别中,NTU-RGB+D数据集被普遍应用研究.时空图卷积网络ST-GCN在NTU-RGB+D数据集的两个基准CS和CV上的识别率分别为81.5%和88.3%.后续的算法以ST-GCN的识别率为其准,分别在图结构拆解(PB-GCN)、改变注意力(RAGCN、BAGCN)、增加自适应结构(AS-GCN、2S-AGCN)、提高模型感受野(DPRL)和研究有向图等方面展开深入研究,使得识别性能不断提升.目前为止,双向注意力图卷积网络BAGCN在NTU-RGB+D数据集上获得了最好的识别率,分别为90.3%和96.3%,其他数据集应用较少.BayesianGC-LSTM网络由于贝叶斯的应用,在MSRAction3D、UTDMHAD、SYSU三个数据上都取得了不错的识别性能.对于Florence3D数据集,由于广义图网络GGCN在时域上体现了时空图的分割,在空域表达了节点间的强弱连接,识别性能较优。
图神经网络的应用提高了识别性能,但仍有许多问题需要解决。
1)图卷积网络为浅层结构.传统的基于CNN的深度学习模型往往是通过堆叠卷积层数来获得精细的信息特征,从而获得更少的网络参数和更多的非线性变换,以提高网络的识别性能[4].但是,在图神经网络的卷积层设置中,实验结果表明,如果网络层数大于两层,网络的性能反而下降[11].原因是,堆叠的层数过多过深会造成图中的每一个节点过度平滑,无法区分差异性,从而不利于识别性能的提高.因此,图卷积网络的卷积层数往往只有两到三层,无法加深网络结构。
2)网络结构不稳定.为了使图卷积网络应用在任意的拓扑结构上,核函数W对关系图中的所有边都是权值共享的,这与传统的卷积神经网络CNN相同,这样导致邻边及其整个图的内部结构都没有得到充分利用.有些研究通过增加掩膜与邻接矩阵进行矩阵的乘法来间接调整点与点之间的权重,使得网络识别性能进一步提升,但是当图结构发生变化时,如果各个节点分配的权重不同,这些不同的权重就会失去效用,导致图网络结构不稳定。
3)图的拓扑结构自适应能力不强.在人体运动的过程中,行为是不断发生变化的,随着动作的改变,图的拓扑结构也随之发生改变,节点与节点之间的关系以及关键节点的选择都会随之发生变化.当新加入节点之间的连接或者节点之间的关联消失时,图卷积网络的自适应能力不强.虽然也有了一些自适应的研究,但都是基于规则,不能动态生成,每次卷积后需要动态调整边的权重,参数过多,容易引起过拟合.
1)卷积池化相结合,体现网络层级结构.关于增加图卷积网络深度的问题,本文认为可以在图卷积网络中加入池化层,通过池化增大节点间差异性的几率.提升节点之间的稀疏性,可以逐渐增加网络深度,逐渐由中心节点附近的点扩展到离它较远的点,直到图模型的边缘节点,体现出图卷积网络的层次性。
2)挖掘节点新特征,建立多样类型图.在将来的工作中,可以充分挖掘GCN的灵活性来建立更多类型的图,分析非结构数据的图.针对动作识别任务,在骨架图各个节点坐标、外貌等特征的基础上引入更多的视觉特征,如交互特征、场景图、RGB特征等,并将它们统一在图卷积网络的框架下,以此建立一个性能好、可解释性强的行为识别模型。
3)考虑动态图模型的建立.目前的图卷积神经网络一经训练都是固定的模式,图结构一旦发生变化,训练出来的参数可能就会失效,自适应能力及延展性不强,本文认为设计动态变化的图卷积神经网络是未来的趋势。
4)在构建图神经网络时所有节点共享同样的模型参数并且拥有同样维度的特征空间,目前构造的图都是同构的.异构图中可以存在不同类型的节点和边,使其拥有不同维度的特征或属性.本文认为可以对异构图模型展开研究,冲破权值共享限制,获得更加鲁棒的图模型。
图卷积网络对非欧氏空间的图数据处理非常有效,受到越来越多的关注.图卷积神经网络的核心思想主要是通过深度学习方法,将图结构中的节点或边映射到向量空间,然后进行聚类、分类等处理.本文主要总结了近年来图卷积网络在行为识别领域的应用与发展:在第1部分重点介绍了行为识别、图卷积网络的两种方法,并将两种方法进行了对比;第2部分总结了图卷积网络在行为识别领域的应用与发展,并分析了不同网络模型的优缺点;第3部分总结了基于图卷积的行为识别网络设计的不同方面,并比较了不同网络模型的目标函数;第4部分介绍了基于图卷积的行为识别的数据集和评价指标,并对多种算法进行比较与分析;第5、6部分分析了图卷积网络在行为识别领域面临的问题与挑战,讨论了图卷积网络在行为识别中未来的发展方向。