期刊:T-PAMI-2021
地址:参考笔记
本文综述了到2021年1月底在步态识别方面的最新进展,以
基于视觉的步态识别系统(以下仅称为步态识别)的性能可能会受到以下因素的影响:
1)个人的外观变化,如携带手提包/背包或穿着衣服,如帽子或外套;
2)摄像机视点的变化;
3)遮挡因子,例如受试者身体的一部分被物体或在某些视点上被受试者自己身体的一部分遮挡(称为自遮挡)[15],[16];
4)环境的变化,如复杂的背景[17]和高或低水平的照明[18],通常使分割和识别过程更加困难。
步态识别解决方案的测试协议通常可分为受试者相关和 受试者无关 。
最后,使用分类器将验证特征与注册特征进行比较,以识别最相似的步态模式,并将它们标记为来自相同的人。
CASIA-B数据集[32]是目前应用最广泛的步态数据集,包含124人的多视图步态数据,以RGB和剪影的形式呈现。获取已执行从11个不同的视角,范围从0◦到180◦18◦增量。
该数据集考虑三种不同的行走条件,即正常行走(NM)、穿外套行走(CL)和带包行走(BG),每个视图中每个人的步态序列分别为6、2和2。
最常用的CASIA-B测试方案是一种受试者独立方案,使用前74名受试者的数据进行培训,其余50名受试者进行测试。然后,测试数据被分割成一个画廊集,包括来自NM步态数据的前四个步态序列,探针集包括其余的序列,即每个受试者每个视图中剩下的2个NM、2个CL和2个BG序列。结果大多报道的所有视角角度,排除探头序列与参考角度相同的角度。
文章通过四个维度( 身体表示 、 时间表示 、特征表示和 神经架构 )的分类法来更好地说明深度学习步态识别方法的技术前景。
身体表示方式主流有两种:轮廓图和骨架图
轮廓图:有效且方便地以较低的计算成本在单个帧中描述身体状态。迫使识别解决方案专注于“步态”。
一系列轮廓可以表示有用的步态特征,如 速度 、 步频 、 腿部角度 、 步态周期时间 、 步长 、步幅以及 摆动和站立阶段之间的比率 。还可以对其进行处理以提取运动数据,例如光流图。
缺点是步态轮廓对个体外观的变化更为敏感
,例如不同的服装和携带条件。
骨架图:可以从以骨架形式连接的身体关节中获得 静态和动态特征 ,例如步幅、速度、距离和关节之间的角度。由于考虑了关节位置,基于这种身体表征的步态识别方法通常对视角变化更稳健。基于骨架的方法对外观变化也更加稳健
,因为姿势估计步骤通常会学习检测不同服装条件下的身体关节,而步态轮廓则不然。
缺点是姿态估计方法严重依赖于身体关节的准确检测,使得对遮挡更敏感 。此外,姿态估计器的使用给这些识别系统带来了计算开销
。
步态识别中的时间信息表示形式有两种:模板(template)和体积(volume)
模板:
将时间上的行走信息汇总到一张图中的一连串轮廓上
,
例如通过对至少一个步态周期的剪影进行平均。一旦模板图被创建,这种操作使识别方案不受帧数的影响。
关于深度步态识别体系结构:
步态轮廓可以聚合在网络的初始层
(图a),也称为 时间模板 ,其中聚合的图可以由后续层处理。
步态轮廓也可以 在几个卷积和池化层 (图b)之后 聚集在网络的中间层 ,也称为 卷积模板 。
时间模板的例子包括:
(i)步态能量图 (GEI),它在一个时期/序列中平均步态轮廓(图 c);
(ii) 计时步态图像 (CGI) ,它提取每个步态图像中的轮廓,然后使用多通道映射函数以单个图的形式进行编码(图 d);
(iii) 帧差能量图 (FDEI),使用聚类和去噪算法保留动力学信息,特别是当轮廓不完整时(图 e);(iv) 步态熵图 (GEnI),计算步态帧中每个像素的熵,然后在单个步态模板中进行平均(图 f);(v) 周期能量图 (PEI),GEI 的一种概括,它通过利用基于帧幅度的多通道映射函数来保留更多空间和时间信息(图 g)。
卷积模板的例子包括 集合池化和步态卷积能量图 (GCEM) ,它们在整个序列上平均由几个卷积层和池化层获得的卷积图。
序列体积表示法:为了保存步态序列中帧的顺序和关系并从中学习,如下图所示
序列体积表示(见图4,左起第二个框)。然后,采用两种不同的方法来学习时间信息。
时间信息学习策略:
循环学习策略 (例如 循环神经网络 )学习序列上的时间动态,其中每个帧都根据其与前一帧的关系进行处理。
首先从序列中可用的 时空信息创建三维张量 ,其中 张量的深度表示时间信息 。然后学习这些张量,例如使用3D CNN或 图卷积网络 (GCN)。
全局表征学习和局部表征学习
基于全局表征学习的方法往往对遮挡和外观变化以及缺少关键身体部位更为敏感。所以需要局部表征学习来弥补缺陷
局部区域往往对最终识别性能保持不同的贡献,因此了解它们的重要性可以提高步态识别方法的整体性能。
此外,这些部分特征之间的关系可以被学习
,从而保留了位置属性,如 比例 、旋转和 位置 ,这提高了步态识别方法对方向和视角变化的鲁棒性。
而局部表征学习需要分块策略,例如 切片 、身体组成部分和垂直/水平切块,如下图所示
深度神经网络利用多种非线性变换的分层架构来捕捉高级抽象的特征
Convolutional Neural Networks
卷积神经网络(CNN) 在步态识别中的应用最为广泛。CNN通常由不同类型的层组成,包括卷积层、池化层和全连接层。卷积层将学习到的过滤器与输入图像进行卷积,以创建激活特征图,捕捉具有不同程度的细节特征。卷积层还包括诸如ReLU或tanh函数的激活函数,以增加输出中的非线性。然后,池化层通过使用非线性下采样策略(如平均池化或最大池化)减小特征图的空间大小,从而降低网络的复杂性。全连接的图最终用于将生成的二维特征图学习为一维特征图,以便进一步处
2. Deep AutoEncoders
深度自动编码器 (DAE) 是一种旨在使用编码器-解码器结构提取所谓的瓶颈特征或潜在空间表示的网络。编码器将输入数据转换为特征表示,解码器将表示转换回原始输入数据。DAE网络通常以最小化重构误差为目标进行训练,重构误差测量原始输入和重构版本之间的差异。
3. Generative Adversarial Networks
GANs可以用来保存身份信息,同时在称为域适应的过程中沿 低维流形传递步态变化 ,如姿势和服装。分离身份和步态变化 ,提高步态识别系统的性能。GANs还用来解决跨视角问题。
4.Capsule Networks
胶囊网络 (CapsNet) 已被提出来解决 CNN 中的两个重要缺点,即通过分别利用胶囊激活值和按协议路由算法,标量激活的限制和通过池化操作的不良信息路由。
在步态表示学习的背景下,CapsNet 可以使用可学习的姿势矩阵建模和理解受试者的多个视角之间的关系
5. 3D Convolutional Neural Networks
3D 卷积神经网络 (3D CNN) 最近已被用于步态识别、学习整个步态序列的时空动态 [35]、[81]、[112]。 3D CNN 能够提取对相机视角和受试者外观变化更稳健的特征。
3D CNN 以 3D 张量形式的堆叠步态帧作为输入,然后使用多个 3D 卷积滤波器和池化操作来提取空间角度表示。
缺点:在处理可变长度序列方面缺乏灵活性。
在 [35] 中,已经努力通过利用多个 3D CNN 来整合不同尺度的时间信息来解决这个缺点。
在[112]中,一个包含 13 个 3D 卷积滤波器和池化层以及两个全连接层的 3D CNN 网络被设计用于步态识别。
[81] 中提出的方法由几个全局和局部 3D 卷积层组成,其中标准 3D 池化层被修改为聚合局部剪辑中的时间信息。
6.Graph Convolutional Networks
图卷积网络 (GCN) 以使用任意结构的图和图卷积滤波器将 CNN 扩展到更高维度的域。
GCN 可以对步态序列中可用的结构信息和时间关系进行联合建模,以便学习关于相机视点和主体外观的判别性和鲁棒性特征。
基于 GCN 的步态识别方法将步态序列体积视为步态识别的时间表示。
在[82]中,步态特征是通过从可用视频序列中形成时空图来提取的。 然后使用关节关系学习方案通过将步态特征映射到关于人体结构和步行模式更具判别力的子空间来获得最终特征。
7.Hybrid Networks
CNN+RNN 将CNN与RNN(尤其是LSTM和GRU)结合起来学习空间编码后的时间关系可能是最流行的时空学习方法
DAE+GAN 最近,DAE被认为是GANs中用于步态识别的生成器和/或鉴别器组件的 主干 。GaitGAN和GaitGANv2使用了两个具有编码器-解码器结构的鉴别器,分别用于假/真鉴别和识别。这两个鉴别器确保生成的步态图像真实,并且生成的图像包含身份信息。
DAE+RNNs 首次使用具有新损失函数的深度编码器-解码器网络来分解步态特征,即来自外观的身份信息和主要包含用于步态识别的 虚假信息的规范特征 。然后,使用多层LSTM捕捉步态特征的 时间动态 ,最终聚合用于识别。
RNNs+CapsNets RNN 获得的循环学习特征可以被视为胶囊,从而通过动态路由学习这些胶囊之间的耦合权重。这种封装了循环学习特征之间的分层 局部-整体关系 ,可以使混合网络对外观和视角变化更加鲁棒。
只提炼趋势
基于混合轮廓-骨骼身体表示的方法将在不久的将来广受欢迎。
鉴于最近一些高性能文献中频繁使用 卷积模板 ,作者预计这些模板在未来将进一步普及并超过 时间模板 。
在识别关键步态特征的局部表示学习中具有很大的潜力。
预计在不久的将来,使用两种或更多类型 DNN 的混合方法会引起更多关注,并在该领域展示强大的性能。
作者期望在不久的将来,基于多重损失的深度步态识别方法将受到更多的关注,并超越其他方法。(交叉熵、三元组损失、softmax 损失、 arcface 、center loss和Euclidean loss)
CASIA-E将来成为步态识别的标准基准数据集
考虑采用新的生成模型和 损失函数 ,通过明确区分身份和非身份成分来学习更具判别力的步态表征。
人脸识别 、 动作识别 、情感识别和 姿态估计 领域,重点在于通过提取分解数据高维空间
中各种解释因素的表示来学习 分解特征 。
利用自监督学习可以在不使用任何注释标签的情况下捕获通用和丰富的高级语义
在步态识别中使用自监督学习的一个重要挑战是设计有效的 预文本任务 ,以确保网络能够学习有意义的表示。此外,网络中多个预文本任务的联合学习,而不是单个 预文本任务 ,尤其是 使用多个损失函数 ,可以为网络提供更具代表性的特征。预计在不久的将来,这些挑战将在深度步态识别的背景下越来越流行。
尽管多任务学习在许多其他领域具有有效性[211]、[212],但文献中大多数深度步态识别解决方案都集中在识别单一任务上。
多任务学习通常用于使用共享模型同时学习多个任务,从而学习更广义且经常强化的表示。
大多数现有方法学习对身份敏感的特征,而不考虑与其他潜在因素的相互作用,如 情感状态 、性别和 年龄 。在这种情况下,同时学习多个步态识别任务可能会带来新的设计范式和优化挑战,特别是在任务识别和损失函数方面。期望这些挑战在不久的将来引起进一步的关注,并在多任务学习的步态识别背景下加以解决。
步态识别系统的实用价值很大程度上依赖于其对不可见数据的泛化能力。
据我们所知,在CASIA-B[32]、OU-ISIR数据集[65]和OUMVLP[68]等知名数据集上进行跨数据集步态识别尚未在文献中实现,因为文献中有许多著名的解决方案都使用相同的步态数据集进行训练和测试。
为了检验步态识别系统在实际应用中的通用性,应该采用跨数据集评估,例如使用迁移学习技术[231]。在这种情况下,在一个数据集上训练的解决方案可以用于从另一个数据集的测试数据(图库和探测集)中提取特征。提取的特征可以提供给分类器执行步态识别。
跨数据集步态识别可能被表述为分布外(OOD) 测试问题,其中评估深度模型超出训练集偏差的泛化能力。预计OOD测试在评估步态识别方法的泛化能力方面越来越流行
。
大量的步态数据集包含多视角序列,提供了从不同视角捕获的步态信息。
现有的步态识别方法多为单视角步态识别。这些方法通常只了解视图内关系,而忽略多视点间的访谈信息
预计该领域未来的研究方向将通过提出新的方法来塑造,例如使用 聚类算法 、组合优化和 自监督学习 ,以采用通用步态描述符来描述 多视角几何 。
在多生物识别系统中,各种生物识别模式和步态可以 相互补充 ,以弥补彼此的弱点。除了互补(硬)生物特征外,还可以包括软生物特征,如 年龄 、 身高 、 体重 、性别和 特定身体标记 (包括纹身),以提高整体表现。其他软生物特征和硬生物特征与步态的结合大多在文献中基于非深度方法进行,同时也可以采用多模态深度学习方法,尤其是基于 融合 、联合学习和注意力的网络。因此,预计包括步态在内的深度多生物特征识别系统的研究将在未来几年内得到普及。