计算机视觉:步态识别-综述(一)

这里写目录标题

  • 22-3-1补充
  • 简介
  • 影响因素
  • 数据集
  • 身体表示
    • 轮廓
    • 骨架
  • 时间表示
    • 模板
  • 特征表示
  • 神经网络
    • CNN
    • GAN
    • 3D CNN
    • GCN
  • 最新发展和趋势
    • 身体表示
    • 时间表示
    • 特征表示
    • 神经网络
    • 数据集
  • 挑战与未来研究方向
    • Disentanglement
    • Self-supervised Learning
    • Multi-task Learning
    • Cross-Dataset Evaluation
    • Multi-View Recognition
    • Multi-biometric Recognition

22-3-1补充

更详细的综述

简介

非穿戴式步态识别系统主要使用视觉,因此通常称为基于视觉的步态识别。这些系统使用成像传感器捕捉步态数据,而不需要受试者的合作,甚至可以从很远的距离采集。

影响因素

基于视觉的步态识别系统(以下仅称为步态识别)的性能可能会受到:
i)个人外观变化的影响,例如携带手提包/背包或穿着诸如帽子或外套等衣物;
ii)摄像机视角的变化;
iii)遮挡因素,例如,在某些视角(也称为自遮挡)中,受试者身体的一部分被物体部分覆盖,或者被受试者自身身体的一部分覆盖;
iv)环境的变化,例如复杂背景和高或低水平照明,这通常使分割和识别过程更加困难。

数据集

CASIA-B: CASIA-B数据集是使用最广泛的步态数据集,包含124人的RGB和轮廓形式的多视角步态数据。从11个不同的视角进行采集,范围从0到180,增量为18。
该数据集考虑了三种不同的行走条件,即正常行走(NM)、穿外套行走(CL)和携包行走(BG),每个人每个视角分别有6、2和2个步态序列。
CASIA-B最常用的测试协议是受试者无关协议,该协议使用前74名受试者的数据进行训练,其余50名受试者进行测试。 然后将测试数据拆分为一个注册集,其中包括NM步态数据中的前四个步态序列,验证集由其余序列组成,即每个受试者每个视角的剩余2个NM、2个CL和2个BG序列。 结果主要针对所有视角报告,不包括角度与参考相同的probe序列。

身体表示

该维度与身体表示识别的方式有关,可以基于轮廓或骨骼

轮廓

轮廓是文献中最常用的身体表示法,通过从背景中减去包含受试者的每个图像,然后进行二值化,可以很容易地计算出轮廓

优点:

  1. 步态轮廓被证明可以有效且方便地以较低的计算成本在单个帧中描述身体状态。这种身体表征迫使识别解决方案专注于“步态”,而不是服装和其他非步态因素,而从分类器的角度来看,这些因素可以用于识别。
  2. 一系列轮廓可以表示有用的步态特征,如速度、步频、腿部角度、步态周期时间、步长、步幅以及摆动和站立阶段之间的比率
  3. 对其进行处理以提取运动数据,例如使用光流图计算
    缺点:步态轮廓对个体外观的变化更为敏感,例如不同的服装和携带条件。

骨架

可以使用深度感应相机捕获骨架身体表示,或者使用姿势估计方法进行估计。静态和动态特征,例如步幅、速度、距离和关节之间的角度,可以从以骨架形式连接的身体关节中获得。
优点:

  1. 由于考虑了关节位置,基于这种身体表征的步态识别方法通常对视角变化更稳健,这与基于轮廓的方法相反。
  2. 基于骨架的方法对外观变化也更加稳健,因为姿势估计步骤通常会学习检测不同服装条件下的身体关节,而步态轮廓则不然。
    缺点:
    由于这些方法严重依赖于身体关节的准确检测,它们通常对遮挡更敏感 。 此外,姿态估计器的使用给这些识别系统带来了计算开销。

时间表示

这个维度处理用于表示步态序列中的时间信息的方法。文献中通常使用两种表示形式,模板和体积

模板

模板将时间上的行走信息汇总到一张图中的一连串轮廓上,例如通过对至少一个步态周期的剪影进行平均。一旦模板图被创建,这种操作使识别方案不受帧数的影响

关于深度步态识别体系结构;
1.步态轮廓可以聚合在网络的初始层(图5-a),也称为时间模板,其中聚合的图可以由后续层处理。
2.步态轮廓也可以在几个卷积和池化层(图5-b)之后聚集在网络的中间层,也称为卷积模板

时间模板的例子包括:
(i)步态能量图(GEI),它在一个时期/序列中平均步态轮廓(图 5-c);
(ii) 计时步态图像 (CGI) [74],它提取每个步态图像中的轮廓,然后使用多通道映射函数以单个图的形式进行编码(图 5-d);
(iii) 帧差能量图 (FDEI),使用聚类和去噪算法保留动力学信息,特别是当轮廓不完整时(图 5-e);
(iv) 步态熵图 (GEnI),计算步态帧中每个像素的熵,然后在单个步态模板中进行平均(图 5-f);
(v) 周期能量图 (PEI),GEI 的一种概括,它通过利用基于帧幅度的多通道映射函数来保留更多空间和时间信息(图 5-g)。
卷积模板的例子包括集合池化和步态卷积能量图 (GCEM),它们在整个序列上平均由几个卷积层和池化层获得的卷积图。
计算机视觉:步态识别-综述(一)_第1张图片
为了保存步态序列中帧的顺序和关系并从中学习,提出了序列体积表示法(见图4,左侧第二个方框),而不是将它们聚合在一起。计算机视觉:步态识别-综述(一)_第2张图片

然后,为了学习时间信息,采用了两种不同的方法:
在第一种方法中,使用循环学习策略(例如循环神经网络)学习序列上的时间动态,其中每个帧都根据其与前一帧的关系进行处理。
第二种方法首先从序列中可用的时空信息创建三维张量,其中张量的深度表示时间信息。然后学习这些张量,例如使用
3D CNN或图卷积网络(GCN
)。

特征表示

这个维度封装了表示学习的支持区域,可以是全局的,也可以是局部的。
整体学习轮廓或骨架的过程称为全局表征学习。另一方面,在学习局部表示时,步态数据被分成局部区域,例如切片、身体组成部分和垂直/水平切块(见图 4,左起第三个框)。然后进一步处理这些局部区域,例如通过循环神经网络、胶囊网络、基于注意力的网络或全连接层。
基于全局表示的方法往往对遮挡和外观变化以及缺少关键身体部位更为敏感。另一方面,局部区域往往对最终识别性能保持不同的贡献,因此了解它们的重要性可以提高步态识别方法的整体性能。此外,这些部分特征之间的关系可以被学习,从而保留了位置属性,如比例、旋转和位置,这提高了步态识别方法对方向和视角变化的鲁棒性。而局部表征学习需要分块策略,例如 切片 、身体组成部分和垂直/水平切块,如下图所示
计算机视觉:步态识别-综述(一)_第3张图片

神经网络

深度神经网络利用多种非线性变换的分层架构来捕捉高级抽象的特征。各种不同的神经结构被设计并用于步态识别问题,其描述如下。

CNN

卷积神经网络(CNN) 在步态识别中的应用最为广泛。CNN通常由不同类型的层组成,包括卷积层、池化层和全连接层。卷积层将学习到的过滤器与输入图像进行卷积,以创建激活特征图,捕捉具有不同程度的细节特征。卷积层还包括诸如ReLU或tanh函数的激活函数,以增加输出中的非线性。然后,池化层通过使用非线性下采样策略(如平均池化或最大池化)减小特征图的空间大小,从而降低网络的复杂性。全连接的图最终用于将生成的二维特征图学习为一维特征图,以便进一步处理。

GAN

生成性对抗网络(GAN)包括生成器和鉴别器,其中生成器旨在通过合成与真实样本相似的假样本来欺骗鉴别器。反过来,鉴别器的目的是区分假样本和真样本。由于这两个组件之间的极小极大博弈,GANs可以生成真实的合成样本,尤其是在步态环境中。这些网络还可以用来保存身份信息,同时在称为域适应的过程中沿低维流形传递步态变化,如姿势和服装。这将分离身份和步态变化,通常会提高步态识别系统的性能。

最近不同类型的GANs被用于步态识别。Multi-task GAN(MGANs)已被提出用于跨视角步态识别,其中CNN用于学习时间模板,作为潜在空间中视角特定的特征。然后,使用视角变换层将特征从一个视角变换到另一个视角。然后使用多任务对抗性和像素级损失训练网络。在另一篇论文中,Discriminant Gait GAN(DiGGAN)考虑了使用两个独立鉴别器的机制,以便将GEI从某个视点转移到不同的视角,同时保留身份信息。在[107]中,提出了一种Two-Stream GAN(TS-GAN),用于在将具有不同视角的GEI时间模板转换为具有标准视图(即90°)的GEI时间模板时学习全局和局部特征表示◦

3D CNN

3D 卷积神经网络 (3D CNN) 最近已被用于步态识别、学习整个步态序列的时空动态 [35]、[81]、[112]。 3D CNN 能够提取对相机视角和受试者外观变化更稳健的特征。 3D CNN 以 3D 张量形式的堆叠步态帧作为输入,然后使用多个 3D 卷积滤波器和池化操作来提取空间角度表示。 3D CNN 在步态识别方面的**局限性在于在处理可变长度序列方面缺乏灵活性。**在 [35] 中,已经努力通过利用多个 3D CNN 来整合不同尺度的时间信息来解决这个缺点。在[112]中,一个包含 13 个 3D 卷积滤波器和池化层以及两个全连接层的 3D CNN 网络被设计用于步态识别。 [81] 中提出的方法由几个全局和局部 3D 卷积层组成,其中标准 3D 池化层被修改为聚合局部剪辑中的时间信息。

GCN

图卷积网络 (GCN) 以使用任意结构的图和图卷积滤波器将 CNN 扩展到更高维度的域。 GCN 可以对步态序列中可用的结构信息和时间关系进行联合建模,以便学习关于相机视点和主体外观的判别性和鲁棒性特征。 基于 GCN 的步态识别方法将步态序列体积视为步态识别的时间表示。 在[82]中,步态特征是通过从可用视频序列中形成时空图来提取的。 然后使用关节关系学习方案通过将步态特征映射到关于人体结构和步行模式更具判别力的子空间来获得最终特征。

最新发展和趋势

身体表示

轮廓是深度步态识别中最广泛采用的身体表示,对应于文献中超过 81% 的解决方案。
与轮廓相比,骨架的使用频率较低,仅占可用解决方案的13%。
还有一些方法,即大约 5% 的可用文献,利用骨架和轮廓表示,特别是使用分解表示学习或融合策略
基于本文的分析,高性能的步态识别方法都采用了轮廓身体表示。尽管如此,由于最近有效的姿态估计技术的进步,能够从视频中提取准确而健壮的骨骼数据,预计基于混合轮廓-骨骼身体表示的方法将在不久的将来广受欢迎。

时间表示

步态模板一直是在步态序列中捕获时间信息的最被考虑的表示,对应于所提出的深度方法的70%。在不同类型的步态模板中,GEI和集合池化使用得最多。大约30%的解决方案采用序列体积来保持可用步态帧的顺序,并从它们之间的关系中学习。鉴于最近一些高性能文献中频繁使用卷积模板,
作者预计这些模板在未来将进一步普及并超过时间模板。

特征表示

超过87%的可用方法基于全局特征表示,其中深度特征是通过考虑步态信息作为一个整体来学习的。最近,许多有趣且高性能的方法通过将步态数据分割为局部区域来采用局部表示。这些技术的性能表明,在识别关键步态特征的局部表示学习中具有很大的潜力。因此,期待在这一领域进行进一步的研究,并取得令人信服的结果。

神经网络

2D CNN 是最广泛使用的深度步态识别 DNN 类型,48% 的已发布解决方案仅使用 2D CNN 架构进行分类。3D CNNs 和 GANs 是下一个流行的类别,每个类别对应 8% 的文献。DNN中较少考虑DAE、RNN、CAPSNET、DBN和GCN,分别对应于4%、2%、2%、1%和1%的方法。关于占已发布解决方案26%的混合方法,CNN-RNN组合是最广泛采用的方法,占16%的份额,而DAE与GANs和RNN的组合对应于8%的方法,其次是RNN CapsNet方法,占解决方案的2%。预计在不久的将来,使用两种或更多类型 DNN 的混合方法会引起更多关注,并在该领域展示强大的性能。

数据集

CASIA-B是使用最广泛的数据集,出现在 80% 的已发表文献中,因为它提供了大量携带和穿着条件不同的样本。OU-ISIR是2018年之前最大的步态数据集;因此,发现OU-ISIR是第二大最受欢迎的数据集,40%的解决方案使用了该数据集。自2018年引入OU-MVLP以来,该数据集一直受到社区的高度关注,在短短2年的时间内,18%的方法使用了该数据集。OU-ISIR LP Bag 数据集仅包含携带物体的步态数据,因此自然仅在为特定应用设计解决方案时才考虑它,例如那些旨在从单一角度对携带条件保持不变的应用。因此,只有5%的方法将该数据集用于评估。TUM GAID也较少被研究团体考虑,对应已发表文献的 5%。最后,2020年提出的CASIA-E是第六种最广泛使用的,出现在4%的文献中。然而,作者预计该数据集将在不久的将来成为步态识别的标准基准数据集,因为它为每个对象提供数百个视频序列,在外观和采集环境方面具有很大差异。

挑战与未来研究方向

Disentanglement

复杂的步态数据产生于许多因素之间的相互作用,如遮挡、摄像机视角、个体外观、序列顺序、身体部位运动或数据中存在的光源。这些因素可能以复杂的方式相互作用,从而使识别任务复杂化。
最近在其他研究领域有越来越多的方法,如人脸识别、动作识别、情感识别和姿态估计,重点在于通过提取分解数据高维空间中各种解释因素的表示来学习分解特征。然而,现有的大多数深度步态识别方法尚未探索分解方法,因此无法明确地以有意义的不相交变量的形式分离步态数据的底层结构。尽管最近在一些步态识别方法中使用分解方法取得了进展,但仍有改进的余地。为了促进这一领域的进一步进展,可以考虑采用新的生成模型和损失函数,通过明确区分身份和非身份成分来学习更具判别力的步态表征。

Self-supervised Learning

大部分可用的深度步态识别方法遵循监督学习范式,因此在训练期间需要标记数据。然而,在现实世界的应用中,标签数据可能并不总是容易获得,而且打标签通常是昂贵且耗时的。
为了利用未标记的步态数据学习更有效和更普遍的步态表示,可以利用自监督学习。在这种情况下,可以在不使用任何注释标签的情况下捕获通用和丰富的高级语义。自监督方法可以定义各种预文本任务,例如身体部位运动或输入序列的序列顺序识别,都可以由网络解决。通过学习这些预文本任务,网络可以学习一般特征。然后,使用生成的预文本标签训练的网络可以与实际标签进行微调,以便识别身份。在自监督方法中,对比学习方法,包括SimCLR,是一种很有前途的方法,通过在特征空间中定义锚和正样本来学习表示,然后使锚与负样本分离。在步态识别中使用自监督学习的一个重要挑战是**设计有效的预文本任务,**以确保网络能够学习有意义的表示。此外,网络中多个预文本任务的联合学习,而不是单个预文本任务,尤其是使用多个损失函数,可以为网络提供更具代表性的特征。预计在不久的将来,这些挑战将在深度步态识别的背景下越来越流行。

Multi-task Learning

多任务学习通常用于使用共享模型同时学习多个任务,从而学习更广义且经常强化的表示。在许多情况下,这些方法具有以下优点:提高收敛速度,利用辅助信息改进学习,通过共享表示减少过度拟合。尽管多任务学习在许多其它领域都是有效的,但文献中的大多数深度步态识别解决方案都集中在单个识别任务上。因此,大多数现有作品学习对身份敏感的特征,而不考虑与其他潜在因素的相互作用,如情感状态、性别和年龄。在这种情况下,同时学习多个步态识别任务可能会带来新的设计范式和优化挑战,特别是在任务识别和损失函数方面。期望这些挑战在不久的将来引起进一步的关注,并在多任务学习的步态识别背景下加以解决。

Cross-Dataset Evaluation

步态识别系统的实用价值很大程度上取决于它对未知数据的推广能力。据作者所知,文献中没有对知名数据集(如CASIA-B、OU-ISIR数据集和OUMVLP)进行跨数据集步态识别,因为文献中的显著解决方案都使用相同的步态数据集进行训练和测试。然而,在许多实际应用程序(如部署的产品)中,测试或运行时数据通常是在与训练数据相关的各种不同条件下获得的。为了检验步态识别系统在实际应用中的通用性,应采用跨数据集评估,例如使用迁移学习技术。在这种情况下,可以使用在一个数据集上训练的解决方案从另一个数据集的测试数据(验证集和注册集)中提取特征。然后,提取的特征可以提供分类器来进行步态识别。 跨数据集步态识别可能被表述为分布外(OOD) 测试问题,其中评估深度模型超出训练集偏差的泛化能力。预计OOD测试在评估步态识别方法的泛化能力方面越来越流行。

Multi-View Recognition

大量步态数据集包含多视角序列,提供从不同视角捕获的步态信息。现有的方法大多只进行单视角步态识别。这些方法通常学习视角内关系,忽略多个视角之间的视角间信息。通过将问题转换为多视角,可以采用诸如门级融合 LSTM、状态级融合 LSTM、时空 LSTM和多视角 LSTM等描述符来共同学习视角内和视角间的关系。多视角步态识别的另一个挑战是,大多数现有的多视角描述符考虑具有固定摄像机位置的良好定义的摄像机视角。然而,现实环境中的数据收集通常是不可控的,即数据可能从不可预测的视角甚至从移动的摄像机捕获。为此,现有的多视角方法大多依赖于预先训练的描述符,无法弥合训练和运行时多视角数据之间的领域鸿沟。预计该领域未来的研究方向将通过提出新的方法来塑造,例如使用聚类算法、组合优化和自监督学习,以采用通用步态描述符来描述多视角几何。

Multi-biometric Recognition

该领域的一些文献已经将步态信息与其他生物特征信息融合在一起,例如面部 [59]、[217] 和耳朵 [218]、[219]、[220],这些信息可以从高质量的步态视频中获得。正如之前所讨论的,步态识别系统在面临受试者外观和服装、相机视角和身体遮挡的变化时通常会受到挑战。另一方面,生物特征信息的其他来源,尤其是面部和耳朵,对这些挑战性因素不太敏感。相反,人脸和耳朵识别系统可能会受到其他一些因素的负面影响,如图像质量低,例如模糊或低分辨率图像、光线变化或面部遮挡,这些因素反过来对步态识别系统的性能影响有限。因此,在多生物识别系统中,各种生物识别模式和步态可以相互补充,以弥补彼此的弱点。除了互补(硬)生物特征外,还可以包括软生物特征,如年龄、身高、体重、性别和特定身体标记(包括纹身),以提高整体表现。其他软生物特征和硬生物特征与步态的结合大多在文献中基于非深度方法进行,同时也可以采用多模态深度学习方法,尤其是基于融合、联合学习和注意力的网络。因此,预计包括步态在内的深度多生物特征识别系统的研究将在未来几年内得到普及。

你可能感兴趣的:(步态识别,计算机视觉,人工智能,python)