一只菟葵

【论文笔记】基于深度学习的步态识别综述《Gait Recognition Based on Deep Learning: A Survey》

1. 简介
2. 理论背景
- 2.1 生物识别
- - 2.1.1 指纹识别
  - 2.1.2 虹膜识别
  - 2.1.3 人脸识别
  - 2.1.4 多模态生物识别
  - 2.1.5 其他方法
- 2.2 深度学习方法的步态识别
- - 2.2.1 卷积神经网络（Convolutional Neural Networks，CNN）
  - 2.2.2 胶囊网络（Capsule Networks，CapsNet）
  - 2.2.3 循环神经网络（Recurrent Neural Networks，RNN）
  - 2.2.4 自动编码器（Auto Encoders，AE）
  - 2.2.5 深度信念网络（Deep Belief Networks，DBN）
  - 2.2.6 生成对抗网络（Generative Adversarial Networks，GAN）
  - 2.2.7 总结
- 2.3 步态识别
3. 基于深度学习的步态识别
- 3.1 卷积神经网络
- 3.2 胶囊网络
- 3.3~3.6 循环神经网络、自动编码器、深度信念网络、生成对抗网络
- 3.7 总结
- - 3.7.1 解决方法
  - 3.7.2 表示方法
4. 数据集
- 4.1 CMU MoBo
- 4.2 TUM GAID
- 4.3 HID-UMD
- 4.4 CASIA
- 4.5 OU-ISIR Biometric
- 4.6 USF
- 4.7 SOTON
- 4.8 AVAMVG
- 4.9 KY4D
- 4.10 WhuGAIT
- 4.11 总结归纳
5. 总结和展望

《Gait Recognition Based on Deep Learning: A Survey》
出版自期刊《ACM COMPUTING SURVEYS》，发布时间为2022年1月。
原文链接.

1. 简介

步态识别作为生物识别的一个重要分支，侧重于通过测量人体及构造关系进行识别检测，如：人体的躯干和四肢的尺寸测量，以及与个人运动内在形式相关的时空关系信息。
步态识别方法在监控系统或模糊的检测环境下十分有效，因为此类环境下，利用生物独特元素（如：指纹、面部、虹膜识别等）很难被检测到。此外，与其他生物识别模型相比，步态识别方法还具有黑客难以攻击（识别系统安全性高）、步态信息便于收集的优势。
但通过行走和移动来识别某一人类个体并不容易。标准的步态识别方法（包括数据预处理、特征提取等）往往因环境及任务的复杂性受到一些限制和挑战。得益于深度学习技术的出现，为步态识别的进一步研究提供了创新思路。
本文的撰写目的主要有三个方面：

系统地介绍最新和最著名的研究成果；
提供有关步态识别实质性和说明性的理论背景，探究其在生物识别方面的根源，并揭示用于步态特征提取的流行工具及解决限制的架构；
列举可用于步态识别任务的公共数据集目录。

2. 理论背景

2.1 生物识别

早在计算机出现之前，人的识别问题就对人类构成了巨大的挑战，当时的专家学者们通过分析比较文件、签名等其他特征，人为地构建限制性信息（如：银行交易方面）。随着社会信息化的进一步发展，提高识别精度的重要性得到加强，文献中也出现了大量相关技术。
一个标准的生物识别样本需要具备一下特点：

普遍性：每个人都应具备这一特征；
特殊性：任意两个人的特征使不同的；
永久性：该特征在一定的时间内是不变的；
可收集性：该特征能够被定量的测量。

此外，在一个实际的生物识别系统中，还存在一些不容忽视的问题：

性能：数据集资源、操作、环境等因素可能影响识别精度和识别速度；
可接受性：人们在多大程度上愿意接受在其日常生活中使用的某一生物识别器；
规避性：识别系统在欺诈性方法下被“愚弄”的容易程度。

在以上约束条件下，指纹、虹膜、人脸和步态识别技术表现尤为突出，下文将简要回顾这些生物识别方法。

2.1.1 指纹识别

指纹识别技术的学术名称为指纹鉴定法（Dactyloscopy），由于手指表面褶皱的奇异性，赋予了每个人独有的内在特征，因此被广泛使用。此外，指纹特征是稳定的，随着时间的推移，退化程度极低，使得数字指纹图像数据库的建立极为可靠。
第一个指纹识别模型是在20世纪60年代末设计的，基于弗朗西斯·高尔顿（Francis Galton）在19世纪创建的一个系统，成为高尔顿点（Galton points）。自此之后，许多工作通过不同的角度来解决指纹识别这一问题，如：数字图像处理、生成对抗网络、滤波表示法等。
指纹识别系统被认为是最准确和可靠的生物识别系统，但该领域仍面临着一些挑战，如在非理想条件下的识别准确性不尽人意，以及诸多欺骗性攻击等安全问题。

2.1.2 虹膜识别

虹膜指的是人类眼睛中一个有色的薄圆形结构，负责控制瞳孔直径从而控制视网膜的进光量。这一结构在人类识别领域具有很大的优势，因为随着环境改变和时间的推移它基本不会发生变化。此外，虹膜识别是最精确、低成本、最方便的识别方法之一，因为它是通过图像进行的，不需要人的接触。
大多数商业性虹膜识别模型是使用积分差分算子（integral-differential operator）来识别虹膜的上下边界，这种算子作为一个圆形边界检测器假定瞳孔是圆形的，后续研究引入了不同数学运算（如：抛物线识别、归一化等），使其更加灵活稳健。

2.1.3 人脸识别

人脸识别已经被广泛应用于多样化领域的识别认证系统，如：银行、军事服务和公安全。人脸识别技术在上个世纪90年代初由Turk和Pentland 提出Eigenfaces方法后开始流行。在接下来的十年里，出现了几种全局识别方法，这些方法来自于低维分布表征，如：线性子空间（linear sub-spaces）、稀疏表示（Sparse representation）等。但全局识别方法对面部定位变化的鲁棒性差，因此形成了局部识别方法，有局部二值模式（Local Binary Patterns，LBP）和基于Gabor特征的分类（the Gabor feature-based classification），目的是训练用于图像志特征提取的滤波器，从而使同一个人的图像之间的差异最小化。
几年前，在AlexNet神经网络赢得ImageNet比赛后，深度学习模型在包括人脸识别在内的生物识别领域获得了格外的关注。一个被称为卷积神经网络的特殊网络“家族”能够达到接近人类认知水平。
尽管人脸识别技术在过去的几年间发展到了前所未有的水准，但该领域仍面临着表情、姿势、光照、衰老以及面部遮挡等因素的影响，Tiong等人使用多模态生物识别技术来解决这些挑战。

2.1.4 多模态生物识别

与基于计算机的方法相比，人脑在人体识别上最显著的优势之一就是能够评估多种模式的描述性信息（面部、步态、头发和眼睛的颜色等）。为了拟合人脑功能，提出了一种新的生物识别模式，即“多模态生物识别”。这种方法旨在结合不同的生物识别方法和辅助信息，从而提高单一技术的性能和可靠性。

2.1.5 其他方法

目前为止提到的特征在某些环境下可能并不能进行很好的检测，要么是由于模型的精确度不高，要么是因为缺乏正确识别的专用设备，因此产生了一些并不十分常见的识别方法：

基于耳朵的生物识别
基于智能手机应用的识别
基于心跳频率的生物识别
基于互联网环境下的手势识别
基于眼球随动模式的特征识别
基于鼻子的生物识别
基于静脉构型的生物识别

2.2 深度学习方法的步态识别

尽管传统的机器学习和步态识别策略在过去的几年已经取得了较为满意的结果，但这些方法通常受到人工提取特征和学习数据中的固有模式而使识别能力受限。基于此种情况，深度学习方法的出现不失为一种良好的解决方案，在处理图像或视频的时序特征时，也表现出优异的性能。下文将逐一简要介绍用于步态识别的流行网络架构。

2.2.1 卷积神经网络（Convolutional Neural Networks，CNN）

卷积神经网络自2010年初取得普及以来，成为解决图像处理问题的关键技术。卷积神经网络的基本模块由卷积神经元组成，卷积核的尺寸通常是33或55的，在卷积操作后输出一组新的矩阵，然后被用作模型的后续层。因此，CNN可以被理解为产生连续层输入的卷积核的堆栈。

2.2.2 胶囊网络（Capsule Networks，CapsNet）

尽管CNN在图像特征的处理上效果很好，但容易混淆复杂的空间关系。用一个通俗的例子说明，一个训练好的CNN如果找到了狗的身体、面部、尾巴等组成部分，即使这些部分是按照不同的顺序组合而成的，CNN也能够轻易地识别出这是一只狗，而CapsNet能够有层次的识别这些部分，该模型包括两层结构，第一个是卷积编码器，它执行低层次特征的识别；第二个是代表全连接的线性解码器，采用协议路由算法，将低层次的特征处理到高层次中的正确位置。因此，CapsNet对于对象的定位更加稳健，还能更好地识别场景中的多个或重叠的物体。

2.2.3 循环神经网络（Recurrent Neural Networks，RNN）

许多文献将步态识别问题视为个人运动的图像序列来进行处理，它能够考虑到输入数据的信息以及其他神经元的输出，以循环的方式对每个神经元进行计算。该架构还可以与CNN进行结合，以提取更多关于输入图像的信息，从而进行识别推理。
由于描述一个人的步态通常需要相当数量的序列特征，一组特定的RNNs（即门控RNN）由于其具有处理长序列的能力，更适合于这项任务。在这种情况下，我们可以参考两种主要的架构，即长短时记忆模型（LSTM）和门控循环单元（GRU）。

长短时记忆模型（Long-short Term Memory，LSTM）
长短时记忆模型的首次提出是在1997年，由Hochreiter和Schmidhuber为改善长序列数据的结果而提出并实现的。LSTM的工作方式与传统的RNN类似，即一个给定的神经元的输出取决于之前神经元结果的递归信息，主要区别在于LSTM单元的结构更为复杂，具体构建解释如下：
遗忘门：定义了多少信息应该被保留。前一个和当前状态的数据通过一个sigmoid函数，这个函数的输出值在0和1之间，越接近1，保留的信息就越多。
输入门：计算一个新的值来更新当前的隐藏状态。输入门主要考虑两个值：一个sigmoid函数计算先前隐藏状态的重要性；原始值传给一个tanh函数，它负责在-1到1之间压扁这个值。这两个值的乘法运算定义了当前的隐藏状态。
输出门：定义了单元的输出值。来自遗忘门和输入门的值相加并传入一个tanh函数；单元的先前状态传入一个sigmoid函数；前两者相乘得到该单元的输出。
门控循环单元（Gated Recurrent Unity，GRU）
门控循环单元是一种循环（递归）神经网络，最初是为了改善神经机器翻译的结果而进行理想化的一种模型。与LSTM一样，GRU具有控制信息流的内部门，主要区别在于每个模型中可用的门的数量，GRU去掉了输入门，只包含遗忘门和输出门。研究表明，尽管GRU使用的门数比LSTM少，但它可以达到类似精确的结果，其优点是减少了计算负担，并且运行速度更快。

2.2.4 自动编码器（Auto Encoders，AE）

自动编码器是一种生成型神经网络，通常用于数据还原和图像去噪。该模型包括两个重要部分：
编码器：负责将输入信息编码到一个通常较小的特征空间。
解码器：执行编码数据的无监督重建。

2.2.5 深度信念网络（Deep Belief Networks，DBN）

深度信念网络是为生成任务理想设计的随机神经网络，由受限玻尔兹曼机（Restricted Boltzmann Machine，RBM） 和sigmoid信念网络（SBN） 构成的混合生成模型。

2.2.6 生成对抗网络（Generative Adversarial Networks，GAN）

生成对抗网络由于其生成真实合成图像的出色能力，在过去几年中变得很流行。该模型包括两个不同的网络：
生成器：用于学习数据的分布特征并生成合成样本
鉴别器：用于识别一个特定的实例是真实的还是由生成器生成的
两者以对抗的方式竞争，生成器试图生成足够真实的样本欺骗鉴别器，鉴别器通过改进自己以识别生成样本。

2.2.7 总结

下表总结了上述方法在步态识别领域的主要任务：

技术	任务
卷积神经网络（CNN）	从图像或视频帧中提取特征
循环神经网络（RNN）	包括LSTM和GRU，通过几个门单元来控制信息流，被用来处理时序问题
自动编码器（AE）	通过对输入特征进行压缩和解压，从而实现识别
胶囊网络（CapsNet）	改善CNN输出的语义特征
深度信念网络（DBN）	将编码的特征图像进行压缩表示
生成对抗网络（GAN）	通过对来自模型（如：CNN）的数据和生成数据进行反复辨别区分的训练方式

2.3 步态识别

目前为止，已经提出了几种通过生物特征识别方法，尽管这些方法的可靠性和安全性已经在银行和公共治理系统中得以证实，但仍存在两个主要障碍：

信息源是被动的
依赖于专业设备

值得庆幸的是，处理步态识别信息的模型能够有效地处理上述障碍，因为生物识别信息的获取在绝大多数情况下是依赖于一个没有特殊功能的相机或非侵入性传感器，这些信息是能够被动收集且无需考虑法律问题（在合法的前提下）。
此外，现阶段的步态识别技术可以分为基于模板和非模板两大类：

基于模板的方法
旨在获取躯干或腿部运动，可以通过典型相关分析、联合稀疏模型、使用组套索运动进行分割，常用的有步行路径图像（Walking Path Image，WPI）、步态信息图（Gait Information Image，GII）、步态能量图（Gait Energy Image，GEI）等。
基于非模板的方法
此方法认为形状和其属性是密切相关的，因此通过测量形状进行识别。

3. 基于深度学习的步态识别

3.1 卷积神经网络

卷积神经网络是基于哺乳动物视觉皮层神经元的概念，最初应用于数字分类任务，现阶段已被广泛应用于分类、重建和物体检测等方面。
许多专家学者提出了基于卷积神经网络的步态识别模型，本博客不再一一列举（如有需要，可参考论文原文）。
此外，他们比较了三种类型的数据安排方式：

本地底层（Local Bottom）：在输入数据之间进行组合，然后直接判断输入数据是否来自同一个人（或不同的人）。
中层顶部（Mid-level Top）：神经网络在组合两个输入数据之前，提取它们的一些特征，然后确定它们是否来自同一个人。
全局顶级（Global Top）：与前一个网络类似，但它有一个额外的卷积和Perceptrons层，使得特征的组合是在倒数第二层进行的。

3.2 胶囊网络

另一个著名的用于步态识别的深度架构类型是胶囊神经网络。该网络通过对场景中物体（即胶囊）之间的层次关系进行建模，被开发用于图像分类。

3.3~3.6 循环神经网络、自动编码器、深度信念网络、生成对抗网络

深度信念网络是使用限制性波尔兹曼机作为构建模块的随机神经网络。这种模型由于能够完成多项任务而变得非常流行。

3.7 总结

3.7.1 解决方法

一般来说，步态识别在考虑深度学习解决方案时，卷积神经网络是最受欢迎的选择，特别是关于基于图像/视频的问题，因为CNN在各种应用中获得了出色的结果，并在过去几年中精准度测试方面取得了不错的表现成绩。值得一提的是，其他架构也为步态识别领域提供了宝贵的贡献，在一些特定的任务中表现更好。
例如，胶囊网络能够以分层的方式提取部分步态表征，在场景中有重叠的情况下提供更好的结果；递归神经网络能够较好地处理连续的数据（如视频）。
虽然大多数基于深度学习的步态识别方法包括图像/视频领域，但其他数据源（如：加速度计、陀螺仪、基于传感器等），也在相当多的论文中提供了令人印象深刻的结果，这些论文大多在这个过程中涉及无监督的深度学习方法，如自动编码器和深度信念网络，它们通常在这些数据类型上更具有表现力。这些无监督的方法可以提取有关数据分布的信息并对其进行处理，通常是在一个较低的维度空间，为步态识别提供更具代表性的特征。
最后，生成对抗网络描述了一种特殊情况，即步态系统可以学习更广泛的特征（如：方向、衣服、场景中的个体数量等），因为它们可以生成合成数据用于训练模型。此外，生成对抗网络还可用于评估基于步态的系统中的欺骗行为。

3.7.2 表示方法

关于最常用的表示步态图像数据的方法，步态能量图像（GEI） 反映了使用加权平均法的简单能量图像周期的序列。此外，对一个行进周期的序列进行处理，以对齐二进制剪影。因此，GEI保持了人类行走的静态和动态特征，并大大降低了图像处理的计算成本。通过对该方法的深入分析，我们可以观察到该模型的几个特点：

GEI对个别图片的剪影噪声较为敏感。
它专注于人类行走的具体表现，不会软化矢量图像的背景。
它在一张图片中表示人类运动，同时保留了时间信息。

同样，基于跨视角的步态识别（cross-view-based） 是另一种流行的解决方法，用于处理不同的视觉角度。该输入类型需要多个摄像机和不同的环境，因此被限制在真实场景中。此外，在进行任何组合之前，它在视觉上将步态特征归一化，这使得模型能够学习场景中视觉运动之间的关系。

目前基于深度学习的步态识别所面临的主要挑战，可以参考步态数据的复杂性，它源于多种因素的相互作用（如：视线遮挡、相机视点、个体的外观、序列的顺序、身体部位的运动或数据中存在的光源等）。
目前，与步态识别相关的领域还有很多（如：人脸识别、情绪和姿势估计），相关领域的专家学者专注于学习混乱的语境，提取特征，将数据的高维空间中的各种解释因素分开。然而，大多数使用深度学习的步态识别方法还没有探索过这种方法，从而难以明确地以重要的不相干变量的形式分离步态数据的基本结构。尽管最近在一些步态识别方法中使用混乱的背景方法方面取得了进展，但仍有改善和进步的余地。

下表展示了本节中所介绍的所有方法的论文、发表年限、使用基本模型以及评价指标等：

Ref.	Year	Model	Input Type	Dataset	Measure	Result
GEINET: View-invariant gait recognition using a convolutional neural network	2016	CNN	GEI	OU-ISIR	Identification rate	94.6%
A comprehensive study on cross-view gait based human identification with deep CNNs	2017	CNN	Cross-view	CASIA-B	Accuracy	90.8%
DeepGait: A learning deep convolutional representation for view-invariant gait recognition using joint Bayesian	2017	CNN + Joint Bayesian	Sensors	OU-ISIR	Identification rate	97.6%
Gait recognition based on convolutional neural networks	2017	CNN	Optical flow	TUM-GAID and CASIA-B	Accuracy	97.52%
On input/output architectures for convolutional neural network-based cross-view gait recognition	2017	CNN + Siamese networks	Cross-view	OU-ISIR	Accuracy	98.8%
Pose-based deep gait recognition	2017	CNN + Nearest Neighbor	Optical flow	TUM-GAID, CASIA-B, and OU-ISIR	Identification rate	99.8%
Invariant feature extraction for gait recognition using only one uniform model	2017	Autoencoders + PCA	GEI	CASIA-B and SZU RGB-D	Identification rate	97.58%
Deep learning based gait recognition using smartphones in the wild	2018	CNN + LSTM	Accelerometer and Gyroscope	WhuGAIT and OU-ISIR	Accuracy	99.75%
Multi-task GANs for view-specific feature learning in gait recognition	2018	GAN	PEI	OU-ISIR, CASIA B and USF	Accuracy	94.7%
Artificial neural networks classification of patients with Parkinsonism based on gait	2018	DBN	Sensors	Private datasets	Accuracy	93%
Gait recognition based on capsule network	2019	Capsule	LBC and MMF	OU-ISIR	Accuracy	74.4%
Nonstandard periodic gait energy image for gait recognition and data augmentation	2019	CNN	GEI + Data Augmentation	CASIA-B	Accuracy	98%
Gait recognition via disentangled representation learning	2019	Autoencoders + LSTM	Cross-view and Frontal-View Gait (FVG)	CASIA-B, USF and FVG	Accuracy	99.1%
Person identification from partial gait cycle using fully convolutional neural networks	2019	Autoencoders + PCA	GEI	OU-ISIR and CASIA-B	Accuracy	96.15%
Deep learning based gait abnormality detection using wearable sensor system	2019	LSTM	Sensors	Private datasets	Prediction error	0.02
Attacking gait recognition systems via silhouette guided GANs	2019	GAN	GEI	CASIA-A and CASIA-B	Recognition result	82%
Human gait recognition based on frame-by-frame gait energy images and convolutional long short-term memory	2020	LSTM	GEI	CASIA-B and OU-ISIR	Recognition result	99.1%
Cross-view gait recognition using pairwise spatial transformer networks	2020	CNN	Cross-view	OU-MVLP, OU-LP, and CASIA-B	Identification rate	98.93%
Robust cross-view gait recognition with evidence: A discriminant gait GAN (DiGGAN) approach	2020	GAN	Cross-view	OU-MVLP and CASIA-B	Identification rate	93.2%
Gait recognition using multiscale partial representation transformation with capsules	2020	Capsule	Multi-scale representations	CASIA-B and OU-MVLP	Identification rate	84.5%
Continuous human gait tracking using sEMG signals	2020	DBN	Sensors	Private datasets	RMSE	2.61
Multi-model long short-term memory network for gait recognition using window-based data segment	2021	LSTM	IMU	whuGAIT and OU-ISIR	Accuracy	94.15%
Associated spatio-temporal capsule network for gait recognition	2021	Capsule	Sensors	Several	Accuracy	99.69%

原文中的这个表格出现了一些错误，在本篇博客中都予以更正了。
（x, x）为表格行列数

位置更正前更正后

(3, 5) (5, 5) (7, 5) (8, 5) (10, 5) (13, 5)
(14, 5) (15, 5) (17, 5) (18, 5) (19, 5) (20, 5) CASIA B CASIA-B

(17, 5) CASIA A CASIA-A

(14, 3) Autoencoders + LSTN Autoencoders + LSTM

(14, 4) Cross- and Frontal-view Cross-view and Frontal-View Gait (FVG)

因为作者在(21, 5)处使用了“CSAIA-B”带连字符的书写形式，而且这种书写形式（好像）更为普遍，所以统一改为带连字符的形式。

位置	更正前	更正后
(3, 5) (5, 5) (7, 5) (8, 5) (10, 5) (13, 5) (14, 5) (15, 5) (17, 5) (18, 5) (19, 5) (20, 5)	CASIA B	CASIA-B
(17, 5)	CASIA A	CASIA-A
(14, 3)	Autoencoders + LSTN	Autoencoders + LSTM
(14, 4)	Cross- and Frontal-view	Cross-view and Frontal-View Gait (FVG)

4. 数据集

机器学习模型的训练和评估步骤，无论采用何种模式（监督、无监督或任何其他模式），都取决于包括任务主题的数据集。此外，使用某一特定数据集可以判别方法对解决特定问题的有效性，且便于进行比较。
关于步态识别，考虑到公共或私人隐私等问题，在获取和创建数据集方面有两个突出的问题：

步态生物测量需要对一个对象进行合理数量的运动记录，这意味着为每个人都要被记录和生成多个视频，这些视频通常具有固有的高维度（导致数据集的增大），因此需要高存储容量。
生物识别数据的提取和公开发布需要得到每个参与者的许可。

4.1 CMU MoBo

CMU MoBo数据数包含的数据量相对较少，是从20个人身上提取的几个用于步态识别的视频。该数据集还提供了一组剪影掩码和边界框，从而减轻了分割过程的难度。
CMU MoBo数据集可以免费下载，无需保留或签署协议书，只需要连接Calgary University的文件传输协议（FTP）服务器即可。

4.2 TUM GAID

TUM GAID（Gait from Audio, Image, and Depth）数据集，由RGB图像、音频和深度复合而成，最初由305人录制，有三种不同的变化。后来，其中的32人被重新记录，数据集总共包括3370条记录。
TUM GAID数据集的一个强大优势是有一个明确的评估协议，该数据集需要签署请求文件才可以获得。
下图展示的是该数据集网站中的步态识别示例。

4.3 HID-UMD

HID（Human Identification at a Distance）-UMD数据集包含从四个不同角度拍摄的人走路的视频和各自用于前景分割的二进制掩码，其主要目的是帮助研究人员开发新的步态和面部生物统计学识别方法。此外，该数据集是由两个数据集组成的集合：

数据集1：25个人在四个不同姿势下的行走。
正面视图 / 向前走。
正面视图 / 向后走。
正面平行视图 / 向左走；
正面平行视图 / 向右走。
数据集2：55个人走过一个T形通道。
这些序列是由两台摄像机获得的，且两台摄像机的拍摄视线是相互正交的。

关于此数据集的更多细节可参见HID-UMD Dataset官网，申请数据集可以在官网申请地址进行申请。

4.4 CASIA

中国科学院自动化研究所提供了CASIA步态数据库，这个数据库由四个数据集组成，主要应用于步态识别，具体描述如下：

CASIA-A： 创建于2001年12月，以前被称为NLPR步态数据库，包括20个个体，每个个体包括12个视频（即与图像平面平行、45和90度的三个方向各4个视频）。每个图像序列都有一定的持续时间，随着人行走速度的变化而变化。该数据集的总大小约为2.2 GB。下图展示了CASIA-A数据集中不同视角的一些示例。
CASIA-B： 创建于2005年，包括从11个不同角度拍摄124个人。每个序列都重复了三次（衣着，行走速度等变化）。此外，该数据集还包括一组为所有序列提供的剪影，可用于前景分割。
下图分别展示的是不同角度和不同衣着条件下的示例图。
CASIA-C： 创建于2005年，包含了153个由红外摄像机（热光谱）拍摄的对象，所有图像都是在夜间进行拍摄的，共有四种不同的变化：正常行走、缓慢行走、快速行走和背着背包正常行走。下图是CASIA-C的数据示例。
CASIA-D: 包含图像和累积的脚部压力信息，该数据集包括3,496张步态姿势图像和2,658张累积脚压信息。
CASIA数据集介绍及申请地址

4.5 OU-ISIR Biometric

OU（Osaka University）-ISIR（Institute of Scientific and Industrial Research）数据集是2007年以来世界上最大的步态识别数据库，包含8个数据集：

跑步机数据集（Treadmill Dataset）

这组数据由人们在电子跑步机上行走的序列组成，周围有25台摄像机以每秒60帧的速度拍摄，分辨率为640×480，包含四个子数据集：

A-速度变化： 包括34名受试者在横向视野中，速度在2到10公里/小时之间变化，间隔为1公里/小时。
B-衣着变化： 由68个侧视的人组成，有32个服装变化。
C-视角变化： 包括168人，年龄从4岁到75岁不等，具有25个不同的视角。
D-步态波动： 由185名受试者的步态剪影序列组成，从侧面角度观察，速度按照高速和低速的变化被细分为两组，每组100名受试者（有15人重复）。

大型人群数据集（Large Population Dataset, OU-LP）

建立于2009年，通过外展活动收集的大型人口数据集由4016名受试者组成，每个受试者从四个摄像机角度拍摄两次，分辨率为30FPS，640×480像素。

速度过渡数据集（Speed Transition Dataset）

此数据集包括两个子集：

Dataset A： 包含179个场景，这些场景是人们在跑步机或地面上以每小时4公里的速度匀速行走。在这组数据中，背景已被去除。
Dataset B： 包括25个人在跑步机上行走的序列，速度在1到5公里/小时之间变化。每个人都被拍摄了两次，加速和减速在三秒钟内进行，中间的一秒钟的序列从这两段中提取出来。

多视角大型人群数据集（Multi-view Large Population Dataset, OU-MVLP）

该数据集由10,307个样本组成，其中5,114个为男性，其余5,193个为女性，年龄在2-87岁之间，为交叉视觉的运动识别方法而开发。这些图像从14个不同角度拍摄，帧率为每秒25帧，分辨率为1,280 × 980。用于拍摄的设备被放置在横向距离和高度分别为8米和5米的地方。

带有袋子的大型人群数据集（Large Population Dataset with Bag, OU-Bag）

该数据集侧重于对携带物体的人的步态识别，目的是不仅要依靠生物识别信息，而且要识别被运送部分（如果有的话）在身体上的位置。带袋子的大型人口数据集包括62,528人，年龄在2到95岁之间，通过一个距离约为8米、高度为5米的摄像机获得。这些序列的拍摄速度为每秒25帧，分辨率为1,280 × 980像素。每个人被拍摄了三次，这样，第一次，即A1，携带或不携带物体，而第二次和第三次则不携带任何东西。最后，在携带东西的情况下，总共标记了四个区域，即下侧、上侧、前侧和后侧。所有视频都有各自的二进制掩码，用于去除背景。

基于年龄的大型人口数据集（Large Population Dataset with Age, OU-Age）

基于年龄的大型人口数据集是为了研究有关人们年龄和性别的步态识别。该数据集包括62,846个在特定路径上行走的人，摄像机以每秒30帧的速度捕捉640×480像素的分辨率。这些序列中的人年龄在2到90岁之间，所有视频都有各自的二进制掩码，用于去除背景。

惯性传感器数据集（Inertial Sensor Dataset）

惯性传感器数据集被指定用于研究和评估通过运动传感器和加速度计进行个人识别的方法，它是最大的基于惯性传感器的步态数据库，由收集自744名受试者（389名男性和355名女性）的图像组成，其年龄范围为2至78岁。

相似动作惯性数据集（Similar Actions Inertial Dataset）

相似动作惯性数据集包括460名年龄在8到78岁之间的参与者，其性别分布基本相等，数据集还呈现了地板的六个不同特征：无效、平坦、爬楼梯、爬楼梯、爬坡道和坡道下降。

4.6 USF

USF（University of South Florida）的数据集包括来自122名受试者的1,870个序列，使用两种不同的鞋子。该数据集还考虑了携带或不携带公文包的个体，不同的表面条件（草地和混凝土），以及不同的摄像机视角（左/右视角）。这些视频是在户外环境中拍摄的两个不同的时间点上拍摄的。

4.7 SOTON

SOTON（Southampton Human ID at a Distance)数据库是南安普顿大学创建的，由三个主要部分组成：

SOTON小型数据集（SOTON Small database） 由12名受试者组成，他们穿着不同的鞋子和衣服，携带或不携带袋子，以不同的速度在内部轨道上行走。
SOTON大型数据集（SOTON Large database） 包含114名受试者在室外、室内的实验室轨道上和室内的跑步机上行走。图像从六个不同的角度拍摄，共计5000+个序列。
SOTON短时数据集（SOTON Temporal） 该数据是使用多生物测量隧道采集的，它包含12个同步的摄像头来捕捉人们在一段时间内的步态。该数据集由动态环境组成，包括不同的背景、照明、行走表面和摄像机的位置。该数据集包括25名受试者（17名男性和8名女性），年龄从20岁到55岁不等。

注意，被拍摄者都是赤脚状态。

4.8 AVAMVG

AVAMVG（AVA Multi-view Dataset for Gait Recognition）数据集是一个专门为基于三维的步态识别算法设计的数据库，它包括来自20个演员的步态图像，描述了不同的轨迹。这些序列是使用专门为该任务校准的相机获得的，随后使用三维图像重建算法进行了后处理步骤。此外，每个序列还提供了各自的二进制剪影用于分割。最后，该数据库包含200个六通道多视图视频，也可以作为1200个单视图视频使用，即6×200。

4.9 KY4D

KY4D（Kyushu University 4D Gait Database）数据集是由42名受试者沿四条直线和两条曲线行走的连续三维模型和图像序列组成。这些视频由16台摄像机记录，分辨率为1,032 × 776像素，并分为三个子集：

数据集A（直线）： 由连续的三维模型和人们沿直线行走的图像序列组成。

数据库B（曲线）： 包括人们沿着曲线轨迹行走的图像序列

KY红外（IR）阴影步态数据库： 它是由54名受试者的时间序列阴影图像组成的。

4.10 WhuGAIT

武汉大学于2018年发布了whuGAIT数据集，并公开了源代码和预训练模型。与其他数据集不同，whuGAIT包括从118人身上收集的3D加速度计和3轴陀螺仪信息，其中20人在三天内收集，98人在一天内收集。根据所需的任务，该数据集被分为六个不同的子集。

数据集#1： 由来自118人的33104个样本组成，用于训练，3740个用于测试，分为两步分割。
数据集#2： 与数据集#1类似，包括一个两步分割数据集，由49,275个用于训练的样本和4,936个用于测试的样本组成，提取自20人的三天收集的数据。
数据集#3： 这个子集被分为时间大小的窗口，每个样本包括2.56秒。该集包括26283个用于训练的实例和2991个用于测试的实例。
数据集#4： 与数据集#3类似，该子集被划分为2.56秒的时间框架，但使用的是三天内收集的20个人的数据。该子集包括35,373个用于训练，3,941个用于测试。
数据集#5： 这个子集被用于验证目的。它由118人的74,142个实例组成，从98人中提取的信息被用于训练，而其余20人被用于验证。认证程序是由一对来自一个或两个不同主体的样本组成的。这些实例包括两步的加速度和陀螺仪数据。
数据集#6： 这个子集采用了与数据集#5相同的结构，但它使用的不是水平对齐，而是垂直对齐。

4.11 总结归纳

下表展示了各个数据集所含数据的属性特点：

方面\数据集	CMU MoBo	TUM GAID	HID-UMD	CASIA	OU-ISIR	USF	SOTON	AVAMVG	KY4D	WhuGAIT
Viewpoint （固定视角）	×		×	×	×	×	×	×	×	×
Pace （步态图像）	×			×	×	×	×			×
Object （携带物）	×	×		×			×
Shoe （穿鞋）	×	×	×	×	×	×	×	×
Clothing （穿衣服）	×	×	×	×	×		×	×
Time （时间序列）				×	×		×		×	×
Surface （？没看懂）	×	×	×	×		×	×		×	×
Silhouette （步态剪影）		×		×	×				×
Gait Fluctuation （步态波动）					×
Treadmill Walking （跑步机行走）	×				×		×
Overground Walking （室外行走）	×	×	×	×		×		×	×	×
Foot Pressure （脚部压力）				×

博主看了几篇近年来步态识别领域的最新成果（虽然不是很多篇），感觉还是CASIA和OU-ISIR数据集的利用率更高一些，并且评价指标在业界的认可度也更高，另外就是一些作者自建的私有数据集（Private datasets），那些数据集在论文中不能单独使用进行性能评估，必须结合公开数据集。其他的一些公开数据集的利用率并不是很高，初学者了解一下就可以了（大概）。

5. 总结和展望

关于基于视频构建的数据集，有以下几点需要注意：

在用于测试或训练的视频序列中，有且仅有一个人出现
数据集中除人以外的背景是保持不变的（暗示了对于背景环境不变的强约束条件？）

因此，基于此类数据集构建的步态识别模型应用于现实世界时（如：检测公共街道上行走的多个行人），很容易出现识别错误。
关于未来的工作展望，作者提出了以下4点：

注意力机制：此方法尚未在步态识别领域开展较为成熟的研究。【Attention is all you need】
性别和年龄识别：性别和年龄的识别在论文【A deep learning approach on gender and age recognition using a single inertial sensor】中被提及，并逐渐得到应用重视。
危险环境监测：步态识别与危险环境监测有极大的相似度，在论文【A novel siamese-based approach for scene change detection with applications to obstructed routes in hazardous environments】中有所涉及。
多人场景的识别：大多数步态识别工作集中在受控环境中场景中的单一个体，但现实生活中的问题通常需要对场景中多人的非受控环境进行稳健的解决。

此外，作者观察到对穿着不同衣服或携带物品的个人进行步态识别的需求越来越大，以及由步态和补充性生物识别特征组成的混合方法，如加入面部、耳朵等部位共同进行识别。

本篇关于步态识别领域的综述文章，主要是为了初步了解此领域的研究内容、所涉及的基本方法、数据集、最新研究成果。
研究内容——能够感性认识“步态识别”到底是干什么的；
基本方法——文章内介绍的基本方法类型已经比较详实，但是具体的工作原理还需要自行查找相关资料（毕竟综述性文章不会将具体工作流程一一介绍），需要新学习的知识还有很多啊；
数据集——（截至此文发布日期）公开数据集的介绍已经非常详细，并且基本都提供了数据集的获取方法；
最新研究成果——因为步态识别近年来的研究成果更新迭代速度很快，文中所引用的成果可能在最近已经不是最优解决方案了，但是模型构建思路还具有很高的参考价值（一共引用了140篇，挑着看咯~）。
博主是翻译结合自己的理解阅读的这篇文章，如有错误恳请批评指正！

你可能感兴趣的:(深度学习,论文阅读,神经网络,人工智能)

整理：开启新征程！四篇文章助力 AI，告别 “3D理解困难户” mslion 人工智能 3d 大语言模型计算机视觉目标识别
近年来，人工智能的发展让大语言模型（MLLM）变得越来越强大，它们可以理解和处理文字、图片、视频等多种信息，在很多领域都有很好的应用。然而，当这些模型需要理解3D（立体）场景时，仍然面临一些困难。目前的MLLM主要是用2D图片训练出来的，也就是说，它们更擅长识别平面的信息，比如照片中的人和物体。但是，现实世界是三维的（3D），仅靠2D图片训练的模型很难准确理解物体的立体关系。例如，如果只给一个普通
RAG(检索增强生成)系统实践与调优 python_知世 android 金融自然语言处理大模型技术人工智能 RAG 大模型
在人工智能领域，检索增强生成（RetrievalAugmentedGeneration,RAG）是一种结合信息检索和生成式人工智能的技术，它通过从外部数据源中检索相关信息，来辅助大语言模型（LargeLanguageModel,LLM）生成更为准确、上下文相关的答案。1什么是RAG检索增强生成（RetrievalAugmentedGeneration,RAG）是一种结合信息检索和生成式人工智能的技
不同用户群体设计的Manus试用申请理由模板 xinxiyinhe 人工智能人工智能
注：仅供参考。以下是为不同用户群体设计的Manus试用申请理由模板，结合其核心功能与官方审核偏好撰写，可根据自身需求调整使用：模板1：学术研究场景申请理由：我目前从事人工智能与产业经济交叉领域的博士后研究，亟需通过AI技术快速处理大量非结构化数据（如政策文件、企业年报、行业研报）。Manus的「多智能体调度」与「跨平台工具调用」功能能显著提升研究效率，例如：自动化筛选并分析1000+份上市公司ES
DeepSeek对于普通打工人来说有什么帮助呢？人工智能
在当今快速变化的社会中，普通打工人面临着越来越多的挑战：职场竞争加剧、技能更新换代加快、工作与生活的平衡难以掌控等。在这样的背景下，如何提升自身竞争力、找到适合自己的职业发展路径，成为了每个打工人都需要思考的问题。而DeepSeek，作为一款基于人工智能和大数据分析的职业发展工具，正在为普通打工人提供全新的解决方案。本文将从多个角度探讨DeepSeek对于普通打工人的帮助，分析它如何通过职业规划、
训练大模型LLM选择哪种开发语言最好大0马浓人工智能训练 python
训练大型语言模型（LLM）时，选择合适的编程语言主要取决于效率、生态支持、开发便利性以及特定需求（如性能优化或硬件适配）。以下是常见语言的分析和推荐：---1.Python（首选语言）优势：-生态系统丰富：主流深度学习框架（PyTorch、TensorFlow、JAX）均以Python为主要接口，提供完整的工具链（数据处理、模型训练、评估部署）。-开发效率高：语法简洁，适合快速实验和原型开发，社区
豆包AI：打破智能边界，开启“人人可编程”的AI普惠时代 Herbig AI 人工智能
在人工智能技术狂飙突进的2024年，全球AI工具用户已突破12亿，但企业AI落地率仍不足35%——高昂的开发成本、复杂的技术门槛与碎片化的场景需求，如同三重枷锁禁锢着智能革命的红利释放。当大多数AI平台还在比拼模型参数时，豆包AI以“零代码交互+多模态引擎+垂直场景精调”的创新架构，正在重塑人机协作的范式。这款由字节跳动火山引擎团队打造的智能平台，不仅让AI开发效率提升400%，更在医疗、教育、工
动手深度学习笔记（二十九）5.5. 读写文件落花逐流水 pytorch实践 pytorch pytorch
动手深度学习笔记（二十九）5.5.读写文件5.深度学习计算5.5.读写文件5.5.1.加载和保存张量5.5.2.加载和保存模型参数5.5.3.小结5.5.4.练习5.深度学习计算5.5.读写文件到目前为止，我们讨论了如何处理数据，以及如何构建、训练和测试深度学习模型。然而，有时我们希望保存训练的模型，以备将来在各种环境中使用（比如在部署中进行预测）。此外，当运行一个耗时较长的训练过程时，最佳的做法
【深度学习】从全连接层到卷积熙曦Sakura 深度学习深度学习人工智能
从全连接层到卷积我们之前讨论的多层感知机十分适合处理表格数据，其中行对应样本，列对应特征。对于表格数据，我们寻找的模式可能涉及特征之间的交互，但是我们不能预先假设任何与特征交互相关的先验结构。此时，多层感知机可能是最好的选择，然而对于高维感知数据，这种缺少结构的网络可能会变得不实用。例如，在之前猫狗分类的例子中：假设我们有一个足够充分的照片数据集，数据集中是拥有标注的照片，每张照片具有百万级像素，
【深度学习】微积分熙曦Sakura 深度学习深度学习人工智能
微积分在2500年前，古希腊人把一个多边形分成三角形，并把它们的面积相加，才找到计算多边形面积的方法。为了求出曲线形状（比如圆）的面积，古希腊人在这样的形状上刻内接多边形。如图2.4.1所示，内接多边形的等长边越多，就越接近圆。这个过程也被称为逼近法（methodofexhaustion）。事实上，逼近法就是积分（integralcalculus）的起源。2000多年后，微积分的另一支，微分（di
iOS 18 系统功能解析目录蓝鲸忘了海 IOS 1-18系统功能解析 ios cocoa macos
iOS18系统功能解析目录iOS18系统功能解析引言第一部分：iOS18系统架构全解析1.1全新系统设计理念1.2核心架构与硬件协同1.3安全架构与隐私保护1.4跨平台生态协同第二部分：用户界面与交互体验的革新2.1全新视觉设计2.2自定义UI与多任务切换2.3通知中心与交互体验2.4动态交互动画与手势识别第三部分：人工智能与机器学习的深度整合3.1新一代智能助手3.2CoreML与机器学习框架进
Chebykan wx 文章阅读やっはろ深度学习
文献筛选[1]神经网络：全面基础[2]通过sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN[9]强化学习：一项调查[10]使用PySR和SymbolicRegression.jl的科学可解释机器学习[11]Z.Liu,Y.Wang,S.Vaidya,F
人工智能AI通用分级标准方法魔王阿卡纳兹 IT杂谈人工智能通用分级分类标准
人工智能（AI）的通用分级标准在近年来得到了广泛关注和研究，不同的机构和组织提出了多种分级框架，以帮助理解和评估AI的发展水平。以下是对人工智能通用分级标准的详细分析：1.OpenAI的五级分级标准OpenAI于2024年7月发布了通用人工智能（AGI）的五级分级标准，旨在追踪大型语言模型在AGI方面的进展。具体分级如下：第一级：聊天机器人具备语言对话能力的人工智能，如ChatGPT，能够进行基本
LeNet-5卷积神经网络详解 LChuck 深度学习人工智能神经网络深度学习数据结构计算机视觉 AIGC
LeNet-5卷积神经网络详解1.历史背景LeNet-5是由YannLeCun等人在1998年提出的一种卷积神经网络架构，是深度学习领域的一个重要里程碑。这个网络最初是为了解决手写数字识别问题而设计的，在当时取得了突破性的成果。它的成功不仅证明了卷积神经网络在计算机视觉任务中的有效性，更为后来深度学习的发展奠定了重要基础。图1：LeNet-5网络结构示意图2.网络结构LeNet-5的结构非常优雅且
基于yolov11的瓶盖缺陷检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO pytorch 人工智能
【算法介绍】基于YOLOv11的瓶盖缺陷检测系统在现代制造业中，瓶盖的质量直接影响到产品的封装效果和消费者的使用体验。因此，对瓶盖进行快速、准确的缺陷检测至关重要。基于YOLOv11（YouOnlyLookOnceversion11）的瓶盖缺陷检测系统应运而生，为瓶盖质量监控提供了一种高效、智能的解决方案。该系统采用YOLOv11作为核心检测算法，这一算法融合了先进的深度学习技术和创新的网络架构，
【Python】构建智能语音助手：使用Python实现语音识别与合成的全面指南蒙娜丽宁 Python杂谈 python 语音识别开发语言
随着人工智能技术的迅猛发展，语音助手已成为人们日常生活中不可或缺的一部分。从智能手机到智能家居设备，语音交互提供了便捷高效的人机交互方式。本文旨在全面介绍如何利用Python编程语言及其强大的库——SpeechRecognition和gTTS，构建一个基础但功能完备的语音助手。文章首先概述了语音识别与合成的基本原理和关键技术，随后详细讲解了如何安装和配置必要的开发环境。通过丰富的代码示例和详细的中
论文阅读：Personalized Purchase Prediction of Market with Wasserstein-Based Sequence Matching Narcissus`小暮一步步来学大数据推荐系统
PersonalizedPurchasePredictionofMarketwithWasserstein-BasedSequenceMatching概述问题背景及陈述预测算法步骤一：itemembeddings步骤二：计算wassersteinDistance步骤三：Wasserstein-BasedDynamicTimeWarping预测实验评价标准数据集对比的baseline结论市场篮子的应
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读 EEG-TCNet Plan-C- 论文阅读
EEG-TCNet:AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度。EG-TCNET成功地推广了单个数据集，通过0.25的元效应优于MOABB的当前最新技术水平
智慧农业平台与 DeepSeek 大模型的深度融合 jingwang-cs 人工智能后端
在数字化浪潮席卷全球的今天，农业领域正迎来一场深刻的变革。智慧农业，作为农业现代化的重要发展方向，正借助人工智能、大数据等前沿技术，实现从传统到现代的跨越。本文将为您详细介绍智慧农业领域的新趋势，以及智慧农业平台如何携手DeepSeek大模型，赋能农业数字化转型，引领农业迈向新时代。智慧农业的新趋势：拥抱DeepSeek大模型智慧农业的发展离不开技术创新的推动。近期，DeepSeek大模型在农业领
论文阅读《Semantic Stereo Matching with Pyramid Cost Volumes》 cunese0088 深度学习
SSPCV-Net（语义立体匹配网络）目的：进一步捕捉视差的细节主要模块：数据集：SceneFlow,KITTI2012,KITTI2015,Cityscape(比较泛化能力)-------------------------------------------------------------------------------------------------------Concatevo
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
医院DEEPSEEK辅助应用 cainiaojunshi 智慧城市
一、背景介绍1.1国家政策支持《卫生健康行业人工智能应用场景参考指引》《“十四五”全民健康信息化规划》《关于进一步完善医疗卫生服务体系的意见》的发布。明确了84个AI在医疗健康领域的应用场景，涵盖了预防、诊断、治疗、康复等全流程。涉及医疗服务管理、基层公卫服务、健康产业发展以及医学教学科研等多个关键领域‌。国家层面明确将人工智能作为医疗领域新质生产力的核心驱动力，推动AI与临床诊疗、医院管理深度融
InternVL：论文阅读 -- 多模态大模型(视觉语言模型) XiaoJ1234567 LLM 论文阅读语言模型人工智能多模态大模型 internVL
更多内容：XiaoJ的知识星球文章目录InternVL:扩展视觉基础模型与通用视觉语言任务对齐1.概述2.InternVL整体架构1）大型视觉编码器：InternViT-6B2）语言中间件：QLLaMA。3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于
深度解析：Deepseek与Manus的根本区别——大模型与AI智能体的深度对比火山说数 AI 数字化人工智能 AI Agent 数字化 Manus Deepseek
在人工智能领域，随着技术的发展，出现了许多强大的工具和系统。Deepseek和Manus便是其中两个广泛受到关注的系统，它们各自代表了人工智能发展的两条不同路径。一个侧重于“大脑”的建设，另一个则强调“手脚”的行动。虽然这两者都与智能技术息息相关，但它们的核心功能和应用场景却有着本质的不同。一、Deepseek：强大的“大脑”，但缺乏行动能力1.1什么是Deepseek？Deepseek是基于大规
第二十七个问题-AI Agent 与 RAG 的核心区别释迦呼呼 AI一千问人工智能语言模型机器学习深度学习自然语言处理
AIAgent与RAG的核心区别AIAgent（人工智能代理）与RAG（检索增强生成）是当前生成式AI领域的两个关键技术，二者在功能定位、技术架构和应用场景上存在显著差异，但也可协同互补。以下从多个维度对比分析：1.核心目标维度AIAgentRAG主要目标自主执行复杂任务（感知、决策、行动闭环）通过检索外部知识增强生成结果的准确性智能性强调自主推理、多步规划与动态调整能力依赖检索与生成的静态组合，
2024-05-21 问AI: 介绍一下大语言模型的推理过程。 BigSharkTech 必杀技用AI来理解AI 人工智能语言模型自然语言处理
文心一言大语言模型的推理过程是一个复杂而精细的序列，它结合了深度学习和自然语言处理的技术，旨在理解和生成人类可以理解的自然语言文本。以下是该过程的主要步骤：输入文本的解析：当用户输入一段文本时，大语言模型首先会通过一个称为分词器的工具（tokenizer）对输入文本进行解析。分词器会将文本分解为一系列的单词或子词（tokens），并将它们转换为数字形式的序列。这些数字通常是单词在模型词典（voca
基于pytorch的神经病网络搭建学习停走的风 pytorch学习学习 pytorch 人工智能
1.pycharm中code方法的使用1.1父类重写技巧操作：在需要重写的方法上右键，选择code-->Generate>OverrideMethods。作用：自动生成重写父类或接口的方法2.简单神经网络importtorchfromtorchimportnnclassyu(nn.Module):def__init__(self,*args,**kwargs)->None:super().__in
效率翻倍！超好用的AI+写作API接口汇总程序员后端
在过去几年里，人工智能（AI）技术经过众多科技公司和科研人员的不懈努力取得了巨大进步，吸引了大众的广泛关注。这些AI技术在应用领域的新闻报道也逐渐走入人们的视野，引发了对其具体应用的浓厚兴趣。今天，我们将聊一聊AI与写作文案的结合。在传统观念中，AI技术通常被限制在有明确定义任务的领域。然而，实际上，AI在创造性任务，如写作方面，也展现出了强大的潜力。人工智能写作软件提供了多种选择，可用于生成长篇
安当TDE透明加密技术：为Manus大模型构建用户会话数据保护的“安全金库” 安当加密安全
摘要在人工智能技术深度落地的今天，大模型开发者面临的核心挑战已从算法优化转向数据安全。作为垂直领域大模型的代表，Manus凭借其强大的语义理解与个性化交互能力，在金融、医疗、教育等行业获得广泛应用。然而，其海量的用户会话数据存储与调用场景，也面临着数据泄露、非法篡改等安全威胁。上海安当基于TDE（TransparentDataEncryption）透明加密技术，推出了一套针对Manus大模型的用户
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓