[深度学习论文笔记][PAMI 17]A Comprehensive Study on Cross-View Gait Based Human Identification wit

[PAMI 17]A Comprehensive Study on Cross-View Gait Based Human Identification with Deep CNNs

Zifeng Wu, Yongzhen Huang, Liang Wang, Xiaogang Wang, and Tieniu Tan

from CAS-IA and CUHK

paper link

这篇文章是第一篇将深度学习引入步态识别任务的工作。文章的重点是在CASIA-B数据库上针对多视角和多行走状态的问题进行研究。模型在CASIA-B、OU-IRIS以及USF数据库上都有很好的性能表现。

Network Framework

LB, MT and GT

该工作使用的网络均是2输入网络:输入prob和gallery的GEI,输出两者是否来自于同一个体。本质上网络涉及到“特征提取”和“特征比较”两个过程。根据这两个过程的程度的不同,作者提出了三种不同的二输入网络。从左至右依次称为LB、MT、GT:

[深度学习论文笔记][PAMI 17]A Comprehensive Study on Cross-View Gait Based Human Identification wit_第1张图片

其中,LB的含义是’Matching Local Features at the Bottom Layer’,即先对输入的GEI作比较,网络结果均属于比较器。MT的意思是’Matching Mid-Level Features at the Top Layer’,即网络对各个输入进行了一定的特征提取后进行比较。GT在MT的基础上更进一步,’Matching Global Features at the Top Layer’意味着网络的大部分都用来提取特征。

在这三个结构中GT的参数量最大,但是实际使用的时候最省时间,因为gallery的特征可以提前计算好存储下来。

Two Stream Network

如果想使用GEI之外的特征,如CGI,可以使用该网络:

[深度学习论文笔记][PAMI 17]A Comprehensive Study on Cross-View Gait Based Human Identification wit_第2张图片

该网络是两个LB的集合。

3D CNN

GEI是视频各帧silhouette的平均。如果想更好地利用各帧silhouette,作者提出了使用3D卷积,将各silhouette作为子LB网络的输入,非常类似于视频处理中的常见CNN结构:

[深度学习论文笔记][PAMI 17]A Comprehensive Study on Cross-View Gait Based Human Identification wit_第3张图片

作者最终使用了这些网络的集合(Ensemble),达到了最好的识别准确率。

Experiment

作者首先在CASIA-B库上做了详细的实验。实验具体结果可以参见论文实验部分。总结起来,实验结论大致有以下几点:
1. 与传统方法,如ViDP相比,本文提出的模型性能有明显优势;
2. 现有数据库的规模仍难以支撑训练稍复杂的深度网络,GT网络的训练出现了严重的过拟合现象。因此实验部分作者以分析LB和MT为主;
3. 有些角度包含教少的步态信息,如0°,18°,162°,180°等。以这些角度作为probe的实验结果相对较差;
4. 行走状态(CL和BG)对识别结果影响较大;
5. GEI本身的噪声对网络的识别结果影响不大。

此外在OU-IRIS和USF数据库中,本文提出的模型也有很好的效果。

你可能感兴趣的:(深度学习论文笔记)