基于融合特征的行人再识别实现

纪录自己对于毕设的一些思考,或许能有助于最后论文的书写。

研究背景

随着科技的发展以及社会的需要,越来越多的大型摄像头网络被部署在在了机场、火车站、大学校园、办公室等公共场所。这些地理空间跨度大,视域不重叠的摄像头网络给人们提供了大量的视频数据。人工监视这些视频中的行人是不合适的,既费时又费钱。通过视频算法自动地分析大量的视频数据不仅能提高效率还能显著提升监控的质量[1]。通过视频分析能够确定人们在一个场景中的长期活动和行为特征,使得监控更加主动,例如:对可疑活动的检测以及对不良事件的预测并及时向安保部门报警[2]。

行人再识别中的再识别是指在监控视频中识别出某个特定的已经在监控网络中出现过的行人[3]。行人再识别是多摄像机视频监控系统研究中的重要内容,其目的是通过不同摄像机视域下目标的对应关系来确定监控系统中一个特定的目标是否在其他摄像机视域中出现过。但是由于不同摄像机视域存在视角、光照条件和姿态的变化使得同一行人目标外观存在很大的差异。再加上不同摄像头的分辨率不尽相同,被监控行人部分被遮挡,背景的影响以及监控视域中存在相似行人目标等不确定因素,使得行人再识别问题成为一个非常具有挑战性的课题。目前行人再识别领域面临的主要挑战为:行人外观的变化以及自动探测和追踪的实现。目前在行人再识别领域存在的挑战具体又可分为系统级挑战和组件级挑战两类。其中系统级挑战包括行人探测以及多个行人的追踪,关于单摄像头的多对象跟踪在近二十年有着广泛的研究并且提出了很多算法。组件级挑战包括描述符问题和匹配问题,例如:行人不配合、环境不可控、被遮挡、视频数据的分辨率、帧率、图像环境、图像角度等问题。通常,行人再识别又可以分为短期行人再识别和长期行人再识别。在短期行人识别中,衣服是一个合理的描述符,但是在长期行人识别中,数据往往间隔几天或几个月。因此长期行人再识别相比于短期行人再识别,需要更加健壮并且独特的特征,而想要自动提取这种特征是非常困难的。为了解决上述问题对行人再识别的影响,学者们提出了很多不同的方法。

行人再识别技术的发展(客观分析,不受选题影响)

传统行人再识别技术的研究方向主要分为两类:描述法和测度学习法。描述法先对目标进行特征提取,再求特征向量之间的距离(主要有欧式、马氏、巴氏等)来表示两者之间的相似度。测度学习法采用对提取的行人特征进行训练学习,在另一个测度空间中对特征进行比较。近几年随着深度学习的发展,开始有人将深度学习用在特征提取上,得到了十分高效的特征。【缺论文】另外,还可以将特征提取和距离度量两步统一起来同时优化,一个网络就可以给出结果。【缺论文】

个人感觉,传统的行人再识别研究是基于这样一种思路。传统研究中的描述法和测度学习法,其实是一个完整的行人再识别过程中独立的两个步骤。通过分别对这两个方向进行研究,找到各自的解决方案,例如:优秀的特征以及优秀的距离度量方法。然后再将其中的任意两种自由组合。可以说在某种程度上是一种随机的组合,因为这两个步骤之间的研究是相互独立的,毫无关联性可言。可以说是传统的行人再识别研究说的好听一点是一种1+1>2的策略,究其本质,我更觉得它是一种玄学。

描述法

在视频监控环境中,行人的外貌特征比较容易提取和表示。因此,同一行人的不同外貌特征具有一定的鲁棒性。有效的特征表达应该对光照、视角以及行人姿态变化具有鲁棒性。鉴于目前的监控视频分辨率较低,一般只能借助衣服颜色区分不同行人。基于颜色的特征表达都是提取图像的颜色直方图,再通过欧式距离或巴氏距离计算两个图像的相似度。虽然匹配过程简单,但效果并不理想。研究者们又提出多特征融合的行人再识别,提高识别正确率,但特征冗余度较高且融合时很难准确分配权重。突出的局部特征可以较好区分不同行人,例如通过图像的显著性区域区分图像,但显著性区域受行人姿态变化影响较大。为了消除低层特征和高级语义之间的语义鸿沟,研究者试图寻找更接近人体视觉的特征。

测度学习法

上述基于特征的描述法都是使用标准距离(如曼哈顿距离、欧氏距离和巴氏距离等)进行相似性度量。然而同一身份行人在跨越多个无重叠区摄像头时,不同外貌特征受视角、光照等因素的影响不同。标准的距离度量方法平等的对待每一种特征,而不会摒弃那些独立使用时效果很差的特征。因此,研究者尝试通过距离学习的方法,获得一个新的距离度量空间,使得同一行人不同图像的距离小于不同人间的距离。距离学习方法一般在 Mahalanobis 距离的基础上进行,通过学习一个投影矩阵,使得在投影空间中同类样本之间的距离较小,而不同类样本之间的距离较大。与相似度匹配不同,它增加了对已标识样本的训练过程,通过学习到的测度矩阵,把特征向量映射到一个更容易区分的空间。这些方法包括学习一个马氏形式的距离函数:



公式中,M是一个半正定矩阵,即通过样本学习得到参数。

2002年,Xing等人首次提出马氏距离形式的距离测度学习。在常见的类别数据(x,y)基础上,根据样本标签是否相同将类标签表示的数据转换成成对的相似样本对和不相似样本对:


基于融合特征的行人再识别实现_第1张图片

基于两种样本对,作者学习到一个最优矩阵M,使得相似样本对的距离最小,同时不相似样本对的距离最大。2006年,Weinberger等人提出大间隔最近邻分类(Large Margin Nearest Neighbor,LMNN)距离测度学习算法。该算法采用三元组的形式



同时加入不相似样本对的约束,学习使得尽可能多的三元组样本满足不等式(3)的最优矩阵M。

基于原始的相似性约束和转换的三元组形式的约束,作者采用hinge误差函数将问题转换成一个凸优化问题。由于hinge误差函数并不是处处可导,所以采用次梯度的算法求解该问题。在2008年,作者提供了该问题的快速解法,采用一种激活集的策略来维护所有不满足上述不等式的三元组形式样本,避免计算所有样本的梯度。2010年,Dik-men等人在LMNN基础上提出改进的LMNN-R算法,并用于行人重识别问题。用所有相似样本对距离的均值代替上述不等式左边的变量(如式4),通过该替换,其约束比原始的LMNN更强。



2007年,Davis等人提出基于信息论理论(Information Theoretic Metric Learning,ITML)的距离测度学习算法。认为在没有额外信息的情况下,欧式距离是一种比较好的距离函数。其中,欧式距离可以看作矩阵M为单位阵的情况,将矩阵M转换映射到一个高斯模型,可以用散度来度量不同矩阵M之间的相似性。2011年,Zheng等人首次引入尺度学习算法的思想,仅采用LMNN中三元组形式的样本对,提出基于概率相对距离比较(Probabilistic Relative Distance Comparison,PRDC)的距离测度学习算法。与LMNN相比,作者采用的是logistic误差函数,因此最终的目标函数是一个平滑的凸优化问题。为了避免过拟合,作者对矩阵M加入了额外约束。2013年,作者在PRDC的基础上提出基于Adaboost的方法来减少标注样本的需求门。
2012年,Kostinger等人提出的基于简单而且直接策略(Keep it Simple and Straight,KISS)的距离测度学习算法,直接通过模型的参数估计得到最终的距离函数参数矩阵M,降低了计算复杂度,并且取得较好的识别效果。因而该方法能够用于大尺度数据的学习。然而,该方法需要估计高斯分布的模型参数,在训练数据不足时,模型的参数估计不准确。针对该问题,2013年,Tao等人提出规则平滑的KISS距离测度学习算法(RS—KISS),通过平滑和规则化等技术使得估计到的高斯分布协方差矩阵更为鲁棒。

将样本之间的差向量看做是高斯分布中的一个点,同类样本的差向量分布在同一个高斯分布中,而不同样本之间的差向量分布在另一个高斯分布中,然后用概率的比值来度量样本之间的距离。作者通过转换最终将高斯分布的比值转换成马氏距离的形式,马氏距离矩阵为同类样本差向量协方差的逆减去不同类样本差向量协方差的逆。该方法由于没有使用到迭代优化的算法,算法速度快,但是该方法也属于距离度量学习方法。

深度学习法

2014年,随着深度学习在图像分类领域的成功,深度学习被开始用于行人再识别方向的研究中。Yi等人和Li等人都采用暹罗神经网络去判断输入的一对图像是否属于一个人。之所以选择暹罗神经网络可能是因为每个行人的训练样本数量是有限的(通常为2)。除了一些变量的参数设置,主要的不同在于Yi等人在神经网络中另外添加了一个附加损失函数,而Li等人使用了更精细的身体分割。由于它们的实验数据集没有重叠,所以无法直接比较两种方法的优劣。虽然目前深度学习在行人再识别领域只用于了小型数据集而且表现不稳定,但是深度学习方法在行人再识别领域已经逐渐流行起来。

毕设课题意义

深度学习近年来在计算机视觉中得到了广泛的应用,因此不少学者研究并提出了基于深度学习的行人再识别算法。但基于深度学习的行人再识别算法需要非常大的训练数据库,导致训练时间长,此外还需要针对特定问题搭建相应的模型,因此不利于方法的推广。同时,深度学习方法中还存在调置参数缺乏理论性指导,具有较大主观性的问题。

基于显著性学习的行人再识别方法近年来也受到研究者的广泛兴趣,人们可以通过行人的一些显著信息来识别行人。CN(Color Naming)是一种有效的显著特征,最近的研究表明其具有特殊的实际意义。Weijer等人提出了一种新的学习CN特征的方法,即将现实世界中的图像的RGB值映射为11种预先定义的颜色(黑色,蓝色,棕色,灰色,绿色,橙色,粉色,紫色,红色,白色和黄色)。

和单一特征行人再识别相比,基于融合特征的行人再识别研究同时采用了中级显著特征CN(Color Naming)和低级特征WHOS(由HSV、HOG和RGB组成),然后通过KISSME算法进行匹配。单一特征直接匹配识别率较低,多个特征进行融合才能保证识别效果。WHOS是一种高纬度的低级特征,由HSV、HOG、RGB三种特征组成。HSV和RGB是基于不同颜色空间的颜色直方图,因此可以补偿光照条件的改变。HOG是一种被证明在与行人相关的任务里特别有效的局部特征。另一方面,CN特征是一种更有辨别力的中级特征。将二者分别用PCA降维并融合可以得到更具代表性和健壮性的特征。KISSME是一种简单并且有效的度量矩阵学习算法,它基于统计推断并且被广泛运用。该方法虽然仅仅采用了简单快速的KISSME算法,但是在几个行人再识别数据集上运行的结果都领先于目前最先进的方法,甚至能够与深度学习方法相抗衡。

毕设题目介绍

特征表示

近年来,为了得到有效并具有鲁棒性的行人再识别特征表达,有大量的研究方法被提出。其中,颜色作为一种最常用的外观特征,被证明发挥了重要作用。除了不同颜色空间的直方图(例如:RGB、HSV、YCbCr),颜色命名分布因其在最近一些研究中的优秀表现,被认为是另一种有特殊意义的有效描述符。Weijer等人提出了一种新的学习CN特征的方法,即将现实世界中的图像的RGB值映射为11种预先定义的颜色(黑色,蓝色,棕色,灰色,绿色,橙色,粉色,紫色,红色,白色和黄色)。Yang et al 等人提出了另一种将RGB值映射为16种显著颜色名称的方法,并将其应用到了行人再识别研究中。这种方法预先计算了每个RGB值对应颜色名称的可能性。颜色名称模型可以被看作是由一定数量的颜色名称的概率分布构成的一种新的中级颜色描述符。尽管颜色很有效,但它并不是唯一一种有效特征。其他特征,诸如:LBP纹理描述符和HOG特征,也可以与颜色组合来增强其鲁棒性。

相似度计算

像欧式距离这样的直接距离在行人再识别中表现很差。度量学习的目的是学习一个基于学习目标的马氏度量矩阵,使得相同行人的不同图像之间距离更小,不同行人的图像之间距离更远。度量学习在这些任务中已经被证明非常成功。KISSME是一种简单并且有效的度量矩阵学习算法,它基于统计推断并且被广泛运用。其他度量学习法包括最大近邻学习(LMNN),信息理论度量学习(ITML),逻辑判别度量学习(LDML)。

行人再识别中的一些预处理步骤包括但不限于人体分割和身体部分细分,其旨在消除背景的影响并考虑了人体的局部特征。还提出了一些后处理步骤,最常用的方法是将其视为排名或搜索问题,采用后级或搜索技术。

主要贡献

我们提出了一种新的特征融合策略,将高纬度的低级特征WHOS(由HSV、RGB颜色直方图和HOG组成)和低纬度的中级特征CN融合,凭借简单的度量学习算法(KISSME)在几个数据集上都得到了最先进的结果。

毕设方法细节

预处理

我们的预处理程序包括两个主要步骤:行人分割和身体部分细分。

特征表示

CN特征(参考资料4)

研究人员对于局部特征是图像分类的有效工具存在广泛的一致意见,因为它们对于遮挡和几何变换具有鲁棒性。在已经被提出的描述局部特征形状的多种方法中,SIFT描述符被发现是最好的一个,是目前最常用的形状描述符。直到最近,研究人员才开始用颜色信息来丰富局部图像描述符。颜色描述的主要挑战是获得与现实世界中常见的光度变化相关的鲁棒性,例如阴影和阴影变化以及光源颜色的变化。因此,颜色描述符通常基于光度不变量,例如HSV和归一化RGB。在增加不变量的同时,还需要考虑辨别力的下降。例如,光度不变性无法识别出无色的颜色,如:黑色,灰色和白色。因为从光度的角度来看,这些颜色都可以通过改变强度从相同的颜色中产生。对于完全的光度不变性在真实世界的应用来说,由于辨别力的损失而产生的负面影响能否接受还值得怀疑。

在描述现实世界中物体的颜色时,人们使用“红色”,“黑色”和“橄榄色”等颜色名称。颜色名称在视觉心理学,人类学和语言学领域被大量研究。颜色命名是为图像中的像素分配语言标签的动作,主要应用于图像检索。颜色名称具有一定程度的光度不变性。此外,颜色名称包括了黑色,灰色和白色的标签。从光度不变性的角度来看,这些标签是不能区分的。

英文中使用的颜色名称数量很大,包括“white”,“green”,“pastel”和“light blue”等标签。在本方法中只使用11种基本颜色标签:黑色,蓝色,棕色,灰色,绿色,橙色,粉红色,紫色,红,白,黄。Berlin and Kay对这些基本颜色标签的定义做出了卓越贡献。基本颜色标签不能由其他基本颜色合成得到。

为了建立一种局部特征,每个行人图像P都被定义为m个条状区域组成的序列。取m等于6,并且每个条状区域大小相等。



为了消除背景噪声的影响,全局颜色名称描述符只计算行人区域。对每个条带都提取颜色特征。条带j的特征向量如下:



其中CNs是指颜色为s的可能性。我们使用颜色分布模型计算每个条带的颜色分布。这种模型的核心是在RGB与11种预先定义的颜色分布之间建立一种对应关系。在这个模型中,RGB被离散化为32×32×32 = 32768个索引,建立了一个32768×11个维度的查找表。对于条带j ,颜色分布CNs定义如下:

其中,p(CNs |xRGB) 是一个确定的像素的RGB值被分配给特定颜色名称CNs的可能性。Rj是条带j的前景区域,N表示Rj中总共的像素值。显然,s从1到11的CNsj的总和为1。然后通过每个条带的CN特征串联起来可以得到一个66维的特征向量。最后,我们使用PCA将特征维度降到m。

CN特征在具有一定光度不变性的同时具有可以区分无色的颜色:灰,黑和白的辨别力。实验结果表明,CN描述符明显优于现有的基于颜色描述的描述符,并且适当提升了颜色和形状的描述能力。但是CN特征的光度不变性和HSV和RGB特征的相比是有限的,所以我们需要whos特征融合来弥补其在光度不变性方面的缺失。实验证明,CN特征在光度不变性方面带来的损失无法被辨别力的提升所补偿。

WHOS特征

我们设计了一种基于粗糙的条纹池化的局部特征,用于行人再识别具有辨别力。它采用了一种简单而有效的中心支持内核,从背景中大致分割出前景。整个描述符构造过程如图1所示。

将给定的目标图像缩放到规范尺寸128x48像素,然后通过将行人图像划分成水平条状区域,从每个条状区域中提取HSV和RGB直方图。使用以图象为中心的Epanechnikov核函数对每个像素对其对应的直方图的贡献进行加权。



W和H分别是图像的宽度和高度,也是Epanechnikov核函数唯一的参数。然后将HSV和RGB直方图和HOG描述符连接起来。

HSV直方图包括8×8的分组,而RGB直方图被量化为4×4×4 的分组。针对金字塔的15个级别分别计算HSV和RGB直方图(第一级的八条水平区域加上第二级的七条水平重叠区域)。结果是总共1920维的直方图。

HOG特征是从由原图像分割出的8×8的子图像中提取出来的。每个block包含2×2的cells,每个cell由4×4像素构成。我们只在4个方向(水平,垂直,对角线)上计算每个cell的梯度直方图。对于48×128的图像而言,每8×8的像素组成一个cell,每2×2个cell组成一个block,因为每个cell有4个特征,所以每个block内有4×4=16个特征,以8个像素为步长,那么,水平方向将有5个扫描窗口,垂直方向将有13个扫描窗口。也就是说,48×128的图片,总共16×5×13=1040个特征。

一共2960个特征,求平方根。

条纹池化模型具有一定程度的姿态不变性。水平条纹具有图像中垂直颜色分布的信息,而重叠条纹则含有相邻条纹之间的颜色相关信息。

HS和RGB直方图包含颜色信息,HOG特征包含局部纹理信息。 HS直方图使用的描述符具有一定的光度不变性,而RGB直方图能区分更多的色彩信息,特别是对于黑色和灰色。 在提取直方图之前,需要均衡RGB色彩通道。直方图均衡化的主要优点是可以降低图像噪声,提升图像的局部显示。

Epanechnikov内核减少了行人图像边界附近背景信息的影响。避免了为每个场景学习一个单独的背景模型,更加简单和高效。

求描述符的平方根是图像分类中一种众所周知的技术,通过减少特征的突发性来减轻权重值很高的小改变带来的影响。

度量矩阵学习

实验结果

VIPeR数据集验证

我们用于评估我们的方法的第一个数据集是VIPeR,它是行人再识别最常用和具有挑战性的数据集之一,包含632个不同行人的1264张图像。每个行人都有由不同视角的两台摄像机拍摄的两幅图像,用于测试的总人数为316。图像缩放为128×48像素。

基于融合特征的行人再识别实现_第2张图片

在这个数据集中,我们将CN特征的维度m设置成28,WHOS的维度n设置成60,所以最后得到的特征维度为88。结果如图XX。我们可以看到当单独使用CN特征和KISSME算法或者WHOS特征和KISSME算法都只能达到很小的准确率改善。但是当我们采取融合策略将CN和WHOS这两种特征融合之后获得了非常准确的结果,相比与其他方法有很大改进。top-1 rank准确率达到了XXX,是们目前所知道的最好的结果,并且大大优于其他方法。

CAVIAR4REID数据集验证

CAVIAR4REID数据集包含了购物中心两台不同视角的摄像头拍摄的行人图像。它包含了72个不同行人的1221张图片,其中只有50个行人分别出现在了2个摄像头中,其余22个人出现在同一个摄像头中。每个人的图像数量从2到5不等,图像大小从17 * 39到72 * 144不等。 我们选择了每个人的第一个和第二个图像,并将它们调整到相等的大小。 所以在这个数据集中有72个人的144张图像,其中用于测试的人数是36。

在这个实验中,我们将CN特征的维度m设置成9,WHOS的维度n也设置成9,得到的融合特征维度为18,然后再用PCA将其降为9维。我们的融合策略Top-1 rank准确率为XXX。结果也很相似:尽管融合策略带来的提升不太明显,但我们的三种方法的表现都优于其他方法。

结论

我们提出了一种行人再识别的融合特征,并使用KISSME算法进行行人匹配。该融合策略将中级颜色命名特征和低级WHOS特征组合。试验表明我们的方法显著的提高了识别准确率并且在几个数据集上都达到了最先进的结果。需要提醒的是在CAVIAR4REID数据集中我们只使用了36个行人,远远少于VIPeR数据集中的行人数量,所以提升不是很明显。

你可能感兴趣的:(基于融合特征的行人再识别实现)