这篇文章解决的是无任何标签的无监督行人再识别问题,作者提出了一种自底向上聚类方法(bottom-up clustering BUC)来联合优化CNN和无标签样本间的关系。作者的方法考虑到了行人再识别任务的两个基本的事实:不同人间的diversity和同一个人间的similarity。作者的算法最开始把每个人作为单独的一类,来最大化每类的diversity,然后逐渐的把相似的类合并为同一类,来提升每类的similarity。作者在自底向上的聚类过程中利用了一个多样性正则项来平和每个cluster的数据量,最终,作者的模型在diversity和similarity之间达到了很好的平衡。作者在图片和视频行人再识别数据集上进行了实验,包括Market-1501,DukeMTMC-reID, MARS and DukeMTMC-VideoReID,实验结果证明作者的算法不仅仅超过了无监督行人重识别的sota,而且跟迁移学习和半监督学习的方法相比也有很好的结果。
CNN提取特征后,和查找表计算cosine距离:
这里V是一个Cxn的查找表,存储每个cluster的特征。Vj是V的第j列,C是当前阶段clusters的数量,第一阶段时C=N。在接下来的阶段,算法逐渐合并相似的图片到一类,C也逐渐减小。t是温度系数,控制类间概率分布的softness,在实验中t=0.1。通过(2)式,分别计算当前样本特征x(已经经过L2归一化)和查找表每类特征间的cosine距离,然后除以和所有类特征间距离之和(类似softmax)作为x属于这类的概率(理想情况下和本类cosine距离为1,和其他类距离为0,(2)式的概率为1)。然后,对x所属的类y^i使用下式计算loss:
后向时,使用下式更新查找表V:
作者指出,在优化过程中,Vj包含了第j类的所有信息,因此可以看作是一种类的中心点。作者不直接通过所有特征计算类中心点是为了降低计算复杂度。查找表V能够减轻大量的计算。作者提出来的损失函数能够使本类cosine距离为1,和其他类距离为0,能够在整个训练集上综合考虑同类的similarity和不同类的diversity。
经过训练阶段,特征空间里训练样本倾向于互相远离(diversity),然而同类的图片是相似的,在特征空间也相近。作者采用层次聚类的方法来自底向上合并类。最开始每张图是一类,然后每次迭代根据类间距离,总小到大合并固定数量(m=mp*N,mp是个系数,实验中设为0.05,即20次迭代合并完所有的类)的类,每次迭代剩余类数:C=N-t*m。类间距离计算公式如下:
即将两个类里距离最近的样本的L2距离作为两个类的距离。作者指出,还可以采用 1)两个类里距离最远的样本的L2距离 2)两个类中心点的距离(类中心点通过对该类所有特征求均值得到)。作者指出因为类内variance很大,所以1)的效果不好。2)会丢失重要的判别性信息,所以2)效果也不好。后面作者设计实验证明了选择两个类里距离最近的样本的L2距离的方式最好。
模型迭代地训练网络、合并类。整体的更新进程如下图:
第一次迭代C=N,然后使用X,Y和训练CNN。训练完成后根据类间距离合并m个类,然后重新用样本所属的新类作为新标签Y,再次训练CNN。然后迭代这个过程。每次迭代后,在测试集上测试网络的表现,当网络表现下降时停止迭代。(作者没有明确说明,我推测查找表N是随机初始化得来的,即初始化Cxn大小,行norm为1,的矩阵)
虽然作者不知道没类有多少样本,但是作者假设每类的样本数基本相同。为了避免一个类太大,促进小的类合并,作者提出了一个多样性正则项:
即把类的样本数目考虑进去。现在的类的距离计算公式为:
lambda是个平衡系数。作者指出,考虑到很多人穿几乎同样(颜色)的衣服,如果没有多样性正则,网络会错误的将这种合并到一起,形成很大的类。
在Market1501上,相比于完全无监督设定的sota方法 OIM,rank-1和mAP分别提升22.9和16.2.相比于迁移学习的sota方法TJ-AIDL,虽然它利用了额外的信息,作者的方法仍然在rank-1和mAP上分别提升22.9和16.2.
在MARS上,rank-1 = 61.1%, mAP=38.0%.分别超过OIM 27.4 points in rank-1 accuracy and 24.5 points for mAP. 在DukeMTMC-VideoReID,上,相比OIM也提升了18.1 points and 18.1 points improvement on rank-1 accuracy and mAP, 作者还和单标注设定的方法进行了对比(Liu, Wang, and Lu 2017; Ye et al. 2017;Ye, Lan, and Yuen 2018) 他们的方法依赖了单标注的很多信息,如总共有多少人,他们张什么样。没有任何标注数据,作者的方法仍然超过了他们大多数方法,证明了作者的方法能够很好的利用无标签数据。
通过表1和表2可以看出,多样性正则项能够提升5个点以上。
通过上表可以看出,选择两个类样本最近的距离作为两个类的距离的效果最好。
为例和其他无监督学习算法进行对比,作者在CIFAR10上进行了分类任务的实现。作者采用和Wu et al. 2018b相同的设定,即用ResNet18,提取最后一个pooling层的特征,使用最近邻分类(最近邻分类被用来评估特征提取的质量,比较有效)。实验结果如表4,比Wu et al. 2018b提升了4.4个点,证明了作者聚类、网络更新策略的有效性。
Wu, Z.; Xiong, Y.; Stella, X. Y.; and Lin, D. 2018b. Unsupervised feature learning via non-parametric instance discrimination.In CVPR.