Abstract
双线性模型在语义分割、细粒度识别和人脸识别等一系列视觉任务中都表现出良好的性能。然而,双线性特征是高维的,通常是数十万到数百万的数量级,这使得它们无法用于后续的分析。我们提出了两个紧双线性表示,具有与完全双线性表示相同的分辨能力,但只有几千维。我们紧凑的表示法允许分类错误的反向传播,从而实现视觉识别系统的端到端优化。摘要通过对双线性池的核化分析,得到了紧致双线性表示,为进一步研究紧致池方法提供了一个平台。实验证明了该方法在多数据集图像分类和少镜头学习中的有效性。
1. Introduction
(CNN)的实现可以将前几个卷积层视为一个特征提取器,将后几个全连接层视为一个池和编码机制。最近,将CNN范式的特征提取体系结构与来自BoVW范式的池化和编码步骤相结合的方法对此进行了探索[23,8]。值得注意的是,Lin等人最近用双线性池替换了完全连接的层,实现了对细粒度视觉识别[23]的显著改进。然而,他们的最终表现是非常高维的;在他们的论文中,编码特征维数d大于250;000. 这种表示是不切实际的几个原因:(1)如果使用一个标准的one-vs-rest线性分类器k类、模型参数的数量变得kd,如k = 1000 > 2.5亿模型参数,(2)检索或部署场景需要特性存储在数据库中,存储变得昂贵的双倍精度,(3)空间金字塔等进一步处理匹配[18]或域适应[11]通常需要特征连接;再一次,由于内存和存储容量的紧张,(4)分类器正则化少镜头学习场景成为[12]的挑战。的该工作的主要贡献是一对双线性池方法,每一种都能降低特征维数三个数量级,性能几乎没有损失与全双线性池相比。被提议的方法的动机是一种新的内核化的观点双线性池,关键是允许端到端学习的反向传播。
本文的紧凑双线性方法基于核方法的低维度特征,证明了双线性特征与多项式核的密切相关,提出了基于Kar[15]和Pham[27]提出的多项式核算法的紧双线性特征的新方法;我们的贡献的一个关键方面是,我们展示了如何通过这些表示进行反向传播。
这项工作的贡献有三方面。首先,我们提出了两种紧凑的双线性池化方法,与全双线性池化方法相比,该方法可以降低特征维数两个数量级,性能损失很小甚至没有损失。其次,我们证明了通过紧凑双线性池的反向传播可以有效地计算,允许识别网络的端到端优化。第三,我们提出了一个新的关于双线性池的核化观点,这不仅激发了提出的紧化方法,而且为双线性池提供了理论见解。
2. Related work
相关研究目的在于减少CNN参数,方法有deep fried convnets,圆形结构的快速循环投影,使用微网络作为卷积滤波器。本文采用另一种方法,专注提高双线性特征的效率,双线性特征的性能也高于全连接层。
3. Compact bilinear models
线性池化方法:
与之前的符号不太一样,这里的s表示位置,x是SIFT, HOG或CNN输出的局部描述符(即特征),B的维度是c^2。
3.1. A kernelized view of bilinear pooling
使用双线性描述符的图像分类通常使用线性支持向量机(SVM)或逻辑回归来实现。这些都可以看作是线性内核机器,我们在下面提供了分析。给定两组局部描述符:X和Y,线性核机将它们进行比较
3.2. Compact bilinear pooling
将(2)的內积近似为
是紧双线性特征。从这个分析中很明显,多项式核的任何低维近似都可以用来实现我们创建一个紧凑的双线性池方法的目标。我们研究了两个这样的近似:随机麦克劳林(RM)[15]和张量草图(TS)[27],分别在alg1和alg2中详细描述。
3.2.1 Back propagation of compact bilinear pooling
验证RM的后向传播方法。
3.2.2 Some properties of compact bilinear pooling
对比使用RM和TS投影的紧凑双线性和普通双线性。
热投射需要适量的参数内存(即随机生成但固定的矩阵),而TS几乎不需要参数内存。如果在池化层之后使用线性分类器,一个完全连接的层,接着是一个软最大损失,分类器参数的数量随着池输出维数和类的数量线性增加。在上述情况下,双线性池的分类参数将需要1000MB的存储空间。另一方面,我们紧凑的双线性方法在分类层中需要的参数要少得多,这潜在地降低了过度拟合的风险,并且在少数镜头学习场景[12]或领域适应[11]场景中表现得更好。在计算上,张量草图在dlog d + c中是线性的,而双线性在c中是二次的,而random Maclaurin在cd中是线性的(表2)。在Caffe实现和K40c GPU下,448448图像上的16层VGG[31]的前后时间为312ms。双线性池需要0.77ms, TS (d = 4096)需要5.03ms。TS比较慢,因为FFT的常数因子比矩阵乘法大。
3.3. Alternative dimension reduction methods
PCA降维效果不足,本文提出的方法不需要任何预训练就可以小到4096维,为了完整性,与4.3节基线进行对比。
4. Experiments
4.1. Experimental details
具体来说,我们保留了VGG-M的前14层(conv5 + ReLU)和VGG-D的前30层(conv5 3 + ReLU),就像[23]中使用的那样。除了双线性池,我们还比较了完全连接层和改进的fisher向量编码[26]。后者是已知的优于其他基于集群的编码方法[8],如硬或软矢量量化[20]和VLAD[14]。所有的实验都是使用Mat- ConvNet[34]进行的,我们使用的是448 448输入图像大小,除了如下所述的全连接池。
之后介绍对全双线性池化,紧凑双线性池化,全连接池化,Fisher编码的网络进行使用的方法。
微调过程,使用经过训练的logistic回归的权值初始化最优一层,然后我们微调整个网络。
4.2. Configurations of compact pooling
RM和TS池都有一个用户定义的投影尺寸d,和一组投影参数,w .调查的参数提出了紧凑的双线性方法。使用VGG-M网络。
RM和TS都实现了全双线性网络的效果,RM性能优于TS,
综上所述,我们的实验表明2000 - 8000特征维数是合适的。他们还建议,只有在使用极低维表示(32维结果是一个例外)的情况下,才能调整投影参数W。我们的实验也证实了微调的重要性,强调了使用允许微调的投影方法的关键重要性。
4.3. Comparison to the PCABilinear baseline
如3.3节所述,另一种简单的降维方法是在双线性池[23]之前使用PCA。我们将此方法与使用VGG-M[5]网络的CUB[37]数据集的紧张量草图方法进行了比较。通过在双线性层之前插入一个1x1个卷积并使用PCA初始化权值来实现双线性基线。这个卷积层的输出个数k决定了特征维数(k**2)。
不同k2的结果如表3所示。特别是当特征维数较小时,网络未进行精细调整时,降阶双线性特征与TS特征之间的差距较大。当精细调整时,差距缩小了,但pca -双线性方法不善于利用更大的维度。例如,主成分分析方法在16K维度下的错误率达到23.8%,高于TS在4K维度下的错误率23.2%。
4.4. Evaluation across multiple datasets
双线性池化已经得到了广泛的研究。卡雷拉等人使用二级池来促进语义分割[3]。Lin等人使用双线性池进行细粒度的视觉分类[23],Rowchowdhury使用双线性池进行人脸验证[30]。这些方法在各自的任务上都达到了最新的水平,说明了双线性池的广泛应用。在本节中,我们展示了在三个非常不同的图像分类任务中,紧凑表示与双线性池的性能相当。由于紧凑表示法需要的内存少了几个数量级,这表明它是一种更适合于大量视觉识别任务的方法。
完全连接池,费舍尔向量编码,双线性池和两个紧凑的双线性池方法相比在三个视觉识别任务:细粒度的视觉分类由cub- 200 - 2011[37],场景识别由麻省理工学院的室内场景识别数据集[28],描述纹理和纹理分类的数据集[7]。图3为样本图,表5为数据集详细信息。根据我们在第4.2节中的结果,我们使用d = 8192维并固定投影参数W。
4.4.1 Bird species recognition
无论有无微调,双线性都优于其余方法。使用RM和TS方法的双线性网络性能损失不大,经过微调以后,紧凑双线性的性能损失会更小。
4.4.2 Indoor scene recognition
应用于场景识别,比较全双线性较差,优于Fisher向量。
4.4.3 Texture classification
相似场景识别
4.5. An application to few-shot learning
5. Conclusion
我们已经在一个内核化框架中对双线性池进行了建模,并提出了两种紧凑的表示方法,这两种方法都允许梯度的反向传播来实现分类管道的端到端优化。我们的关键实验结果是,一个8K维的TS特征具有与262K双线性特征相同的性能,实现了96:5%的显著压缩。TS也比fisher编码更紧凑,并且实现了更强的结果。我们认为TS可以用于图像检索,其中存储和索引是中心问题,或者在需要进一步处理的情况下:例如,基于部件的模型[2,13]、条件随机域、多尺度分析、空间金字塔池或隐马尔可夫模型;然而,这些研究留给未来的工作。此外,TS还大大减少了网络和分类参数的内存,这对于嵌入式系统的部署来说是至关重要的。最后,在展示了双线性池如何使用成对的多项式核来比较局部描述符之后,探索如何在深度视觉识别系统中合并替代核将是很有趣的。