zhazhiqiang2010

（译）使用判别训练的部件模型进行目标检测 Object Detection with Discriminatively Trained Part Based Models

原文：http://blog.csdn.net/masibuaa/article/details/17924671

使用判别训练的部件模型进行目标检测

Pedro F. Felzenszwalb, Ross B.Girshick, David McAllester and Deva Ramanan

摘要

本文介绍了一个基于混合多尺度可变形部件模型(mixtures of multiscale deformablepart model)的目标检测系统。此系统可以表示各种多变的目标并且在PASCAL目标检测挑战赛上达到了目前最优结果(state-of-the-art)。虽然可变形部件模型现在很流行，但它的价值并没有在类似PASCAL这种较难的测试集上进行展示。此系统依赖于使用未完全标注(partially labeled)的样本进行判别训练的新方法。我们提出了一种间隔敏感(margin-sensitive)的难例挖掘方法(data-mining hard negativeexample)，称为隐藏变量SVM(latent SVM, LSVM)，是MI-SVM加入隐藏变量后的重新表示。LSVM的训练问题是一个半凸规划(semi-convex)问题，但如果将正样本的隐藏变量的值指定后，LSVM的训练问题变为凸规划问题。最终可以使用一个迭代训练方法来解决，此迭代算法不断交替地固定正样本的隐藏变量和最优化目标函数。

关键词

目标识别(ObjectRecognition)，可变形模型(Deformable Models)，图结构模型(Pictorial Structures)，判别训练(Discriminative Training)，隐藏变量SVM(Latent SVM)

1 引言

目标检测是计算机视觉领域内一项基础性的工作。本论文研究在静态图片中检测并定位某一类目标(例如人或车)的问题。由于这些类别中的目标外表可能千差万别，使得此项工作变得有些复杂。而且，变化不仅来自亮度和视角，还有由于目标不是刚体而引起的形变，以及同一类目标的形状和其他视觉上的变化。例如，人可能穿不同的衣服，做不同的姿势，车可能有不同的形状和颜色。

本文介绍了一个基于混合多尺度可变形部件模型的目标检测系统，它可以表示各种多变的目标。此模型使用判别程序进行训练，训练过程只需要用到图片集中目标的矩形框(包围盒)(意思是说只需要整个目标的标注信息，不需要各个部件的标注信息)。训练好的系统既高效又精确，能够在PASCAL VOC测试集[11-13]和INRIA人体测试集[10]上达到目前最佳结果。

我们的方法基于图结构(Pictorial Structures)框架[15][20]。图结构使用一系列部件以及部件间的位置关系来表示目标。每个部件描述目标的一个局部属性，通过部件间的弹簧连接(Spring-like Connection)表示模型的可变形配置。

可变形部件模型(例如图结构)是目标检测中的优秀方法，但是很难在实际中建立价值。在一些难度大的数据集上，可变形部件模型经常被一些简单的模型——例如固定(刚体rigid)模版[10]或特征袋(bag-of-features)[44]所超越。本论文的目标之一就是解决这一问题。

虽然可变形模型可适应很多外表变化，但单个可变形模型还不足以表示一个变化丰富的目标类别。例如对图像中的自行车外表建模的问题。自行车有各种类型(例如，山地车，双人自行车，以及19世纪的有一个大轮一个小轮的自行车)，并且观察视角也会有不同(例如从前面看和从侧面看)，所以本文中的系统使用混合模型来适应这些变化。

我们最终感兴趣的是使用视觉语法(Visual Grammars)对目标进行建模。基于语法的模型(例如[16][24][45])使用可变层次结构来表示目标，是可变形部件模型的扩展和一般化。基于语法的模型(grammar based model)中的每个部件都可以被直接定义，或者根据其他部件进行定义。此外，基于语法的模型考虑到结构的变化。这些模型还提供在不同目标类别间共享信息和计算的框架，例如，不同的模型共享可重用的部件。

基于语法的模型是我们的终极目标，现在我们采取了一种研究方法，使用此方法使得我们可以在保证高性能的前提下逐步改进模型，使它变得更丰富。通过丰富模型来改进性能是非常困难的。在计算机视觉、语音识别、机器翻译和信息检索领域中，一直以来简单模型都要比复杂模型表现更为出众。例如，直到最近基于n元语言模型(n-gram language model)的语音识别和机器翻译系统才在性能上超过基于语法和词组结构的系统。根据我们的经验，只有逐步地丰富模型才能保证性能不降低。

之所以简单模型在实际中表现比复杂模型好的原因之一就在于复杂模型很难训练。对于目标检测，固定模型和特征袋模型很容易使用判别方法(例如SVM)进行训练。复杂模型很难训练，因为复杂模型经常使用隐藏信息。

例如从只标注了整个目标的包围盒的图片中训练一个基于部件的模型的难题。因为部件的位置没有进行标注，所以这些信息在训练时只能被当做隐藏(latent或hidden)变量。如果使用更完全的标注信息可能会训练出更好的模型，但也可能由于未能准确标注出各个部分的位置而导致更差的结果。通过自动发现有效部件来进行自动部件标注有可能达到更佳的性能。精细制作标注信息是费时而昂贵的。
Dalal和Triggs的检测器[10](在PASCAL 2006目标检测挑战赛上表现最好)使用基于HOG特征的单独滤波器(模版)来表示目标。它使用滑动窗口方法，将滤波器应用到图像的所有可能位置和尺度。可以将此检测器看做一个分类器，它将一张图片以及图片中的一个位置和尺度作为输入，然后判断在指定位置和尺度是否有目标类别的实例。考虑到此检测器只有一个滤波器，我们可以使用β·Φ(x)表示滤波器在某位置的得分，其中β是滤波器参数，x是指定位置和尺度的图片，Φ(x)是x的HOG特征向量。Dalal-Triggs检测器的主要创新点是提出了一个非常有效的特征。

此论文的第一个创新点是丰富了Dalal-Triggs的模型，我们使用星型结构的部件模型，此模型由一个根滤波器(root filter，与Dalal-Triggs的滤波器相似)和一系列部件滤波器(part filter)以及相应的可变形模型构成。星型模型在图像特定位置和尺度的得分等于根滤波器在给定位置的得分加上各个部件的得分的总和，每个部件的得分等于此部件在所有空间位置的得分的最大值，部件在某位置的得分等于部件滤波器在此位置的得分减去此位置的变形花费，位置的变形花费衡量了部件偏离其理想位置(这里说的位置是指与根滤波器的相对位置)的程度。根滤波器和部件滤波器的得分都是由滤波器参数与特征金字塔中一个窗口的特征向量的点积(dot product)定义的。图1显示了人体的星型模型。

图1，单组件人体模型的检测结果。此模型由一个粗糙的根滤波器(a所示)，和几个高分辨率的部件滤波器(b所示)以及每个部件相对于根的空间位置模型(图c所示)组成。滤波器指定了HOG特征的权重。图中滤波器的可视化模型显示的是不同方向的正权重。空间位置模型的可视化图显示的将部件的中心放置到相对根的不同位置的变形花费(越白花费越高，表示部件偏离其理想位置越大)。

在我们的模型中，部件滤波器表示的图像特征是根滤波器所表示的图像特征所在的空间分辨率的两倍，也就是说我们是在多尺度对目标的外表建模。

为了使用未完全标注(partially labeled，意思应该是目标的部件没有进行标注，只标注了整个目标)的数据进行模型训练，我们使用了论文[3]中的多实例SVM(MI-SVM)中的一个隐藏变量公式，我们称作隐藏变量SVM(Latent SVM,LSVM)。在LSVM中，每个样本x使用下面形式的公式进行评分：

其中β是模型参数向量，z是隐藏变量，Φ(x, z)是特征向量。模型参数β是根滤波器、部件滤波器、变形花费权重串联起来构成的参数向量，z是目标配置参数，Φ(x, z)是特征金字塔中的一个窗口对应的HOG特征和部件变形特征串联起来构成的特征向量。

我们意识到公式(1)可以处理更通用形式的隐藏信息，例如，z可以用来指定富视觉语法(rich visual grammar)中的派生词。

本文的第二种模型使用混合星型模型来表示目标类别。混合模型在指定位置和尺度的得分是各个组件(component)模型在给定位置得分的最大值。在这种情况下，隐藏变量z表示组件类别及组件配置。图2展示了自行车的混合模型。

图2，含有两个组件模型的混合自行车模型的检测结果。这几个例子表明了混合模型的重要性。第一个组件捕捉自行车的侧视特征，第二个组件捕捉自行车的正视或接近正视特征。侧视组件模型可以变形来匹配自行车前轮抬起的姿势。

为了通过判别训练来获得好的结果，往往需要使用大量训练样本。在目标检测中，训练问题是非常不平衡的，因为相比于特定目标来说有更大量的未知的背景。这就需要我们通过搜索背景数据来找到一个相对少量的潜在的误报(虚警)的负样本集，或者叫做难例(负样本难例，HardNegative Example)。

Dalal和Triggs在论文[10]中采用了一种对难例进行数据挖掘的方法，但倒回到了1995年前后中用到的自举法(bootstrap)[35][38]。我们分析了SVM和LSVM训练中的数据挖掘算法，证明使用数据挖掘方法可以收敛到整个训练集上的最优模型。

本文中的目标模型是由滤波器定义的，滤波器可以对特征金字塔中的子窗口进行评分的。我们调查了与论文[10]中的HOG特征类似的特征，并找到了与原特征性能表现相同的维数更低的特征。通过对HOG特征做主成分分析(Principal Component Analysis)，可以大大减少特征向量的维数，同时不产生显著的信息丢失。此外，通过分析主特征向量，我们找到了一个容易解释并且可高效计算的低维特征。

本文还分析了PASCAL目标检测挑战赛和其他相似数据集中的一些特定问题。我们展示了通过目标中部件的位置来估计目标的包围盒的方法，这是通过用最小二乘回归训练的特定模型的预测器来实现的。我们还展示了一个用来聚合几个目标检测器的输出结果的简单方法。此方法的基本思想是同一张图片中的某一类目标可以为其他类别的目标提供正例支持或反例驳斥。我们实现了这一思想，首先训练一个特定类别的分类器，用此分类器对此类别所有检测出的目标进行重新评分，重新评分的依据是该目标的原始得分和用其他类别的分类器对此目标进行评分两者中的最高值。

2 相关研究工作

关于目标检测中各种类型的可变形模型已经有了大量研究工作，包括几种可变形模版模型(例如[7][8][21][43])，和各种基于部件的模型(例如[2][6][9][15][18][20][28][42])。

在[18][42]的星座模型中，部件被限制在由兴趣点所确定的稀疏(小的)位置集合中，并且他们的几何分布由高斯分布进行描述。相反，图结构模型(Pictorial Structure Model)[15][20]的匹配问题中，位于稠密位置集中的部件有各自独立的匹配花费，几何分布由部件两两之间的弹簧连接进行描述。[2]中的部件拼接模型(patchwork of parts model)也类似，但它清楚地考虑了重叠部件之间如何进行相互作用。

本文中所用的模型很大程度上基于论文[15][20]中的图结构(Pictorial Structure)框架。我们的模型中使用位置和尺度的稠密集，并定义了将部件滤波器放置在每个位置的得分。部件滤波器之间的几何配置由将每个部件滤波器与根滤波器连接的变形花费(弹簧)来描述，形成了一个星型的图结构模型。注意我们并不对重叠部件之间的相互作用进行建模，虽然如果对这种相互作用进行建模可能会有好处，但这并不是使用判别程序训练的模型中存在的问题，并且不对相互作用建模的话会大大简化模型与图像进行匹配的问题。

本文中提出的新的局部和半局部特征在改进目标检测方法的性能上起了重要作用，这些特征对光照变化和小的形变具有不变性。很多最近的目标检测方法使用类小波特征(Wavelet-like)[30][41]或局部归一化的梯度直方图特征[10][29]。其他的方法，例如[5]，从训练图片中学习局部框架词典。在我们的方法中，以论文[10]中的HOG特征为基础，在不引起性能损失的前提下降低特征维数。与论文[26]中的方法类似，我们也使用PCA方法对特征进行降维，但我们还注意到获得的特征向量有清晰的结构，并最终找到一个解析特征集。这就省去了计算稠密特征映射时代价很大的投影步骤。

二维可变形模型不能很好地适应由于视角改变而引起的较大的目标形状和外形变化。方位图(Aspect Graph)[31]是一种经典的描述由于视角改变而引起的变化的方法。混合模型提供了一种简单的替代方法。例如，使用多个模型来编码人脸和汽车的正视图和侧视图[36]。混合模型也被用来描述其他的外表变化，例如目标类别有多个子类别时[5]。

将可变形模型与图片进行匹配是一个复杂的优化问题。局部搜索方法需要在正确的位置附近进行初始化[2][7][43]。为了保证全局最优匹配，需要更激进的搜索方法。其中一个流行的部件模型的搜索方法是将部件的位置约束在一个小的可能位置集合中，此位置集合是根据兴趣点检测得到的[1][18][42]。星型(树型)图结构模型[9][15][19]允许使用动态规划和广义距离变换方法来高效搜索所有可能的目标配置，不约束每个部件的可能位置，我们使用此方法来匹配模型和图像。

基于部件的可变形模型的参数由每个部件的外表以及描述部件间空间关系的几何模型来确定。学习模型时可以使用最大似然估计。在全监督条件下，训练图片中标注了每个部件的位置，所以可以使用简单的方法来学习模型[9][15]。在弱监督条件下，训练图片中并没有标注每个部件的位置，这时可以使用EM算法[2][18][42]同时估计部件位置和学习模型参数。

判别训练(Discriminative Training)方法通过最小化检测算法在训练集上的失败率来选择模型参数。这种方法可以直接优化正负样本间的决策边界。这也就是为什么使用判别训练方法训练的简单模型(例如Viola-Jones[41]和Dalal-Triggs[10]的检测器)可以取得成功的原因。用判别方法来训练基于部件的模型更加困难，虽然对应的策略已经存在[4][23][32][34]。

隐藏变量SVM(LSVM)与隐条件随机场(Hidden CRF)[32]有关。然而，在LSVM中我们最大化隐藏的部件位置变量而不是忽视它们，在训练时使用铰链损失(hinge-loss)而不是log-loss。最终变为一个用来训练的坐标下降算法(coordinate descent)，以及一个可以用超大数据集进行学习的数据挖掘算法。LSVM可以看做基于能量的模型[27]的一种。

LSVM与多实例学习(Multiple InstanceLearning, MIL)[3]中的MI-SVM的公式是等价的，但我们发现LSVM的公式更适合我们的问题(我们在论文[17]中定义了LSVM，当时还未意识到与MI-SVM的关系)。此外，之前还有个不同的MIL框架被用来在弱标注的数据集上训练目标检测器[40]。

本文中使用的在训练时对难例进行数据挖掘(Data-mining HardExamples)的方法与SVM中的工作集方法(Working Set Method)(例如[25])有关联。本文中的方法相对来说更少地遍历整个训练数据集，并且非常适合只有部分能读进内存的超大规模数据集的训练。

目标检测和识别中图像上下文(context)的使用近年来受到越来越多的关注。一些方法(例如[39])使用低级别的整个图像的特征来定义可能的目标假设。[22]中的方法使用粗糙但语义丰富的场景表达，包括3D几何。本文中首先在图像上应用各种目标检测器，用检测结果来定义图像上下文。这种思想与论文[33]中使用CRF描述目标同时出现的方法相似，但我们使用不同的方法来描述此信息。

我们在论文[17]中介绍了系统的一个初步版本，本文中介绍的系统与[17]中有以下几点不同：混合模型的引入；使用随机梯度下降算法(Stochastic Gradient Descent)优化了真正的LSVM目标函数，论文[17]中是用SVM工具包优化目标函数的启发式近似；使用了新的特征，做到既低维又高信息量；通过包围盒预测和上下文再次评分，对检测结果进行后处理。

3 模型

我们的所有模型都涉及将线性滤波器应用到稠密特征映射中。特征映射(feature map)是一个数组，其元素由从一张图像中计算出来的所有d维特征向量组成，每个特征向量描述一块图像区域。实际中我们用的是论文[10]中的HOG特征的变体，但这里讨论的框架是与特征选择无关的。

滤波器(filter)是由d维权重向量定义的一个矩形模版。滤波器F在特征映射G中位置(x,y)处的响应值(response)或得分是滤波器向量与以(x, y)为左上角点的子窗口的特征向量的点积(DotProduct)：

我们想要定义在图像不同位置和尺度的得分，这是通过使用特征金字塔来实现的，特征金字塔表示了一定范围内有限几个尺度构成的特征映射。首先通过不断的平滑和子采样计算一个标准的图像金字塔，然后计算金字塔中每层图像的所有特征。图3展示了特征金字塔。

图3，特征金字塔和其中的一个人体模型实例。部件滤波器位于根滤波器两倍空间分辨率的金字塔层。

根据参数λ在特征金字塔中进行尺度采样，λ定义了组中层的个数。也就是说，λ是我们为了获得某一层的两倍分辨率而需要在金字塔中向下走的层数。实际中在训练时λ=5，在测试时λ=10。尺度空间的精细采样对于我们的方法获得较高的性能表现非常重要。

[10]中的系统使用单个滤波器来定义整个目标模型，它计算滤波器在HOG特征金字塔中所有位置和层的得分，通过对得分阈值化来检测目标。

假设F是一个w * h 大小的滤波器，H是特征金字塔，p = (x, y, l)指定金字塔中l层的位置(x, y)，φ(H,p, w, h)表示金字塔H中以p为左上角点的w*h大小的子窗口中的所有特征向量按行优先顺序串接起来得到的向量。滤波器F在位置p处的得分为F’·φ(H, p, w, h)，F’表示将F中的权重向量按行优先顺序串接起来得到的向量。此后我们使用F’·φ(H,p)代替F’·φ(H, p, w, h)，因为子窗口的大小已隐含包括在滤波器F中。

3.1 可变形部件模型

我们的星型模型由一个大体上覆盖整个目标的粗糙的根滤波器和覆盖目标中较小部件的高分辨率的部件滤波器构成。图3显示了特征金字塔中这种模型的一个实例。根滤波器定义了检测窗口(滤波器所覆盖的特征空间部分的像素)。部件滤波器被放置在根所在层的λ层之下，该层特征的分辨率是根所在层的特征的两倍。

我们发现用高分辨率特征来定义部件滤波器对获得高识别性能至关重要。用这种方法部件滤波器可以捕捉相对于根滤波器更精确定位的特征。例如建立人脸的模型，根滤波器捕捉的是人脸边界这些粗糙边缘信息，部件滤波器可以捕捉眼镜、鼻子、嘴这些细节信息。

含有n个部件的目标模型可以形式上定义为一个(n+2)元组：(F₀,P₁,..., P_n, b)，F₀是根滤波器，P_i是第i个部件的模型，b是表示偏差的实数值。每个部件模型用一个三元组定义：(F_i,v_i, d_i)，F_i是第i个部件的滤波器；v_i是一个二维向量，指定第i个滤波器的锚点位置(anchor position，即未发生形变时的标准位置) 相对于根的坐标；d_i是一个四维向量，指定了一个二次函数的参数，此二次函数表示部件的每个可能位置相对于锚点位置的变形花费(deformation cost)。

每个目标假设都指定了模型中每个滤波器在特征金字塔中的位置：z = (p₀,..., p_n)，其中p_i = (x_i,y_i, l_i)表示第i个滤波器所在的层和位置坐标。我们这里需要每个部件所在层的特征分辨率都是根滤波器所在层的特征分辨率的两倍，即l_i层特征是l₀层特征的分辨率的两倍，并且l_i = l₀ – λ(i > 0)。

目标假设的得分等于每个滤波器在各自位置的得分(从数据来看)减去此位置相对于根位置的变形花费(从空间来看)再加上偏差值：

其中，

给出了第i个部件相对于其锚点位置的位移：(x₀,y₀)是根滤波器在其所在层的坐标，为了统一到部件滤波器所在层需乘以2。v_i是部件i的锚点相对于根的坐标偏移，所以2(x₀, y₀)+v_i表示未发生形变时部件i的绝对坐标(锚点的绝对坐标)。

而

是变形特征(水平、垂直位移及其平方)。

如果d_i= (0, 0, 1, 1)，则第i个部件的变形花费就是它实际位置与锚点位置距离的平方。通常情况下，变形花费是位移的任意可拆分二次函数。

引入偏差值是为了在将多个模型组成混合模型时，使多个模型的得分具有可比性。

目标假设z的得分可以表示成点积的形式：β·ψ(H, z)，β是模型参数向量，ψ(H, z)是特征向量，如下：

这就将模型和线性分类器联系起来了，我们使用隐藏变量SVM(LSVM)来学习模型参数。

3.2 匹配

在图像中检测目标时，根据各个部件的最佳位置在所有可能的根位置中找到总体得分最高的根位置，

高得分的根位置定义了一次检测，产生高得分根位置的部件位置定义了一个完整的目标假设。

通过定义每个根位置的总体得分(overall score)，我们可以检测目标的多个实例(假设每个根位置上最多一个实例)。这种方法与滑动窗口检测器有关联，因为可以认为score(p₀) 是检测窗口在指定根位置的得分。

我们使用动态规划和广义距离变换(min-convolution)[14][15]来计算部件的最优位置(是根位置的函数)。此方法非常高效，花费O(nk)时间计算一个滤波器的响应值，n是模型中部件的个数，k是特征金字塔中位置的总数。我们在此简单介绍一下此方法，细节请参考论文[14][15]。

设是存放部件i在特征金字塔第l层的响应值的数组。匹配算法首先会计算这些响应值。注意R_{i, l}是滤波器F_i和特征金字塔第l层的交叉相关。

计算完这些滤波器响应值后，对其进行转换来允许具有空间不确定性：

(8)

这种变换会将滤波器高分扩展到邻近位置，同时也将变形花费考虑在内。D_{i, l}(x, y) 值表示将第i个部件的锚点放在l层的位置(x,y)时它对根位置得分的最大贡献值。

转换后的数组D_i,l可根据论文[14]中的广义距离变换算法在线性时间内从数组R_{i, l}计算得到。

每一层根位置的总体得分可以表示为该层根滤波器响应值加上经过变换和子采样的部件响应值，

前面说过，λ是我们为了获得某一层的两倍分辨率而需要在金字塔中向下走的层数。

图4阐述了匹配过程。

为了理解公式(9)，需要知道对于一个固定的根位置，我们可以独立的选择每个部件的最佳位置，因为在目标假设的得分计算中没有考虑部件之间的相互作用。变换后的数组D_i,l表示第i个部件对根总体得分的贡献值，它是部件锚点位置的函数。所以，通过将根滤波器响应值和各个部件的贡献值相加，就得到了l层一个根位置的总体得分，其中每个部件的贡献值已预先计算好存储在数组D_{i, l-}_λ中。

此外，在计算D_i,l的过程中[14]中的算法还能计算出部件的最优位置(是锚点坐标的函数)，

找到一个高分的根位置(x₀, y₀,l₀)后，可以在中查找对应的部件最佳位置。

图4，在某一尺度上的匹配过程。根滤波器和部件滤波器的响应值在特征金字塔的不同分辨率中进行计算。变换后的响应值(D_{i, l})和根滤波器的响应值一起产生出每个根位置的最终得分。图中显示了“头部”和“右肩”的响应值及变换后响应值。注意到“头部”滤波器区分度更大。最终根位置的总体得分清楚地表明在本尺度有两个目标假设。

3.3 混合模型

含有m个组件(component)的混合模型可由一个m元组定义：M = (M₁, ..., M_m)，其中Mc是第c个组件的模型。

一个混合模型的目标假设指定了一个组件Mc(1<=c<=m)以及Mc中每个滤波器的位置：，这里n_c表示模型Mc中的部件个数。此混合模型目标假设的得分等于第c个组件模型的目标假设的得分。

如果是单组件混合模型，混合模型的目标假设得分可以用模型参数向量β和特征向量ψ(H, z)的点积来表示。如果是多组件混合模型，向量β是每个组件的模型参数向量的串接。特征向量ψ(H, z)是一个稀疏向量，其中的非零元素为ψ(H, z’)，与β中的β_c位置相对应，

所以有

用混合模型检测目标时，使用上节介绍的匹配算法，找到对所有部件产生高分假设的根位置。

4 隐藏变量SVM

考虑对样本x用如下公式进行评分的分类器，

这里β是模型参数向量，z是隐藏变量。集合Z(x)定义了样本x所有可能的隐藏变量值。通过对此得分值进行阈值化，可以获得样本x的二分类类标。

类比经典SVM算法，我们使用带类标的样本集D = (<x1, y1>, ..., <xn,yn>)，yi∈{-1, 1}来训练参数β，通过最小化下面的目标函数：

其中是标准铰链损失函数(hinge loss)，常数C控制正则项的相对权重。

如果每个样本的隐藏变量有唯一可能值(|Z(x_i)|=1)，则是β的线性函数，此时变为线性SVM问题，这是LSVM的一个特例。

4.1 半凸规划

LSVM最终是一个非凸规划(non-convex)问题。然而，在下面所讨论的情况下LSVM是半凸规划(semi-convexity)问题，一旦将隐藏信息指定给正样本则训练问题变为凸规划问题。

几个凸函数的最大值问题是凸规划问题。在线性SVM中，有是β的线性函数，此时铰链损失函数对于每个样本都是凸的，因为它是两个凸函数的最大值。

注意到公式(13)中定义的是一系列函数的最大值，而这些函数都是β的线性函数，因此是β的凸函数。所以当yi = -1时，两个函数f(x) = 0和都是β的凸函数，所以铰链损失函数是β的凸函数。也就是说，只有当样本为负样本时，损失函数是β的凸函数。我们将损失函数的这一性质叫做半凸(semi-convexity)。

对于正样本(yi= 1)来说，LSVM的铰链损失函数不是凸函数，因为它是一个凸函数f(x)= 0 和一个凹函数的最大值。

但是，当LSVM的正样本的隐藏变量具有唯一可能的取值时，是β的线性函数，因此损失函数是β的凸函数，再加上半凸性质，公式(14)变为凸规划问题。

4.2 最优化

设Z_p指定训练集D中正样本的隐藏变量值。定义一个辅助目标函数：

其中D(Z_p)表示将D中正样本的隐藏变量取值约束在Z_p中而得到的一个子集。也就是，对于正样本，设置Z(x_i) = {z_i}，根据前面的定义，集合Z(x)定义了样本x所有可能的隐藏变量值，z_i是由Z_p指定的x_i的隐藏变量值。注意到

特别的，。辅助目标函数给出了LSVM目标函数的上界，这证明了通过最小化L_D(β, Z_p)来训练LSVM是合理的。

在实际中我们使用坐标下降算法(Coordinate Descent)来最小化L_D(β, Z_p)：

1) 估计部件位置(重新标注正样本)：通过选择每个正样本的最高得分的隐藏值来最优化Z_p，

2) 学习模型参数(最优化β)：通过解决定义的凸优化问题来得到最优β值。

以上两个步骤或者优化L_D(β, Z_p)的值，或者维持其不变。在算法达到收敛之后就会得到一个相对强壮的局部最优值，步骤1在指数空间内搜索正样本的隐藏变量值，同时步骤2搜索所有可能的模型和指数空间内负样本的隐藏变量。

需要注意的是，模型参数β必须合理进行初始化，否则在步骤1中可能选择出非法的隐藏变量值，这会导致产生错误模型。

LSVM的半凸性质非常重要，正是由于具有半凸性质所以步骤2中的问题变为容易解决的凸优化问题(即使负样本的隐藏变量值是不确定的)。还有一种相似的处理过程，在每一轮迭代时固定所有样本的隐藏变量值，但这可能无法产生最优结果。假设Z指定训练集D中所有样本的隐藏变量值。由于L_D(β)遇到负样本时可能最大化，所以L_D(β)可能比L_D(β,Z)还大，因此不能指望通过最小化L_D(β,Z)来获得一个好的模型。

4.3 随机梯度下降

坐标下降算法中的步骤2(最优化β)可以通过二次规划(Quadratic Programming)[3]来解决，也可以通过随机梯度下降算法(Stochastic Gradient Descent)来解决。这里我们介绍一种在任意训练集D上用梯度下降算法来优化β的方法。在实际中我们使用这种方法的一个带有D(Z_p)的特征向量缓存的版本(见4.5节)。

设，即z_i(β)是使正样本x_i得分最高的隐藏变量值(位置配置)。所以有。

计算LSVM目标函数(公式14)的梯度，如下

在随机梯度下降算法中，用样本的子集来近似▽L_D，然后向梯度下降的方向走一步。用来近似表示。算法按如下步骤迭代更新β值：

1) 设αt是第t次迭代的学习率(步长)。

2) 随机选取样本x_i。

3) 设

4) 如果，则β∶＝β－αtβ

5) 否则，

就像线性SVM中用的坐标下降方法，我们这里的方法也和感知机算法(Perceptron)很相似。如果当前对随机样本x_i分类正确(大于函数间隔，如步骤4所述)，则收缩β；否则(如步骤5所述)，收缩β之后再加上Φ(xi, zi)乘以一个标量。

对于线性SVM来说，学习率(步长)αt = 1/t 时表现不错[37]。然而，收敛时间依赖于训练样本个数，对我们的问题来说，样本数非常巨大。特别的，如果存在很多“简单”样本(即信息量比较小的样本)，步骤2会经常选中这些简单样本，这样迭代过程会进展比较缓慢。

4.4 难例挖掘，SVM版

在训练目标检测的模型时，经常需要用到非常大量的负样本(对扫描窗口分类器来说，一张图片就可以产生大约10⁵个负样本)，这使得同时处理所有负样本变得不可能。相反，用正样本和负样本难例(Hard Negative)来构成训练数据集变得更为常用。

自举法(Bootstrap)首先使用初始负样本集来训练一个模型，然后收集被这个初始模型错误分类的负样本来形成一个负样本难例集。用此负样本难例集训练新的模型，此过程可以重复多次。

这里我们介绍一种受自举法启发而提出的适用于经典(非隐藏变量)SVM的数据挖掘算法。此方法使用一个相对较小的难例集来解决一系列训练问题，并且可以收敛到由更大数据集定义的训练问题的精确解。此方法需要用到难例的间隔敏感定义。

训练集D关于分类器β的困难和简单实例的定义如下：

也就是说，H(β,D)是D中被分类器β错误分类或位于分类器间隔内的样本；E(β,D)是D中被分类器β正确分类并位于分类间隔外的样本。在分类器边界上的样本既不是困难样本也不是简单样本。

设，即β*(D)表示样本集D上的最优β值(或者说根据样本集D训练得到的模型参数β)。

由于L_D是严格凸的(为什么？不是半凸吗？)，所以β*(D)是唯一的。

给定一个大训练集D，我们想要找到一个较小的样本集，使得β*(C) = β*(D)。

我们的方法需要用到一个样本缓存(cache)，从初始样本缓存开始，交替训练模型和更新样本缓存。在每次迭代时，从样本缓存中移除简单样本，然后加入新的难例。所有正样本一直在样本缓存中不动，在负样本上进行难例挖掘。

设是初始样本缓存，算法按如下步骤迭代的训练模型和更新缓存：

1) 令βt := β*(C_t)，即用C_t训练一个模型βt。

2) 如果，即βt在样本集D上获得的难例都已包括在C_t中，停止迭代，返回模型βt。

3) 对任意，令，即收缩缓存。

4) 对任意并且，令，即扩大缓存。

在步骤3中，通过删除C_t中βt对应的简单样本来收缩缓存。在步骤4中，通过向缓存中加入难例来扩大缓存，这些难例是用βt在D上获得的并至少有一个不在原C_t中，这样的样本肯定是存在的，否则在步骤2中就已经返回了。

下面的定理说明当停止迭代时可以找到β*(D)。

定理1 设并且β=β*(C)，如果，则β=β*(D)。

证明：因为，所以L_D(β*(D))≥ L_C(β*(C)) = L_C(β)(不明白为什么是大于等于？)。因为，所以集合D\C中的所有样本的损失函数(铰链损失)值都是0，所以L_C(β) = L_D(β)(这是因为函数L_D(β)由两部分构成，前面是β的平方，后面是所有样本的损失函数值累加和)。所以可得L_D(β*(D)) ≥ L_D(β)，又因为L_D有唯一的最小值，所以β=β*(D)。

下一个定理说明算法在有限次迭代后会停止。直观上看是由于会在每次迭代时变大，但最大不会超过L_D(β*(D))。

定理2 本数据挖掘算法可收敛。

证明：收缩后的样本缓存包含C_t中所有相对于βt 损失函数值不为零的样本。这表明对于βt 来说，和是等价的。既然βt 是的最小值，所以也必定是的最小值，所以。

在扩大缓存时，中至少包含一个对于βt损失函数不为0的样本<x, y>。因为，所以对于所有β有。如果，则 (不明白为什么是大于等于？)，因为有唯一最小值。如果，由于存在至少一个样本<x, y>的损失函数不为0，所以有。

所以我们得出结论。因为缓存数量有限，所以缓存中损失的增长次数也有限。

4.5 难例挖掘，LSVM版

现在我们介绍一种适用于LSVM的难例挖掘算法，此算法要求LSVM正样本的隐藏变量值是固定的。也就是说，我们最优化而不是L_D(β)。基于前面的讨论，我们知道这个约束可以保证最优化问题是凸规划。

对于LSVM来说，用样本和隐藏变量二元组(x, z)的缓存来代替样本缓存。这样可以避免在优化算法(例如梯度下降)的内循环中对所有Z(x)做判断。此外，在实际中我们使用特征向量Φ(x, z)的缓存来代替二元组(x, z)的缓存，这样表示更简单紧凑。

特征向量缓存F由一系列二元组(i, v)构成，其中1≤i≤n是样本索引，v = Φ(x_i, z)，z∈Z(x_i)。注意对于每个样本x_i，可能有多个二元组(i, v) ∈F。

设I(F)是缓存F对应的样本集合。F中的特征向量定义了β的目标函数(公式20)，在此函数中我们只考虑由I(F)指定的样本，对每个样本只考虑其在缓存F中的特征向量。

对4.3节中的梯度下降算法进行修改后可用来最优化L_F。设V(i)是F中的特征向量的集合。梯度下降算法的迭代过程如下：

1) 设αt是第t次迭代的学习率(步长)。

2) 从I(F)中随机选择样本i

3) 令

4) 如果y_i(β·v_i) ≥1，令β＝β﹣αt β

5) 否则，令β＝β﹣αt(β－Cny_iv_i)

注意，I(F)的大小控制着收敛所必需的迭代次数，V(i)控制执行步骤3所需要的时间。在步骤5中，n = |I(F)|。

设，即β*(F)是根据特征向量缓存F训练得到的模型参数。我们想要找到D(Z_p)一个较小的缓存F，使得β*(F) = β*( D(Z_p) )。

定义训练集D上关于模型β的难特征向量(HardFeature Vector)为：

也就是说，难特征向量集H(β, D)由一系列二元组(i, v)组成，其中v是位于分类器β的分类间隔内(即分错类或无法分类的)的样本x_i的最高得分特征向量。

定义缓存F中的简单特征向量为：

即缓存F中位于分类器β的分类间隔外(即分类正确的)的特征向量。

对于样本i，如果存在一个特征向量使得y_i(β·v) ≤1，则即使样本i有其他更高得分的特征向量，也不再将(i, v)看做简单样本。

下面介绍计算β*(D(Z_p) )的数据挖掘算法。

此算法需要用到训练集D(Z_p)的一个特征向量缓存，算法交替训练模型和更新缓存。

设F₁是初始特征向量缓存，算法迭代过程如下：

1) 令βt := β*(Ft)，即用Ft训练一个模型βt。

2) 如果，即βt在D(Z_p)上找到的所有难特征向量都已包括在Ft中，则停止迭代，返回模型βt。

3) 对任意，令，即收缩缓存。

4) 对任意，令，即扩大缓存。

在步骤3中，通过删除简单特征向量来收缩缓存。在步骤4中，通过向缓存中加入新的特征向量来扩大缓存，这些特征向量是用βt在D(Z_p)上获得的并至少有一个不在原Ft中。随着时间的推移，缓存中会累积起同个负样本的多个特征向量。

算法最终会收敛并返回β*(D(Z_p) )，与4.4节中类似。

5 训练模型

现在考虑从标注有目标包围盒的图片数据集中训练模型的问题。这种类型的数据可以从PASCAL数据集中获得。数据集中包含几千张图片，每张图片对应一个标注文件，标注文件指明了图片中出现的每个目标的类别以及目标的包围盒。需要注意的是，这是一种弱标注(weakly labeled)的数据集，因为其中没有指明部件的类别和位置。

我们介绍一种初始化混合模型结构并学习所有参数的方法。参数是通过训练LSVM来学习到的。我们用4.2节中描述的坐标下降算法，以及4.5节中的带有特征向量缓存的数据挖掘和梯度下降算法来训练LSVM。由于坐标下降算法容易受到局部极小值影响，所以必须合理进行模型的初始化。

5.1 学习参数

设c是一个目标类别。假设c的训练样本由正样本集P和背景图像集(负样本集)N给定。P是二元组(I, B)的集合，其中I是图片，B是I中c类目标的包围盒。

设M是一个有固定结构的(混合)模型。如前所述，一个模型的参数可由向量β定义。为了学习β，我们定义了一个带有隐式训练集D的LSVM训练问题，正样本来自集合P，负样本来自集合N。

每个样本<x,y>∈D都有一个相关的图片和特征金字塔H(x)。隐藏变量z∈Z(x)指明了模型M在特征金字塔H(x)中的一个实例。

定义Φ(x,z) = ψ(H(x), z)，所以β·Φ(x, z)是模型M的假设z在H(x)上的得分。

(I, B)∈P指明了目标检测器应该在包围盒B定义的位置处检测出目标(“开火”)，也就是说由B定义的根滤波器位置的总体得分(公式7)应该很高。

对于每个(I,B)∈P，定义一个用来训练LSVM的正样本x。定义隐藏变量集合Z(x)，使得假设z∈Z(x)指定的根滤波器窗口与B重叠至少50%。我们发现将根滤波器的位置看做隐藏变量有助于补偿正样本标注中的噪声造成的损失。相似的思想在论文[40]中也有使用。

对于背景图(负样本原图)I∈N，我们不希望检测器在I的特征金字塔的任何位置检测出目标。这意味着每个根滤波器的总体得分(公式7)都应该很低。设G是特征金字塔中位置的稠密集。对于G中的每个位置(i,j,l)，定义一个负样本x。定义集合Z(x)，使得z∈Z(x)指定的根滤波器的层级是l，其检测窗口的中心坐标是(i, j)。从每张图片中可以获得大量的负样本，这与扫描窗口检测器需要有较低的误报率是相一致的。

下面给出了训练过程Train。最外层循环限定了坐标下降算法在L_D(β, Z_p)上的迭代次数。3-6行实现了坐标下降算法中(步骤1)重新标注正样本(估计部件位置)的过程，执行完后每个正样本对应一个特征向量，保存在正特征向量集合F_p中。7-14行实现了坐标下降算法中(步骤2)最优化β的过程。由于由N定义的负样本个数非常大，我们使用LSVM数据挖掘算法进行训练。我们并非运行算法直到收敛，而是进行固定次数的迭代。在每次迭代中，首先将难例收集到F_n中，用梯度下降算法训练一个新的模型，然后通过移除简单特征向量来收缩F_n。在数据挖掘过程中，通过在N中的图像上顺序迭代来增大缓存，直到达到内存限制。

函数detect-best(β,I, B)在图像I中用与矩形框B重叠超过50%的根滤波器寻找具有最高得分的目标假设。函数detect-all(β, I, t)计算每个根位置的最佳目标假设并选择其中得分大于t的。这两个函数都可以用3.2节中的匹配过程实现。

函数gradient-descent(F)利用缓存F中的特征向量来训练模型β(如4.5节所述)。在实际中会对算法进行修改，将可变形模型中的二次项参数限定在大于0.01，这保证了变形花费是凸函数，但又不至于太平坦。同时还将模型限定为沿垂直轴对称，位于垂直轴中心的滤波器必须是自对称的，不在垂直轴上的部件滤波器在模型的另一侧一定有一个对称部件。这些约束可以将要学习的参数个数降低一半。

5.2 初始化

LSVM中使用的坐标下降算法容易受到局部极小值的影响，对初始化很敏感。这也是其他使用隐藏信息的算法所共有的缺点。我们分三个阶段来初始化和训练混合模型。

Phase1 初始化根滤波器：为了训练含m个组件(component)的混合模型，我们首先将正样本集P中的包围盒按其长宽比(aspectratio)排序并分类为P₁, ..., P_m组，每组内的包围盒具有相似的长宽比。这里，长宽比被当做区分同类目标的外观变化的指示器。共训练m个不同的根滤波器F₁, ..., F_m，每组包围盒对应一个。

为了确定滤波器F_i的维数，选择P_i中包围盒的平均长宽比，并保证其面积不大于P_i中80%的包围盒。这就保证了对于P_i中的多数二元组(I, B)，可以将F_i放在I的特征金字塔中使F_i与B显著重叠。

我们用标准SVM(不含隐藏信息)来训练F_i，类似论文[10]中的方法。对于(I, B) ∈P_i，缩放包围盒B中的图像区域使得其特征映射与滤波器F_i的维数相同，这样就产生了一个正样本。从负样本集N中的图片上随机选择合适维数的子窗口来产生负样本。图5(a)和5(b)显示了训练含两个组件的汽车模型的Phase1的结果。

Phase2 合并组件：将m个初始根滤波器联合起来形成不含部件的混合模型，在完整数据集P和N上(不分组不缩放)用5.1节中的Train过程重新训练联合模型的参数。这种情况下组件标识和根位置成为每个样本的隐藏变量。此时坐标下降训练算法可以看做一个判别聚类方法，不断迭代地给每个正样本分配聚类标识和估计聚类均值(根滤波器)。

Phase3 初始化部件滤波器：我们使用一个简单的启发式算法来初始化每个组件模型中的部件。每个组件模型的部件个数固定为6个，贪心地放置部件在根滤波器的高能量区域(能量是子窗口内正权重的范数)。部件或者放在根滤波器的中心垂直轴上，或者关于中轴两两对称。一个部件的位置确定后，它所覆盖区域的能量值设为0，然后继续寻找下一个最高能量区域，直到6个部件的位置都确定。

将根滤波器的值插值到两倍空间分辨率，用来初始化部件滤波器。每个部件的变形参数初始化为di = (0, 0, .1, .1)，这使得部件的位置与其锚点位置很近。图5(c)展示了训练含两个组件的汽车模型的Phase3的结果。结果作为最后一轮参数学习的初始模型(？)，最终的汽车模型如图9所示。

图5，(a)和(b)是汽车模型的初始根滤波器(即初始化过程中Phase1的结果)。(c)是汽车模型的初始部件滤波器(即初始化过程中Phase3的结果)

6 特征

下面介绍来自论文[10]的36维HOG特征(这里所用的HOG特征与论文[10]中稍有不同，但并不影响性能)，以及可选的包含相同信息13维特征集。我们发现通过包含对比度敏感和对比度不敏感的特征来扩大此低维特征集到31维特征向量，可以改善在大多数PASCAL目标类别上的表现性能。

6.1 HOG特征

6.1.1 像素级特征映射

令θ(x,y)和γ(x,y)分别表示(x,y)处像素点的梯度方向和梯度幅值。如论文[10]中所述，使用有限差分滤波器[-1,0,+1]及其转置来计算梯度。对于彩色图像，使用具有最大梯度幅值的颜色通道来定义θ和γ。

每个像素点的梯度方向离散到p个值中的一个，可以使用对比度敏感定义B₁(方向范围为0-360)或对比度不敏感定义B₂(方向范围为0-180)，

下面我们用B表示B₁或B₂。

我们定义一个像素级的特征映射，它指定了每个像素梯度幅值的稀疏直方图。设b取值范围为{0, ..., p-1}，则(x,y) 处的特征向量为

可以认为F是有p个方向通道的有向边映射，对于每个像素，通过离散化其梯度方向来选择一个方向通道，梯度幅值看做是有向边的强度。

6.1.2 空间聚合

设F是一个w*h大小图像的像素级特征映射。k>0是一个方形图像区域的边长。定义一个矩形cell的稠密网格，将像素级特征聚合来获得基于cell的特征映射C，特征向量为C(i,j) 。空间聚合使特征具有对微小形变的不变性，并可以减少特征映射尺寸。

最简单的特征聚合方法是将像素(x,y)映射到一个cell 中，定义cell的特征向量是此cell内所有像素的特征向量的和(或均值)。

我们这里没有将每个像素映射到唯一的cell，而是采用论文[10]中的方法，用“软合并”使每个像素通过双线性插值对周围4个cell的特征向量产生贡献。

6.1.3 归一化和截断(限幅)

梯度对偏置改变(changesin bias)具有不变性，这种不变性可以通过归一化获得。Dalal和Triggs[10]对特征向量C(i,j)用了4种不同的归一化因子。我们可以将这些因子写成的形式：

每个因子都是对包含(i,j)在内的4个cell组成的块(block)的梯度能量的度量。

表示向量v被α截断(限幅)后形成的向量( 的第i个元素是v中第i个元素和α两者中的最小值)。对基于cell的特征映射C进行归一化并截断(限幅)，然后串接起来就得到了HOG特征映射，如下：

通常使用的HOG特征中，p=9，用对比度不敏感定义进行梯度方向的离散化(B₂公式，0-180度)，cell尺寸k=8，限幅阈值α=0.2。这会产生一个36维的特征向量，我们接下来的分析都使用以上参数设置。

6.2 PCA和解析降维

我们从大量各种分辨率的图片中收集了很多36维的HOG特征，并在这些特征向量上进行PCA分析。图6展示了分析出的主成分，从中我们发现很多有趣的现象。

图6，HOG特征的PCA分析。每个特征向量(eigenvector)都显示为4*9的矩阵，所以每一行对应一个归一化因子，每一列对应一个方向bin。特征值在特征向量上方。由前11个主特征向量定义的线性子空间基本上包含了HOG特征的所有信息。注意到，所有主特征向量沿其矩阵表达的行或列是定值。

由前11个主特征向量(eigenvector)定义的线性子空间基本上间包含了HOG特征的所有信息。事实上，我们用原始36维特征和向主特征向量投影得到的11维特征在PASCAL 2007数据集的所有目标类别上都获得了同样的结果。使用低维特征可以产生参数较少的模型，并加速学习和检测算法。然而由于在计算特征金字塔时需要相对耗时的投影步骤，使获得的加速优势有所减少。

36维HOG特征向量来自4个不同的归一化9维方向直方图，所以36维HOG特征向量可以自然地看做一个4*9的矩阵。图6中的主特征向量有一个非常特殊的结构：他们沿其矩阵表达的行或列(近似)是定值。所以主特征向量所依赖的线性子空间可由沿其矩阵表达的某一行或列为定值的稀疏向量定义。

设V={u₁,..., u₉} ∪{v₁, ..., v₄}，其中u_i和v_i都是36维向量，其4*9的矩阵表达形式满足下列条件：

例如，

定义一个13维特征，其中的元素是36维HOG特征与每个u_k和v_k的点积。HOG特征向每个u_k的投影通过计算对应方向的4个归一化值的和(即矩阵表达的某列的和)来获得，HOG特征向每个v_k的投影通过计算对应归一化方法的9个方向值的和(即矩阵表达的某行的和)来获得。(注：13维特征并不是36维特征向V的线性投影，因为u_k和v_k不是正交的。事实上，由V定义的线性子空间的维数是12)

使用11维PCA特征和使用36维HOG特征或由V定义的13维特征可以获得同样的性能表现。然而，由于u_k和v_k是稀疏向量，计算由V定义的13维特征比计算向PCA主特征向量的投影要简单的多。此外，13维特征有一个简单的解释：9个方向特征和反应cell周围区域梯度能量的4个特征。

我们也可以定义对比度敏感的低维特征。我们发现有些目标类别适合使用对比度敏感特征，有些目标类别又适合用对比度不敏感特征。所以在实际中我们既使用对比度敏感特征又使用对比度不敏感特征。

设C是聚合有9个对比度不敏感方向的像素级特征映射而获得的基于cell的特征映射，D是聚合有18个对比度敏感方向的像素级特征而获得的基于cell的特征映射。用公式(26)来定义C和D的4种归一化因子。通过对C(i,j)和D(i,j)进行归一化和截断(限幅)，可以获得一个4*(9+18)=108维的特征向量F(i,j)。实际中我们使用此108维向量的一个解析投影，此投影由下面几个统计量定义：27个在不同归一化因子上的累加和(即列的和)，F中的每个方向通道对应一个；以及4个在不同方向(9维对比度不敏感方向)上的累加和(即行的和)，每个归一化因子对应一个。cell尺寸k=8，截断(限幅)阈值α=0.2。最终的特征映射是31维向量G(i,j)，其中27维对应不同的方向通道(9个对比度不敏感方向和18个对比度敏感方向)，其中4维捕获(i,j)周围4个cell组成的block的梯度能量。

最后，我们注意到图6中的主特征向量(eigenvector)可以粗略地解释为二维可分离的傅里叶基。每个特征向量可以粗略地看做是一个变量的正弦或余弦函数。如此一来，可以使用有限个傅里叶基函数代替有限个离散方向来定义特征。

图6中傅里叶基(Fourier basis)的出现是一个有趣的实验结果。当d*d的协方差矩阵Σ是循环矩阵时，其特征向量可以形成一个傅里叶基，例如。循环协方差矩阵(Circulant Covariance Matrix)来自对坐标旋转具有不变性的向量的概率分布。图6中二维傅里叶基的出现证明图像上HOG特征向量的分布(大致)具有二维旋转不变性。所以我们可以旋转方向bin，以及分别旋转4个归一化块。

7 后处理

7.1 包围盒预测

目标检测系统想要得到的输出并不是完全统一的。PASCAL挑战赛的目的是预测目标的包围盒(BoundingBox)。我们之前的论文[17]是根据根滤波器的位置产生包围盒。但我们的模型还能定位每个部件滤波器的位置。此外，部件滤波器的定位精度要大于根滤波器。很明显我们最初的方法忽略了使用多尺度可变形部件模型所获得的潜在有价值信息。

在当前的系统中，我们使用目标假设的完全配置，z = (p₀,..., p_n)，来预测目标的包围盒。这是通过一个将特征向量g(z)映射为包围盒左上角点(x₁,y₁)和右下角点(x₂,y₂)的函数来实现的。对于一个含n个部件的模型，g(z)是一个2n+3维的向量，包含以像素为单位的根滤波器宽度(指出尺度信息)和每个滤波器在图像左上角点的位置坐标。

PASCAL训练集中的每个目标都用包围盒进行了标注。训练完模型后，用检测器在每个实例上的输出根据g(z)训练4个分别预测x₁,y₁,x₂,y₂的线性函数，这是通过线性最小二乘回归来训练的，对于混合模型中的每个组件是独立的。

图7是汽车检测中包围盒预测的一个例子。这种简单方法在PASCAL数据集的某些类别上可以产生较小但值得注意的性能提升(见第8节)。

图7，汽车检测中根据目标假设进行包围盒预测

7.2 非极大值抑制

使用3.2节中的匹配过程经常会得到每个目标实例的多个重叠检测。我们用一个贪心的非极大值抑制(Non-maximum Suppression)程序来消除重复检测。

应用完上节介绍的包围盒预测算法后，会得到图像中的某类目标的一个检测结果集合D。D中每个检测结果对应一个包围盒和一个得分。按得分对D中的检测结果排序，贪心地选择具有最高得分的检测结果并跳过被之前选择的检测结果的包围盒覆盖超过50%的结果。

7.3 上下文信息

我们实现了一个用上下文信息(Contextual Information)对检测结果进行重新评分(二次评分)的简单程序。

设(D₁,..., D_k)是用k个不同目标类别的模型在图像I中获得的检测结果。每个检测结果(B, s)∈D_i由一个包围盒B=(x₁, y₁, x₂,y₂)和一个得分s定义。我们用一个k维向量 c(I) = (σ(s₁), ..., σ(s_k) )来定义图像I的上下文，其中s_i是D_i中最高得分检测结果的分数，σ(x) = 1/(1 + exp(-2x))是一个对分数进行重归一化的逻辑函数。

为了对图像I中的检测结果(B, s)进行重新评分，我们用原始检测得分、包围盒的左上角和右下角坐标、以及图像上下文构建了一个25维(c(I)是20维)特征向量：

坐标x₁, y₁,x₂, y₂∈[0,1]用图像的宽和高进行归一化。我们用一个特别分类器对这个新的特征向量进行评分，这样就获得了检测结果的新得分。此分类器结合g定义的上下文信息将正确检测从误报结果中区分出来。

为了获得重评分分类器(rescoring classifier)的训练数据，在标注好包围盒的图片(例如PASCAL数据集)上运行我们的分类器。每个返回的检测结果都会产生一个标注为正确检测(true positive)或误报(false positive)的样本g，标注结果取决于检测结果是否与原图的标注包围盒有显著重叠。

此重评分程序在PASCAL数据集中某些类别的平均检测精度上可以产生性能提升(见第8节)。我们的实验中用同样的数据集来训练检测模型和训练重评分分类器，在重评分分类器的训练中使用二次核函数SVM。

8 实验结果

我们用PASCALVOC 2006、2007和2008 comp3挑战赛的数据集和协议对系统进行评价。论文[11]-[13]中有详细介绍，需要强调的是，这些测评集是公认的目标检测中难度很大的测试集。

每个数据集都包含数千张真实世界场景的图片。数据集给出了几个目标类别的包围盒真值(ground-truth)。测试时，目标是预测图像中给定类别的所有目标的包围盒(如果有的话)。在实际中，系统会输出一系列带评分的包围盒，我们可以在不同点对这些分数进行阈值化来获得一个测试集中所有图片的精度-召回率曲线(precision-recall curve)。精度(precision)表示检测正确的目标占检测的总目标的比例。召回率(recallrate)表示检测到的目标占ground-truth中标注的所有目标的比例。

如果预测的包围盒与ground-truth包围盒重叠超过50%则认为此预测包围盒是正确的检测，否则预测包围盒被认为是误报(虚警，False Positive)检测。重复检测会被惩罚，如果系统预测的多个包围盒都与一个ground-truth包围盒重叠，则只有其中一个检测被认为是正确的，其他所有都被看做误报。通过系统在测试集上的精度-召回率曲线的平均精度(AP,Average Precision)对系统进行打分。

对于数据集中的每个目标类别，我们都训练了一个含两个组件的混合模型。图9是在2007数据集上学习得到的几个模型。图10是使用这些模型的检测结果，图中显示了高得分的正确检测和高得分的误报检测。

图9，在PASCAL 2007数据集上学习得到的一些模型

图10，在PASCAL 2007数据集上的高得分检测示例，选自每个类别中的前20个高得分检测。每行最后两张加框的图片是每类中的误报检测(false positive)，注意其中很多误报都是由于包围盒标准过于严格(例如人体和猫类别中的误报)。

在一些类别上发生错误检测是由于类别间容易发生混淆，比如马和牛或小汽车和巴士。还有些错误检测是由于包围盒标准过于严格。人体类别最后两个误报就是由于预测的包围盒与ground-truth包围盒重叠不够充分。在猫的检测中，经常只检测出猫脸，所以预测的包围盒太小无法将猫身体的剩下部分包含进来。事实上，猫类别中得分最高的20个误报的包围盒都是只有猫脸。这是一个较极端的例子但也解释了为什么我们在猫类上的AP得分较低。猫类别训练数据的正样本中有很多都是只有猫脸，所以我们的猫模型的其中一个组件模型就是猫脸模型，见图9。

表1和表2总结了我们的系统在PASCAL 2006和2007挑战赛数据集上的结果。表3总结了在PASCAL 2008数据集上的结果，以及进入2008官方挑战赛的其他系统的结果。空方格表示该方法在对应的目标类别上没有进行测试。其中”UofCTTIUCI”是我们系统的一个初始版本。我们的系统在20个类别中的9个上得到最高AP，在其中8个上获得第二名。此外，在某些类别上例如人体中我们系统的得分比第二名要高出很多。

表1，PASCAL VOC 2006 结果。(a) 基础系统的平均精度(AP)得分，(b) 加上包围盒预测后的结果，(c) 加上包围盒预测和上下文重新评分后的结果。

表2，PASCAL VOC 2007 结果。(a) 基础系统的平均精度(AP)得分，(b) 加上包围盒预测后的结果，(c) 加上包围盒预测和上下文重新评分后的结果。

表3，PASCAL VOC 2008 结果。第一个表：(a) 基础系统的平均精度(AP)得分，(b) 加上包围盒预测后的结果，(c) 加上包围盒预测和上下文重新评分后的结果，(d) 最终得分在2008挑战赛中的排名。第二个表：参加挑战赛的其他系统的结果(UofCTTIUCI是我们系统的初始版本)

我们所做的所有试验中都是用PASCAL trainval数据集中没有标注为“困难”的目标实例来训练模型(我们使用了标注为“被截断”的实例)。我们的系统非常高效。用桌面电脑在PASCAL 2007 trainval数据集上需要4个小时来训练一个模型，需要3小时在test数据集上评价模型。在test数据集中有4952张图片，所以每张图片的平均运行时间是大约2秒。所有试验都是在配置有2.8Ghz 8核Intel Xeon CPU和Mac OS X 10.5 系统的Mac Pro电脑上进行的。系统在计算滤波器响应值时使用多核架构并行计算，其余的计算都是在单线程上完成的。

我们在耗费更长时间建立的PASCAL2006数据集上测试了系统的不同方面。图8总结了不同配置的模型在人体和汽车检测上的结果。其中包括含1个或2个组件的带有部件或没有部件的模型，以及带有部件和包围盒预测的2组件模型的结果。我们发现部件(以及包围盒预测)的使用可以显著地提升检测精度。带有多个组件模型的混合模型在汽车的检测中很有必要，但在人体的检测中并没有那么重要。

图8，在PASCAL 2006数据集上训练的人体和汽车模型的精度-查全率曲线。图中展示了含1个或2个组件的带有部件或没有部件的模型，以及带有部件和包围盒预测的2组件模型的结果。圆括号内是每个模型的平均精度(AP)得分。

我们还在INRIA人体数据集[10]上训练和测试了一个单组件模型。我们用PASCAL评价方法(用PASCAL开发包)在完全测试集上对此模型进行了评分，用带有包围盒预测的基础系统获得了高达.869的AP得分。

9 讨论

本文介绍了一个基于混合多尺度可变形部件模型的目标检测系统。我们的系统依赖于利用隐藏信息进行判别训练的新方法，以及将部件模型和图片进行匹配的高效方法。系统高效而精确，在较难的数据集上达到了目前最高水平。

我们的模型已经能够表示高度可变的目标类别，但我们还想往更丰富的模型发展，还能够探索其他的隐藏变量框架。例如更深的部件层次(带部件的部件)或带有更多组件的混合模型。将来我们还要建立基于语法的模型(Grammar Based Models)，它利用可变层次结构来表示目标，允许部件级别的混合模型，以及部件的重用(reusability)，包括在一个目标的不同组件中的重用和不同目标模型中的重用。

文章下载：http://download.csdn.net/detail/masikkk/6870833

Deformable Part Model 相关网页：http://www.cs.berkeley.edu/~rbg/latent/index.html

Pedro Felzenszwalb的个人主页：http://cs.brown.edu/~pff/

PASCAL VOC 目标检测挑战：http://pascallin.ecs.soton.ac.uk/challenges/VOC/

以及Pedro Felzenszwalb 在CVPR 2008 的一篇文章：

A Discriminatively Trained, Multiscale,Deformable Part Model[CVPR 2008]的中文翻译

有关可变形部件模型(Deformable Part Model)中一些难点的一些说明：

http://blog.csdn.net/masibuaa/article/details/17534151

你可能感兴趣的:(DPM)

stable diffusion参数说明 weixin_45597589 stable diffusion专题 stable diffusion
stablediffusion参数说明采样方法没有优劣之分，速度不一样。一般Eulera、DPM++2MKarras、DPM++SDEKarras,漫画一般选择DPM++2MKarras高清修复一般勾选。放大算法一般选择R-ESRGAN4x+ANIME6B宽度、高度控制图片的分辨率，根据选择的大模型的训练集尺寸选择，一般为64的倍数提示词相关性一般选择7~10采样迭代步数代表这幅画画了多少笔，一般
MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer 我在努力学习分割（禁止说我水平差） transformer 深度学习人工智能
MedSegDiff-V2:基于变压器的扩散医学图像分割摘要扩散概率模型(DiffusionProbabilisticModel,DPM)最近在计算机视觉领域获得了广泛的应用，这要归功于它的图像生成应用，如Imagen、LatentDiffusionModels和StableDiffusion，这些应用已经展示了令人印象深刻的能力，并在社区内引发了许多讨论。最近的研究进一步揭示了DPM在医学图像分
迅为LS2K0500开发板引出PCI接口，可扩展显卡、网卡、声卡、视频卡、SATARAID等 mucheni 2K0500
CPU迅为LS2K0500开发板采用龙芯2K0500处理器，基于龙芯自主指令系统(LoongArch)架构，片内集成64位LA264处理器核。实现ACPI、DVFS/DPM动态电源功耗管理等低功耗技术，支持多种电源级别和唤醒方式，可根据具体应用场景对芯片部分功能和高速接口进行动态时钟、电源开关控制，满足工控、网络安全等应用领域低功耗应用需求。PCI开发板引出PCI接口，可扩展显卡、网卡、声卡、视频
YOLOv8改进 | 主干篇 | 低照度增强网络PE-YOLO改进主干（改进暗光条件下的物体检测模型） Snu77 YOLOv8有效涨点专栏 YOLO 深度学习人工智能 pytorch 计算机视觉 python 目标检测
一、本文介绍本文给大家带来的改进机制是低照度图像增强网络PE-YOLO中的PENet，PENet通过拉普拉斯金字塔将图像分解成多个分辨率的组件，增强图像细节和低频信息。它包括一个细节处理模块（DPM），用于通过上下文分支和边缘分支增强图像细节，以及一个低频增强滤波器（LEF），以捕获低频语义并减少高频噪声。同时该网络的发布版本并不完善，存在二次创新的机会，后期我会将其网络进行二次创新，增强低照度的
Stable Diffusion中不同的采样方法 CCSBRIDGE 人工智能计算机视觉
在StableDiffusion模型中，采样方法是从学习到的概率分布中生成图像的算法。采样方法影响生成图像的质量、样式、速度以及过程的控制程度。以下是一些采样方法的概述和它们对图像生成可能产生的影响：DPM++系列DPM++2M/3M:这些是扩展的扩散概率模型，其中数字表示模型使用的标记步数（例如2M表示200万步）。步数越多，通常生成的图像细节和质量越高，但需要更长的计算时间。DPM++SDE:
MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model 我在努力学习分割（禁止说我水平差）神经网络
MedSegDiff:基于扩散概率模型的医学图像分割摘要：扩散概率模型(Diffusionprobabilisticmodel,DPM)是近年来计算机视觉研究的热点之一。它在Imagen、LatentDiffusionModels和StableDiffusion等图像生成应用中表现出了令人印象深刻的生成能力，引起了社区的广泛讨论。最近的许多研究还发现，它在许多其他视觉任务中也很有用，比如图像去模糊
MedSegDiff： Medical Image Segmentation with Diffusion Probabilistic Model 计算机视觉-Archer 人工智能
摘要Diffusionprobabilisticmodel(DPM)recentlybecomesoneofthehottesttopicincomputervision.ItsimagegenerationapplicationsuchasImagen,LatentDiffusionModelsandStableDiffusionhaveshownimpressivegenerationcapa
为什么MAX22216/MAX22217电流控制（CDR）比电压控制更好(VDR)？卓联微范同学硬件工程驱动开发人工智能算法健康医疗
如图▪与电流控制模式相比，电压控制模式需要更大的裕量来实现最小的驱动电流和保持电流。▪电压控制易受线圈电阻和输入电压变化的影响。▪电流控制模式消除了这些不准确性，节省了功耗并减少了电磁阀磨损。柱塞运动检测(DPM)问题:在卡住的阀门中，即使达到HIT电流，柱塞也不会移动。检测柱塞运动对于诊断是非常理想的方法。解决方案:一种诊断工具，允许“动态”检测局部峰值将为每个通道单独进行检测检测闯值可由用户通
aigc Sampling method 采样器 AI视觉网奇 aigc与数字人 AIGC
以下是我的建议：如果想快速生成质量不错的图片，建议选择DPM++2MKarras(20-30步)、UNIPC（15-25步）如果想要高质量的图，不关心重现性，建议选择DPM++SDEKarras（10-15步较慢)，DDIM(10-15步较快)如果想要简单的图，建议选择Euler,Heun(可以减少步骤以节省时间)如果想要稳定可重现的图像，请避免选择任何祖先采样器（名字里面带a或SDE）相反，如果
【腾讯云 HAI域探秘】StableDiffusionWebUI 让我找到了宫崎骏动漫里的夏天不叫猫先生人工智能云计算 stable diffusion 腾讯云 HAI
目录前言一、HAI二、应用场景三、构建StableDiffusion模型1、新建HAI应用2、StableDiffusionWebUI（1）功能介绍（2）页面转中文（3）AI绘图①正向提示词语②反向提示词③“+”、“AND”、“|”用法④权重⑤Eulera取样方法⑥DPM++2MKarras取样方法⑦新增提示词案例四、总结前言一直以来想部署一个自己的StableDiffusion模型，但是在构建模
定向政策矩阵牧云虎
内容定向政策矩阵(DPM)是由荷兰皇家壳牌集团开发的-一个业务组合计划工具，用于多业务公司的总体战略制定。与通用矩阵相比，选取的量化指标不同，定向政策矩阵更直接细化业务组合，并采取星级评定的方式尽可能的量化指标，以达到业务分区的真实性。定向政策矩阵(DirectionalPolicyMatrix，指导性政策矩阵，简称DPM或DP矩阵)定向政策矩阵的内容如图，该矩阵是-一个三乘三矩阵，描绘了各项业务
【SD】loopback 回送开魔法阵 - 换衣服 - 修复手部 oneREAD stable diffusion
原理：通过1张图片多次迭代，产生新的图片，并记录每张图片的不同DPM++2MKarrasCFG:7重绘幅度0.75bestquality,masterpiece,uniform,blueeyes,redglasses,1girl,magiccircle,cute,blackpantyhose,openpose迭代10次Finaldenoisingstrength：0.8openpose+depth
汽车行业里的DPM条码扫描解析慧都小妮子网络条码工具条码开发 dpm
汽车行业已全面采用直接零件标记(DPM)代码，这有助于在制造过程中识别和监控组件。本博客探讨了DPM代码的重要性，并调查了汽车行业中传统代码扫描技术遇到的困难。点击下载DynamsoftBarcodeReader最新版https://www.evget.com/product/3691/download了解汽车制造中的DPM代码准确的数据采集是实现卓越汽车制造的质量控制的一个基本方面。DPM代码作
【电商】AI模特高清放大 oneREAD AI电商 stable diffusion
目录实战一：模特人偶实战二：3DOPENPOSE生成模特高清放大（可开启ADetailer）实战三：半身模特随机生成高清放大（可开启ADetailer）实战四：人偶生成模特图实战一：模特人偶使用InpaintAnything对人物的衣物进行处理得到：重绘非蒙版内容DPM++SDEKarras重绘幅度0.8迭代次数40模型：麦橘写实预处理器设置：1：canny2：openposeopenpose_f
【Animatediff】制作玫瑰，鲜花，香水，动态LOGO （结尾》图片停留） oneREAD AI动画 stable diffusion
提示：也可以后期加入文字。@电商\lofi_v4.safetensors[9462506675]》制作初始图片1：输入提示词流动的烟雾，飘落的花瓣，优雅的香水瓶周围环绕着柔软的钻石，烟，红色浪漫的玫瑰:1.5,柔和的背光营造梦幻的效果，浪漫的感觉，玫瑰柔软的纹理和颜色通过环光，空灵的质量，工作室照明，belnder,c4d,oc渲染，虚假，不真实，绘画，线条，低质量，低分辨率，模糊，不清楚DPM+
【海报】新年海报制作 oneREAD AI海报 stable diffusion
准备一张写好文字的图片。模型：@电商\lofi_v4.safetensors[9462506675]bestquality,masterpiece,8k,(softlighting:1.2),firecrackers,Chinesenewyear,,虚假，不真实，绘画，线条，低质量，低分辨率，模糊，不清楚将图片导入文生图DPM++2MKarras迭代步数：30CFG:91：开启control-ca
Android10.0 Framework层服务一览表 weixin_44205232 android java 开发语言
服务名称说明是否移除相关代码位置gsiservice:[]native服务，gsi镜像服务，和系统动态分区相关可以动态替换system.img可以移除/frameworks/base/packages/DynamicSystemInstallationService//system/gsid/dpmservice:[com.qti.dpm.IDpmService]高通预置服务/vendor/qco
【海报】动态海报 --- 龙女新年快乐 oneREAD AI海报 stable diffusion
第一次生成：模型：鬼魂迭代步数30DPM++2MKarras尺寸：1140x768orientaldragon,dragon,1girl,redeyes,whitehair,whitebackground,standing,solo,hairaccessory,shoes,lookingatviewer,flower,bangs,fullbody,yellowtheme,yellowdragon,
【海报】字体设计【总结】 oneREAD AI海报 stable diffusion
导入一张白底黑字的图片bestquality,masterpiece,photorealistic,8k,winter,snowflakes,definition,highdetail,adreamybackground,lantern/lamp,newyearmeteorology,santaalter,LightandShadow,,,,DPM++2MKarras迭代步数：40control:
打工人副业变现秘籍，某多/某手变现底层引擎-Stable Diffusion 局部重绘(利用SD进行换脸) 菜鸡哥的码场打工人副业变现秘籍 stable diffusion 人工智能
首先明确一个概念：绘图是对整个图片进行重绘，但局部重绘是对你选中的位置重绘，这就是两个功能的不同点。局部重绘详细步骤：1、用画笔涂黑你想修改的地方，图片右边的蓝色点可以拖动改变画笔大小，边缘适合用小画笔，中间用粗画笔；2、在正向关键词中写入想重新生成的词，比如1cuteface，因为你只想换脸，所以不用加别的主体提示词；3、记得绘制三次元时需要切换主模型为chiloutmix，采样方法用DPM++
fhog资料整理 AI视觉网奇视觉跟踪
fasthog资料整理：https://github.com/joaofaro/FHOGhttps://github.com/ppaanngggg/fhog这个有两种：1.DPM的Mattmp_image;image.convertTo(tmp_image,CV_32FC1);cout<
从SDE出发推导DPM-Solver TianwenZhou stable diffusion 深度学习人工智能
我们知道，传统的DDPM或SMLD等模型的反向过程需要多次迭代，生成一张图片就需要几千次迭代，速度远比GANs要慢。而拖慢整个模型进度的，正是模型的采样过程，无论是DDPM的祖先采样(AncestralSampling)，还是SMLD的退火Langevin采样，每生成一张图片时，都需要1000～2000步的反复迭代。因此，为了加速DDPM，我们需要加速其采样过程。现有的加速采样的方法层出不穷，有依
《MedSegDiff Medical Image Segmentation with Diffusion Probabilistic Model》论文阅读理解 wyypersist 研1沉淀 DPM diffusion model MedSegDiff 医学图像分割缺陷检测
《MedSegDiffMedicalImageSegmentationwithDiffusionProbabilisticModel》论文阅读理解领域：AnomalyDetection（缺陷检测）论文地址：MedSegDiff:MedicalImageSegmentationwithDiffusionProbabilisticModel1主要动机医学图像分割为医生检测疾病提供了一定的便利。DPM扩
MedSegDiff 小杨小杨1 #扩散模型计算机视觉深度学习人工智能
MedSegDiff:MedicalImageSegmentationwithDiffusionProbabilisticModel摘要第一个基于DPM的通用医学图像分割任务模型为了提高医学图像分割中DPM的分步区域注意，提出了动态条件编码方法，为每一步采样建立状态自适应条件进一步提出了特征频率分析器(FF-Parser)：消除高频噪声成分在此过程中的负面影响代码地址：https://github
论文阅读：MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model 小源0 论文阅读计算机视觉人工智能
论文标题：MedSegDiff:MedicalImageSegmentationwithDiffusionProbabilisticModel翻译：MedSegDiff：基于扩散概率模型的医学图像分割名词解释：高频分量（高频信号）对应着图像变化剧烈的部分，也就是图像的边缘（轮廓）或者噪声以及细节部分。1.动态条件编码在大多数条件DPM中，条件先验是一个唯一的给定信息。然而，医学图像分割是出了名的模
综述：目标检测二十年（机翻版）（未完 sylviiiiiia 目标检测人工智能计算机视觉
原文地址20年来的目标检测：一项调查摘要关键词一介绍二目标检测二十年A.一个目标检测的路线图1)里程碑：传统探测器ViolaJones探测器HOG检测器基于可变形零件的模型（DPM）2)里程碑：基于CNN的两阶段探测器RCNNSPPNetFastRCNNFasterRCNN特征金字塔网络（FPN）3)里程碑：基于CNN的单阶段探测器您只看一次（YOLO）中心网络DETRB.对象检测数据集和度量标准
枫林幽梦【 InsCode Stable Diffusion 美图活动一期】 friklogff stable diffusion inscode stable diffusion
一、StableDiffusion模型在线使用地址：https://inscode.csdn.net/@inscode/Stable-Diffusion二、模型版本及相关配置：模型：GuoFeng3.ckpt[74c61c3a52]Lora：GuoFeng3.2_Lora:0.66采样迭代步数（steps）:30采样方法（Sampler）：DPM++SDEKarras宽度：1080高度：1920提
YOLO出击暗夜目标检测！中科大提出端到端的暗目标检测框架PE-YOLO xwz小王子深度学习入门基础 YOLO 目标检测目标跟踪
当前的目标检测模型在许多基准数据集上取得了良好的结果，但在暗光条件下检测目标仍然是一个巨大的挑战。为了解决这个问题，作者提出了金字塔增强网络（PENet）并将其与YOLOv3结合，构建了一个名为PE-YOLO的暗光目标检测框架。首先，PENet使用拉普拉斯金字塔将图像分解为4个具有不同分辨率的组件。具体来说，作者提出了一个细节处理模块（DPM）来增强图像的细节，其中包括上下文分支和边缘分支。此外，
YOLO V1学习笔记朽月初二 YOLO 目标检测笔记学习
为什么要学YOLOV1_哔哩哔哩_bilibili这个视频讲解的很好，建议在看这个之前看看卷积神经网络，会对卷积后的结果理解更加深刻一点。一背景目标检测分为单阶段和两阶段模型。之前的目标检测DPM、R-CNN、Fast-RCNN、Faster-RCNN都是双阶段模型，也就是说需要先提取候选框，然后对各个候选框进行分类、甄别。双阶段模型没有全图信息，容易丢失很多信息。识别精度高，但是识别速度始终是技
关于目标检测的那些事儿（1） —— 二十年发展史 ^_^ 柠檬怪瘦yummy~ 目标检测目标检测深度学习图像识别
目标检测是当前计算机视觉和机器学习领域的研究热点。从Viola-JonesDetector、DPM等冷兵器时代的智慧到当今RCNN、YOLO等深度学习土壤孕育下的GPU暴力美学，整个目标检测的发展可谓是计算机视觉领域的一部浓缩史。简要概括下从1994到至今一共二十余年间目标检测的发展历程。先看一张图：。。。。。。。一、基于经典手工特征的目标检测算法（冷兵器时代的智慧）早期的目标检测算法大多是基于手
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p