JeremyCzh

图像特征提取三大法宝：HOG特征、LBP特征、Haar-like特征

转自：https://blog.csdn.net/q123456789098/article/details/52748918

（一）HOG特征

1、HOG特征：

方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的，而如今虽然有很多行人检测算法不断提出，但基本都是以HOG+SVM的思路为主。

（1）主要思想：

在一副图像中，局部目标的表象和形状（appearance and shape）能够被梯度或边缘的方向密度分布很好地描述。（本质：梯度的统计信息，而梯度主要存在于边缘的地方）。

（2）具体的实现方法是：

首先将图像分成小的连通区域，我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。

（3）提高性能：

把这些局部直方图在图像的更大的范围内（我们把它叫区间或block）进行对比度归一化（contrast-normalized），所采用的方法是：先计算各直方图在这个区间（block）中的密度，然后根据这个密度对区间中的各个细胞单元做归一化。通过这个归一化后，能对光照变化和阴影获得更好的效果。

（4）优点：

与其他的特征描述方法相比，HOG有很多优点。首先，由于HOG是在图像的局部方格单元上操作，所以它对图像几何的和光学的形变都能保持很好的不变性，这两种形变只会出现在更大的空间领域上。其次，在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下，只要行人大体上能够保持直立的姿势，可以容许行人有一些细微的肢体动作，这些细微的动作可以被忽略而不影响检测效果。因此HOG特征是特别适合于做图像中的人体检测的。

2、HOG特征提取算法的实现过程：

大概过程：

HOG特征提取方法就是将一个image（你要检测的目标或者扫描窗口）：

1）灰度化（将图像看做一个x,y,z（灰度）的三维图像）；

2）采用Gamma校正法对输入图像进行颜色空间的标准化（归一化）；目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰；

3）计算图像每个像素的梯度（包括大小和方向）；主要是为了捕获轮廓信息，同时进一步弱化光照的干扰。

4）将图像划分成小cells（例如6*6像素/cell）；

5）统计每个cell的梯度直方图（不同梯度的个数），即可形成每个cell的descriptor；

6）将每几个cell组成一个block（例如3*3个cell/block），一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。

7）将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image（你要检测的目标）的HOG特征descriptor了。这个就是最终的可供分类使用的特征向量了。

具体每一步的详细过程如下：

（1）标准化gamma空间和颜色空间

为了减少光照因素的影响，首先需要将整个图像进行规范化（归一化）。在图像的纹理强度中，局部的表层曝光贡献的比重较大，所以，这种压缩处理能够有效地降低图像局部的阴影和光照变化。因为颜色信息作用不大，通常先转化为灰度图；

Gamma压缩公式：

比如可以取Gamma=1/2；

（2）计算图像梯度

计算图像横坐标和纵坐标方向的梯度，并据此计算每个像素位置的梯度方向值；求导操作不仅能够捕获轮廓，人影和一些纹理信息，还能进一步弱化光照的影响。

图像中像素点(x,y)的梯度为：

最常用的方法是：首先用[-1,0,1]梯度算子对原图像做卷积运算，得到x方向（水平方向，以向右为正方向）的梯度分量gradscalx，然后用[1,0,-1]^T梯度算子对原图像做卷积运算，得到y方向（竖直方向，以向上为正方向）的梯度分量gradscaly。然后再用以上公式计算该像素点的梯度大小和方向。

（3）为每个细胞单元构建梯度方向直方图

第三步的目的是为局部图像区域提供一个编码，同时能够保持对图像中人体对象的姿势和外观的弱敏感性。

我们将图像分成若干个“单元格cell”，例如每个cell为6*6个像素。假设我们采用9个bin的直方图来统计这6*6个像素的梯度信息。也就是将cell的梯度方向360度分成9个方向块，如图所示：例如：如果这个像素的梯度方向是20-40度，直方图第2个bin的计数就加一，这样，对cell内每个像素用梯度方向在直方图中进行加权投影（映射到固定的角度范围），就可以得到这个cell的梯度方向直方图了，就是该cell对应的9维特征向量（因为有9个bin）。

像素梯度方向用到了，那么梯度大小呢？梯度大小就是作为投影的权值的。例如说：这个像素的梯度方向是20-40度，然后它的梯度大小是2（假设啊），那么直方图第2个bin的计数就不是加一了，而是加二（假设啊）。

细胞单元可以是矩形的（rectangular），也可以是星形的（radial）。

（4）把细胞单元组合成大的块（block），块内归一化梯度直方图

由于局部光照的变化以及前景-背景对比度的变化，使得梯度强度的变化范围非常大。这就需要对梯度强度做归一化。归一化能够进一步地对光照、阴影和边缘进行压缩。

作者采取的办法是：把各个细胞单元组合成大的、空间上连通的区间（blocks）。这样，一个block内所有cell的特征向量串联起来便得到该block的HOG特征。这些区间是互有重叠的，这就意味着：每一个单元格的特征会以不同的结果多次出现在最后的特征向量中。我们将归一化之后的块描述符（向量）就称之为HOG描述符。

区间有两个主要的几何形状——矩形区间（R-HOG）和环形区间（C-HOG）。R-HOG区间大体上是一些方形的格子，它可以有三个参数来表征：每个区间中细胞单元的数目、每个细胞单元中像素点的数目、每个细胞的直方图通道数目。

例如：行人检测的最佳参数设置是：3×3细胞/区间、6×6像素/细胞、9个直方图通道。则一块的特征数为：3*3*9；

（5）收集HOG特征

最后一步就是将检测窗口中所有重叠的块进行HOG特征的收集，并将它们结合成最终的特征向量供分类使用。

（6）那么一个图像的HOG特征维数是多少呢？

顺便做个总结：Dalal提出的Hog特征提取的过程：把样本图像分割为若干个像素的单元（cell），把梯度方向平均划分为9个区间（bin），在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计，得到一个9维的特征向量，每相邻的4个单元构成一个块（block），把一个块内的特征向量联起来得到36维的特征向量，用块对样本图像进行扫描，扫描步长为一个单元。最后将所有块的特征串联起来，就得到了人体的特征。例如，对于64*128的图像而言，每16*16的像素组成一个cell，每2*2个cell组成一个块，因为每个cell有9个特征，所以每个块内有4*9=36个特征，以8个像素为步长，那么，水平方向将有7个扫描窗口，垂直方向将有15个扫描窗口。也就是说，64*128的图片，总共有36*7*15=3780个特征。

（二）LBP特征

LBP（Local Binary Pattern，局部二值模式）是一种用来描述图像局部纹理特征的算子；它具有旋转不变性和灰度不变性等显著的优点。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出，用于纹理特征提取。而且，提取的特征是图像的局部的纹理特征；

1、LBP特征的描述

原始的LBP算子定义为在3*3的窗口内，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3*3邻域内的8个点经比较可产生8位二进制数（通常转换为十进制数即LBP码，共256种），即得到该窗口中心像素点的LBP值，并用这个值来反映该区域的纹理信息。如下图所示：

LBP的改进版本：

原始的LBP提出后，研究人员不断对其提出了各种改进和优化。

（1）圆形LBP算子：

基本的 LBP算子的最大缺陷在于它只覆盖了一个固定半径范围内的小区域，这显然不能满足不同尺寸和频率纹理的需要。为了适应不同尺度的纹理特征，并达到灰度和旋转不变性的要求，Ojala等对 LBP 算子进行了改进，将 3×3邻域扩展到任意邻域，并用圆形邻域代替了正方形邻域，改进后的 LBP 算子允许在半径为 R 的圆形邻域内有任意多个像素点。从而得到了诸如半径为R的圆形区域内含有P个采样点的LBP算子；

（2）LBP旋转不变模式

从 LBP 的定义可以看出，LBP 算子是灰度不变的，但却不是旋转不变的。图像的旋转就会得到不同的 LBP值。

Maenpaa等人又将 LBP算子进行了扩展，提出了具有旋转不变性的 LBP 算子，即不断旋转圆形邻域得到一系列初始定义的 LBP值，取其最小值作为该邻域的 LBP 值。

图 2.5 给出了求取旋转不变的 LBP 的过程示意图，图中算子下方的数字表示该算子对应的 LBP值，图中所示的 8 种 LBP模式，经过旋转不变的处理，最终得到的具有旋转不变性的 LBP值为 15。也就是说，图中的 8种 LBP 模式对应的旋转不变的 LBP模式都是00001111。

（3）LBP等价模式

一个LBP算子可以产生不同的二进制模式，对于半径为R的圆形区域内含有P个采样点的LBP算子将会产生P²种模式。很显然，随着邻域集内采样点数的增加，二进制模式的种类是急剧增加的。例如：5×5邻域内20个采样点，有2²⁰＝1,048,576种二进制模式。如此多的二值模式无论对于纹理的提取还是对于纹理的识别、分类及信息的存取都是不利的。同时，过多的模式种类对于纹理的表达是不利的。例如，将LBP算子用于纹理分类或人脸识别时，常采用LBP模式的统计直方图来表达图像的信息，而较多的模式种类将使得数据量过大，且直方图过于稀疏。因此，需要对原始的LBP模式进行降维，使得数据量减少的情况下能最好的代表图像的信息。

为了解决二进制模式过多的问题，提高统计性，Ojala提出了采用一种“等价模式”（Uniform Pattern）来对LBP算子的模式种类进行降维。Ojala等认为，在实际图像中，绝大多数LBP模式最多只包含两次从1到0或从0到1的跳变。因此，Ojala将“等价模式”定义为：当某个LBP所对应的循环二进制数从0到1或从1到0最多有两次跳变时，该LBP所对应的二进制就称为一个等价模式类。如00000000（0次跳变），00000111（只含一次从0到1的跳变），10001111（先由1跳到0，再由0跳到1，共两次跳变）都是等价模式类。除等价模式类以外的模式都归为另一类，称为混合模式类，例如10010111（共四次跳变）（这是我的个人理解，不知道对不对）。

通过这样的改进，二进制模式的种类大大减少，而不会丢失任何信息。模式数量由原来的2^P种减少为 P ( P-1)+2种，其中P表示邻域集内的采样点数。对于3×3邻域内8个采样点来说，二进制模式由原始的256种减少为58种，这使得特征向量的维数更少，并且可以减少高频噪声带来的影响。

2、LBP特征用于检测的原理

显而易见的是，上述提取的LBP算子在每个像素点都可以得到一个LBP“编码”，那么，对一幅图像（记录的是每个像素点的灰度值）提取其原始的LBP算子之后，得到的原始LBP特征依然是“一幅图片”（记录的是每个像素点的LBP值）。

LBP的应用中，如纹理分类、人脸分析等，一般都不将LBP图谱作为特征向量用于分类识别，而是采用LBP特征谱的统计直方图作为特征向量用于分类识别。

因为，从上面的分析我们可以看出，这个“特征”跟位置信息是紧密相关的。直接对两幅图片提取这种“特征”，并进行判别分析的话，会因为“位置没有对准”而产生很大的误差。后来，研究人员发现，可以将一幅图片划分为若干的子区域，对每个子区域内的每个像素点都提取LBP特征，然后，在每个子区域内建立LBP特征的统计直方图。如此一来，每个子区域，就可以用一个统计直方图来进行描述；整个图片就由若干个统计直方图组成；

例如：一幅100*100像素大小的图片，划分为10*10=100个子区域（可以通过多种方式来划分区域），每个子区域的大小为10*10像素；在每个子区域内的每个像素点，提取其LBP特征，然后，建立统计直方图；这样，这幅图片就有10*10个子区域，也就有了10*10个统计直方图，利用这10*10个统计直方图，就可以描述这幅图片了。之后，我们利用各种相似性度量函数，就可以判断两幅图像之间的相似性了；

3、对LBP特征向量进行提取的步骤

（1）首先将检测窗口划分为16×16的小区域（cell）；

（2）对于每个cell中的一个像素，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3*3邻域内的8个点经比较可产生8位二进制数，即得到该窗口中心像素点的LBP值；

（3）然后计算每个cell的直方图，即每个数字（假定是十进制数LBP值）出现的频率；然后对该直方图进行归一化处理。

（4）最后将得到的每个cell的统计直方图进行连接成为一个特征向量，也就是整幅图的LBP纹理特征向量；

然后便可利用SVM或者其他机器学习算法进行分类了。

（三）Haar特征

1、Haar-like特征

Haar-like特征最早是由Papageorgiou等应用于人脸表示，Viola和Jones在此基础上，使用3种类型4种形式的特征。

Haar特征分为三类：边缘特征、线性特征、中心特征和对角线特征，组合成特征模板。特征模板内有白色和黑色两种矩形，并定义该模板的特征值为白色矩形像素和减去黑色矩形像素和。Haar特征值反映了图像的灰度变化情况。例如：脸部的一些特征能由矩形特征简单的描述，如：眼睛要比脸颊颜色要深，鼻梁两侧比鼻梁颜色要深，嘴巴比周围颜色要深等。但矩形特征只对一些简单的图形结构，如边缘、线段较敏感，所以只能描述特定走向（水平、垂直、对角）的结构。

对于图中的A, B和D这类特征，特征数值计算公式为：v=Sum白-Sum黑，而对于C来说，计算公式如下：v=Sum白-2*Sum黑；之所以将黑色区域像素和乘以2，是为了使两种矩形区域中像素数目一致。

通过改变特征模板的大小和位置，可在图像子窗口中穷举出大量的特征。上图的特征模板称为“特征原型”；特征原型在图像子窗口中扩展（平移伸缩）得到的特征称为“矩形特征”；矩形特征的值称为“特征值”。

矩形特征可位于图像任意位置，大小也可以任意改变，所以矩形特征值是矩形模版类别、矩形位置和矩形大小这三个因素的函数。故类别、大小和位置的变化，使得很小的检测窗口含有非常多的矩形特征，如：在24*24像素大小的检测窗口内矩形特征数量可以达到16万个。这样就有两个问题需要解决了：（1）如何快速计算那么多的特征？—积分图大显神通；（2）哪些矩形特征才是对分类器分类最有效的？—如通过AdaBoost算法来训练（这一块这里不讨论，具体见http://blog.csdn.net/zouxy09/article/details/7922923）

2、Haar-like特征的计算—积分图

积分图就是只遍历一次图像就可以求出图像中所有区域像素和的快速算法，大大的提高了图像特征值计算的效率。

积分图主要的思想是将图像从起点开始到各个点所形成的矩形区域像素之和作为一个数组的元素保存在内存中，当要计算某个区域的像素和时可以直接索引数组的元素，不用重新计算这个区域的像素和，从而加快了计算（这有个相应的称呼，叫做动态规划算法）。积分图能够在多种尺度下，使用相同的时间（常数时间）来计算不同的特征，因此大大提高了检测速度。

我们来看看它是怎么做到的。

积分图是一种能够描述全局信息的矩阵表示方法。积分图的构造方式是位置（i,j）处的值ii(i,j)是原图像(i,j)左上角方向所有像素的和：

积分图构建算法：

1）用s(i,j)表示行方向的累加和，初始化s(i,-1)=0;

2）用ii(i,j)表示一个积分图像，初始化ii(-1,i)=0；

3）逐行扫描图像，递归计算每个像素(i,j)行方向的累加和s(i,j)和积分图像ii(i,j)的值

s(i,j)=s(i,j-1)+f(i,j)

ii(i,j)=ii(i-1,j)+s(i,j)

4）扫描图像一遍，当到达图像右下角像素时，积分图像ii就构造好了。

积分图构造好之后，图像中任何矩阵区域的像素累加和都可以通过简单运算得到如图所示。

设D的四个顶点分别为α、β、γ、δ，则D的像素和可以表示为

Dsum = ii( α )+ii( β)-(ii( γ)+ii( δ ));

而Haar-like特征值无非就是两个矩阵像素和的差，同样可以在常数时间内完成。所以矩形特征的特征值计算，只与此特征矩形的端点的积分图有关，所以不管此特征矩形的尺度变换如何，特征值的计算所消耗的时间都是常量。这样只要遍历图像一次，就可以求得所有子窗口的特征值。

3、Haar-like矩形特征拓展

Lienhart R．等对Haar-like矩形特征库作了进一步扩展，加入了旋转45^。角的矩形特征。扩展后的特征大致分为4种类型：边缘特征、线特征环、中心环绕特征和对角线特征：

在特征值的计算过程中，黑色区域的权值为负值，白色区域的权值为正值。而且权值与矩形面积成反比（使两种矩形区域中像素数目一致）；

竖直矩阵特征值计算：

对于竖直矩阵，与上面2处说的一样。

45°旋角的矩形特征计算：

对于45°旋角的矩形，我们定义RSAT(x,y)为点(x,y)左上角45°区域和左下角45°区域的像素和。

用公式可以表示为：

为了节约时间，减少重复计算，可按如下递推公式计算：

而计算矩阵特征的特征值，是位于十字行矩形RSAT(x,y)之差。可参考下图：

注：转载文章均来自于公开网络z

一、Haar分类器的前世今生

人脸检测属于计算机视觉的范畴，早期人们的主要研究方向是人脸识别，即根据人脸来识别人物的身份，后来在复杂背景下的人脸检测需求越来越大，人脸检测也逐渐作为一个单独的研究方向发展起来。

目前的人脸检测方法主要有两大类：基于知识和基于统计。

“基于知识的方法主要利用先验知识将人脸看作器官特征的组合，根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间的几何位置关系来检测人脸。基于统计的方法则将人脸看作一个整体的模式——二维像素矩阵，从统计的观点通过大量人脸图像样本构造人脸模式空间，根据相似度量来判断人脸是否存在。在这两种框架之下，发展了许多方法。目前随着各种方法的不断提出和应用条件的变化，将知识模型与统计模型相结合的综合系统将成为未来的研究趋势。”（来自论文《基于Adaboost的人脸检测方法及眼睛定位算法研究》）

基于知识的人脸检测方法

Ø 模板匹配

Ø 人脸特征

Ø 形状与边缘

Ø 纹理特性

Ø 颜色特征

基于统计的人脸检测方法

Ø 主成分分析与特征脸

Ø 神经网络方法

Ø 支持向量机

Ø 隐马尔可夫模型

Ø Adaboost算法

本文中介绍的Haar分类器方法，包含了Adaboost算法，稍候会对这一算法做详细介绍。所谓分类器，在这里就是指对人脸和非人脸进行分类的算法，在机器学习领域，很多算法都是对事物进行分类、聚类的过程。OpenCV中的ml模块提供了很多分类、聚类的算法。

注：聚类和分类的区别是什么？一般对已知物体类别总数的识别方式我们称之为分类，并且训练的数据是有标签的，比如已经明确指定了是人脸还是非人脸，这是一种有监督学习。也存在可以处理类别总数不确定的方法或者训练的数据是没有标签的，这就是聚类，不需要学习阶段中关于物体类别的信息，是一种无监督学习。

其中包括Mahalanobis距离、K均值、朴素贝叶斯分类器、决策树、Boosting、随机森林、Haar分类器、期望最大化、K近邻、神经网络、支持向量机。

我们要探讨的Haar分类器实际上是Boosting算法的一个应用，Haar分类器用到了Boosting算法中的AdaBoost算法，只是把AdaBoost算法训练出的强分类器进行了级联，并且在底层的特征提取中采用了高效率的矩形特征和积分图方法，这里涉及到的几个名词接下来会具体讨论。

虽说haar分类器采用了Boosting的算法，但在OpenCV中，Haar分类器与Boosting没有采用同一套底层数据结构，《Learning OpenCV》中有这样的解释：“Haar分类器，它建立了boost筛选式级联分类器。它与ML库中其他部分相比，有不同的格局，因为它是在早期开发的，并完全可用于人脸检测。”

是的，在2001年，Viola和Jones两位大牛发表了经典的《Rapid Object Detection using a Boosted Cascade of Simple Features》【1】和《Robust Real-Time Face Detection》【2】，在AdaBoost算法的基础上，使用Haar-like小波特征和积分图方法进行人脸检测，他俩不是最早使用提出小波特征的，但是他们设计了针对人脸检测更有效的特征，并对AdaBoost训练出的强分类器进行级联。这可以说是人脸检测史上里程碑式的一笔了，也因此当时提出的这个算法被称为Viola-Jones检测器。又过了一段时间，Rainer Lienhart和Jochen Maydt两位大牛将这个检测器进行了扩展【3】，最终形成了OpenCV现在的Haar分类器。之前我有个误区，以为AdaBoost算法就是Viola和Jones搞出来的，因为网上讲Haar分类器的地方都在大讲特讲AdaBoost，所以我错觉了，后来理清脉络，AdaBoost是Freund 和Schapire在1995年提出的算法，是对传统Boosting算法的一大提升。Boosting算法的核心思想，是将弱学习方法提升成强学习算法，也就是“三个臭皮匠顶一个诸葛亮”，它的理论基础来自于Kearns 和Valiant牛的相关证明【4】，在此不深究了。反正我是能多简略就多简略的把Haar分类器的前世今生说完鸟，得出的结论是，大牛们都是成对儿的。。。额，回到正题，Haar分类器 = Haar-like特征 + 积分图方法 + AdaBoost + 级联；

注：为何称其为Haar-like？这个名字是我从网上看来的，《Learning OpenCV》中文版提到Haar分类器使用到Haar特征，但这种说法不确切，应该称为类Haar特征，Haar-like就是类Haar特征的意思。

二、Haar分类器的浅入浅出

之所以是浅入浅出是因为，我暂时深入不能，只是根据其他人的总结，我加以梳理归纳，用自己的理解阐述出来，难免会有错误，欢迎指正。

Haar分类器算法的要点如下：

①　使用Haar-like特征做检测。

②　使用积分图（Integral Image）对Haar-like特征求值进行加速。

③　使用AdaBoost算法训练区分人脸和非人脸的强分类器。

④　使用筛选式级联把强分类器级联到一起，提高准确率。

2.1 Haar-like特征你是何方神圣？

一看到Haar-like特征这玩意儿就头大的人举手。好，很多人。那么我先说下什么是特征，我把它放在下面的情景中来描述，假设在人脸检测时我们需要有这么一个子窗口在待检测的图片窗口中不断的移位滑动，子窗口每到一个位置，就会计算出该区域的特征，然后用我们训练好的级联分类器对该特征进行筛选，一旦该特征通过了所有强分类器的筛选，则判定该区域为人脸。

那么这个特征如何表示呢？好了，这就是大牛们干的好事了。后人称这他们搞出来的这些东西叫Haar-Like特征。

下面是Viola牛们提出的Haar-like特征。

下面是Lienhart等牛们提出的Haar-like特征。

这些所谓的特征不就是一堆堆带条纹的矩形么，到底是干什么用的？我这样给出解释，将上面的任意一个矩形放到人脸区域上，然后，将白色区域的像素和减去黑色区域的像素和，得到的值我们暂且称之为人脸特征值，如果你把这个矩形放到一个非人脸区域，那么计算出的特征值应该和人脸特征值是不一样的，而且越不一样越好，所以这些方块的目的就是把人脸特征量化，以区分人脸和非人脸。

为了增加区分度，可以对多个矩形特征计算得到一个区分度更大的特征值，那么什么样的矩形特征怎么样的组合到一块可以更好的区分出人脸和非人脸呢，这就是AdaBoost算法要做的事了。这里我们先放下积分图这个概念不管，为了让我们的思路连贯，我直接开始介绍AdaBoost算法。

2.2 AdaBoost你给我如实道来！

本节旨在介绍AdaBoost在Haar分类器中的应用，所以只是描述了它在Haar分类器中的特性，而实际上AdaBoost是一种具有一般性的分类器提升算法，它使用的分类器并不局限某一特定算法。

上面说到利用AdaBoost算法可以帮助我们选择更好的矩阵特征组合，其实这里提到的矩阵特征组合就是我们之前提到的分类器，分类器将矩阵组合以二叉决策树的形式存储起来。

我现在脑子里浮现了很多问题，总结起来大概有这么些个：

v 弱分类器和强分类器是什么？

v 弱分类器是怎么得到的？

v 强分类器是怎么得到的？

v 二叉决策树是什么？

要回答这一系列问题，我得跟你罗嗦一会儿了，这得从AdaBoost的身世说起。

2.2.1 AdaBoost的身世之谜

关于AdaBoost的身世，我把相关英文文献从上世纪80年代一直下到2001年，我发现我在短时间内没法读完，所以我只能尝试着从别人的总结中拼凑那些离散的片段，难免有误。

之前讲Haar分类器的前世今生也简单说过AdaBoost的身世，但是说的还不透。我比较喜欢查算法的户口，所以新写了一章查了下去。

AdaBoost的老祖宗可以说是机器学习的一个模型，它的名字叫PAC(Probably Approximately Correct)。

PAC模型是计算学习理论中常用的模型，是Valiant牛在我还没出生的1984年提出来的【5】，他认为“学习"是模式明显清晰或模式不存在时仍能获取知识的一种“过程”，并给出了一个从计算角度来获得这种“过程"的方法，这种方法包括：

(1)适当信息收集机制的选择；

(2)学习的协定；

(3)对能在合理步骤内完成学习的概念的分类。

PAC学习的实质就是在样本训练的基础上，使算法的输出以概率接近未知的目标概念。PAC学习模型是考虑样本复杂度(指学习器收敛到成功假设时至少所需的训练样本数)和计算复杂度(指学习器收敛到成功假设时所需的计算量)的一个基本框架，成功的学习被定义为形式化的概率理论。（来自论文《基于Adaboost的人脸检测方法及眼睛定位算法研究》）

简单说来，PAC学习模型不要求你每次都正确，只要能在多项式个样本和多项式时间内得到满足需求的正确率，就算是一个成功的学习。

基于PAC学习模型的理论分析，Valiant牛提出了Boosting算法【5】，Boosting算法涉及到两个重要的概念就是弱学习和强学习，所谓的弱学习，就是指一个学习算法对一组概念的识别率只比随机识别好一点，所谓强学习，就是指一个学习算法对一组概率的识别率很高。现在我们知道所谓的弱分类器和强分类器就是弱学习算法和强学习算法。弱学习算法是比较容易获得的，获得过程需要数量巨大的假设集合，这个假设集合是基于某些简单规则的组合和对样本集的性能评估而生成的，而强学习算法是不容易获得的，然而，Kearns 和Valiant 两头牛提出了弱学习和强学习等价的问题【6】并证明了只要有足够的数据，弱学习算法就能通过集成的方式生成任意高精度的强学习方法。这一证明使得Boosting有了可靠的理论基础，Boosting算法成为了一个提升分类器精确性的一般性方法。【4】

1990年，Schapire牛提出了第一个多项式时间的算法【7】，1年后Freund牛又提出了一个效率更高的Boosting算法【8】。然而，Boosting算法还是存在着几个主要的问题，其一Boosting算法需要预先知道弱学习算法学习正确率的下限即弱分类器的误差，其二Boosting算法可能导致后来的训练过分集中于少数特别难区分的样本，导致不稳定。针对Boosting的若干缺陷，Freund和Schapire牛于1996年前后提出了一个实际可用的自适应Boosting算法AdaBoost【9】，AdaBoost目前已发展出了大概四种形式的算法，Discrete AdaBoost（AdaBoost.M1）、Real AdaBoost、LogitBoost、gentle AdaBoost,本文不做一一介绍。至此，AdaBoost的身世之谜就这样揭开鸟。同时弱分类器和强分类器是什么的问题也解释清楚了。剩下3个问题，我们先看一下，弱分类器是如何得到的。

2.2.2 弱分类器的孵化

最初的弱分类器可能只是一个最基本的Haar-like特征，计算输入图像的Haar-like特征值，和最初的弱分类器的特征值比较，以此来判断输入图像是不是人脸，然而这个弱分类器太简陋了，可能并不比随机判断的效果好，对弱分类器的孵化就是训练弱分类器成为最优弱分类器，注意这里的最优不是指强分类器，只是一个误差相对稍低的弱分类器，训练弱分类器实际上是为分类器进行设置的过程。至于如何设置分类器，设置什么，我们首先分别看下弱分类器的数学结构和代码结构。

² 数学结构

一个弱分类器由子窗口图像x，一个特征f，指示不等号方向的p和阈值组成。P的作用是控制不等式的方向，使得不等式都是<号，形式方便。

² 代码结构

1   /*
2 * CART classifier
3 */
4 typedef struct CvCARTHaarClassifier
5 {
6     CV_INT_HAAR_CLASSIFIER_FIELDS()
7      int count;
8      int* compidx;
9     CvTHaarFeature* feature;
10     CvFastHaarFeature* fastfeature;
11      float* threshold;
12      int* left;
13      int* right;
14      float* val;
15 } CvCARTHaarClassifier;

代码结构中的threshold即代表数学结构中的阈值。

这个阈值究竟是干什么的？我们先了解下CvCARTHaarClassifier这个结构，注意CART这个词，它是一种二叉决策树，它的提出者Leo Breiman等牛称其为“分类和回归树（CART）”。什么是决策树？我如果细讲起来又得另起一章，我只简略介绍它。

“机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。”（来自《维基百科》）

决策树包含：分类树，回归树，分类和回归树（CART），CHAID 。

分类和回归的区别是，分类是当预计结果可能为两种类型(例如男女，输赢等)使用的概念。回归是当局域结果可能为实数(例如房价，患者住院时间等)使用的概念。

决策树用途很广可以分析因素对事件结果的影响（详见维基百科），同时也是很常用的分类方法，我举个最简单的决策树例子，假设我们使用三个Haar-like特征f1，f2，f3来判断输入数据是否为人脸，可以建立如下决策树：

可以看出，在分类的应用中，每个非叶子节点都表示一种判断，每个路径代表一种判断的输出，每个叶子节点代表一种类别，并作为最终判断的结果。

一个弱分类器就是一个基本和上图类似的决策树，最基本的弱分类器只包含一个Haar-like特征，也就是它的决策树只有一层，被称为树桩（stump）。

最重要的就是如何决定每个结点判断的输出，要比较输入图片的特征值和弱分类器中特征，一定需要一个阈值，当输入图片的特征值大于该阈值时才判定其为人脸。训练最优弱分类器的过程实际上就是在寻找合适的分类器阈值，使该分类器对所有样本的判读误差最低。

具体操作过程如下：

1）对于每个特征 f，计算所有训练样本的特征值，并将其排序。

扫描一遍排好序的特征值，对排好序的表中的每个元素，计算下面四个值：

全部人脸样本的权重的和t1；

全部非人脸样本的权重的和t0；

在此元素之前的人脸样本的权重的和s1；

在此元素之前的非人脸样本的权重的和s0；

2）最终求得每个元素的分类误差

在表中寻找r值最小的元素，则该元素作为最优阈值。有了该阈值，我们的第一个最优弱分类器就诞生了。

在这漫长的煎熬中，我们见证了一个弱分类器孵化成长的过程，并回答了如何得到弱分类器以及二叉决策树是什么。最后的问题是强分类器是如何得到的。

2.2.3 弱分类器的化蝶飞

首先看一下强分类器的代码结构:

1 /* internal stage classifier */
2 typedef struct CvStageHaarClassifier
3 {
4     CV_INT_HAAR_CLASSIFIER_FIELDS()
5      int count;
6      float threshold;
7     CvIntHaarClassifier** classifier;
8 }CvStageHaarClassifier;

/* internal weak classifier */
typedef struct CvIntHaarClassifier
{
CV_INT_HAAR_CLASSIFIER_FIELDS()
} CvIntHaarClassifier;

这里要提到的是CvIntHaarClassifier结构：它就相当于一个接口类，当然是用C语言模拟的面向对象思想，利用CV_INT_HAAR_CLASSIFIER_FIELDS()这个宏让弱分类CvCARTHaarClassifier强分类器和CvStageHaarClassifier继承于CvIntHaarClassifier。

强分类器的诞生需要T轮的迭代，具体操作如下：

1. 给定训练样本集S，共N个样本，其中X和Y分别对应于正样本和负样本； T为训练的最大循环次数；　　

2. 初始化样本权重为1/N ，即为训练样本的初始概率分布；　　

3. 第一次迭代训练N个样本，得到第一个最优弱分类器，步骤见2.2.2节

4. 提高上一轮中被误判的样本的权重；

5. 将新的样本和上次本分错的样本放在一起进行新一轮的训练。

6. 循环执行4-5步骤，T轮后得到T个最优弱分类器。

7.组合T个最优弱分类器得到强分类器，组合方式如下：

相当于让所有弱分类器投票，再对投票结果按照弱分类器的错误率加权求和，将投票加权求和的结果与平均投票结果比较得出最终的结果。

至此，我们看到其实我的题目起的漂亮却并不贴切，强分类器的脱颖而出更像是民主的投票制度，众人拾材火焰高，强分类器不是个人英雄主义的的产物，而是团结的力量。但从宏观的局外的角度看，整个AdaBoost算法就是一个弱分类器从孵化到化蝶的过程。小人物的奋斗永远是理想主义者们津津乐道的话题。但暂时让我们放下AdaBoost继续探讨Haar分类器的其他特性吧。

2.3 强分类器的强强联手

至今为止我们好像一直在讲分类器的训练，实际上Haar分类器是有两个体系的，训练的体系，和检测的体系。训练的部分大致都提到了，还剩下最后一部分就是对筛选式级联分类器的训练。我们看到了通过AdaBoost算法辛苦的训练出了强分类器，然而在现实的人脸检测中，只靠一个强分类器还是难以保证检测的正确率，这个时候，需要一个豪华的阵容，训练出多个强分类器将它们强强联手，最终形成正确率很高的级联分类器这就是我们最终的目标Haar分类器。

那么训练级联分类器的目的就是为了检测的时候，更加准确，这涉及到Haar分类器的另一个体系，检测体系，检测体系是以现实中的一幅大图片作为输入，然后对图片中进行多区域，多尺度的检测，所谓多区域，是要对图片划分多块，对每个块进行检测，由于训练的时候用的照片一般都是20*20左右的小图片，所以对于大的人脸，还需要进行多尺度的检测，多尺度检测机制一般有两种策略，一种是不改变搜索窗口的大小，而不断缩放图片，这种方法显然需要对每个缩放后的图片进行区域特征值的运算，效率不高，而另一种方法，是不断初始化搜索窗口size为训练时的图片大小，不断扩大搜索窗口，进行搜索，解决了第一种方法的弱势。在区域放大的过程中会出现同一个人脸被多次检测，这需要进行区域的合并，这里不作探讨。

无论哪一种搜索方法，都会为输入图片输出大量的子窗口图像，这些子窗口图像经过筛选式级联分类器会不断地被每一个节点筛选，抛弃或通过。

它的结构如图所示。

我想你一定觉得很熟悉，这个结构不是很像一个简单的决策树么。

在代码中，它的结构如下：

1 /* internal tree cascade classifier node */
2 typedef struct CvTreeCascadeNode
3 {
4     CvStageHaarClassifier* stage;
5      struct CvTreeCascadeNode* next;
6      struct CvTreeCascadeNode* child;
7      struct CvTreeCascadeNode* parent;
8      struct CvTreeCascadeNode* next_same_level;
9      struct CvTreeCascadeNode* child_eval;
10      int idx;
11      int leaf;
12 } CvTreeCascadeNode;
13 /* internal tree cascade classifier */
14 typedef struct CvTreeCascadeClassifier
15 {
16     CV_INT_HAAR_CLASSIFIER_FIELDS()
17     CvTreeCascadeNode* root;       /* root of the tree */
18     CvTreeCascadeNode* root_eval; /* root node for the filtering */
19      int next_idx;
20 } CvTreeCascadeClassifier;

级联强分类器的策略是，将若干个强分类器由简单到复杂排列，希望经过训练使每个强分类器都有较高检测率，而误识率可以放低，比如几乎99%的人脸可以通过，但50%的非人脸也可以通过，这样如果有20个强分类器级联，那么他们的总识别率为0.99^20 98%，错误接受率也仅为0.5^20 0.0001%。这样的效果就可以满足现实的需要了，但是如何使每个强分类器都具有较高检测率呢，为什么单个的强分类器不可以同时具有较高检测率和较高误识率呢？

下面我们讲讲级联分类器的训练。（主要参考了论文《基于Adaboost的人脸检测方法及眼睛定位算法研究》）

设K是一个级联检测器的层数，D是该级联分类器的检测率，F是该级联分类器的误识率，d_i是第i层强分类器的检测率，f_i是第i层强分类器的误识率。如果要训练一个级联分类器达到给定的F值和D值，只需要训练出每层的d值和f值，这样：

d^K = D,f^K = F

级联分类器的要点就是如何训练每层强分类器的d值和f值达到指定要求。

AdaBoost训练出来的强分类器一般具有较小的误识率，但检测率并不很高，一般情况下，高检测率会导致高误识率，这是强分类阈值的划分导致的，要提高强分类器的检测率既要降低阈值，要降低强分类器的误识率就要提高阈值，这是个矛盾的事情。据参考论文的实验结果，增加分类器个数可以在提高强分类器检测率的同时降低误识率，所以级联分类器在训练时要考虑如下平衡，一是弱分类器的个数和计算时间的平衡，二是强分类器检测率和误识率之间的平衡。具体训练方法如下,我用伪码的形式给出：

1）设定每层最小要达到的检测率d，最大误识率f，最终级联分类器的误识率Ft；

2）P=人脸训练样本，N=非人脸训练样本，D₀=1.0，F₀=1.0；

3）i=0；

4）for : F_i>Ft

l ++i;

l n_i=0;F_i=F_i-1;

l for : F_i>f*F_i-1

n ++n_i;

n 利用AdaBoost算法在P和N上训练具有n_i个弱分类器的强分类器;

n 衡量当前级联分类器的检测率D_i和误识率F_i;

n for : d_iD_i-1;

Ø 降低第i层的强分类器阈值;

Ø 衡量当前级联分类器的检测率D_i和误识率F_i;

n N = Φ;

n 利用当前的级联分类器检测非人脸图像，将误识的图像放入N;

2.4 积分图是一个加速器

之所以放到最后讲积分图（Integral image），不是因为它不重要，正相反，它是Haar分类器能够实时检测人脸的保证。当我把Haar分类器的主脉络都介绍完后，其实在这里引出积分图的概念恰到好处。

在前面的章节中，我们熟悉了Haar-like分类器的训练和检测过程，你会看到无论是训练还是检测，每遇到一个图片样本，每遇到一个子窗口图像，我们都面临着如何计算当前子图像特征值的问题，一个Haar-like特征在一个窗口中怎样排列能够更好的体现人脸的特征，这是未知的，所以才要训练，而训练之前我们只能通过排列组合穷举所有这样的特征，仅以Viola牛提出的最基本四个特征为例，在一个24×24size的窗口中任意排列至少可以产生数以10万计的特征，对这些特征求值的计算量是非常大的。

而积分图就是只遍历一次图像就可以求出图像中所有区域像素和的快速算法，大大的提高了图像特征值计算的效率。

我们来看看它是怎么做到的。

积分图是一种能够描述全局信息的矩阵表示方法。积分图的构造方式是位置（i,j）处的值ii(i,j)是原图像(i,j)左上角方向所有像素的和：

积分图构建算法：

1）用s(i,j)表示行方向的累加和，初始化s(i,-1)=0;

2）用ii(i,j)表示一个积分图像，初始化ii(-1,i)=0；

3）逐行扫描图像，递归计算每个像素(i,j)行方向的累加和s(i,j)和积分图像ii(i,j)的值

s(i,j)=s(i,j-1)+f(i,j)

ii(i,j)=ii(i-1,j)+s(i,j)

4）扫描图像一遍，当到达图像右下角像素时，积分图像ii就构造好了。

积分图构造好之后，图像中任何矩阵区域的像素累加和都可以通过简单运算得到如图所示。

设D的四个顶点分别为α、β、γ、δ，则D的像素和可以表示为

Dsum = ii(α )+ii(β)-(ii(γ)+ii(δ ));

而Haar-like特征值无非就是两个矩阵像素和的差，同样可以在常数时间内完成。

三、Haar分类器你敢更快点吗？！

这一章我简略的探讨下Haar分类器的检测效率。

我尝试过的几种方法：

1）尝试检测算法与跟踪算法相结合，原本以为Camshift是个轻量级的算法，但是正如我后来看到的，建立反向投影图的效率实在不高，在PC上效果不错，但是在ios上速度很慢，这个我后来发现可能是因为ios浮点运算效率不高的原因。但是即便速度能上去，靠Camshift跟踪算法太依赖肤色了，导致脖子，或是手什么的干扰很严重，这个调起来很费神，也不一定能调好。

2）修改OpenCV中Haar检测函数的参数，效果非常明显，得出的结论是，搜索窗口的搜索区域是提高效率的关键。

3）根据2）的启发，我打算利用YCbCr颜色空间，粗估肤色区域，以减少人脸的搜索面积，但是后来苦于没能高效率的区分出肤色区域，放弃了该方法。

4）换了策略，考虑到视频中人脸检测的特殊性，上一帧人脸的位置信息对下一帧的检测有很高的指导价值，所以采有帧间约束的方法，减少了人脸搜索的区域，并且动态调整Haar检测函数的参数，得到了较高的效率。

5）其他关于算法之外的优化需要根据不同的处理器做具体的优化。

你可能感兴趣的:(机器视觉)

机器视觉_联合编程(二) Zhangci］ VisionPro 数码相机计算机视觉人工智能 VisionPro 机器视觉
链接相机,加载tb,检测FrameGrabber链接相机拍照usingSystem;usingSystem.Collections;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Linq;usingSystem.Text;usin
EI检索-机器视觉、图像处理与影像技术国际学术会议（MVIPIT 2023）邀您参会！诗远Yolanda 图像处理人工智能计算机视觉
机器视觉是计算机学科的一个重要分支，它综合了光学、机械、电子、计算机软硬件等方面的技术，涉及到计算机、图像处理、模式识别、人工智能、信号处理、光机电一体化等多个领域。而图像处理等技术的快速发展也推动了机器视觉的发展。机器视觉在我国具有广泛的工业应用，核心功能包括：测量，检测，识别，定位等。第一届机器视觉、图像处理与影像技术国际学术会议（MVIPIT2023）将于2023年7月26日-28日在浙江杭
学习Halcon可以从以下几个方面入手视觉人机器视觉机器视觉Halcon大总结学习人工智能深度学习图像处理计算机视觉视觉检测
‌基础理论学习‌：‌了解Halcon的基本概念、‌架构和主要技术，‌包括图像处理、‌机器视觉、‌深度学习等方面的知识。‌‌官方文档和教程‌：‌阅读Halcon的官方文档和教程，‌这是学习Halcon最直接、‌最权威的途径。‌官方文档详细介绍了Halcon的各种功能和算子，‌是学习Halcon不可或缺的资源。‌‌实践项目‌：‌通过参与实际项目来巩固所学知识，‌提升实践能力。‌可以从简单的项目开始，‌
最新2024年国际EI会议集合 AC学术中心 EI论文
最新2024年国际EI会议集合，要说哪个渠道录用最快，当属EI会议，最快1个月录用，超级快的可能仅需15天，非常适合计算机、机械、工程技术等理工科方向。除了录用周期的优势外，EI会议相较于SCI、EI源刊、国内核心等价格更便宜，几千元即可发表EI会议论文。下面AC学术中心给大家介绍一下近期要举办的EI会议。第二届机器视觉、图像处理与影像技术国际会议（MVIPIT2024）会议时间：2024年9月1
acm会议什么档次_盘点AI国际顶级会议 weixin_39531992 acm会议什么档次
人工智能(英文全称ArtificialIntelligence,缩写为AI)从其字面意思理解是由人制造出来在机器上体现出的类似于人类的智能，其技术研究包含机器视觉、机器学习、自然语言处理、机器运动和控制等众多方面。如同四大时装周是世界时尚潮流的风向标，人工智能领域的国际顶尖会议也往往汇集了人工智能各分支技术的最新发展状态和未来发展方向。今天，小编就来为大家盘点一下人工智能领域的国际顶级会议。\\\
【机器视觉--光学】工业相机成像原理 Vision Z 机器视觉镜头工业相机机器视觉
相机成像原理分为透镜成像原理和小孔成像原理，工业相机原理与透镜成像类似。透镜成像原理凸透镜的成像规律是即：物距的倒数与像距的倒数之和等于焦距的倒数对焦原理工业相机镜头分为定焦、定倍、变焦镜头，常用的是定焦和定倍，定倍镜头调整相距，达到清晰的成像，根据上面的公式，想要得到远处清晰的成像，镜片组到芯片距离需要增加，想要得到近距离的成像时，镜片组到芯片距离需要减小。定倍镜头放大倍数已知，工作距离已知，安
关于光源的明场和暗场照明 InvokeLife 机器视觉光源
明场：光源与被测物成一定角度，使得绝大部分的光反射到摄像机，我们称作明场照明[1]。暗场：光源位置使得大部分的光没有反射到摄像机，仅仅将照射到被测物的特定部分的光反射到摄像机，我们称此种照明为暗场照明[1]。如下，明场和暗场的示意图[2]。根据直射、漫射，以及正面背面还可以再分。未完待续。[1]《机器视觉算法与应用》第二版[2]《默然光源选型手册》
机器视觉-4 检测原理之OpenCV Blob特征检测 dingkm666 机器视觉计算机视觉人工智能深度学习
在OpenCV中，BLOB（BinaryLargeOBjects）检测是一种用于识别和分析二值图像中连通区域的技术。OpenCV提供了专门的工具类SimpleBlobDetector来帮助实现这一功能。以下是关于OpenCV中BLOB检测的详细说明，包括其原理、使用方法和应用场景。一.什么是BLOB？在图像处理的背景下，BLOB指的是图像中颜色一致且连接在一起的像素区域。在二值图像中，这些区域通常
机器视觉-1 常用的机器视觉开发库 dingkm666 机器视觉机器学习
机器视觉-1常用的机器视觉开发库前言：工欲善其事必先利其器，选择一个合适的视觉开发库是在机器视觉领域的发展的重要基础。1.OpenCV（OpenSourceComputerVisionLibrary）简介:OpenCV是最著名和最广泛使用的开源计算机视觉库之一。由Intel于1999年开发，目前由OpenCV.org维护，支持C++、Python、Java和MATLAB等多种编程语言。功能:图像处
工业相机参数之帧率相关知识详解小白学视觉人工智能 java python 计算机视觉编程语言
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达工业相机是机器视觉系统的重要组成部分之一,在机器视觉系统中有着非常重要的作用。工业相机已经被广泛应用于工业生产线在线检测、智能交通,机器视觉,科研,军事科学,航天航空等众多领域。工业相机的主要参数包括:分辨率、帧率、像素、像元尺寸、光谱响应特性等。下面我们来对工业相机帧率的相关知识进行讲解:帧率(Framerate)是用于测量显
机器视觉按需求选择工业相机的方法鸦芽_hujiamei 图像处理机器视觉机器视觉相机选择
信号工业相机的信号类型有模拟信号和数字信号两种。模拟相机必须有图像采集卡，标准的模拟相机分辨率很低，采集到的是模拟信号，经数字采集卡转换为数字信号进行传输存储。工业数字相机采集到的是数字信号，数字信号不受电噪声影响，因此，数字相机的动态范围更高，能够向计算机传输更精确的信号。分辨率根据具体需求来选择相机分辨率的大小，如果一个像素对应一个缺陷的话，那么这样的系统一定会极不稳定，所以我们为了提高系统的
工业相机测长仪的组成部分蓝鹏测控自动化制造其他
关键字:工业相机测长仪,高精度测长仪,视觉测量系统,蓝鹏测控测长仪,工业测长仪,本文介绍了蓝鹏测控公司机器视觉业务测长仪的核心产品及技术特点，主要涵盖相机部分、相机防护系统、补光系统和软件部分。（一）相机部分我司的机器视觉业务聚焦工业视觉传感应用，专注光学技术、嵌入式硬件技术和底层算法软件，为客户提供领先的机器视觉硬件产品和算法平台。公司拥有成熟的研发及质量管控体系，从设计源头确保每一款产品的高品
视觉系统的革新：嵌入式AI摄像头 7aa5938c2f5f
学号：17050610006姓名：韦运泽文章链接：https://mp.weixin.qq.com/s/VzuM-ewcCu88D7nYjeE3BQ功能强大的精简型单板计算机的推出带动了一些新产品的设计，在通过小型化优化成本及效率的应用中，它的效用尤为明显。另外，视觉系统可以利用功能全面的板级机器视觉摄像头进一步缩小产品总体尺寸并实现运行灵活性，同时还支持定制或非标准光学部件。它们被用于：医疗诊断
国内十大AGV厂家排行互联网之声人工智能大数据
国内agv机器人公司排名1.海康机器人成立时间：2016年4月20日海康机器人成立于2016年。杭州的一家机器人技术公司主要从事移动机器人、机器视觉、无人机等领域的业务。到目前为止，它还拥有许多专利产品，并一直为世界提供许多相应的产品和结局计划。2.坤厚机器人成立时间：坤厚自动化科技有限公司成立于2015年，从成立至今申请了多项发明及实用新型专利，并且拥有国内领先的AGV技术，紧密结合市场应用需求
什么是计算机视觉？龙腾AI 计算机视觉人工智能自然语言处理深度学习 ai
计算机视觉概述计算机视觉（ComputerVision）又称机器视觉（MachineVision），是一门让机器学会如何去“看”的学科，是深度学习技术的一个重要应用领域，被广泛应用到安防、工业质检和自动驾驶等场景。具体的说，就是让机器去识别摄像机拍摄的图片或视频中的物体，检测出物体所在的位置，并对目标物体进行跟踪，从而理解并描述出图片或视频里的场景和故事，以此来模拟人脑视觉系统。因此，计算机视觉也
嵌入式机器视觉的流水线分拣机器人：OpenCV、 FreeRTOS、 TensorFlow（代码详解）极客小张机器人 opencv tensorflow stm32 系统架构计算机视觉物联网
一、项目概述在现代自动化生产中，分拣机器人作为提高生产效率和准确度的重要工具，正逐渐成为工业流水线的核心组成部分。本项目旨在设计一款基于嵌入式机器视觉的流水线分拣机器人，通过高效的图像处理与实时控制技术，实现对物品的快速识别与自动分拣。该项目的主要目标包括：提高分拣精度：通过高效的机器视觉算法，确保机器人能够准确识别不同类型的物品。提升作业效率：利用实时操作系统和嵌入式AI推理引擎，实现快速响应与
简述Ifocus自动对焦模块 51camera 机器视觉视觉检测视觉系统
在2024上海机器视觉展中，51camera的合作厂商iCore展出的自动对焦模块吸引不少观众驻足，那么什么是自动对焦呢？顾名思义，是指被测物的成像平面偏离了镜头的焦距范围，导致成像模糊，利用辅助装置可使成像平面重新回到镜头最佳焦距范围。自动对焦的作用？首先我们先了解一下“景深”，景深（DepthofField,DOF）是关于空间中可以清晰成像的距离范围，镜头对焦面物体拍摄时，背景虚化，对焦背景时
iLight混合点光源激光与LED技术的结合 51camera LED光源视觉系统视觉检测
51camera机器视觉产品资料查询平台的光源种类比较丰富，今天我们一起来看看其合作厂商iCore的明星产品iLight混合点光源，该产品提供了比LED更高的亮度，作为传统LED和氙气灯的替代品，它将激光和LED技术的结合，提供了长达10,000小时的寿命，没有氙气灯短寿命和亮度波动的缺点。iLight混合光系统由一个大功率光源控制器和一个专门为机器视觉应用设计的混合光组成。它具有高速控制和高效运
加速自动驾驶模型迭代，数据存算一体是关键 virtaitech OrionX 自动驾驶人工智能机器学习 AI AI算力资源池化科技 OrionX
自动驾驶的每一个业务阶段都会涉及到AI深度学习算法和算力的参与，机器视觉，深度学习，传感器技术等均在自动驾驶领域发挥着重要的作用。自动驾驶系统不断迭代的前提是算法的持续优化，目前，自动驾驶发展的瓶颈主要在于AI底层技术和AI算力发展水平上能否实现突破。近日，焱融高性能分布式文件存储系统YRCloudFile联合趋动科技OrionXAI算力资源池化软件与GeminiAI开发训练平台，共同打造自动驾驶
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
软件杯深度学习 opencv python 公式识别(图像识别机器视觉) Mr.D学长 python java
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
计算机设计大赛行人重识别(person reid) - 机器视觉深度学习 opencv python iuerfee python
文章目录0前言1技术背景2技术介绍3重识别技术实现3.1数据集3.2PersonREID3.2.1算法原理3.2.2算法流程图4实现效果5部分代码6最后0前言优质竞赛项目系列，今天要分享的是深度学习行人重识别(personreid)系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：5分更多资料,项目分享：https:
挑战杯基于设深度学习的人脸性别年龄识别系统 laafeer python
文章目录0前言1课题描述2实现效果3算法实现原理3.1数据集3.2深度学习识别算法3.3特征提取主干网络3.4总体实现流程4具体实现4.1预训练数据格式4.2部分实现代码5最后0前言优质竞赛项目系列，今天要分享的是基于深度学习机器视觉的人脸性别年龄识别系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/po
互联网加竞赛机器视觉目标检测 - opencv 深度学习 Mr.D学长 python java
文章目录0前言2目标检测概念3目标分类、定位、检测示例4传统目标检测5两类目标检测算法5.1相关研究5.1.1选择性搜索5.1.2OverFeat5.2基于区域提名的方法5.2.1R-CNN5.2.2SPP-net5.2.3FastR-CNN5.3端到端的方法YOLOSSD6人体检测结果7最后0前言优质竞赛项目系列，今天要分享的是机器视觉opencv深度学习目标检测该项目较为新颖，适合作为竞赛课题
挑战杯基于机器视觉的图像拼接算法 laafeer python
前言图像拼接在实际的应用场景很广，比如无人机航拍，遥感图像等等，图像拼接是进一步做图像理解基础步骤，拼接效果的好坏直接影响接下来的工作，所以一个好的图像拼接算法非常重要。再举一个身边的例子吧，你用你的手机对某一场景拍照，但是你没有办法一次将所有你要拍的景物全部拍下来，所以你对该场景从左往右依次拍了好几张图，来把你要拍的所有景物记录下来。那么我们能不能把这些图像拼接成一个大图呢？这是一个较为新颖的竞
挑战杯基于机器视觉的火车票识别系统 laafeer python
文章目录0前言1课题意义课题难点：2实现方法2.1图像预处理2.2字符分割2.3字符识别部分实现代码3实现效果最后0前言优质竞赛项目系列，今天要分享的是基于机器视觉的火车票识别系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题意义目前火车乘务员在卧铺旅客在上车前为其提供将火车
挑战杯基于机器视觉的二维码识别检测 - opencv 二维码识别检测机器视觉 laafeer python
文章目录0简介1二维码检测2算法实现流程3特征提取4特征分类5后处理6代码实现5最后0简介优质竞赛项目系列，今天要分享的是基于机器学习的二维码识别检测-opencv二维码识别检测机器视觉该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1二维码检测物体检测就是对数字图像中一类特定的物体
计算机设计大赛深度学习人体跌倒检测 -yolo 机器视觉 opencv python iuerfee python
0前言优质竞赛项目系列，今天要分享的是**基于深度学习的人体跌倒检测算法研究与实现**该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：5分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1.前言人体跌倒是人们日常生活中常见姿态之一，且跌倒的发生具有随机、难
计算机设计大赛深度学习人脸表情识别算法 - opencv python 机器视觉 iuerfee python
文章目录0前言1技术介绍1.1技术概括1.2目前表情识别实现技术2实现效果3深度学习表情识别实现过程3.1网络架构3.2数据3.3实现流程3.4部分实现代码4最后0前言优质竞赛项目系列，今天要分享的是深度学习人脸表情识别系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：4分更多资料,项目分享：https://gite
巡检机器人与机器视觉的融合：巡检运维的未来趋势超维机器人机器人运维人工智能大数据计算机视觉
2023世界机器人大会的数据显示，中国工业机器人装机量已经占据了全球市场的超过50%的比重，成为全球最大的工业机器人市场。巡检机器人作为一种高度复杂的自动化装置，被广泛应用于工业领域，能实现各种工业场景下智能巡检运维，推动传统产业智能化改造和数字化转型；因其在智能巡检运维领域占据重要地位，被誉为“皇冠上的明珠”。机器视觉技术使得智能巡检机器人能够自动检测目标物体、识别设备状态、发现异常情况，并采取
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少