CodingCat1017

HOG人体特征提取+SVM分类器训练进行人体检测

1、HOG特征：

方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的，而如今虽然有很多行人检测算法不断提出，但基本都是以HOG+SVM的思路为主。

（1）主要思想：

在一副图像中，局部目标的表象和形状（appearance and shape）能够被梯度或边缘的方向密度分布很好地描述。（本质：梯度的统计信息，而梯度主要存在于边缘的地方）。

（2）具体的实现方法是：

首先将图像分成小的连通区域，我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。

（3）提高性能：

把这些局部直方图在图像的更大的范围内（我们把它叫区间或block）进行对比度归一化（contrast-normalized），所采用的方法是：先计算各直方图在这个区间（block）中的密度，然后根据这个密度对区间中的各个细胞单元做归一化。通过这个归一化后，能对光照变化和阴影获得更好的效果。

（4）优点：

与其他的特征描述方法相比，HOG有很多优点。首先，由于HOG是在图像的局部方格单元上操作，所以它对图像几何的和光学的形变都能保持很好的不变性，这两种形变只会出现在更大的空间领域上。其次，在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下，只要行人大体上能够保持直立的姿势，可以容许行人有一些细微的肢体动作，这些细微的动作可以被忽略而不影响检测效果。因此HOG特征是特别适合于做图像中的人体检测的。

2、HOG特征提取算法的实现过程：

大概过程：

HOG特征提取方法就是将一个image（你要检测的目标或者扫描窗口）：

1）灰度化（将图像看做一个x,y,z（灰度）的三维图像）；

2）采用Gamma校正法对输入图像进行颜色空间的标准化（归一化）；目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰；

3）计算图像每个像素的梯度（包括大小和方向）；主要是为了捕获轮廓信息，同时进一步弱化光照的干扰。

4）将图像划分成小cells（例如6*6像素/cell）；

5）统计每个cell的梯度直方图（不同梯度的个数），即可形成每个cell的descriptor；

6）将每几个cell组成一个block（例如3*3个cell/block），一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。

7）将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image（你要检测的目标）的HOG特征descriptor了。这个就是最终的可供分类使用的特征向量了。

具体每一步的详细过程如下：

（1）标准化gamma空间和颜色空间

为了减少光照因素的影响，首先需要将整个图像进行规范化（归一化）。在图像的纹理强度中，局部的表层曝光贡献的比重较大，所以，这种压缩处理能够有效地降低图像局部的阴影和光照变化。因为颜色信息作用不大，通常先转化为灰度图；

Gamma压缩公式：

比如可以取Gamma=1/2；

（2）计算图像梯度

计算图像横坐标和纵坐标方向的梯度，并据此计算每个像素位置的梯度方向值；求导操作不仅能够捕获轮廓，人影和一些纹理信息，还能进一步弱化光照的影响。

图像中像素点(x,y)的梯度为：

最常用的方法是：首先用[-1,0,1]梯度算子对原图像做卷积运算，得到x方向（水平方向，以向右为正方向）的梯度分量gradscalx，然后用[1,0,-1]^T梯度算子对原图像做卷积运算，得到y方向（竖直方向，以向上为正方向）的梯度分量gradscaly。然后再用以上公式计算该像素点的梯度大小和方向。

（3）为每个细胞单元构建梯度方向直方图

第三步的目的是为局部图像区域提供一个编码，同时能够保持对图像中人体对象的姿势和外观的弱敏感性。

我们将图像分成若干个“单元格cell”，例如每个cell为6*6个像素。假设我们采用9个bin的直方图来统计这6*6个像素的梯度信息。也就是将cell的梯度方向360度分成9个方向块，如图所示：例如：如果这个像素的梯度方向是20-40度，直方图第2个bin的计数就加一，这样，对cell内每个像素用梯度方向在直方图中进行加权投影（映射到固定的角度范围），就可以得到这个cell的梯度方向直方图了，就是该cell对应的9维特征向量（因为有9个bin）。

像素梯度方向用到了，那么梯度大小呢？梯度大小就是作为投影的权值的。例如说：这个像素的梯度方向是20-40度，然后它的梯度大小是2（假设啊），那么直方图第2个bin的计数就不是加一了，而是加二（假设啊）。

细胞单元可以是矩形的（rectangular），也可以是星形的（radial）。

（4）把细胞单元组合成大的块（block），块内归一化梯度直方图

由于局部光照的变化以及前景-背景对比度的变化，使得梯度强度的变化范围非常大。这就需要对梯度强度做归一化。归一化能够进一步地对光照、阴影和边缘进行压缩。

作者采取的办法是：把各个细胞单元组合成大的、空间上连通的区间（blocks）。这样，一个block内所有cell的特征向量串联起来便得到该block的HOG特征。这些区间是互有重叠的，这就意味着：每一个单元格的特征会以不同的结果多次出现在最后的特征向量中。我们将归一化之后的块描述符（向量）就称之为HOG描述符。

区间有两个主要的几何形状——矩形区间（R-HOG）和环形区间（C-HOG）。R-HOG区间大体上是一些方形的格子，它可以有三个参数来表征：每个区间中细胞单元的数目、每个细胞单元中像素点的数目、每个细胞的直方图通道数目。

例如：行人检测的最佳参数设置是：3×3细胞/区间、6×6像素/细胞、9个直方图通道。则一块的特征数为：3*3*9；

（5）收集HOG特征

最后一步就是将检测窗口中所有重叠的块进行HOG特征的收集，并将它们结合成最终的特征向量供分类使用。

（6）那么一个图像的HOG特征维数是多少呢？

顺便做个总结：Dalal提出的Hog特征提取的过程：把样本图像分割为若干个像素的单元（cell），把梯度方向平均划分为9个区间（bin），在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计，得到一个9维的特征向量，每相邻的4个单元构成一个块（block），把一个块内的特征向量联起来得到36维的特征向量，用块对样本图像进行扫描，扫描步长为一个单元。最后将所有块的特征串联起来，就得到了人体的特征。例如，对于64*128的图像而言，每8*8的像素组成一个cell，每2*2个cell组成一个块，因为每个cell有9个特征，所以每个块内有4*9=36个特征，以8个像素为步长，那么，水平方向将有7个扫描窗口，垂直方向将有15个扫描窗口。也就是说，64*128的图片，总共有36*7*15=3780个特征。

注释：HOG维数，16×16像素组成的block，8x8像素的cell

行人检测HOG+SVM

总体思路：
1、提取正负样本hog特征
2、投入svm分类器训练，得到model
3、由model生成检测子
4、利用检测子检测负样本，得到hardexample
5、提取hardexample的hog特征并结合第一步中的特征一起投入训练，得到最终检测子。

深入研究hog算法原理：
一、hog概述

Histograms of Oriented Gradients,顾名思义，方向梯度直方图，是目标的一种描述的方式，既是描述子。

二、hog提出
hog是05年一位nb的博士提出来的，论文链接 http://wenku.baidu.com/view/676f2351f01dc281e53af0b2.html

三、算法理解
终于到10月了，终于可以松一口气了，整理一下hog的算法流程。

首先要有一个整体的认识，每一个目标都对应一个一维特征向量，这个向量一共有n维，这个n不是凭空瞎猜的，是有理有据，打个比方，为什么opencv自带的hog检测子是3781维的？这个问题在初期确实比较头疼，纠结了好长的时间，不过别着急，

我们先来看一下opencv里的HOGDescriptor这个结构的构造函数HOGDescriptor（Size winSize,Size blocksize,Size blockStride,Size cellSize,...(后面的参数在这里用不到)），去查一下opencv默认的参数我们可以看到，winSize（64,128），blockSize（16,16），blockStride（8,8），cellSize（8,8），很显然hog是将一个特征窗口win划分为很多的块block，在每一个块里又划分为很多的细胞单元cell(即胞元)，hog特征向量既是把这些所有的cell对应的小特征串起来得到一个高维的特征向量，那么这个窗口对应的一维特征向量维数n就等于窗口中的块数 x 块中的胞元数 x 每一个胞元对应的特征向量数。

写到这里，我们计算一下3781如何得到的，窗口大小64x128，块大小16x16，块步长8x8，那么窗口中块的数目是(（64-16）/8+1)*((128-16)/8+1) = 7*15 =105个块，块大小为16x16,胞元大小为8x8，那么一个块中的胞元cell数目是 (16/8)*(16/8) = 4个胞元，到这里我们可以看到要求最后需要的维数n，只需要计算每一个胞元对应的向量，这个参数在哪呢？别急，我们把每一个胞元投影到9个bin（如何投影？这里卡了很长一段时间，后面会说），那么每一个胞元对应的向量就是 9维，每个bin对应该9维向量的一个数，现在看一下是不是计算窗口维数的三个需求量都知道了，n = 窗口中的块数 x 块中的胞元数 x 每一个胞元对应的特征向量数,带入看一下n= 105x4x9 = 3780,这就是这个窗口对应的特征了。有人会说，为什么opencv里的getDefaultPeopleDetector()得到的是3781维呢？这是因为另外一维是一维偏移，（很崩溃是吧，我也崩溃很久。。。，下一段解释）。

我们利用hog+svm检测行人，最终的检测方法是最基本的线性判别函数，wx + b = 0，刚才所求的3780维向量其实就是w，而加了一维的b就形成了opencv默认的3781维检测算子，而检测分为train和test两部分，在train期间我们需要提取一些列训练样本的hog特征使用svm训练最终的目的是为了得到我们检测的w以及b，在test期间提取待检测目标的hog特征x，带入方程是不是就能进行判别了呢？

**************************************************************************************************

华丽的分割线

写到这里，至少对hog的运作流程有了一个大概的认识，在网上能看到很多的hog计算方法，神马归一化，计算梯度，对每个胞元进行投影，千篇一律，对刚开始接触的人来说，看完好像懂了，但就是不知道怎么用，hog和svm如何配合，而且那些东西对我们的初期的学期完全没用，好处就是会用hog了，再回过头去看原理，才有收获，那些资料网上一堆，这里就不画蛇添足了。

另外值得一提的是在计算胞元特征的时候，需要向各个bin投影，这个投影里面大有文章，师兄毕业论文里就提到了，取名叫‘三维一次线性插值’，如果想深入了解hog的可以仔细琢磨去。

**************************************************************************************************

继续华丽的分割

下面说一下libsvm和CvSVM的使用，我觉得libsvm更好用，不过cvsvm也是基于libsvm2.6(没记错的话)改写的，这两个的区别就是libsvm训练得到的是一个model，而cvsvm是xml文件，在计算最后的wx+b=0中的w向量的时候，对于libsvm直接处理model文件即可，但是对于cvsvm则可以跳过产生xml文件，直接使用cvsvm的对象中的属性即可（这里说的有点模糊，二者选一个即可，关系倒不是很大）

之前介绍过Hog特征(http://blog.csdn.net/carson2005/article/details/7782726)，也介绍过SVM分类器（http://blog.csdn.net/carson2005/article/details/6453502 ）；而本文的目的在于介绍利用Hog特征和SVM分类器来进行行人检测。

在2005年CVPR上，来自法国的研究人员Navneet Dalal 和Bill Triggs提出利用Hog进行特征提取，利用线性SVM作为分类器，从而实现行人检测。而这两位也通过大量的测试发现，Hog+SVM是速度和效果综合平衡性能较好的一种行人检测方法。后来，虽然很多研究人员也提出了很多改进的行人检测算法，但基本都以该算法为基础框架。因此，Hog+SVM也成为一个里程表式的算法被写入到OpenCV中。在OpenCV2.0之后的版本，都有Hog特征描述算子的API，而至于SVM，早在OpenCV1.0版本就已经集成进去了；OpenCV虽然提供了Hog和SVM的API，也提供了行人检测的sample，遗憾的是，OpenCV并没有提供样本训练的sample。这也就意味着，很多人只能用OpenCV自带的已经训练好的分类器来进行行人检测。然而，OpenCV自带的分类器是利用Navneet Dalal和Bill Triggs提供的样本进行训练的，不见得能适用于你的应用场合。因此，针对你的特定应用场景，很有必要进行重新训练得到适合你的分类器。本文的目的，正在于此。

重新训练行人检测的流程：

（1）准备训练样本集合；包括正样本集和负样本集；根据机器学习的基础知识我们知道，要利用机器学习算法进行样本训练，从而得到一个性能优良的分类器，训练样本应该是无限多的，而且训练样本应该覆盖实际应用过程中可能发生的各种情况。（很多朋友，用10来个正样本，10来个负样本进行训练，之后，就进行测试，发现效果没有想象中的那么好，就开始发牢骚，抱怨。。。对于这些人，我只能抱歉的说，对于机器学习、模式识别的认识，你还处于没有入门的阶段）；实际应用过程中，训练样本不可能无限多，但无论如何，三五千个正样本，三五千个负样本，应该不是什么难事吧？（如果连这个都做不到，建议你别搞机器学习，模式识别了；训练素材都没有，怎么让机器学习到足够的信息呢？）

（2）收集到足够的训练样本之后，你需要手动裁剪样本。例如，你想用Hog+SVM来对商业步行街的监控画面中进行行人检测，那么，你就应该用收集到的训练样本集合，手动裁剪画面中的行人（可以写个简单程序，只需要鼠标框选一下，就将框选区域保存下来）。

（3）裁剪得到训练样本之后，将所有正样本放在一个文件夹中；将所有负样本放在另一个文件夹中；并将所有训练样本缩放到同样的尺寸大小。OpenCV自带的例子在训练时，就是将样本缩放为64*128进行训练的；

（4）提取所有正样本的Hog特征；

（5）提取所有负样本的Hog特征；

（6）对所有正负样本赋予样本标签；例如，所有正样本标记为1，所有负样本标记为0；

（7）将正负样本的Hog特征，正负样本的标签，都输入到SVM中进行训练；Dalal在论文中考虑到速度问题，建议采用线性SVM进行训练。这里，不妨也采用线性SVM；

（8）SVM训练之后，将结果保存为文本文件。

（9）线性SVM进行训练之后得到的文本文件里面，有一个数组，叫做support vector，还有一个数组，叫做alpha,有一个浮点数，叫做rho;将alpha矩阵同support vector相乘，注意，alpha*supportVector,将得到一个列向量。之后，再该列向量的最后添加一个元素rho。如此，变得到了一个分类器，利用该分类器，直接替换opencv中行人检测默认的那个分类器（cv::HOGDescriptor::setSVMDetector()），就可以利用你的训练样本训练出来的分类器进行行人检测了。

下面给出样本训练的参考代码：

class Mysvm: public CvSVM  
{  
public:  
    int get_alpha_count()  
    {  
        return this->sv_total;  
    }  
  
    int get_sv_dim()  
    {  
        return this->var_all;  
    }  
  
    int get_sv_count()  
    {  
        return this->decision_func->sv_count;  
    }  
  
    double* get_alpha()  
    {  
        return this->decision_func->alpha;  
    }  
  
    float** get_sv()  
    {  
        return this->sv;  
    }  
  
    float get_rho()  
    {  
        return this->decision_func->rho;  
    }  
};  
  
void Train()  
{  
    char classifierSavePath[256] = "c:/pedestrianDetect-peopleFlow.txt";  
  
    string positivePath = "E:\\pictures\\train1\\pos\\";  
    string negativePath = "E:\\pictures\\train1\\neg\\";  
  
    int positiveSampleCount = 4900;  
    int negativeSampleCount = 6192;  
    int totalSampleCount = positiveSampleCount + negativeSampleCount;  
  
    cout<<"//////////////////////////////////////////////////////////////////"< featureVec;   
  
        hog.compute(img, featureVec, cv::Size(8,8));    
        int featureVecSize = featureVec.size();  
  
        for (int j=0; jdata.fl[i] = 1;  
    }  
    cout<<"end of training for positive samples..."< featureVec;   
  
        hog.compute(img,featureVec,cv::Size(8,8));//计算HOG特征  
        int featureVecSize = featureVec.size();    
  
        for ( int j=0; jdata.fl[ i + positiveSampleCount ] = -1;  
    }    
  
    cout<<"end of training for negative samples..."<data.fl+i*1764), svm.get_support_vector(i), 1764*sizeof(float));      
    }  
  
    double* alphaArr = svm.get_alpha();  
    int alphaCount = svm.get_alpha_count();  
  
    for(int i=0; idata.fl[i] = alphaArr[i];  
    }  
    cvMatMul(alp, sv, re);  
  
    int posCount = 0;  
    for (int i=0; i<1764; i++)  
    {  
        re->data.fl[i] *= -1;  
    }  
  
    FILE* fp = fopen("c:/hogSVMDetector-peopleFlow.txt","wb");  
    if( NULL == fp )  
    {  
        return 1;  
    }  
    for(int i=0; i<1764; i++)  
    {  
        fprintf(fp,"%f \n",re->data.fl[i]);  
    }  
    float rho = svm.get_rho();  
    fprintf(fp, "%f", rho);  
    cout<<"c:/hogSVMDetector.txt 保存完毕"<

 
  
 
  接着，再给出利用训练好的分类器进行行人检测的参考代码： 
  void Detect()  
{  
    CvCapture* cap = cvCreateFileCapture("E:\\02.avi");  
    if (!cap)  
    {  
        cout<<"avi file load error..."< x;  
    ifstream fileIn("c:/hogSVMDetector-peopleFlow.txt", ios::in);  
    float val = 0.0f;  
    while(!fileIn.eof())  
    {  
        fileIn>>val;  
        x.push_back(val);  
    }  
    fileIn.close();  
  
    vector  found;  
    cv::HOGDescriptor hog(cv::Size(64,64), cv::Size(16,16), cv::Size(8,8), cv::Size(8,8), 9);  
    hog.setSVMDetector(x);  
  
    IplImage* img = NULL;  
    cvNamedWindow("img", 0);  
    while(img=cvQueryFrame(cap))  
    {  
        hog.detectMultiScale(img, found, 0, cv::Size(8,8), cv::Size(32,32), 1.05, 2);  
        if (found.size() > 0)  
        {  
  
            for (int i=0; i

Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
MATLAB车牌定位和识别系统清风明月来几时图像算法处理 matlab 开发语言
有很多方法可以实现MATLAB车牌的定位和识别系统。以下是一种可能的实现步骤：车牌定位：使用图像处理技术（如边缘检测、区域生长或颜色分割）来检测图像中的车牌区域。使用形态学操作来排除不符合车牌形状的区域。对车牌区域进行裁剪或调整大小，以便后续的识别。车牌识别：将车牌图像转换为灰度图像。使用图像处理技术（如二值化、滤波或增强）来减少噪音并突出字符。使用字符分割算法将车牌中的字符分开。使用特征提取方法
【机器学习】Python与深度学习的完美结合——深度学习在医学影像诊断中的惊人表现空白诗机器学习深度学习人工智能 python
个人主页：空白诗文章目录一、引言二、深度学习在医学影像诊断中的突破1.技术原理2.实际应用3.性能表现三、深度学习在医学影像诊断中的惊人表现1.提高疾病诊断准确率2.辅助制定治疗方案四、深度学习对医疗行业的影响和推动作用一、引言随着人工智能技术的不断发展，深度学习在医学影像诊断领域的应用日益广泛，其强大的特征提取能力和高效的学习机制为医学影像诊断带来了革命性的突破。本文将深入探讨深度学习在医学影像
毕设项目基于特征熵值分析的网站分类系统实现（源码+论文） iuidfds 毕业设计毕设
文章目录0项目说明1研究目的2研究方法3研究结论4各模块介绍4.1爬虫模块功能与技术4.2网页处理模块功能与技术4.3特征提取与文本特征表示模块功能与技术4.4分类器模块功能与技术5项目源码6论文目录7最后0项目说明基于特征熵值分析的网站分类系统实现提示：适合用于课程设计或毕业设计，工作量达标，源码开放1研究目的本设计对KNN算法的缺陷产生原因进行详细地分析，并针对缺陷对算法进行了引入属性熵值等一
在COD领域，图像中提取的高频和低频信息分别代表什么？ Wils0nEdwards 计算机视觉人工智能
在CamouflagedObjectDetection(COD)领域中，图像中的高频和低频信息在特征提取和物体检测中有着不同的含义和作用。COD的本质是解决目标在视觉上与背景高度相似的问题，因此合理利用图像的频率信息（高频和低频）有助于提高检测效果。高频信息高频信息指的是图像中变化迅速的部分，通常包括细节、边缘和纹理等特征。在COD中：高频信息代表图像中的边缘、细节和纹理特征。这些特征对于分割伪装
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
汽车智能驾驶算法汇总芊言芊语汽车算法
汽车智能驾驶算法是自动驾驶技术的核心，它们集成了多个学科的知识，包括计算机视觉、机器学习、控制理论、路径规划等。以下是对汽车智能驾驶算法的一个详细汇总，内容分为几个关键部分进行阐述。一、计算机视觉算法计算机视觉是智能驾驶算法中用于识别和理解环境的关键技术。它主要包括图像处理、特征提取和对象识别等步骤。图像处理：通过摄像头等设备获取车辆前方的图像，然后进行预处理，如灰度化、二值化、滤波等操作，以提高
如何用RoBERTa高效提取事件文本结构特征：多层次上下文建模与特征融合大多_C 人工智能
基于RoBERTa-BASE的特征提取器，提取事件文本数据的结构特征（如段落和篇章结构）涉及多个步骤。RoBERTa作为一种预训练语言模型，可以很好地捕捉输入文本的上下文和依赖关系。具体步骤如下：1.文本预处理在提取事件文本的结构特征之前，需要对文本进行适当的预处理。这一步包括：分句和分段处理：将事件文本拆分为不同的句子或段落，并对每个句子/段落进行标记。每个段落可以视为一个独立的输入序列。Tok
Pointnet++改进即插即用系列：全网首发DilatedReparamBlock |即插即用，提升特征提取模块性能 AICurator Pointnet++改进专栏 python 深度学习 pytorch
简介：1.该教程提供大量的首发改进的方式，降低上手难度，多种结构改进，助力寻找创新点！2.本篇文章对Pointnet++特征提取模块进行改进，加入DilatedReparamBlock，提升性能。3.专栏持续更新，紧随最新的研究内容。目录1.理论介绍2.修改步骤2.1步骤一2.2步骤二2.3步骤三1.理论介绍近年来，大核卷积神经网络(ConvNets)得到了广泛的研究关注，但有两个尚未解决的关键问
YOLOv9独家原创改进|使用可改变核卷积AKConv改进RepNCSPELAN4 今天炼丹了吗 YOLOv9涨点改进专栏人工智能机器学习 python 深度学习 YOLO 目标检测
专栏介绍：YOLOv9改进系列|包含深度学习最新创新，主力高效涨点！！！一、改进点介绍AKConv是一种具有任意数量的参数和任意采样形状的可变卷积核，对不规则特征有更好的提取效果。RepNCSPELAN4是YOLOv9中的特征提取模块，类似YOLOv5和v8中的C2f与C3模块。二、RepNCSPELAN4-AKConv模块详解2.1模块简介RepNCSPELAN4-AKConv的主要思想：使用A
图像预处理之图像去重江小皮不皮计算机视觉 opencv 人工智能图像去重直方图
图像预处理之图像去重图像去重介绍方法基于直方图进行图像比对基于哈希法基于ORG进行图像特征提取基于机器学习批量去重图像去重介绍图像去重通常指的是完全相同的图像，即内容完全相同，颜色、尺寸、方向等都相同。但是在实际应用中，也有相似图像去重的需求，即内容大致相同，颜色、尺寸、方向等可能有所不同。因此，图像去重指的可以是完全一样的图像，也可以是相似的图像。图像去重的方法有以下几种：方法哈希法：通过计算图
深度学习特征提取魔改版太强了！发文香饽饽！深度之眼深度学习干货人工智能干货人工智能深度学习机器学习论文特征提取
要说CV领域经久不衰的研究热点，特征提取可以占一席，毕竟SLAM、三维重建等重要应用的底层都离不开它。再加上近几年深度学习兴起，用深度学习做特征提取逐渐成了主流，比传统算法无论是性能、准确性还是效率都更胜一筹。目前比较常见的深度学习特征提取方法有基于transformer、基于CNN、基于LSTM以及基于GAN，都发展的比较成熟。但为了追求更快速、准确、鲁棒的特征点提取，研究者们开始致力于改进深度
人脸识别技术框架 weixin_30314813 人工智能
1、人脸检测（确定人脸的位置）。2、人脸关键点（确定眼睛，嘴角等特征位置）。3、人脸几何校正（把人脸通过缩放、旋转、拉伸等图像变化到一个比较标准的大小位置）。4、人脸光学校正（滤波，去除一些对光照敏感的面部特征）。5、人脸特征提取（包括LBP,HOG,Gabor等）。6、人脸识别转载于:https://www.cnblogs.com/lanye/p/3620621.html
目标检测-YOLOv4 wydxry 深度学习目标检测 YOLO 目标跟踪
YOLOv4介绍YOLOv4是YOLO系列的第四个版本，继承了YOLOv3的高效性，并通过大量优化和改进，在目标检测任务中实现了更高的精度和速度。相比YOLOv3，YOLOv4在框架设计、特征提取、训练策略等方面进行了全面升级。它在保持实时检测的同时，显著提升了检测性能，尤其在复杂场景中的表现尤为出色。相比YOLOv3的改进与优势改进的Backbone(CSPDarknet-53)YOLOv4使用
Top-K准确率代码实现友人Chi python 机器学习开发语言
文章目录Top-K准确率Top-K准确率的代码实现多标签分类准确率的代码实现Top-K准确率Top-K准确率就是用来计算预测结果中概率最大的前K个结果包含正确标签的占比。换句话说，平常我们所说的准确率其实就是Top-1准确率。下面我们还是通过一个例子来进行说明。假如现在有一个用于手写体识别的分类器（10分类），你现在将一张正确标签为3的图片输入到分类器中且得到了如下所示的一个概率分布：logits
【统计学习方法】感知机 jyyym ml苦手机器学习
一、前言感知机是FrankRosenblatt在1957年就职于康奈尔航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单的前馈神经网络，是一种二元线性分类器。Seemoredetailsinwikipdia感知机.本篇blog将从统计学习方法三要素即模型、策略、算法三个方面介绍感知机，并给出相应代码实现。二、模型假设输入空间是x∈Rnx\in{R^n}x∈Rn，输出空间是y∈{−1,+1
人工智能与机器学习原理精解【1】叶绿先锋基础数学与应用数学神经网络人工智能深度学习
文章目录Rosenblatt感知器感知器基础收敛算法算法概述算法步骤关键点说明总结C++实现要点代码参考文献Rosenblatt感知器感知器基础感知器，也可翻译为感知机，是一种人工神经网络。它可以被视为一种最简单形式的前馈式人工神经网络，是一种二元线性分类器。Rosenblatt感知器建立在一个非线性神经元上，但是它只能完成线性分类硬限幅与超平面局部诱导域v=∑i=1mwixi+b从上面公式看来，
颜色识别基于高斯混合模型（GMM）的查找表分类器（LUT）吃个糖糖 Halcon 人工智能机器学习
文章目录create_class_gmm创建高斯混合模型（GMM）以进行分类任务add_samples_image_class_gmm提取训练样本，并将其添加到高斯混合模型(GMM)的训练数据集中train_class_gmm训练一个高斯混合模型(GMM)clear_class_gmm清除模型create_class_lut_gmm基于已训练的高斯混合模型(GMM)创建一个查找表(LUT)，用于分
【可控图像生成系列论文（四）】IP-Adapter 具体是如何训练的？1公式篇多恩Stone AIGC Diffusion Transformer 计算机视觉深度学习 python AIGC pytorch 机器学习人工智能
系列文章目录【可控图像生成系列论文（一）】简要介绍了MimicBrush的整体流程和方法；【可控图像生成系列论文（二）】就MimicBrush的具体模型结构、训练数据和纹理迁移进行了更详细的介绍。【可控图像生成系列论文（三）】介绍了一篇相对早期（2018年）的可控字体艺术化工作。文章目录系列文章目录前言〇、文生图模型预备知识1.训练目标2.无分类器指导（classifier-freeguidanc
01-30 姬汉斯
今天看的是关于文档识别和分类的处理案例。利用多项式贝叶斯公式计算TF-IDF值，以此计算出文档中的词频，文档频率等数据属性，TFIDFVectorizer类用于进行整理，NTLK包进行标注处理，计算文档中各个字符的权重，通过分类器进行分类处理。Sklearn在其中依然有巨大作用，还在熟悉其特性
Python中的深度学习神经网络 2301_78297473 深度学习 python 神经网络
文章目录1.引言-简介-深度学习与Python的关系2.神经网络的原理-神经网络基础知识-Python中的神经网络库与工具-构建与训练神经网络模型的步骤深度学习训练过程3.卷积神经网络的原理-卷积层与池化层-特征提取与全连接层-Python中的CNN库与工具4.Python中深度学习的挑战和未来发展方向-计算资源与速度-迁移学习与模型压缩-融合多种深度学习算法1.引言-简介深度学习是机器学习的一个
c++ +Opencv实现车牌自动识别听忆. 人工智能计算机视觉
c+++Opencv实现车牌自动识别1.图像预处理2.车牌定位3.字符分割4.字符识别完整流程概述：边走、边悟迟早会好要用C++和OpenCV实现车牌自动识别，主要流程分为几个步骤：图像预处理：提高车牌区域的可见度，方便后续的车牌定位与字符识别。车牌定位：通过图像处理和特征提取，定位车牌在图像中的位置。字符分割：将车牌区域中的字符逐个分割出来。字符识别：利用机器学习算法或者OCR（光学字符识别）技
『点云处理任务』用PCL库还是深度学习模型？爱钓鱼的歪猴点云深度学习人工智能 pcl库
深度学习和PCL库都可以用来做点云处理任务，但是二者侧重点有所不同。1、PCL库（点云库）是一个专门用于点云处理和三维几何分析的开源类库，常用于以下任务：1、点云滤波：用于去除噪音、下采样和平滑等操作，入统计滤波、体素滤波和高斯滤波等。2、特征提取和描述：用于捕获地点云数据的表面特征，入法线估计、曲率计算、局部特征描述子（如FPFH、SHOT）等。3、点云配准：，用于将不同视角或不同时间的点云数据
点云从入门到精通技术详解100篇-点云特征学习模型及其在配准中的应用格图素书学习
目录前言应用前景国内外研究现状点云特征提取算法研究现状点云配准算法研究现状相关理论基础2.1深度学习2.1.1深度学习概述2.1.2自编码器2.1.3稀疏编码2.1.4受限玻尔兹曼机2.2多层感知机2.2.1多层感知机概述2.2.2感知器与多层感知机2.2.3多层感知机的训练2.3点云配准方法2.3.1无点对应关系的点云配准方法2.3.2基于对应关系的点云配准方法2.4评价指标2.4.1点云配准评
如何在3D无序抓取中应用深度学习算法？道亦无名人工智能 3d 深度学习算法
在3D无序抓取中，深度学习算法的应用极大地提升了系统的识别精度和效率。以下是深度学习算法在3D无序抓取中的具体应用方式：一、物体识别图像预处理：首先，通过3D相机获取的点云数据或深度图像需要进行预处理，包括去噪、滤波、分割等步骤，以提高后续处理的准确性。特征提取：利用深度学习算法（如卷积神经网络CNN）对预处理后的图像进行特征提取。这些特征可以是物体的形状、纹理、边缘等，有助于区分不同的物体。分类
fastText 情感分类 dreampai
情感分类任务就是看一段文本，然后分辨这个人是否喜欢他们在讨论的这个东西。情感分类一个最大的挑战就是可能标记的训练集没有那么多，但是有了词嵌入，即使只有中等大小的标记的训练集，你也能构建一个不错的情感分类器image.pngimage.png假设有一个句子：“这个衣服质量不错”通过分词、去除停用词等预处理操作，得到“衣服/质量/不错”获取“衣服”、“质量”、“不错”的对应词向量（可以通过TF-IDF
YOLO缺陷检测学习笔记（2） tt555555555555 YOLO 缺陷检测学习笔记 YOLO 学习笔记
YOLO缺陷检测学习笔记（2）残差连接1.**YOLO的残差连接结构**2.**YOLO使用残差连接的目的**3.**YOLO中的残差块**4.**YOLOv3和YOLOv4的残差连接架构**YOLO网络架构概述1.特征提取网络2.预测头（DetectionHead）3.后处理（Post-processing）YOLOv3/v4的改进YOLOv3YOLOv4SoftmaxSoftmax的性质：So
Spark入门：KMeans聚类算法 17111_Chaochao1984a 算法 spark kmeans
聚类（Clustering）是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性，根据某一给定的相似度度量方式（如欧式距离）找到相似的样本，并根据距离将样本划分成不同的组。聚类属于典型的无监督学习（UnsupervisedLearning）方法。与监督学习（如分类器）相比1，无监督学习的训练集没有人为标注的结果。在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

HOG人体特征提取+SVM分类器训练进行人体检测

行人检测HOG+SVM

你可能感兴趣的:(特征提取+分类器)