一、背景知识
(1)从main入手的对原人脸检测历程进行了参考以及开进, vector<string> names;定义的矢量string组,它和直接定义的数组相比,可以对矢量的长度单元进行相应的增加和减少。因而它是更利于存储一些未知的组数据的。
(2) _finddata_t file;这个变量的定义用来存储文件的各种信息,便于之后的文件的查找应用,在之后的识别过程中会用到。
那么到底如何查找文件呢?我们需要一个结构体和几个大家可能不太熟悉的函数。这些函数和结构体在<io.h>的头文件中,结构体为struct _finddata_t ,函数为_findfirst、_findnext和_fineclose。具体如何使用,我会慢慢讲来~
首先讲这个结构体吧~struct _finddata_t ,这个结构体是用来存储文件各种信息的。说实话,这个结构体的具体定义代码,我没有找到,不过还好,文档里面在_find里有比较详细的成员变量介绍。我基本上就把文档翻译过来讲吧:
unsignedatrrib:文件属性的存储位置。它存储一个unsigned单元,用于表示文件的属性。文件属性是用位表示的,主要有以下一些:_A_ARCH(存档)、_A_HIDDEN(隐藏)、_A_NORMAL(正常)、_A_RDONLY(只读)、_A_SUBDIR(文件夹)、_A_SYSTEM(系统)。这些都是在<io.h>中定义的宏,可以直接使用,而本身的意义其实是一个无符号整型(只不过这个整型应该是2的几次幂,从而保证只有一位为1,而其他位为0)。既然是位表示,那么当一个文件有多个属性时,它往往是通过位或的方式,来得到几个属性的综合。例如只读+隐藏+系统属性,应该为:_A_HIDDEN | _A_RDONLY | _A_SYSTEM 。
time_ttime_create:这里的time_t是一个变量类型(长整型?相当于long int?),用来存储时间的,我们暂时不用理它,只要知道,这个time_create变量是用来存储文件创建时间的就可以了。
time_ttime_access:文件最后一次被访问的时间。
time_ttime_write:文件最后一次被修改的时间。
_fsize_tsize:文件的大小。这里的_fsize_t应该可以相当于unsigned整型,表示文件的字节数。
charname[_MAX_FNAME]:文件的文件名。这里的_MAX_FNAME是一个常量宏,它在<stdlib.h>头文件中被定义,表示的是文件名的最大长度。
以此,我们可以推测出,struct_finddata_t ,大概的定义如下:
struct_finddata_t
{
unsigned attrib;
time_ttime_create;
time_ttime_access;
time_ttime_write;
_fsize_t size;
charname[_MAX_FNAME];
};
前面也说了,这个结构体是用来存储文件信息的,那么如何把一个硬盘文件的文件信息“存到”这个结构体所表示的内存空间里去呢?这就要靠_findfirst、_findnext和_fineclose三个函数的搭配使用了。
首先还是对这三个函数一一介绍一番吧……
long_findfirst( char *filespec, struct _finddata_t *fileinfo );
返回值:如果查找成功的话,将返回一个long型的唯一的查找用的句柄(就是一个唯一编号)。这个句柄将在_findnext函数中被使用。若失败,则返回-1。
参数:
filespec:标明文件的字符串,可支持通配符。比如:*.c,则表示当前文件夹下的所有后缀为C的文件。
fileinfo:这里就是用来存放文件信息的结构体的指针。这个结构体必须在调用此函数前声明,不过不用初始化,只要分配了内存空间就可以了。函数成功后,函数会把找到的文件的信息放入这个结构体中。
int_findnext( long handle, struct _finddata_t *fileinfo );
返回值:若成功返回0,否则返回-1。
参数:
handle:即由_findfirst函数返回回来的句柄。
fileinfo:文件信息结构体的指针。找到文件后,函数将该文件信息放入此结构体中。
int_findclose( long handle );
返回值:成功返回0,失败返回-1。
参数:
handle:_findfirst函数返回回来的句柄。
大家看到这里,估计都能猜到个大概了吧?先用_findfirst查找第一个文件,若成功则用返回的句柄调用_findnext函数查找其他的文件,当查找完毕后用,用_findclose函数结束查找。恩,对,这就是正确思路。下面我们就按照这样的思路来编写一个查找C:\WINDOWS文件夹下的所有exe可执行文件的程序。
#include<stdio.h> #include <io.h> constchar*to_search="C:\\WINDOWS\\*.exe"; //欲查找的文件,支持通配符 intmain() { longhandle; //用于查找的句柄 struct_finddata_tfileinfo; //文件信息的结构体 handle=_findfirst(to_search,&fileinfo); //第一次查找 if(-1==handle)return -1; printf("%s\n",fileinfo.name); //打印出找到的文件的文件名 while(!_findnext(handle,&fileinfo)) //循环查找其他符合的文件,知道找不到其他的为止 { printf("%s\n",fileinfo.name); } _findclose(handle); //别忘了关闭句柄 system("pause"); return0; }
当然,这个文件的查找是在指定的路径中进行,如何遍历硬盘,在整个硬盘中查找文件呢?大家可以在网络上搜索文件递归遍历等方法,这里不再做进一步介绍。
细心的朋友可能会注意到我在程序的末尾用了一个system函数。这个与程序本身并没有影响,和以前介绍给大家的使用getchar()函数的作用相同,只是为了暂停一下,让我们能看到命令提示符上输出的结果而已。不过system函数本身是一个非常强大的函数。大家可以查查MSDN看看~简单来说,它是一个C语言与操作系统的相互平台,可以在程序里通过这个函数,向操作系统传递command命令
*******
我在代码中定义
vector<string> names;
_finddata_t file;
long lf;
if((lf = _findfirst("images\\*.*", &file))==-1l)
{
cout<<"没有图片"<<endl;
getch();
return 0;
}
else
{
while( _findnext( lf, &file ) == 0 ) //当查找成功时
{
if(file.attrib == _A_NORMAL); //现有图片的存储的属性
else if(file.attrib == _A_RDONLY);
else if(file.attrib == _A_HIDDEN );
else if(file.attrib == _A_SYSTEM );
else if(file.attrib == _A_SUBDIR);
else
{
string str1 = "images\\";
string str2 = file.name;
names.push_back(str1+str2); //文件名的定义
}
}
}
_findclose(lf);
在查找过程中 _findfirst("images\\*.*", &file))获取images文件夹下的文件信息,并且 &file 获取问价夹下的所有文件的结构体指针,并且供后序的使用 _findnext( lf, &file ) ,查找邻接的下一个具体的文件信息,之后将文件的名字都传给了names矢量组。当检索完毕,退出此检索过程。(3) size_t scaleOptLen = scaleOpt.length(); //typedef unsigned __int64 size_t; 即size_t stand for the unsigned int
size_t表示的是unsigned int
(4)级联分类器
来自:http://blog.csdn.net/yang_xian521/article/details/6973667
OpenCV支持的目标检测的方法是利用样本的Haar特征进行的分类器训练,得到的级联boosted分类器(Cascade Classification)。注意,新版本的C++接口除了Haar特征以外也可以使用LBP特征。
先介绍一下相关的结构,级联分类器的计算特征值的基础类FeatureEvaluator,功能包括读操作read、复制clone、获得特征类型getFeatureType,分配图片分配窗口的操作setImage、setWindow,计算有序特征calcOrd,计算绝对特征calcCat,创建分类器特征的结构create函数。级联分类器类CascadeClassifier。目标级联矩形的分组函数groupRectangles。
接下来,我尝试使用CascadeClassifier这个级联分类器类检测视频流中的目标(haar支持的目标有人脸、人眼、嘴、鼻、身体。这里尝试比较成熟的人脸和眼镜)。用load函数加载XML分类器文件(目前提供的分类器包括Haar分类器和LBP分类器(LBP分类器数据较少))具体步骤如下:
这里再补充一点:后来我又进行了一些实验,对正面人脸分类器进行了实验,总共有4个,alt、alt2、alt_tree、default。对比下来发现alt和alt2的效果比较好,alt_tree耗时较长,default是一个轻量级的,经常出现误检测。所以还是推荐大家使用haarcascade_frontalface_atl.xml和haarcascade_frontalface_atl2.xml。
(5)跟踪用的CamShift算法详细参见本博文:http://blog.csdn.net/wobuaishangdiao/article/details/7660668
简介
CamShift算法,即"Continuously Apative Mean-Shift"算法,是一种运动跟踪算法。它主要通过视频图像中运动物体的颜色信息来达到跟踪的目的。我把这个算法分解成三个部分,便于理解:
Back Projection计算。
Mean Shift算法
CamShift算法
1) 、Back Projection计算
计算Back Projection的步骤是这样的:
1~. 计算被跟踪目标的色彩直方图。在各种色彩空间中,只有HSI空间(或与HSI类似的色彩空间)中的H分量可以表示颜色信息。所以在具体的计算过程中,首先将其他的色彩空间的值转化到HSI空间,然后会其中的H分量做1D直方图计算。
2.~ 根据获得的色彩直方图将原始图像转化成色彩概率分布图像,这个过程就被称作"Back Projection"。
在OpenCV中的直方图函数中,包含Back Projection的函数,函数原型是:
void cvCalcBackProject(IplImage** img, CvArr** backproject, const CvHistogram* hist);
传递给这个函数的参数有三个:
1_. IplImage** img:存放原始图像,输入。
2_. CvArr** backproject:存放Back Projection结果,输出。
3_. CvHistogram* hist:存放直方图,输入
实现:
1.准备一张只包含被跟踪目标的图片,将色彩空间转化到HSI空间,获得其中的H分量
2.计算H分量的直方图,即1D直方图
3.计算Back Projection:
2) Mean Shift算法
这里来到了CamShift算法,OpenCV实现的第二部分,这一次重点讨论Mean Shift算法。
在讨论Mean Shift算法之前,首先讨论在2D概率分布图像中,如何计算某个区域的重心(Mass Center)的问题
讨论Mean Shift算法的具体步骤,Mean Shift算法可以分为以下4步:
1~.选择窗的大小和初始位置.
2~.计算此时窗口内的Mass Center.
3~.调整窗口的中心到Mass Center.
4~.重复2和3,直到窗口中心"会聚",即每次窗口移动的距离小于一定的阈值。
3) CamShift算法
1.原理
在了解了MeanShift算法以后,我们将MeanShift算法扩展到连续图像序列(一般都是指视频图像序列),这样就形成了CamShift算法。CamShift算法的全称是"Continuously Apaptive Mean-SHIFT",它的基本思想是视频图像的所有帧作MeanShift运算,并将上一帧的结果(即Search Window的中心和大小)作为下一帧MeanShift算法的Search Window的初始值,如此迭代下去,就可以实现对目标的跟踪。整个算法的具体步骤分5步:
Step 1:将整个图像设为搜寻区域。
Step 2:初始话Search Window的大小和位置。
Step 3:计算Search Window内的彩色概率分布,此区域的大小比Search Window要稍微大一点。
Step 4:运行MeanShift。获得Search Window新的位置和大小。
Step 5:在下一帧视频图像中,用Step 3获得的值初始化Search Window的位置和大小。跳转到Step 3继续运行。
(6)相关系数的应用
用来进行识别的!!!
二、算法实现过程详解
(1)首先先建立一个images文件夹,在其中放置一些头像的照片。之后我们在程序中用 _finddata_t file;对文件名进行了加载,为后续的识别过程做好前提。同时建立一个矢量的图像存储单元vector<IplImage*> faces;为后来的识别对比做好准备。
(2)建立了一个级联分类器变量对 CascadeClassifier cascade, nestedCascade; 利用进行人脸的检测以及人眼的检测
String cascadeName = "haarcascades/haarcascade_frontalface_alt.xml"; //使用的预先训练好的检测器人前脸检测 String nestedCascadeName = "haarcascades/haarcascade_eye_tree_eyeglasses.xml"; //预先训练好的眼睛和眼睛框检测
在image还是新的图像时,我们进行一些列的初始化。并且对图像进行直方图的提取,其中hdims表示提取后的所保留的几个阶段,而hranges是所有的值得缩放比例
if( !image ) //如果此时的image 还是新的图时 { image = cvCreateImage( cvGetSize(frame), 8, 3 ); image->origin = frame->origin; hsv = cvCreateImage( cvGetSize(frame), 8, 3 ); hue = cvCreateImage( cvGetSize(frame), 8, 1 ); mask = cvCreateImage( cvGetSize(frame), 8, 1 ); backproject = cvCreateImage( cvGetSize(frame), 8, 1 ); hist = cvCreateHist( 1, &hdims, CV_HIST_ARRAY, &hranges, 1 ); //float hranges_arr[] = {0,180}; float* hranges = hranges_arr; //int hdims = 16; //构建直方图 histimg = cvCreateImage( cvSize(320,200), 8, 3 ); //后序的直方图的显示表示图 cvZero( histimg ); }
CvRect result; //可将其转化为感兴趣的区域,即人脸区域的方框 result = detectAndDraw( frameCopy, cascade, nestedCascade, scale ); //frameCopy IMAGE TO MAT //cascade and nestedCascade are CascadeClassifier // double scale = 1;
detectAndDraw代码的注释已经很详细就不多解释了:
CvRect detectAndDraw( Mat& img, CascadeClassifier& cascade, CascadeClassifier& nestedCascade, double scale) { int i = 0; double t = 0; //用来记录检测出人脸所用的时间 vector<Rect> faces; //存储检测到的人脸所在矩形区域 CvRect result; result.x = 0; result.y = 0; result.width = 0; result.height = 0; const static Scalar colors[] = { CV_RGB(0,0,255), CV_RGB(0,128,255), CV_RGB(0,255,255), CV_RGB(0,255,0), CV_RGB(255,128,0), CV_RGB(255,255,0), CV_RGB(255,0,0), CV_RGB(255,0,255)} ; //画圆圈的颜色 //define two mat Mat gray, smallImg( cvRound (img.rows/scale), cvRound(img.cols/scale), CV_8UC1 ); //图形矩阵进行缩放 cvtColor( img, gray, CV_BGR2GRAY ); resize( gray, smallImg, smallImg.size(), 0, 0, INTER_LINEAR ); //INTER_LINEAR - 双线性插值 (缺省使用) equalizeHist( smallImg, smallImg ); //直方图均衡化 //cvShowImage("eg", imgBuf); t = (double)cvGetTickCount(); //欲测量的算法耗时 cascade.detectMultiScale( smallImg, faces, //faces 得到被检测物体的矩形框向量组 1.1, 2, 0 //为每一个图像尺度中的尺度参数,默认值为1.1 //为每一个级联矩形应该保留的邻近个数 |CV_HAAR_SCALE_IMAGE //转换后的区域寻找人脸 , Size(30, 30) ); //.minSize和maxSize用来限制得到的目标区域的范围 for( vector<Rect>::const_iterator r = faces.begin(); r != faces.end(); r++, i++ ) { //每一个检测到的区域进行检测 Mat smallImgROI; //另一个小的感兴趣的位置 vector<Rect> nestedObjects; Point center; //中心点 Scalar color = colors[i%8]; int radius; center.x = cvRound((r->x + r->width*0.5)*scale); // double scale = 1; 未进行变换 center.y = cvRound((r->y + r->height*0.5)*scale); //分别检测到的中心处的坐标 radius = cvRound((r->width + r->height)*0.25*scale); //圆的半径 result.x = center.x-radius; //其实就是我们要的那个中心为center,半径为radius的框 result.y = center.y-radius; result.width = 2*radius; result.height = 2*radius; //ellipse( img, center, Size((int)(faces[i].width*0.5), (int)(faces[i].height*0.5)), 0, 0, 360, cvScalar(255, 0, 255), 2, 8, 0); return result; } return result; }对检测的结果即为人脸图,利用一下进行了提取selection.x = MAX(result.x,0); selection.y = MAX(result.y,0); selection.width = MIN(result.width,image->width-result.x); //即从提取的图片中的左上角开始,一直到整幅图像的右下角 selection.height = MIN(result.height,image->height-result.y); cvSetImageROI(image,selection); //在图像选定感兴趣的区域 face = cvCreateImage( cvGetSize(image), 8, 3 ); face->origin = image->origin; cvCopy(image,face); //现在的face即为那个左上到全部右下 cvResetImageROI(image);
并且我们对选定的范围进行了减小,这样为后序的人眼检测提供方便:int w = selection.width/3; int h = selection.height/3; selection.x = selection.x+selection.width/2-w/2; selection.y = selection.y+selection.height/2-h/2; selection.width = w; //即为此处的做顶点向前和向上推进了1/3 selection.height = h; cascade.load( nestedCascadeName ); //寻找人眼 result = detectAndDraw( frameCopy, cascade, nestedCascade, scale ); cascade.load( cascadeName ); //此时result为人眼的区域 if(!(result.x==0 && result.y==0 && result.width==0 && result.height==0)) { selection.x = MAX(result.x,0); selection.y = MAX(result.y,0); selection.width = MIN(result.width,image->width-result.x); selection.height = MIN(result.height,image->height-result.y); }检测完后,重要的连锁:lose = 0; track_object=-1;
(5)检测完后,我们通过对比我们图像库中的图像进行了识别的过程,我们通过的方法利用相关系数进行了识别的过程。将提取的感兴趣的图像和模板图像进行了直方图均衡化,之后我们对两幅图计算了相关系数的值
IplImage* face_resize = cvCreateImage( cvGetSize(faces.at(i)), 8, 3 ); cvResize(face,face_resize); //视频读取的和文件读取的后者为文件读取的 IplImage* src = cvCreateImage( cvGetSize(face_resize),face_resize->depth,1); //cvShowImage( "eg", face ); //face为人脸的标出,通过HAAR检测器,检测出,而face_at(i)为读取的文件中的图 IplImage* temp = cvCreateImage( cvGetSize(faces.at(i)),faces.at(i)->depth,1); cvCvtColor(face_resize,src,CV_RGB2GRAY); //cvShowImage( "eg", backproject ); cvCvtColor(faces.at(i),temp,CV_RGB2GRAY); cvEqualizeHist(src,src); cvEqualizeHist(temp,temp); //直方图均衡化 //cvShowImage( "eg", src ); double p1=0,p2=0; int pn=0; for(int y=0;y<src->height;y++) { uchar* ptr1=(uchar*)(src->imageData+y*src->widthStep); uchar* ptr2=(uchar*)(temp->imageData+y*temp->widthStep); for(int x=0;x<src->width;x++) { pn++; p1+=double(ptr1[x])/255; //对齐进行先放缩到0-1,在都进行求和,全部的点 p2+=double(ptr2[x])/255; } } p1/=pn; p2/=pn; //全部点的值得平均值 double a=0,b1=0,b2=0; for(int y=0;y<src->height;y++) { uchar* ptr1=(uchar*)(src->imageData+y*src->widthStep); uchar* ptr2=(uchar*)(temp->imageData+y*temp->widthStep); for(int x=0;x<src->width;x++) { double n1=double(ptr1[x])/255-p1; //缩放后的值与平均值相比的大小 double n2=double(ptr2[x])/255-p2; a+=n1*n2; b1+=n1*n1; b2+=n2*n2; } } double rec=a/pow(double(b1*b2),double(0.5)); //计算相关系数 //计算(b1*b2)^(1/2)然后找出相关系数最高的那个,并且最高的大于0.4的话face_no = val_no;是第几幅图最大的匹配,如果小于0.4 则认为是陌生人输出“Stranger”,否则输出图像库的名称。if(max_val > 0.4) //如果自相关性没有达到那么高 face_no = val_no; if(face_no != face_pre) // { if(face_no == -1) //如果自相关性不高 opt = "Stranger"; else opt = names.at(face_no).substr(7,names.at(face_no).size()-11); cout<<opt<<endl; }(6)人脸跟踪,应为这是track_object = -1,(我们不进行操作的情况下)在跟踪过程中,我们进行对提取的一帧图进行了直方图的提取,并且进行了归一化的处理,应为此时已经找到了感兴趣的区域,在此时我们对感兴趣的区域进行了跟踪。cvSetImageROI( hue, selection ); //在hsv单通道的图像中找到自己所感兴趣的区域 cvSetImageROI( mask, selection );
我们对每一个直方图柱进行了颜色分配和矩形表示for( i = 0; i < hdims; i++ ) //共有hdims个直方图的图驻 { //cout << cvGetReal1D(hist->bins,i) << endl; int val = cvRound( cvGetReal1D(hist->bins,i)*histimg->height/255 ); CvScalar color = hsv2rgb(i*180.f/hdims); //convertto RGB to display the hist cvRectangle( histimg, cvPoint(i*bin_w,histimg->height), cvPoint((i+1)*bin_w,histimg->height - val), color, -1, 8, 0 ); //plot a rectangle(矩形) //将统计的直方图柱画为矩形小块 }进入了cvCamShift,首先进行了反向投影,并且与将反向投影的图与我们开始HAAR检测出的感兴趣的selection进行了与运算,之后进行了跟踪,并且用椭圆进行了跟踪。cvCalcBackProject( &hue, backproject, hist ); //方向投影,将图像投影到16个柱的统计数目的图 //cvShowImage( "eg", backproject ); cvAnd( backproject, mask, backproject, 0 ); //进行位与运算 //cvShowImage( "eg", backproject ); cvCamShift( backproject, track_window, //backproject 代表可能位置的密度 //在框中寻找中心 cvTermCriteria( CV_TERMCRIT_EPS | CV_TERMCRIT_ITER, 10, 1 ), // use mean-shift to track the project &track_comp, &track_box ); //track_box由上一图的box包含的二阶矩计算出来的尺寸 ??为什么现在只是检测出了头 track_window = track_comp.rect; //现在找到的感兴趣的区域作为下一幅图的窗口 if( backproject_mode ) cvCvtColor( backproject, image, CV_GRAY2BGR ); //将方向投影图转化回RGB if( !image->origin ) // track_box.angle = -track_box.angle; //跟踪盒子和那个视频的矩的一个反向偏差 cvEllipseBox( image, track_box, CV_RGB(255,0,0), 3, CV_AA, 0 ); //draw 椭圆 // cvCamShift and cvFitEllipse do lose++; if(lose>=50) track_object=0; //50个一个循环后三个参数可以看出,我们是跟踪50帧的图像,然后在进行一次检测!