原文地址:http://blog.csdn.net/ariesjzj/article/details/8639208
物体检测方法大体可分为两类,基于知识的方法和基于统计的方法。前者如template matching, surf/sift detector等等。这些方法都基于我们对于识别目标已有比较清晰的刻画。虽然有些特征能抗一定的形变,但总体泛化性不够强。如果检测目标比较固定且对时间要求不高,可以考虑用这类方法。但有些应用是没法提供模板的,或者说模板太多(一一匹配的话检测时间无法接受),又或者说我们需要容忍更大程度或更多样的形变(如人脸,行人等)。这时候就要考虑用基于统计的方法了。既然是基于统计,就得有大量的样本,分类器对这些样本进行学习来获得参数。得到目标分类器后,要进行检测时就很快了。OpenCV中带的Haar特征级联分类器就是这样一种方法,它位于app目录下,该目录下有两个实现,一个是老的实现haartraining,只支持Haar特征。另一个是新的traincascade,支持更多特征(LBP,HOG)和boosted分类器,更易于扩展。除此之外OpenCV的data目录下有很多训练好的级联分类器(如人脸,眼睛检测等),load进来就可以用,无需训练。官方例程中的objectdetection,facedetect等例子就是直接用了这些训练好的分类器,如自带的face detection程序:
当然了,作为有理想有抱负的码农,用现成的分类器是不会满足的。现实使用中我们经常需要训练针对各种应用的分类器。下面介绍如何训练一个自己的级联分类器。整个过程大致可分为以下几步(基于OpenCV 2.4.4):
1. 收集数据
数据可分为正样本和负样本。正样本即要检测的目标,负样本则不包含目标。
首先我们要生成正负样本的索引(或称描述文件)。正样本描述文件官方文档中给了例子:
img/img1.jpg 1 140 100 45 45
img/img2.jpg 2 100 200 50 50 50 30 25 25
依次为文件名,目标个数,目标坐标。既然是基于统计的方法,样本自然要求很多(一般以千为单位),因此很多时候这一步是劳力活。当然,勤劳勇敢的码农们写了各种工具来解放生产力。这些描述文件可以人肉生成,也可用object marker(http://inflomatik.com/)来圈,然后自动生成。除此之外还有些其它工具:
http://code.google.com/p/opencv-haar-cascade-positive-image-builder/
http://code.google.com/p/imageclipper/
http://code.google.com/p/ml-object-marker/source/checkout
ffmpeg -i 可以将视频分解为图片
另外后面会讲到的createsamples工具还可以自动生成正样本。
负样本没这么麻烦了,描述文件只要包含文件路径即可,Windows中可以用dir /s /b生成,Linux下用find命令。
2. 创建vec文件
createsamples 工具可用于从正负样本描述文件生成训练程序需要的vec文件。如根据样本描述文件samples.txt生成samples.vec:
opencv_createsamples.exe -info samples.txt -vec samples.vec -w 20 -h 20
它还包含一个功能,通过distortion自动生成样本。如根据template.png和负样本描述文件negative.txt生成3000个样本。
opencv_createsamples.exe -img template.png -vec -num 3000 -bg negative.txt -vec samples.vec -w 20 -h 20
还有种很尴尬的情况,就是既没空圈那么多的正样本,又想检测多种目标,咋办?因为上面提到的通过distortion来自动生成样本的方法不支持多个目标。一种方法是先根据多个目标生成多个vec文件,再用mergevec(http://note.sonots.com/SciSoftware/haartraining/mergevec.cpp.html)这个工具合并vec文件。mergevec用最新的OpenCV编译不了,如果你和我一样懒不想移植的话就下个OpenCV 1.0(就下可执行文件包,3M多那个),把那坨dll放到PATH里,然后下mergevec.exe就可以跑了。如根据template1.png ~ template3.png分别生成三个vec文件:
opencv_createsamples.exe -img template1.png -num 1000 -bg negative -vec sample1.vec -w 20 -h 20
opencv_createsamples.exe -img template2.png -num 1000 -bg negative -vec sample2.vec -w 20 -h 20
opencv_createsamples.exe -img template3.png -num 1000 -bg negative -vec sample3.vec -w 20 -h 20
接着写vec的索引文件sample.txt:
sample1.vec
sample2.vec
sample3.vec
然后就可以生成最终的samples.vec文件了:
mergevec.exe sample.txt samples.vec -w 20 -h 20
另外,如果你的应用比较general,如从自然背景中找特定目标,网上有现成的负样本数据集:
svn checkout http://tutorial-haartraining.googlecode.com/svn/trunk/ tutorial-haartraining-read-only
3. 训练分类器
很多地方还是用haartraining,官方手册中建议用新的traincascade。用法上参数什么的都差不多,不过还是有差别。
根据刚才生成的样本描述文件进行训练,结果放在classifier目录里:
opencv_traincascade.exe -data classifier -vec samples.vec -bg negative.txt -numStages 25 -w 20 -h 20
其余有一坨参数,诸如maxFalseAlarmRate,minHitRate等想设就设下,不过默认的值大多数情况都是挺好的选择。
-featureType指定特征类型,默认为类Haar特征,还可以指定为LBP或HOG。基于Haar的级联分类器训练时间一般很长(以天为单位)。LBP,HOG则快得多。
注意这毕竟不是产品,很多时候参数一给不好就挂掉了。当然直接挂掉是最好的情况,最惨的是跑到中间hung住了,都不知道是因为hung住了还是因为训练时间长。。。
注:无论是haartraining还是traincascade,最终都会生成表示成xml文件的分类器。但如果你用的是haartraining并且想用中间Stage生成的分类器,可以用convert_cascade将中间结果整成xml文件。
4. 测试&验证
performance.exe可以对于给定的测试用例给出检测率报告。注意只对opencv_haartraining的结果适用。如果要写报告给数据这个很有用。不过这里先不整这么抽象的东西,先写个程序直观地看看检测效果如何。官方例程中的objectdetection是从摄像头抓帧进行检测。这里我们略微修改下从文件读取图片然后检测目标。其中关键函数为:
void CascadeClassifier::detectMultiScale(const Mat& image, vector
其中的参数对于检测结果会有较大影响,如:
minNeighbors:其实分类器给出的结果是很多个矩形,那些被多个矩阵覆盖的区域被保留,而那些个孤立的矩阵被抛弃。这个参数决定了保留还是抛弃的阈值。(http://www.cognotics.com/opencv/servo_2007_series/part_2/page_2.html)。
minSize :检测目标size的阀值,小于它的不会被检测出来。
这里拿”愤怒的小鸟“作个简单的例子,因为每个关卡中笼子里的鸟虽不完全相同,但都类似。这里以一关中笼子中的鸟为训练正样本,让其学习并检测其它关卡中哪些是笼中鸟。
在一些case中还是有不少false alarm的。直观上可能会觉得这种动画图片的检测会更容易,但动画图片由于背景形状规则,色块均匀,作为负样本并不好,所以负样本尽可能还是要取得变化丰富些。
一些案例和参考资料:
Tutorial: OpenCV haartraining (Rapid Object Detection With A Cascade of Boosted Classifiers Based on Haar-like Features) http://note.sonots.com/SciSoftware/haartraining.html