版权声明:作者:迷雾forest(请随意转载,若顾及到博主打字耗费的卡路里,请添加博主小名,权当娱乐)
曾经,纠结过haartraining中条件宏ICV_DEF_FIND_STUMP_THRESHOLD_SQ的使用,主要对它的代码结构和内容不解,针对这个条件宏,自己专门看了GentleAdaboost的papers,才得以彻底理解代码含义,我想也有童鞋同样对这段代码比较困惑,所以写下这篇博客,与大家分享。代码如下所示:
/* least sum of squares error */
#define ICV_DEF_FIND_STUMP_THRESHOLD_SQ( suffix, type ) \
ICV_DEF_FIND_STUMP_THRESHOLD( sq_##suffix, type, \
/* calculate error (sum of squares) */ \
/* err = sum( w * (y - left(rigt)Val)^2 ) */ \
curlerror = wyyl + curleft * curleft * wl - 2.0F * curleft * wyl; \
currerror = (*sumwyy) - wyyl + curright * curright * wr - 2.0F * curright * wyr; \
)
(转载请注明:http://blog.csdn.NET/wsj998689aa/article/details/42242565)
对于这段代码,最好的方式应该事先了解背后的原理,这段代码可以说是专门为Gentle Adaboost服务,Gentle Adaboost是四大Adaboost之一,有兴趣的童鞋可以去谷歌学术上看看相关文章,我这里只给出该段代码的文字算法流程,大家对照着文字看代码,就能得到更清晰的理解。
里面的集中度也就是置信度的意思,ICV_DEF_FIND_STUMP_THRESHOLD定义如下(我根据上面的流程,对代码进行了注释):
#define ICV_DEF_FIND_STUMP_THRESHOLD( suffix, type, error ) \
CV_BOOST_IMPL int icvFindStumpThreshold_##suffix( \
uchar* data, size_t datastep, // 样本HAAR特征值 \
uchar* wdata, size_t wstep, // 样本权值 \
uchar* ydata, size_t ystep, // 样本类别 \
uchar* idxdata, size_t idxstep, int num, // 实际样本序列 \
float* lerror, //阈值左侧错误率 \
float* rerror, //阈值右侧错误率 \
float* threshold, float* left, float* right, // 阈值和左右置信度 \
float* sumw, float* sumwy, float* sumwyy ) // 这个不用解释了 \
{ \
int found = 0; \
float wyl = 0.0F; \
float wl = 0.0F; // 阈值左侧权值和 \
float wyyl = 0.0F; \
float wyr = 0.0F; \
float wr = 0.0F; // 阈值右侧权值和
\
\
float curleft = 0.0F; // 左分支置信度 \
float curright = 0.0F; // 右分支置信度
\
float* prevval = NULL; // 中间值,调试用 \
float* curval = NULL; \
float curlerror = 0.0F; // 阈值左侧错误率 \
float currerror = 0.0F; // 阈值右侧错误率
\
float wposl; \
float wposr; \
\
int i = 0; \
int idx = 0; \
\
wposl = wposr = 0.0F; \
if( *sumw == FLT_MAX ) \
{ \
/* calculate sums */ \
float *y = NULL; \
float *w = NULL; \
float wy = 0.0F; \
\
*sumw = 0.0F; \
*sumwy = 0.0F; \
*sumwyy = 0.0F; \
for( i = 0; i < num; i++ ) \
{ \
idx = (int) ( *((type*) (idxdata + i*idxstep)) ); \
w = (float*) (wdata + idx * wstep); \
*sumw += *w; \
y = (float*) (ydata + idx * ystep); \
wy = (*w) * (*y); \
*sumwy += wy; \
*sumwyy += wy * (*y); \
} \
} \
// 遍历当前特征值序列的每个元素(阈值),判断是否存在最优阈值 \
for( i = 0; i < num; i++ ) \
{ \
idx = (int) ( *((type*) (idxdata + i*idxstep)) ); \
curval = (float*) (data + idx * datastep); \
/* for debug purpose */ \
if( i > 0 ) assert( (*prevval) <= (*curval) ); \
\
wyr = *sumwy - wyl; \
wr = *sumw - wl; \
// 计算置信度,也就是集中度 \
if( wl > 0.0 ) curleft = wyl / wl; \
else curleft = 0.0F; \
\
if( wr > 0.0 ) curright = wyr / wr; \
else curright = 0.0F; \
// 此处为插入代码段,计算阈值左右error(curlerror, currerror)
error \
// 判断当前curval,found为1代表找到最优阈值,意味着当前弱分类器最优
if( curlerror + currerror < (*lerror) + (*rerror) ) \
{ \
(*lerror) = curlerror; \
(*rerror) = currerror; \
*threshold = *curval; \
if( i > 0 ) { \
*threshold = 0.5F * (*threshold + *prevval); \
} \
*left = curleft; \
*right = curright; \
found = 1; \
} \
// 计算值curval左侧的wl,wyl,wyyl
do \
{ \
wl += *((float*) (wdata + idx * wstep)); \
wyl += (*((float*) (wdata + idx * wstep))) \
* (*((float*) (ydata + idx * ystep))); \
wyyl += *((float*) (wdata + idx * wstep)) \
* (*((float*) (ydata + idx * ystep))) \
* (*((float*) (ydata + idx * ystep))); \
} \
while( (++i) < num && \
( *((float*) (data + (idx = \
(int) ( *((type*) (idxdata + i*idxstep))) ) * datastep)) \
== *curval ) ); \
--i; \
prevval = curval; \
} /* for each value */ \
\
return found; \
}
当时觉得很奇怪,内部条件宏ICV_DEF_FIND_STUMP_THRESHOLD括号内明明只有 suffix, type, error 三个参数,怎么调用传递的时候
ICV_DEF_FIND_STUMP_THRESHOLD( sq_##suffix, type, \
/* calculate error (sum of squares) */ \
/* err = sum( w * (y - left(rigt)Val)^2 ) */ \
curlerror = wyyl + curleft * curleft * wl - 2.0F * curleft * wyl; \
currerror = (*sumwyy) - wyyl + curright * curright * wr - 2.0F * curright * wyr; \
里面却是上面这个样子,前面两个参数,外加两句代码行?
后来弄明白了,我们注意看ICV_DEF_FIND_STUMP_THRESHOLD中的error的相关使用就知道了,在ICV_DEF_FIND_STUMP_THRESHOLD中间,孤零零的一句代码
\
error \
\
原来error不能说的上是条件宏的一个参数,他就是一个代码段,调用的时候,相当于直接把代码段粘贴到上面的位置!
为啥要这么用呢,原因就是error代表的代码段,复用率十分高,所以索性直接写成这样的形式,对于函数之间很像的时候,这样做是一个不错的选择,我们遇到这种情况,一般是新创建一个函数,代码可能没有条件宏的方式美观。看来OpenCV还是很给力的。
类似的宏还有:
ICV_DEF_FIND_STUMP_THRESHOLD_MISC( 16s, short )
ICV_DEF_FIND_STUMP_THRESHOLD_MISC( 32s, int )
ICV_DEF_FIND_STUMP_THRESHOLD_MISC( 32f, float )
ICV_DEF_FIND_STUMP_THRESHOLD_GINI( 16s, short )
ICV_DEF_FIND_STUMP_THRESHOLD_GINI( 32s, int )
ICV_DEF_FIND_STUMP_THRESHOLD_GINI( 32f, float )
ICV_DEF_FIND_STUMP_THRESHOLD_ENTROPY( 16s, short )
ICV_DEF_FIND_STUMP_THRESHOLD_ENTROPY( 32s, int )
ICV_DEF_FIND_STUMP_THRESHOLD_ENTROPY( 32f, float )
此外,sq_##suffix起到了连接字符串的功能,如果suffix是16s,那么sq_##suffix实际上就是sq_16s,再然后,直接指向相关函数。