zhaocj

Opencv2.4.9源码分析——Boosting

一、原理

AdaBoost（Adaptive Boosting，自适应提升）算法是由来自AT&T实验室的Freund和Schapire于1995年首次提出，该算法解决了早期Boosting算法的一些实际执行难题，而且该算法可以作为一种从一系列弱分类器中产生一个强分类器的通用方法。正由于AdaBoost算法的优异性能，Freund和Schapire因此获得了2003年度的哥德尔奖（Gödel Prize，该奖是在理论计算机科学领域中最负盛名的奖项之一）。

假设我们有一个集合{(x₁, y₁),(x₂, y₂), …, (x_N,y_N)}，每一个数据项x_i是一个表示事物特征的矢量，y_i是一个与其相对应的分类y_i∈{-1, 1}，即x_i要么属于-1，要么属于1。AdaBoost算法通过M次迭代得到了一个弱分类器集合{k₁, k₂,…, k_M}，对于每一个数据项x_i来说，每个弱分类器都会给出一个分类结果来，即k_m(x_i)∈{-1, 1}。这M个弱分类器通过某种线性组合（式1所示）就得到了一个强分类器C_m，这样我们就可以通过C_m来判断一个新的数据项x_k是属于-1，还是1。这就是一个训练的过程。

在进行了第m-1次迭代后，我们可以把这m-1个弱分类器进行线性组合，所得到的强分类器为：

（1）

式中，α为k的权值，并且m > 1。当进行第m次迭代时，AdaBoost就通过增加一个弱分类器的方式扩展成另一个的强分类器：

（2）

只有使C_m的分类结果强于C_m_-1，算法迭代才有意义。那么如何能够使C_m的性能优于C_m_-1呢？这就由增加的那个第m个弱分类器k_m及其它的权值α_m来决定。我们用所有数据项x_i的指数损失的总和来定义C_m的误差E，从而判断k_m和α_m是否为最优，即：

（3）

令，w_i^(m)表示在第m-1次迭代后，对训练数据项x_i所分配的权重，而在第1次迭代时，所使用的权重为1，即w_i⁽¹⁾ = 1。那么，上式可以重写为：

（4）

我们可以把上式拆分成两项：

（5）

式中，y_i=k_m(x_i)的意思是对x_i来说，第m次迭代得到的弱分类器k_m的分类结果与其实际的分类y相同，要么都等于-1，要么都等于1，即分类正确，所以它们的乘积一定等于1，即y_i k_m(x_i)= 1；而y_i≠k_m(x_i)的意思是对x_i来说，第m次迭代得到的弱分类器k_m的分类结果与其实际的分类y不相同，其中一个如果等于-1，那么另一个一定等于1，即分类错误，所以它们的乘积一定等于-1，即y_i k_m(x_i)= -1。所以式5中的前一项表示的是对所有y等于k_m的那些数据项x_i的误差求和；而第二项表示的是对所有y不等于k_m的那些数据项x_i的误差求和。我们又可以把式5写出如下形式：

（6）

从上式我们可以看出，如果α_m一定的话，强分类器C_m的误差大小完全取决于第二项中的的大小，也就是取决于该次迭代中被分类错误的那些权值的大小。

为了使误差E最小，我们需要对式5进行求导：

（7）

令上式等于0，则权值α_m为：

（8）

令表示误差率，其值为：

（9）

则式8为：

（10）

经过以上分析，我们导出了AdaBoost算法：在每次迭代中，我们选择使为最小的分类器k_m，并得到误差率（式9），应用该误差率我们又得到了权值α_m（式10），则最终强分类器就由C_m_-1提升为C_m= C_m_-1 + α_mk_m。而在每次迭代后，得到的每个训练样本数据的权值w_i^(m+1)为：

（11）

需要说明的是，权值仍然可以按照前面介绍的方法计算，但式11更简单，在应用迭代时效率更高。

基于以上的分析，我们给出AdaBoost的计算步骤：

1、设有n个样本x₁, …, x_n，它们所希望得到的输出（即分类）为y₁, …, y_n，y∈{-1, 1}；

2、初始化每个样本的权值，它们都为；

3、进行迭代：m = 1, …, M

①找到使误差率最小的弱分类器k_m(x)，并得到（式9）；

②计算k_m(x)的权值α_m（式10）；

③得到新的强分类器C_m(x)（式2）；

④更新每个样本的权值w_i^(m+1)（式11）；

⑤对权值w_i^(m+1)进行归一化处理，使∑_iw_i^(m+1)= 1；

4、得到最终的强分类器

（12）

从式12可以看出，强分类器是由权值α_m和弱分类器k_m(x)决定的。权值α_m由式10计算得到，而弱分类器可以用上一篇文章介绍的决策树的方法得到，那种最简单的、每个中间节点只能被分叉为左、右两个分支（stumps）的决策树就足以完成对弱分类器的设计。也就是说，每一个弱分类器就是一个决策树，而该决策树是由加权后的样本构建而成，由于每次迭代的权值w_i^(m)不同，所以每次迭代所构建的决策树也是不同的。当要应用AdaBoost预测样本x时，只要把该样本带入不同的决策树（即弱分类器）进行预测即可，预测的结果就是k_m(x)，然后应用式12把不同的决策树的预测结果进行加权和，最后判断其符号。OpenCV就是采用的这种方法。当用决策树的形式的时候，权值α_m的计算公式为：

（13）

而每个训练样本数据的权值w_i^(m+1)则为：

（14）

AdaBoost算法可分为DiscreteAdaboost，Real AdaBoost，LogitBoost和Gentle AdaBoost。前面我们给出的是Discrete Adaboost算法的原理和计算步骤。虽然这四种算法的基本结构相似的，但彼此之间还是有一些差异。Discrete AdaBoost的每个弱分类的输出结果是1或-1，在组成强分类器的过程中，这种离散形式的弱分类器就略显粗糙。而Real Adaboost的每个弱分类器输出是该样本属于某一类的概率，即弱分类器k_m是通过一个对数函数将0-1的概率值映射到实数域，sign(k_m)给出的是一个分类，而|k_m|给出的就是一个置信度的度量。Real Adaboost的迭代过程为：

①基于每个样本的权值w_i^(m)，拟合一个分类概率估计p_m(x)=P(y=1|x)∈[0,1]，它表示样本属于分类结果为1的概率；

②得到该次迭代的弱分类器k_m(x)：

（15）

③更新权值w_i^(m+1)：

（16）

④归一化权值使∑_iw_i^(m+1)= 1。

则最终的强分类器C为：

（17）

LogitBoost算法是逻辑回归技术在AdaBoost的应用，弱分类器的选取并不是基于分类结果y_i，而是基于加权最小二乘法。设迭代之前强分类器C₀(x) = 0，每个训练样本数据的概率估计p₀(x_i) = 0.5，则LogitBoost算法的迭代过程为：

①计算工作响应z_i^(m)：

（18）

式中

（19）

②计算权值w_i^(m)：

（20）

③应用权值w_i^(m)，基于从z_i^(m)到x_i的加权最小二乘法回归方法，拟合弱分类器k_m(x)；

④更新p_m(x_i)：

（21）

⑤更新强分类器

（22）

最终的强分类器为式17。

Gentle AdaBoost算法与LogitBoost算法相似，但参数的选择上更简单。弱分类器k_m(x)是由基于权值w_i^(m)的从y_i到x_i的加权最小二乘法的回归拟合得到。每次迭代得到强分类器C_m(x)和权值分别w_i^(m+1)为：

（23）

（24）

这里的权值仍然需要进行归一化处理。强分类器仍然为式17。

OpenCV实现了上述四种类型的AdaBoost，并且弱分类器都是采用CART决策树的方法，其中DiscreteAdaboost和Real AdaBoost应用的是分类树，因为它们的分类结果是类的形式，而LogitBoost和Gentle AdaBoost应用的是回归树，因为它们的分类结果是数值的形式。

二、源码分析

下面我们就给出OpenCV的源码分析。

我们先看构建Boosting的参数：

CvBoostParams::CvBoostParams()
{
    boost_type = CvBoost::REAL;
    weak_count = 100;
    weight_trim_rate = 0.95;
    cv_folds = 0;
    max_depth = 1;
}

CvBoostParams::CvBoostParams( int _boost_type, int _weak_count,
                                        double _weight_trim_rate, int _max_depth,
                                        bool _use_surrogates, const float* _priors )
{
    boost_type = _boost_type;
    weak_count = _weak_count;
    weight_trim_rate = _weight_trim_rate;
    split_criteria = CvBoost::DEFAULT;    //分叉准则，即用什么方法计算决策树节点的纯度
/*****************************
CvBoost::DEFAULT为特定的Boosting算法选择默认系数
CvBoost::GINI使用基尼指数，这是Real AdaBoost的默认方法，也可以被用于Discrete Adaboost
CvBoost::MISCLASS使用错误分类率，这是Discrete Adaboost的默认方法，也可以被用于Real AdaBoost
CvBoost::SQERR使用最小二乘准则，这是LogitBoost和Gentle AdaBoost的默认及唯一方法
******************************/
    cv_folds = 0;    //表示构建决策树时，不执行剪枝操作
    max_depth = _max_depth;
    use_surrogates = _use_surrogates;
    priors = _priors;
}

其中参数的含义为：

boost_type表示Boosting算法的类型，可以是CvBoost::DISCRETE、CvBoost::REAL、CvBoost::LOGIT或CvBoost::GENTLE这4类中的任意一个，OpenCV推荐使用GentleAdaBoost或Real AdaBoost算法

_weak_count表示弱分类器的数量，即迭代的次数

_weight_trim_rate表示裁剪率，在0～1之间，默认值为0.95，在迭代过程中，那些归一化后的样本权值w_i^(m)小于该裁剪率的样本将不进入下次迭代

_max_depth表示构建决策树的最大深度

_use_surrogates表示在构建决策树时，是否使用替代分叉属性

_priors表示样本的先验概率

CvBoost类的两个构造函数：
CvBoost::CvBoost( const Mat& _train_data, int _tflag,
               const Mat& _responses, const Mat& _var_idx,
               const Mat& _sample_idx, const Mat& _var_type,
               const Mat& _missing_mask,
               CvBoostParams _params )
//_train_data训练的样本数据
//_tflag训练数据的特征属性类型，如果为CV_ROW_SAMPLE，表示样本是以行的形式储存的，即_train_data矩阵的每一行为一个样本（或特征矢量）；如果为CV_COL_SAMPLE，表示样本是以列的形式储存的
//_responses分类的结果，即分类的响应值
//_var_idx标识感兴趣的特征属性，即真正用于训练的那些特征属性，该值的形式与_sample_idx变量相似
//_sample_idx标识感兴趣的样本，即真正用于训练的样本，该值必须是一维矩阵的形式，即矢量的形式，并且类型必须是8UC1、8SU1或者32SC1。如果为8UC1或8SU1，则该值的含义是用掩码的形式表示对应的样本，即0表示不感兴趣的样本，其他数为感兴趣的样本，因此矢量的元素数量必须与训练样本数据_train_data的样本数一致；如果为32SC1，则该值的含义是那些感兴趣的样本的索引，而不感兴趣的样本的索引不在该矢量中出现，因此该矢量的元素数量可以小于或等于_train_data的样本数
//_var_type特征属性的形式，是类的形式还是数值的形式，用掩码的形式表现对应特征属性的形式，0表示为数值的形式，1表示为类的形式。该值必须是一维矩阵，并且元素的数量必须是真正用于训练的那些特征属性的数量加1，多余的一个元素表示的是响应值的形式，即是分类树还是回归树
//_missing_mask缺失的特征属性，用掩码的形式表现对应的特征属性，0表示没有缺失，而且必须与_train_data的矩阵尺寸大小一致
//_params为构建Boosting的参数
{
    // CvSeq* weak，用于保存决策树，即最终的强分类器
    weak = 0;
    // CvDTreeTrainData* data，所训练的样本数据
    data = 0;
    // const char* default_model_name，该机器学习的模型名称
    default_model_name = "my_boost_tree";
    //所有变量的类型都为CvMat*
    // active_vars表示那些对决策树的分叉起到作用的特征属性的索引值，该索引值是只相对于参与训练决策树的那些特征属性
    // active_vars_abs表示那些对决策树的分叉起到作用的特征属性的索引值，但与active_vars变量不同，该索引值是针对所有的特征属性
    // orig_response训练样本的原始响应值，即样本的分类，为-1或1
    // sum_response弱分类器线性组合后的样本输出分类，即强分类器的分类结果
    // weak_eval：弱分类器的分类评估结果，即弱分类器的响应值
    // subsample_mask训练样本集的掩码集，即每一个样本都有一个掩码，当该值为0时，该样本被去掉，训练的时候不使用该样本
    //weights每个训练样本数据的权值，即wi(m)
    // subtree_weights每个决策树所应用的样本权值，它的值虽然也是wi(m)，但样本的顺序与weights不同，即subtree_weights针对的是具体决策树
    active_vars = active_vars_abs = orig_response = sum_response = weak_eval =
        subsample_mask = weights = subtree_weights = 0;
    //AdaBoost训练
    train( _train_data, _tflag, _responses, _var_idx, _sample_idx,
          _var_type, _missing_mask, _params );
}

CvBoost::CvBoost()
{
    data = 0;
    weak = 0;
    default_model_name = "my_boost_tree";

    active_vars = active_vars_abs = orig_response = sum_response = weak_eval =
        subsample_mask = weights = subtree_weights = 0;
    have_active_cat_vars = have_subsample = false;

    clear();    //清空一些参数
}

两个train函数：

bool CvBoost::train( CvMLData* _data,    //训练样本数据
             CvBoostParams _params,    //构建Boosting的参数
             bool update )
//update表示是更新分类器，还是重新创建分类器，默认是false，表示重新创建
{
    bool result = false;

    CV_FUNCNAME( "CvBoost::train" );

    __BEGIN__;
    //从_data变量中提取各类数据
    const CvMat* values = _data->get_values();
    const CvMat* response = _data->get_responses();
    const CvMat* missing = _data->get_missing();
    const CvMat* var_types = _data->get_var_types();
    const CvMat* train_sidx = _data->get_train_sample_idx();
    const CvMat* var_idx = _data->get_var_idx();
    //调用另一个train函数
    CV_CALL( result = train( values, CV_ROW_SAMPLE, response, var_idx,
        train_sidx, var_types, missing, _params, update ) );

    __END__;

    return result;
}

bool
CvBoost::train( const CvMat* _train_data, int _tflag,
              const CvMat* _responses, const CvMat* _var_idx,
              const CvMat* _sample_idx, const CvMat* _var_type,
              const CvMat* _missing_mask,
              CvBoostParams _params, bool _update )
{
    bool ok = false;    //算法训练正确与否的标识变量
    //定义一段内存空间
    CvMemStorage* storage = 0;

    CV_FUNCNAME( "CvBoost::train" );

    __BEGIN__;

    int i;
    //调用CvBoost::set_params()函数，设置并判断Boosting参数的正确性
    set_params( _params );
    //释放active_vars和active_vars_abs矩阵变量
    cvReleaseMat( &active_vars );
    cvReleaseMat( &active_vars_abs );
  
    if( !_update || !data )    //需要重新建立分类器，或者没有训练样本数据
    {
        //调用CvBoost::clear()函数，清空一些参数
        clear();
        //实例化CvDTreeTrainData类，并通过set_data函数设置决策树的训练样本数据，倒数第二个参数表示是否共享决策树，最后一个参数表示是否可以添加分类标签，该参数实现了把决策树中用于交叉验证的子集空间用于存储每个决策树的样本权值的目的
        data = new CvDTreeTrainData( _train_data, _tflag, _responses, _var_idx,
            _sample_idx, _var_type, _missing_mask, _params, true, true );
        //确保Boosting只能用于两类问题
        if( data->get_num_classes() != 2 )
            CV_ERROR( CV_StsNotImplemented,
            "Boosted trees can only be used for 2-class classification." );
        //创建一块内存空间，用于存储决策树weak
        CV_CALL( storage = cvCreateMemStorage() );
        //为AdaBoost创建一个序列
        weak = cvCreateSeq( 0, sizeof(CvSeq), sizeof(CvBoostTree*), storage );
        storage = 0;
    }
    else    //否则，为训练样本数据赋值
    {
        data->set_data( _train_data, _tflag, _responses, _var_idx,
            _sample_idx, _var_type, _missing_mask, _params, true, true, true );
    }
    //如果AdaBoost算法的类型为Logit AdaBoost或Gentle AdaBoost，则生成一个样本响应值的副本
    if ( (_params.boost_type == LOGIT) || (_params.boost_type == GENTLE) )
        data->do_responses_copy();
    //这里是第一次调用CvBoost::update_weights()函数，因此它的作用是初始化权值，该函数在后面有详细的介绍
    update_weights( 0 );
    //执行AdaBoost算法，进行M次迭代
    for( i = 0; i < params.weak_count; i++ )
    {
        //定义一个弱分类器，它是用决策树的方法得到的
        CvBoostTree* tree = new CvBoostTree;
        //用决策树的方法训练得到一个弱分类器，如果训练失败，则退出迭代循环，CvBoostTree类中的train函数在后面给出详细的介绍，其中参数subsample_mask表示样本数据的掩码，如果样本数据相应位的值为1，则表示该样本可用，如果为0，则不可用
        if( !tree->train( data, subsample_mask, this ) )
        {
            delete tree;    //删除该弱分类器
            break;    //退出循环
        }
        //cvCheckArr( get_weak_response());    //检查该弱分类器的输出响应
        //把得到的弱分类器tree添加进强分类器weak队列中
        cvSeqPush( weak, &tree );
        //更新权值，以备下次迭代循环之用
        update_weights( tree );
        //裁剪去掉那些权值wi(m+1)太小的训练样本数据
        trim_weights();
        //计算样本中没有被置1的数量，如果为零，则说明下次迭代将没有训练样本
        if( cvCountNonZero(subsample_mask) == 0 )
            break;    //退出迭代
    }

    if(weak->total > 0)    //得到了若干个弱分类器
    {
        //计算active_vars和condensed_idx变量，这两个变量在预测时要用到，该函数的详细介绍在后面
        get_active_vars(); // recompute active_vars* maps and condensed_idx's in the splits.
        data->is_classifier = true;    //重新赋值
        data->free_train_data();    //释放一些矩阵变量
        ok = true;    //标识变量
    }
    else    //没有得到弱分类器
        clear();    //清空一些参数

    __END__;
    //得到了Boosting分类器，返回true，否则返回false
    return ok;    
}

更新权值函数，当要初始化权值时，参数tree为0，表示此时还没有弱分类器：

void
CvBoost::update_weights( CvBoostTree* tree ) {
  double initial_weights[2] = { 1, 1 };    //该变量只有在初始化权值时用到
  update_weights_impl( tree, initial_weights );
}

更新权值的核心函数：

void
CvBoost::update_weights_impl( CvBoostTree* tree, double initial_weights[2] )
{
    CV_FUNCNAME( "CvBoost::update_weights_impl" );

    __BEGIN__;
    //n表示训练样本的数量
    int i, n = data->sample_count;
    double sumw = 0.;    //表示权值的和，权值归一化时要用
    int step = 0;
    float* fdata = 0;
    int *sample_idx_buf;
    const int* sample_idx = 0;
    cv::AutoBuffer<uchar> inn_buf;
    //根据AdaBoost类型的不同，定义不同大小的缓存，Discrete和Real时为0，LogitBoost和Gentle时为所有训练样本的数据长度，存储着样本响应值的副本
    size_t _buf_size = (params.boost_type == LOGIT) || (params.boost_type == GENTLE) ? (size_t)(data->sample_count)*sizeof(int) : 0;
    if( !tree )    //初始化权值，因为此时还没有弱分类器
        _buf_size += n*sizeof(int);    //增加_buf_size的大小，增加的长度为所有训练样本的数据长度，存储着样本响应值
    else    //训练样本的迭代过程中
    {
        //如果发生了样本裁剪，则_buf_size的增加长度为没有被裁剪掉的样本数据长度，即此次迭代中真正用到的那些样本的数据长度，存储的内容为该次迭代的训练样本数据的响应值
        if( have_subsample )
            _buf_size += data->get_length_subbuf()*(sizeof(float)+sizeof(uchar));
    }
    //为inn_buf分配_buf_size大小的内存空间
    inn_buf.allocate(_buf_size);
    // cur_buf_pos指向inn_buf的空间的首地址
    uchar* cur_buf_pos = (uchar*)inn_buf;
    //如果是LogitBoost和Gentle类型
    if ( (params.boost_type == LOGIT) || (params.boost_type == GENTLE) )
    {
        //得到步长
        step = CV_IS_MAT_CONT(data->responses_copy->type) ?
            1 : data->responses_copy->step / CV_ELEM_SIZE(data->responses_copy->type);
        fdata = data->responses_copy->data.fl;    //指向样本响应值的副本
        sample_idx_buf = (int*)cur_buf_pos;    //指向inn_buf空间
        // cur_buf_pos指向此次迭代训练的样本数据的首地址
        cur_buf_pos = (uchar*)(sample_idx_buf + data->sample_count);
        //得到训练样本序列索引
        sample_idx = data->get_sample_indices( data->data_root, sample_idx_buf );
    }
    // dtree_data_buf指向训练数据的内存首地址，训练数据是以矩阵的形式进行存储的
    CvMat* dtree_data_buf = data->buf;
    // length_buf_row表示当前训练样本的数量，因为并不是所有的样本都用于本次迭代，有一些样本被剪切掉了
    size_t length_buf_row = data->get_length_subbuf();
    //进入if的条件是在第一次迭代之前，即还没有弱分类器的时候，它的作用是初始化一些变量和参数
    if( !tree ) // before training the first tree, initialize weights and other parameters
    { 
        // class_labels_buf表示分类结果，即响应值
        int* class_labels_buf = (int*)cur_buf_pos;
        // cur_buf_pos指向另一块内存空间
        cur_buf_pos = (uchar*)(class_labels_buf + n);
        //得到训练样本的响应值，也就是样本的分类结果
        const int* class_labels = data->get_class_labels(data->data_root, class_labels_buf);
        // in case of logitboost and gentle adaboost each weak tree is a regression tree,
        // so we need to convert class labels to floating-point values
        //由于LogitBoost和Gentle需要浮点型的数据，构建它们的弱分类器的决策树是回归树，所以需要重新定义一些变量，因为这些变量在初始化时都是整型的
        //w0用于初始化权值wi(1)
        double w0 = 1./n;
        // p[2] = { 1, 1 }，表示两类问题的先验概率
        double p[2] = { initial_weights[0], initial_weights[1] };
        //释放、重新分配一些矩阵
        cvReleaseMat( &orig_response );
        cvReleaseMat( &sum_response );
        cvReleaseMat( &weak_eval );
        cvReleaseMat( &subsample_mask );
        cvReleaseMat( &weights );
        cvReleaseMat( &subtree_weights );
        //重新定义一些矩阵
        CV_CALL( orig_response = cvCreateMat( 1, n, CV_32S ));
        CV_CALL( weak_eval = cvCreateMat( 1, n, CV_64F ));
        CV_CALL( subsample_mask = cvCreateMat( 1, n, CV_8U ));
        CV_CALL( weights = cvCreateMat( 1, n, CV_64F ));
        CV_CALL( subtree_weights = cvCreateMat( 1, n + 2, CV_64F ));
        //如果在设置Boosting参数的时候设置了_priors值，并且AdaBoost算法为Discrete Adaboost或Real AdaBoost，则表示样本属性有先验概率，即have_priors为true，则需要根据训练样本的数量计算先验概率，具体内容见上一篇关于决策树的介绍
        if( data->have_priors )
        {
            // compute weight scale for each class from their prior probabilities
            //根据_priors值计算两类问题的两个分类结果的先验概率
            int c1 = 0;
            //样本的分类class_labels，即响应值，只能为0或者为1 
            for( i = 0; i < n; i++ )
                c1 += class_labels[i];    //统计响应值为1的样本数量
            //响应值为0的先验概率
            p[0] = data->priors->data.db[0]*(c1 < n ? 1./(n - c1) : 0.);
            //响应值为1的先验概率
            p[1] = data->priors->data.db[1]*(c1 > 0 ? 1./c1 : 0.);
            //归一化p[0]和p[1]
            p[0] /= p[0] + p[1];
            p[1] = 1. - p[0];
        }

        if (data->is_buf_16u)    //训练样本数量小于65536个，即可以用一个unsigned short数据类型表示该数量
        {
            // data->get_cv_labels函数访问的就是labels指向的空间，表示全体样本索引与构建决策树的样本索引的映射关系
            unsigned short* labels = (unsigned short*)(dtree_data_buf->data.s + data->data_root->buf_idx*length_buf_row +
                data->data_root->offset + (data->work_var_count-1)*data->sample_count);
            //遍历所有样本数据
            for( i = 0; i < n; i++ )
            {
                // save original categorical responses {0,1}, convert them to {-1,1}
                //原始数据的响应值为0或1，我们要把它转换为-1或1的形式
                // 0 × 2 – 1 = -1；1 × 2 - 1 = 1
                orig_response->data.i[i] = class_labels[i]*2 - 1;
                // make all the samples active at start.
                // later, in trim_weights() deactivate/reactive again some, if need
                //第一次开始训练的时候，所有样本数据都应该被使用，所以样本对应的掩码都为1，表示可以使用，而在训练迭代的过程中，也许会有一些样本通过trim_weights()函数被裁剪掉，这时该样本的掩码就要为0
                subsample_mask->data.ptr[i] = (uchar)1;
                // make all the initial weights the same.
                //初始化每个样本数据的权值，即步骤2。class_labels[i]不是为0就是为1，而在没有先验分类概率的情况下p[0]和p[1]都为1，即前面原理分析中步骤2的每个样本数据的权值为1/n；而在有先验分类概率的情况下，每个样本数据的权值还要根据响应值用先验概率p[0]或p[1]再乘以1/n
                weights->data.db[i] = w0*p[class_labels[i]];
                // set the labels to find (from within weak tree learning proc)
                // the particular sample weight, and where to store the response.
                //顺序存储样本的索引值，即得到一种映射关系
                labels[i] = (unsigned short)i;
            }
        }
        else    //样本数据大于65536个，则需要用一个int数据类型表示
        {
            int* labels = dtree_data_buf->data.i + data->data_root->buf_idx*length_buf_row +
                data->data_root->offset + (data->work_var_count-1)*data->sample_count;

            for( i = 0; i < n; i++ )
            {
                // save original categorical responses {0,1}, convert them to {-1,1}
                orig_response->data.i[i] = class_labels[i]*2 - 1;
                // make all the samples active at start.
                // later, in trim_weights() deactivate/reactive again some, if need
                subsample_mask->data.ptr[i] = (uchar)1;
                // make all the initial weights the same.
                weights->data.db[i] = w0*p[class_labels[i]];
                // set the labels to find (from within weak tree learning proc)
                // the particular sample weight, and where to store the response.
                labels[i] = i;
            }
        }

        if( params.boost_type == LOGIT )    //LogitBoost类型
        {
            CV_CALL( sum_response = cvCreateMat( 1, n, CV_64F ));    //定义矩阵
            //遍历所有样本，初始化变量
            for( i = 0; i < n; i++ )
            {
                sum_response->data.db[i] = 0;    //清零
                //如果样本的响应值为1，则该样本对应的响应值副本为2；如果响应值不为1，则为-2
                fdata[sample_idx[i]*step] = orig_response->data.i[i] > 0 ? 2.f : -2.f;
            }

            // in case of logitboost each weak tree is a regression tree.
            // the target function values are recalculated for each of the trees
            data->is_classifier = false;    // LogitBoost类型应用的是回归树
        }
        else if( params.boost_type == GENTLE )    // Gentle AdaBoost类型
        {
            //遍历所有样本，初始化变量
            for( i = 0; i < n; i++ )
                //样本的响应值副本的值与原始响应值一致
                fdata[sample_idx[i]*step] = (float)orig_response->data.i[i];

            data->is_classifier = false;    // Gentle AdaBoost类型应用的是回归树
        }
    }
    else    //真正进入循环迭代，更新权值的过程
    {
        // at this moment, for all the samples that participated in the training of the most
        // recent weak classifier we know the responses. For other samples we need to compute them
        //在上一次迭代中，如果利用的裁剪后的样本数据，说明有一些样本被裁剪掉而没有它们的弱分类器（即决策树）的响应值，但在后更新权值时，是需要所有的训练样本数据，因此这里我们通过构建好的决策树来预测这些裁剪掉的样本，从而得到它们的响应值
        if( have_subsample )    //有训练样本被掩码裁剪掉
        {
            // values表示需要预测的样本数据
            float* values = (float*)cur_buf_pos;
            // values空间的长度为本次迭代训练样本的实际长度
            cur_buf_pos = (uchar*)(values + data->get_length_subbuf());
            uchar* missing = cur_buf_pos;    //missing表示样本缺失特征属性的掩码
            // cur_buf_pos再次指向一段内存空间
            cur_buf_pos = missing + data->get_length_subbuf() * (size_t)CV_ELEM_SIZE(data->buf->type);

            CvMat _sample, _mask;

            // invert the subsample mask
            //保留的样本掩码为1，裁剪掉的为0，现在反转掩码，即保留的为0，裁剪掉的为1
            cvXorS( subsample_mask, cvScalar(1.), subsample_mask );
            //得到裁剪掉的样本数据
            data->get_vectors( subsample_mask, values, missing, 0 );
            //定义矩阵
            _sample = cvMat( 1, data->var_count, CV_32F );    //表示裁剪掉的样本
            _mask = cvMat( 1, data->var_count, CV_8U );    //表示对应样本所缺失的特征

            // run tree through all the non-processed samples
            //遍历所有样本，但只处理那些被裁剪掉的样本
            for( i = 0; i < n; i++ )
                if( subsample_mask->data.ptr[i] )    //被裁剪掉的样本数据
                {
                    _sample.data.fl = values;    //赋值
                    _mask.data.ptr = missing;    //赋值
                    values += _sample.cols;    //指向下一个样本
                    missing += _mask.cols;    //指向下一个样本
                    //通过预测得到被裁剪掉的样本的弱分类器的响应值
                    weak_eval->data.db[i] = tree->predict( &_sample, &_mask, true )->value;
                }
        }

        // now update weights and other parameters for each type of boosting
        //根据不同类型更新权值
        if( params.boost_type == DISCRETE )    //Discrete Adaboost类型
        {
            // Discrete AdaBoost:
            //   weak_eval[i] (=f(x_i)) is in {-1,1}
            //   err = sum(w_i*(f(x_i) != y_i))/sum(w_i)
            //   C = log((1-err)/err)
            //   w_i *= exp(C*(f(x_i) != y_i))

            double C, err = 0.;
            double scale[] = { 1., 0. };
            //遍历所有样本数据
            for( i = 0; i < n; i++ )
            {
                //得到上次迭代后每个训练样本数据的权值，即wi(m)
                double w = weights->data.db[i];
                //权值之和，即式9中的分母部分
                sumw += w;
                //分类器分类错误的那些训练样本数据的权值之和，即式9中的分子部分
                // weak_eval表示该次迭代的弱分类器的分类结果，orig_response为实际的分类结果，weak_eval->data.db[i] != orig_response->data.i[i]的作用是判断分类是否正确，正确为0，错误为1
                err += w*(weak_eval->data.db[i] != orig_response->data.i[i]);
            }
            //得到误差率，即式9
            if( sumw != 0 )
                err /= sumw;
            //log_ratio(x)为内嵌函数，该函数的输出为ln[x/(1-x)]
            //C和err的值为式13，C表示该次迭代得到的弱分类器的权值，即αm
            C = err = -log_ratio( err );
            // scale[1]为式10中括号内的部分，该值肯定大于1，而此时scale[0]仍然为1
            scale[1] = exp(err);

            sumw = 0;
            //再次遍历训练样本数据，更新样本权值wi(m+1)
            for( i = 0; i < n; i++ )
            {
                //分类正确为scale[0]，分类错误为scale[1]，即式14
                double w = weights->data.db[i]*
                    scale[weak_eval->data.db[i] != orig_response->data.i[i]];
                sumw += w;    //权值之和，后面归一化要用
                weights->data.db[i] = w;    //赋值
            }
            //为弱分类器的权值赋值，即该决策树tree的每节点值都乘以C，也就是得到了式12的αmkm(x)
            tree->scale( C );
        }
        else if( params.boost_type == REAL )    // Real AdaBoost类型
        {
            // Real AdaBoost:
            //   weak_eval[i] = f(x_i) = 0.5*log(p(x_i)/(1-p(x_i))), p(x_i)=P(y=1|x_i)
            //   w_i *= exp(-y_i*f(x_i))
            //weak_eval变量在计算前为弱分类器km(x)，但在遍历循环后被赋予新的含义，为式16中的e指数中的指数部分
            for( i = 0; i < n; i++ )
                weak_eval->data.db[i] *= -orig_response->data.i[i];
            //计算式16的e指数
            cvExp( weak_eval, weak_eval );
            //遍历训练样本数据，更新权值wi(m)
            for( i = 0; i < n; i++ )
            {
                //式16，得到权值wi(m+1)
                double w = weights->data.db[i]*weak_eval->data.db[i];
                sumw += w;    //权值之和，后面归一化要用
                weights->data.db[i] = w;    //赋值
            }
        }
        else if( params.boost_type == LOGIT )     //LogitBoost类型
        {
            // LogitBoost:
            //   weak_eval[i] = f(x_i) in [-z_max,z_max]
            //   sum_response = F(x_i).
            //   F(x_i) += 0.5*f(x_i)
            //   p(x_i) = exp(F(x_i))/(exp(F(x_i)) + exp(-F(x_i))=1/(1+exp(-2*F(x_i)))
            //   reuse weak_eval: weak_eval[i] <- p(x_i)
            //   w_i = p(x_i)*1(1 - p(x_i))
            //   z_i = ((y_i+1)/2 - p(x_i))/(p(x_i)*(1 - p(x_i)))
            //   store z_i to the data->data_root as the new target responses

            const double lb_weight_thresh = FLT_EPSILON;
            const double lb_z_max = 10.;
            /*float* responses_buf = data->get_resp_float_buf();
            const float* responses = 0;
            data->get_ord_responses(data->data_root, responses_buf, &responses);*/

            /*if( weak->total == 7 )
                putchar('*');*/

            for( i = 0; i < n; i++ )
            {
                //式22
                double s = sum_response->data.db[i] + 0.5*weak_eval->data.db[i];
                sum_response->data.db[i] = s;    //赋值
                weak_eval->data.db[i] = -2*s;    //该变量式21要用
            }
            //计算e指数
            cvExp( weak_eval, weak_eval );
            //遍历所有训练样本数据
            for( i = 0; i < n; i++ )
            {
                //式21，得到更新后的pm(xi)
                double p = 1./(1. + weak_eval->data.db[i]);
                //w为权值wi(m)，式20
                double w = p*(1 - p), z;
                //确保w是具有一定意义的正数
                w = MAX( w, lb_weight_thresh );
                weights->data.db[i] = w;    //权值赋值
                sumw += w;    //权值之和，后面归一化要用
                //计算工作响应zi(m)
                if( orig_response->data.i[i] > 0 )    //样本数据属于y = 1的一类
                {
                    z = 1./p;
                    fdata[sample_idx[i]*step] = (float)MIN(z, lb_z_max);
                }
                else    //样本数据属于y = -1的一类
                {
                    z = 1./(1-p);
                    fdata[sample_idx[i]*step] = (float)-MIN(z, lb_z_max);
                }
            }
        }
        else    //Gentle AdaBoost类型
        {
            // Gentle AdaBoost:
            //   weak_eval[i] = f(x_i) in [-1,1]
            //   w_i *= exp(-y_i*f(x_i))
            //确保为Gentle AdaBoost类型
            assert( params.boost_type == GENTLE );
            //计算式24中e指数中的指数部分
            for( i = 0; i < n; i++ )
                weak_eval->data.db[i] *= -orig_response->data.i[i];
            //计算式24中的e指数
            cvExp( weak_eval, weak_eval );

            for( i = 0; i < n; i++ )
            {
                //式24，更新权值
                double w = weights->data.db[i] * weak_eval->data.db[i];
                weights->data.db[i] = w;    //赋值
                sumw += w;    //权值之和，后面归一化要用
            }
        }
    }

    // renormalize weights
    //归一化权值wi(m+1)
    if( sumw > FLT_EPSILON )
    {
        sumw = 1./sumw;
        for( i = 0; i < n; ++i )
            weights->data.db[i] *= sumw;
    }

    __END__;
}

裁剪去掉那些权值过小的样本数据：

void
CvBoost::trim_weights()
{
    //CV_FUNCNAME( "CvBoost::trim_weights" );

    __BEGIN__;
    //count为训练样本总数，nz_count表示裁剪以后保留下来的样本总数
    int i, count = data->sample_count, nz_count = 0;
    double sum, threshold;
    //裁剪率weight_trim_rate要在0和1之间
    if( params.weight_trim_rate <= 0. || params.weight_trim_rate >= 1. )
        EXIT;

    // use weak_eval as temporary buffer for sorted weights
    //样本权值weights暂时保存到weak_eval中，以便用于对其进行排序
    cvCopy( weights, weak_eval );
    //对样本权值按由小到大的顺序进行排序
    icvSort_64f( weak_eval->data.db, count, 0 );

    // as weight trimming occurs immediately after updating the weights,
    // where they are renormalized, we assume that the weight sum = 1.
    sum = 1. - params.weight_trim_rate;
    //由小到大遍历所有训练样本，找到裁剪率所对应的那个权值
    for( i = 0; i < count; i++ )
    {
        double w = weak_eval->data.db[i];
        if( sum <= 0 )
            break;
        sum -= w;
    }
    //得到阈值
    threshold = i < count ? weak_eval->data.db[i] : DBL_MAX;
    //再次遍历所有训练样本（这一次不是按照大小顺序遍历），确定哪些样本被裁剪掉
    for( i = 0; i < count; i++ )
    {
        double w = weights->data.db[i];    //得到权值
        //权值与阈值比较，权值大则f为1，反之f为0
        int f = w >= threshold;
        //把权值大于阈值的样本所对应的掩码为置1，反之清0
        subsample_mask->data.ptr[i] = (uchar)f;
        nz_count += f;    //计数
    }
    // nz_count < count表示有裁剪掉的样本，此时have_subsample为1，反之为0
    have_subsample = nz_count < count;

    __END__;
}

计算active_vars和active_vars_abs值，这两个值的含义都是记录那些对决策树的分叉起到作用的特征属性的索引值，active_vars存储的索引值是只相对于参与训练决策树的那些特征属性，而active_vars_abs存储的索引值是针对所有的特征属性，包括那些被掩码掉的特征属性

const CvMat*
CvBoost::get_active_vars( bool absolute_idx )
{
    CvMat* mask = 0;
    CvMat* inv_map = 0;
    CvMat* result = 0;

    CV_FUNCNAME( "CvBoost::get_active_vars" );

    __BEGIN__;

    if( !weak )    //确保已得到分类器
        CV_ERROR( CV_StsError, "The boosted tree ensemble has not been trained yet" );
    //还没有为active_vars和active_vars_abs变量赋值
    if( !active_vars || !active_vars_abs )
    {
        CvSeqReader reader;
        int i, j, nactive_vars;
        CvBoostTree* wtree;
        const CvDTreeNode* node;

        assert(!active_vars && !active_vars_abs);
        mask = cvCreateMat( 1, data->var_count, CV_8U );
        inv_map = cvCreateMat( 1, data->var_count, CV_32S );
        cvZero( mask );    //mask矩阵清零
        cvSet( inv_map, cvScalar(-1) );    //inv_map矩阵赋值为-1

        // first pass: compute the mask of used variables
        //把强分类器序列weak保存到reader变量中
        cvStartReadSeq( weak, &reader );
        //遍历所有的弱分类器
        for( i = 0; i < weak->total; i++ )
        {
            CV_READ_SEQ_ELEM(wtree, reader);    //得到一个弱分类器，即决策树

            node = wtree->get_root();    //得到决策树的根节点
            assert( node != 0 );    //确保根节点不为零，即该决策树存在
            for(;;)    //遍历决策树的各个节点
            {
                const CvDTreeNode* parent;    //定义父节点
                for(;;)    沿着左分子向叶节点遍历
                {
                    CvDTreeSplit* split = node->split;    //分叉属性
                    //遍历该节点的所有分叉属性，包括最佳分叉属性和替代分叉属性
                    for( ; split != 0; split = split->next )
                        mask->data.ptr[split->var_idx] = 1;    //分叉属性相应位置1
                    if( !node->left )    //到达了叶节点，则退出for死循环
                        break;
                    node = node->left;    //下一个左分支
                }
                //从叶节点沿着右分支向父节点遍历
                for( parent = node->parent; parent && parent->right == node;
                    node = parent, parent = parent->parent )
                    ;

                if( !parent )    //到达了根节点，则退出for死循环
                    break;

                node = parent->right;    //下一个右分支
            }
        }

        nactive_vars = cvCountNonZero(mask);    //统计mask中非0元素的数量

        //if ( nactive_vars > 0 )
        {
            //定义两个矩阵
            active_vars = cvCreateMat( 1, nactive_vars, CV_32S );
            active_vars_abs = cvCreateMat( 1, nactive_vars, CV_32S );

            have_active_cat_vars = false;    //标识赋值
            //遍历所有特征属性
            for( i = j = 0; i < data->var_count; i++ )
            {
                if( mask->data.ptr[i] )
                {
                    //赋值为特征属性的索引
                    active_vars->data.i[j] = i;
                    active_vars_abs->data.i[j] = data->var_idx ? data->var_idx->data.i[i] : i;
                    // inv_map存储的形式与active_vars相反，即反映射
                    inv_map->data.i[i] = j;
                    //如果这些特征属性中只要有一个特征属性是类的形式，则have_active_cat_vars变量就为true
                    if( data->var_type->data.i[i] >= 0 )
                        have_active_cat_vars = true;
                    j++;    //计数
                }
            }


            // second pass: now compute the condensed indices
            cvStartReadSeq( weak, &reader );
            for( i = 0; i < weak->total; i++ )    //再次遍历所有的弱分类器
            {
                CV_READ_SEQ_ELEM(wtree, reader);
                node = wtree->get_root();
                for(;;)    //再次遍历决策树
                {
                    const CvDTreeNode* parent;
                    for(;;)
                    {
                        CvDTreeSplit* split = node->split;
                        for( ; split != 0; split = split->next )
                        {
                            // condensed_idx的值为该分叉属性在active_vars的索引，该索引值也是样本数据中特征属性分布排序的索引
                            split->condensed_idx = inv_map->data.i[split->var_idx];
                            assert( split->condensed_idx >= 0 );
                        }

                        if( !node->left )
                            break;
                        node = node->left;
                    }

                    for( parent = node->parent; parent && parent->right == node;
                        node = parent, parent = parent->parent )
                        ;

                    if( !parent )
                        break;

                    node = parent->right;
                }
            }
        }
    }
    //行参absolute_idx为true，则该函数返回active_vars_abs，否则返回active_vars
    result = absolute_idx ? active_vars_abs : active_vars;

    __END__;

    cvReleaseMat( &mask );
    cvReleaseMat( &inv_map );

    return result;
}

CvBoostTree类中的一个train函数：

bool
CvBoostTree::train( CvDTreeTrainData* _train_data,
                    const CvMat* _subsample_idx, CvBoost* _ensemble )
{
    clear();
    ensemble = _ensemble;
    data = _train_data;    //样本数据
    data->shared = true;
    return do_train( _subsample_idx );
}

从上面的train函数可以看出，它主要是调用do_train函数，而CvBoostTree类没有do_train函数，因此train函数是调用CvBoostTree类的父类CvDTree中的do_train函数：

bool CvDTree::do_train( const CvMat* _subsample_idx )
{
    bool result = false;

    CV_FUNCNAME( "CvDTree::do_train" );

    __BEGIN__;
    //得到训练样本数据
    root = data->subsample_data( _subsample_idx );

    CV_CALL( try_split_node(root));

    if( root->split )
    {
        CV_Assert( root->left );
        CV_Assert( root->right );
        //用于弱分类器的决策树不需要剪枝，所以这里不会调用prune_cv函数
        if( data->params.cv_folds > 0 )
            CV_CALL( prune_cv() );

        if( !data->shared )
            data->free_train_data();

        result = true;
    }

    __END__;

    return result;
}

递归调用try_split_node函数，完成决策树的构造：

void
CvBoostTree::try_split_node( CvDTreeNode* node )
{
    //调用CvDTree::try_split_node函数
    CvDTree::try_split_node( node );
    //在构建决策树的过程中，一旦某个节点再也不能分叉，则进入下面的if语句，完成该节点内所有样本的弱分类器（即响应值）的赋值
    if( !node->left ) 
    {
        // if the node has not been split,
        // store the responses for the corresponding training samples
        //指向弱分类器的响应值
        double* weak_eval = ensemble->get_weak_response()->data.db;
        //开辟一块大小为该节点样本数据长的内存
        cv::AutoBuffer<int> inn_buf(node->sample_count);
        //labels表示该节点node内的样本在全体训练样本集中的索引
        const int* labels = data->get_cv_labels( node, (int*)inn_buf );
        int i, count = node->sample_count;    //count表示该节点的样本数
        //该节点的值，当该节点有多个样本是，如果是分类树，节点的值等于拥有最大数量的那个分类的响应值；如果是回归树，节点的值等于所有样本的平均响应值；当该节点只有一个样本时，节点的值就是该样本的响应值
        double value = node->value; 
        //遍历该节点的所有样本，为该节点内的样本所对应的弱分类器的响应值赋值
        for( i = 0; i < count; i++ )
            weak_eval[labels[i]] = value;
    }
}

下面我们介绍预测函数predict：

float
CvBoost::predict( const CvMat* _sample, const CvMat* _missing,
                  CvMat* weak_responses, CvSlice slice,
                  bool raw_mode, bool return_sum ) const
//_sample表示要预测的样本数据
//_missing表示预测样本中所缺失的特征属性，该变量为掩码的形式
// weak_responses表示弱分类器所对应的响应，因此它的元素个数必须与弱分类器的数量一致，默认值0，表示不使用该变量
//slice表示用于预测的弱分类器的连续子集，默认值为CV_WHOLE_SEQ，表示使用所有的弱分类器
// raw_mode与CvDTree::predict函数的第三个参数的含义相同，默认为false，具体请看上一篇文章
// return_sum表示该函数返回值的形式，默认为false，表示返回式12或式17的值，如果该值为true，则返回式12或式17中括号内的值，即不进行符号判断
{
    float value = -FLT_MAX;    //初始一个很大的负值

    CvSeqReader reader;
    double sum = 0;
    int wstep = 0;
    const float* sample_data;

    if( !weak )    //还没有强分类器
        CV_Error( CV_StsError, "The boosted tree ensemble has not been trained yet" );
    //判断输入参数_sample的正确性
    if( !CV_IS_MAT(_sample) || CV_MAT_TYPE(_sample->type) != CV_32FC1 ||
        (_sample->cols != 1 && _sample->rows != 1) ||
        (_sample->cols + _sample->rows - 1 != data->var_all && !raw_mode) ||
        (active_vars && _sample->cols + _sample->rows - 1 != active_vars->cols && raw_mode) )
            CV_Error( CV_StsBadArg,
        "the input sample must be 1d floating-point vector with the same "
        "number of elements as the total number of variables or "
        "as the number of variables used for training" );

    if( _missing )    //判断输入参数_missing的正确性
    {
        if( !CV_IS_MAT(_missing) || !CV_IS_MASK_ARR(_missing) ||
            !CV_ARE_SIZES_EQ(_missing, _sample) )
            CV_Error( CV_StsBadArg,
            "the missing data mask must be 8-bit vector of the same size as input sample" );
    }
    // weak_count为根据输入参数slice而得到的弱分类器的数量
    int i, weak_count = cvSliceLength( slice, weak );
    //确保weak_count正确
    if( weak_count >= weak->total )
    {
        weak_count = weak->total;
        slice.start_index = 0;
    }

    if( weak_responses )    //确保输入参数weak_responses的正确性
    {
        if( !CV_IS_MAT(weak_responses) ||
            CV_MAT_TYPE(weak_responses->type) != CV_32FC1 ||
            (weak_responses->cols != 1 && weak_responses->rows != 1) ||
            weak_responses->cols + weak_responses->rows - 1 != weak_count )
            CV_Error( CV_StsBadArg,
            "The output matrix of weak classifier responses must be valid "
            "floating-point vector of the same number of components as the length of input slice" );
        wstep = CV_IS_MAT_CONT(weak_responses->type) ? 1 : weak_responses->step/sizeof(float);
    }
    //得到active_vars变量的行，即启作用的特征属性的数量
    int var_count = active_vars->cols;
    const int* vtype = data->var_type->data.i;    //指向全体特征属性
    const int* cmap = data->cat_map->data.i;    //指向特征属性为类形式的映射
    const int* cofs = data->cat_ofs->data.i;    //表示特征属性为类形式的各个属性的偏移量

    cv::Mat sample = _sample;    //预测样本
    cv::Mat missing;    //缺失特征属性的掩码
    if(!_missing)
        missing = _missing;    //赋值

    // if need, preprocess the input vector
    //对预测样本的特征属性做规范化处理，具体内容请看我的上一篇关于决策树的文章
    if( !raw_mode )
    {
        int sstep, mstep = 0;
        const float* src_sample;
        const uchar* src_mask = 0;
        float* dst_sample;
        uchar* dst_mask;
        const int* vidx = active_vars->data.i;
        const int* vidx_abs = active_vars_abs->data.i;
        bool have_mask = _missing != 0;

        sample = cv::Mat(1, var_count, CV_32FC1);
        missing = cv::Mat(1, var_count, CV_8UC1);

        dst_sample = sample.ptr<float>();
        dst_mask = missing.ptr<uchar>();

        src_sample = _sample->data.fl;
        sstep = CV_IS_MAT_CONT(_sample->type) ? 1 : _sample->step/sizeof(src_sample[0]);

        if( _missing )
        {
            src_mask = _missing->data.ptr;
            mstep = CV_IS_MAT_CONT(_missing->type) ? 1 : _missing->step;
        }

        for( i = 0; i < var_count; i++ )
        {
            int idx = vidx[i], idx_abs = vidx_abs[i];
            float val = src_sample[idx_abs*sstep];
            int ci = vtype[idx];
            uchar m = src_mask ? src_mask[idx_abs*mstep] : (uchar)0;

            if( ci >= 0 )
            {
                int a = cofs[ci], b = (ci+1 >= data->cat_ofs->cols) ? data->cat_map->cols : cofs[ci+1],
                    c = a;
                int ival = cvRound(val);
                if ( (ival != val) && (!m) )
                    CV_Error( CV_StsBadArg,
                        "one of input categorical variable is not an integer" );

                while( a < b )
                {
                    c = (a + b) >> 1;
                    if( ival < cmap[c] )
                        b = c;
                    else if( ival > cmap[c] )
                        a = c+1;
                    else
                        break;
                }

                if( c < 0 || ival != cmap[c] )
                {
                    m = 1;
                    have_mask = true;
                }
                else
                {
                    val = (float)(c - cofs[ci]);
                }
            }

            dst_sample[i] = val;
            dst_mask[i] = m;
        }

        if( !have_mask )
            missing.release();
    }
    else
    {
        if( !CV_IS_MAT_CONT(_sample->type & (_missing ? _missing->type : -1)) )
            CV_Error( CV_StsBadArg, "In raw mode the input vectors must be continuous" );
    }

    cvStartReadSeq( weak, &reader );    //读取各个弱分类器
    cvSetSeqReaderPos( &reader, slice.start_index );    //指定起始地址

    sample_data = sample.ptr<float>();    //预测样本数据的指针
    // !have_active_cat_vars表示启作用的特征属性中没有任何一个是类的形式，missing.empty()预测样本没有缺失的特征属性，!weak_responses表示该输入参数不存在
    if( !have_active_cat_vars && missing.empty() && !weak_responses )
    {
        //遍历所有的弱分类器
        for( i = 0; i < weak_count; i++ )
        {
            CvBoostTree* wtree;    //表示代表该弱分类器的决策树
            const CvDTreeNode* node;
            CV_READ_SEQ_ELEM( wtree, reader );    //提取当前的决策树

            node = wtree->get_root();    //得到决策树的根节点
            //遍历该决策树，直到到达了叶节点
            while( node->left )
            {
                CvDTreeSplit* split = node->split;   //节点分叉
                //得到该节点分叉属性在样本中特征属性排序的索引
                int vi = split->condensed_idx;
                float val = sample_data[vi];    //得到该特征属性所对应的样本值
                //与分叉值比较，确定方向信息
                int dir = val <= split->ord.c ? -1 : 1;
                if( split->inversed )    //方向需要反转的处理
                    dir = -dir;
                //由方向信息确定下一步是向左分支遍历还是向右分支遍历
                node = dir < 0 ? node->left : node->right;
            }
            //累加各个弱分类器响应值，即式12或式17括号内的部分
            sum += node->value; 
        }
    }
    else    //其他情况的处理
    {
        const int* avars = active_vars->data.i;    //指向active_vars变量
        //如果有缺失的特征属性，则m指向掩码变量missing，否则m为空
        const uchar* m = !missing.empty() ? missing.ptr<uchar>() : 0;

        // full-featured version
        //遍历所有的弱分类器
        for( i = 0; i < weak_count; i++ )
        {
            CvBoostTree* wtree;    //弱分类器，即决策树
            const CvDTreeNode* node;
            CV_READ_SEQ_ELEM( wtree, reader );    //提取当前决策树

            node = wtree->get_root();    //根节点
            //遍历该决策树，直到到达了叶节点
            while( node->left )
            {
                const CvDTreeSplit* split = node->split;    //得到该节点的分叉
                int dir = 0;
                //按照从最佳分叉属性到替代分叉属性的顺序遍历分叉属性，直到得到了节点的方向信息为止，
                for( ; !dir && split != 0; split = split->next )
                {
                    //得到该节点分叉属性在样本中特征属性排序的索引
                    int vi = split->condensed_idx;
                    int ci = vtype[avars[vi]];    //得到分叉属性的特征属性类型
                    float val = sample_data[vi];    //得到该特征属性所对应的样本值
                    //如果该特征属性是缺失的特征属性，则进入下次循环
                    if( m && m[vi] )
                        continue;
                    if( ci < 0 ) // ordered 特征属性是数值的形式
                        //与分叉值比较，确定方向信息
                        dir = val <= split->ord.c ? -1 : 1;
                    else // categorical 特征属性是类的形式
                    {
                        int c = cvRound(val);    //取整
                        //对应找到split->subset中所对应的位，从而得到方向信息
                        dir = CV_DTREE_CAT_DIR(c, split->subset);
                    }
                    if( split->inversed )    //方向需要反转的处理
                        dir = -dir;
                }

                if( !dir )    //如果方向信息还是没有得到
                {
                    //该节点的哪个分支的样本数量多，方向dir就指向哪
                    int diff = node->right->sample_count - node->left->sample_count;
                    dir = diff < 0 ? -1 : 1;
                }
                //由方向信息确定下一步是向左分支遍历还是向右分支遍历
                node = dir < 0 ? node->left : node->right;
            }
            //如果定义了输入参数weak_responses，则输出弱分类器的值
            if( weak_responses )
                weak_responses->data.fl[i*wstep] = (float)node->value;
            //累加各个弱分类器响应值，即式12或式17括号内的部分
            sum += node->value;
        }
    }

    if( return_sum )
        value = (float)sum;    //直接返回式12或式17中括号内的值
    else
    {
        int cls_idx = sum >= 0;    //符号判断，即式12或式17的值
        if( raw_mode )
            value = (float)cls_idx;    //得到原始的数据
        else    //得到其所代表的数据
            value = (float)cmap[cofs[vtype[data->var_count]] + cls_idx];
    }

    return value;    //返回
}

OpenCV是用决策树来得到弱分类器的，因此实现弱分类器的类CvBoostTree继承于构建决策树的类CvDTree，前面介绍过的CvBoostTree类内的train函数和try_split_node函数都是虚函数，它们是针对用于弱分类器设计的决策树的特殊性而重写的函数，这样的虚函数还有许多，如find_surrogate_split_ord、find_split_ord_class、calc_node_value等。对这些函数就不再详细阐述，这里主要把与CvDTree类的不同的地方说明一下，关于CvDTree类的介绍请看我的上一篇关于决策树的介绍。

1、构建弱分类器的每个样本都有权值，即w_i^(m)，在决策树中被称为是先验概率；

2、用于衡量分类树纯度的不仅有基尼指数，还有错误分类率这种方法；

3、弱分类器只是一个用于研究两类问题的决策树，所有要相对简单一点；

4、不同的弱分类器所应用的训练样本的数量可能会不同。

三、应用实例

下面我们就给出一个具体的应用实例。

如上图所示，红色“+”的采样点的坐标为：(40,55)，(35,35)，(55,15)，(45,25)，(10,10)，(15,15)，(40,10)，(30,15)，(30,50)，(100,20)，(45,65)，(20,35)，(80,20)，(90,5)，(95,35)，(80,65)，(15,55)，(25,65)，(85,35)，(85,55)，(95,70)，(105,50)，(115,65)，(110,25)，(120,45)，(15,45)；蓝色“×”的采样点的坐标为：(55,30)，(60,65)，(95,60)，(25,40)，(75,45)，(105,35)，(65,10)，(50,50)，(40,35)，(70,55)，(80,30)，(95,45)，(60,20)，(70,30)，(65,45)，(85,40)。则我们用AdaBoost算法判断新的坐标(55,25)是属于红色标注的区域还是蓝色标注的区域，程序为：

#include "opencv2/core/core.hpp"
#include "opencv2/highgui/highgui.hpp"
#include "opencv2/imgproc/imgproc.hpp"
#include "opencv2/ml/ml.hpp"

#include <iostream>
using namespace cv;
using namespace std;

int main( int argc, char** argv )
{	
	//训练样本
	float trainingData[42][2]={	{40, 55},{35, 35},{55, 15},{45, 25},{10, 10},{15, 15},{40, 10},
							{30, 15},{30, 50},{100, 20},{45, 65},{20, 35},{80, 20},{90, 5},
							{95, 35},{80, 65},{15, 55},{25, 65},{85, 35},{85, 55},{95, 70},
							{105, 50},{115, 65},{110, 25},{120, 45},{15, 45},
							{55, 30},{60, 65},{95, 60},{25, 40},{75, 45},{105, 35},{65, 10},
							{50, 50},{40, 35},{70, 55},{80, 30},{95, 45},{60, 20},{70, 30},
							{65, 45},{85, 40}	};
	Mat trainingDataMat(42, 2, CV_32FC1, trainingData); 
	//训练样本的响应值
	float responses[42] = {'R','R','R','R','R','R','R','R','R','R','R','R','R','R','R','R',
							'R','R','R','R','R','R','R','R','R','R',
						'B','B','B','B','B','B','B','B','B','B','B','B','B','B','B','B'	};
	Mat responsesMat(42, 1, CV_32FC1, responses);

	float priors[2] = {1, 1};    //先验概率

	CvBoostParams params( CvBoost::REAL, // boost_type  
                          10, // weak_count  
                          0.95, // weight_trim_rate  
                          15, // max_depth  
                          false, // use_surrogates  
                          priors // priors 
                          );  

	CvBoost boost;
	boost.train (	trainingDataMat, 
					CV_ROW_SAMPLE, 
					responsesMat,
					Mat(),  
					Mat(),
					Mat(),
					Mat(),  
					params
				    );  
	//预测样本
	float myData[2] = {55, 25};
	Mat myDataMat(2, 1, CV_32FC1, myData);
	double r = boost.predict( myDataMat );

	cout<<endl<<"result:  "<<(char)r<<endl;

	return 0;
 }

输出的结果为：

result: R

你可能感兴趣的:(Opencv2.4.9源码分析——Boosting)

Lodash源码分析-every,some,size,includes 初学者7. Loadsh源码分析 javascript 前端
collection相关的函数，collection指的是一组用于处理集合（如数组或对象）的工具函数。lodash源码研读之every,some,size,includes一、源码地址GitHub地址:GitHub-lodash/lodash:AmodernJavaScriptutilitylibrarydeliveringmodularity,performance,&extras.官方文档地址
Lodash源码分析-uniq,uniqBy,uniqWith 初学者7. Loadsh源码分析 javascript 前端
lodash源码研读之uniq,uniqBy,uniqWith一、源码地址GitHub地址:GitHub-lodash/lodash:AmodernJavaScriptutilitylibrarydeliveringmodularity,performance,&extras.官方文档地址:Lodash官方文档二、结构分析uniq,uniqBy,uniqWith基于baseUniq模块。三、函数介
http框架核心之ngx_http.c源码分析 qiuhui00 nginx源码分析 nginx 源码分析 http框架
ngx_http.c内主要实现了一个模块:ngx_http_module。ngx_http_module是nginx的http框架的一部分，它是所有http模块能够被加载的唯一入口，承担了http块配置解析，合并，以及http框架及其相关数据结构的初始化。它本身是NGX_CORE_MODULE类型，只有一个指令，就是http，如下所示:staticngx_command_tngx_http_com
[HelloCTF]PHPinclude-labs超详细WP-Level 2-data协议 Haicaji WP php 网络安全 web安全
源码分析重点关注这两行代码echoinclude("data://text/plain;base64,4pedKCrigbDilr/igbAqKeKXnEhlbGxvLUNURnd3");isset($_GET['wrappers'])?include("data://text/plain".$_GET['wrappers']):'';发现这里出现了data协议data://-数据流(RFC239
【Vue.js 2.x源码解析】第18章从Vue源码分析计算属性与侦听属性的本质差别代码简单说教你读懂Vue2.x源码 vue.js 前端 javascript
想深入了解Vue2.x源码底层原理实现，从编译系统、渲染系统到响应式系统vue-router和vuex等实现方式可以关注『Vue.js2.x源码精讲』专栏或查看专栏目录了解详情从Vue源码分析计算属性与侦听属性的本质差别计算属性（Computed）——了解它，你就能高效利用它`defineComputed`和`createComputedGetter`侦听属性（Watch）——灵活监听变化`wat
Redis 源码分析-内部数据结构 quicklist 笨手笨脚の #Redis redis 数据结构数据库 quicklist 链表快速链表 ziplist
Redis源码分析-内部数据结构quicklistquicklist是Redis对外暴露的list数据结构的内部实现，经常被当作队列或栈使用，我们可以从常用的一些api上先思考一下它的结构最常用的就是lpush、lpop、rpush、rpop，同时它也支持lindex查询某元素在list中的索引，linsert在指定元素旁边插入新元素。从头、尾节点的push、pop来看，这就是双向链表最优秀的设计
Redis 源码分析-内部数据结构 robj 笨手笨脚の #Redis redis 数据结构数据库 redisObject 44字节 embStr raw
Redis源码分析-内部数据结构robjRedis中，一个database内的这个映射关系是用一个dict来维护的（ht[0]）。dict的key固定用一种数据结构来表达就够了，即动态字符串sds。而value则比较复杂，为了在同一个dict内能够存储不同类型的value，这就需要一个通用的数据结构，这个通用的数据结构就是robj（全名redisObject）。#defineLRU_BITS24/
【QT教程】QT6硬件数据库编程 QT硬件数据库 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 c++QT教程
QT6硬件数据库编程使用AI技术辅助生成QT界面美化视频课程QT性能优化视频课程QT原理与源码分析视频课程QTQMLC++扩展开发视频课程免费QT视频课程您可以看免费1000+个QT技术视频免费QT视频课程QT统计图和QT数据可视化视频免费看免费QT视频课程QT性能优化视频免费看免费QT视频课程QT界面美化视频免费看1QT6硬件数据库编程基础1.1QT6数据库引擎概述1.1.1QT6数据库引擎概述
ngx_conf_read_token 若云止水 nginx c语言
Ubuntu下nginx-1.24.0源码分析-ngx_conf_read_token-CSDN博客staticngx_int_tngx_conf_read_token(ngx_conf_t*cf){u_char*start,ch,*src,*dst;off_tfile_size;size_tlen;ssize_tn,size;ngx_uint_tfound,need_space,last_spa
XGBoost算法深度解析：从原理到实践彩旗工作室人工智能算法机器学习人工智能
一、算法起源与核心思想XGBoost（eXtremeGradientBoosting）由陈天奇于2014年提出，是梯度提升决策树（GBDT）的优化版本。其核心思想通过迭代集成弱学习器（CART树）逐步修正预测误差，并引入正则化机制控制模型复杂度，防止过拟合。与GBDT相比，XGBoost在目标函数中融合了损失函数（衡量预测误差）和正则化项（约束树结构与叶子权重），形成结构风险最小化框架，从而提升泛
智能车辆控制技术：MPC与轨迹规划实战项目柚木i
本文还有配套的精品资源，点击获取简介：本压缩包集合了车辆转向控制与轨迹规划的MATLAB代码，包含模型预测控制（MPC）策略、MPT工具箱应用、车辆动力学模型构建、轨迹规划实现、mp-QP算法应用及MATLAB编程实践。旨在通过源码分析，提供智能车辆控制技术的深入学习与研究平台，涉及横向和纵向运动控制、系统模型的定义、控制策略的制定及仿真流程。1.模型预测控制（MPC）基础与应用模型预测控制（MP
【bluedroid】A2dp Source播放流程源码分析(1) byte轻骑兵解读 Android 通信协议蓝牙 Bluedroid C++
在蓝牙音频传输领域，A2DP（AdvancedAudioDistributionProfile，高级音频分发协议）扮演着关键角色，它能够实现高质量音频（如立体声音乐）通过蓝牙在不同设备间的传输。在Android系统所采用的Bluedroid蓝牙协议栈里，A2DPSource承担着音频流发送的重任，将音频数据传输至A2DPSink（像车载音响、蓝牙耳机等接收设备）。一、概述Bluedroid作为An
【Bluedroid】A2dp Sink初始化源码分析 byte轻骑兵解读 Android c++通信协议蓝牙 Bluedroid
在Bluedroid蓝牙协议栈中，A2DP（AdvancedAudioDistributionProfile）Sink负责接收来自A2DPSource（如手机、音乐播放器等）的音频流，并将其播放到本地设备（如车载音响、蓝牙耳机等）上。A2DPSink的初始化是确保A2DPSink服务能够正确运行的关键步骤。一、A2DPSink初始化流程系统启动或用户请求：当系统启动或用户请求启动A2DPSink服
Android Retrofit 框架适配器模块深入源码分析(五) &有梦想的咸鱼& Android Retrofit原理 android retrofit
AndroidRetrofit框架适配器模块深入源码分析一、引言在Android开发中，网络请求是一个常见且重要的功能。Retrofit作为一个强大的网络请求框架，以其简洁的API和高度的可定制性受到了广泛的欢迎。适配器模块（CallAdapter）是Retrofit框架中非常重要的一部分，它负责将Call对象转换为其他类型，如Observable、Completable、Single等，从而实现
Java多线程与高并发专题——阻塞和非阻塞队列的并发安全原理是什么？黄雪超技术基础 java 开发语言并发编程
引入之前我们探究了常见的阻塞队列的特点，在本文我们就以ArrayBlockingQueue为例，首先分析BlockingQueue，也就是阻塞队列的线程安全原理，然后再看看它的兄弟——非阻塞队列的并发安全原理。ArrayBlockingQueue源码分析我们首先看一下ArrayBlockingQueue的源码，ArrayBlockingQueue有以下几个重要的属性：/***用于存储队列元素的数组
Android art monitor_android.cc 源码分析月盈五 android
源码分析#include"monitor.h"#include#include#include#include#include#include"art_method.h"#include"jni/jni_env_ext.h"#include"palette/palette.h"#include"thread.h"//定义了一个日志标签EVENT_LOG_TAG_dvm_lock_sample，用于
Android soong/ui/build/finder.go FindSources源码分析月盈五 android ui golang
//FindSourcessearchesforsourcefilesknowntoandwritesthemtothefilesystemfor//uselater.//在一个给定的上下文中，使用配置信息和finder.Finder实例来搜索特定类型的源文件，并将这些文件的路径列表写入到文件系统中，以便后续使用funcFindSources(ctxContext,configConfig,f*f
DUBBO源码分析七---服务调用过程 qq_51562781 DUBBO学习 zookeeper vue.js java
"2021SC@SDUSC"1.简介在前面的文章中，我们分析了DubboSPI、服务导出与引入、以及集群容错方面的代码。经过前文的铺垫，本篇文章我们终于可以分析服务调用过程了。Dubbo服务调用过程比较复杂，包含众多步骤，比如发送请求、编解码、服务降级、过滤器链处理、序列化、线程派发以及响应请求等步骤。限于篇幅原因，本篇文章无法对所有的步骤一一进行分析。本篇文章将会重点分析请求的发送与接收、编解码
DUBBO源码分析八---服务调用过程 qq_51562781 DUBBO学习 rpc 网络协议网络
"2021SC@SDUSC"2.3.2.2调用服务本小节，我们从ChannelEventRunnable开始分析，该类的主要代码如下：publicclassChannelEventRunnableimplementsRunnable{privatefinalChannelHandlerhandler;privatefinalChannelchannel;privatefinalChannelSta
面试基础---分布式架构基础消息队列Kafka vs RabbitMQ vs RocketMQ 对比 WeiLai1112 分布式架构面试分布式架构 java 后端 dubbo spring boot
分布式架构消息队列深度解析：KafkavsRabbitMQvsRocketMQ引言在高并发、高可用的分布式系统中，消息队列是实现异步通信、流量削峰、系统解耦的核心组件。Kafka、RabbitMQ和RocketMQ是当前最主流的消息中间件，各自在性能、可靠性、生态支持等方面有独特优势。本文将深入探讨三者的设计原理、核心特性及适用场景，结合电商、金融等实际案例与源码分析，为技术选型提供全面指导。1.
Jquery源码分析 W_wjl1900 前端学习 jquery 源码
转载地址原作者博客/*!*jQueryJavaScriptLibraryv1.10.2*http://jquery.com/**IncludesSizzle.js*http://sizzlejs.com/**Copyright2005,2013jQueryFoundation,Inc.andothercontributors*ReleasedundertheMITlicense*http://jq
梯度提升决策树（GBDT） binggorun 决策树算法机器学习
GBDT（GradientBoostingDecisionTree），全名叫梯度提升决策树，是一种迭代的决策树算法，又叫MART（MultipleAdditiveRegressionTree），它通过构造一组弱的学习器（树），并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。原理GBDT的核心思想是将多个弱学习器（通常是决策树）组合成一个强大的预测模型。具体
【FFmpeg】AVpacket中解析出Nalu gma999 ffmpeg
概述项目中遇到的一个难题，即需要从RTSP流地址中解析出来Nalu，然后对Nalu进行封包发送到GB28181平台。本文仅仅总结如何利用FFmpeg库中的函数通过AVpacket解析出来Nalu的可行性以及方法。如果是非嵌入式设备，也可以自己搭建一个小型RTSP服务器来实现，其中各种功能也可以自行控制，后面文章再进行总结源码分析可行性分析FFmpeg库中没有找到直接解析出来的Nalu的方法，如果无
Flutter中网络图片加载和缓存 Flutter编程指南 Flutter Flutter APP Dart http 跨平台技术
文章目录前言重温小部件ImageImage.network源码分析实际问题解决方案代码实现自定义ImageProvider使用写在最后前言应用开发中经常会碰到网络图片的加载，通常我们会对图片进行缓存，以便下次加载同一张图片时不用再重新下载，在包含有大量图片的应用中，会大幅提高图片展现速度、提升用户体验且为用户节省流量。Flutter本身提供的ImageWidget已经实现了加载网络图片的功能，且具
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_conf_param 若云止水 ubuntu nginx 运维
ngx_conf_param声明在src/core/ngx_conf_file.hchar*ngx_conf_param(ngx_conf_t*cf);实现在src\core\ngx_conf_file.cchar*ngx_conf_param(ngx_conf_t*cf){char*rv;ngx_str_t*param;ngx_buf_tb;ngx_conf_file_tconf_file;pa
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_core_module 若云止水 ubuntu nginx 数据库
定义在src\core\nginx.cngx_module_tngx_core_module={NGX_MODULE_V1,&ngx_core_module_ctx,/*modulecontext*/ngx_core_commands,/*moduledirectives*/NGX_CORE_MODULE,/*moduletype*/NULL,/*initmaster*/NULL,/*initmo
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_modules 若云止水 ubuntu nginx linux
定义在objs\ngx_modules.c#include#includeexternngx_module_tngx_core_module;externngx_module_tngx_errlog_module;externngx_module_tngx_conf_module;externngx_module_tngx_openssl_module;externngx_module_tngx_
JVM——15.定位堆外内存 OOM 你想要怎样的未来 jvm jvm实战 java java jvm jvm.gc java虚拟机
文章目录1.ByteBuffer堆外内存介绍2.ByteBuffer堆外内存申请、释放（源码分析）2.1堆外内存申请2.2堆外内存释放3.什么情况会发生堆外内存OOM4.模拟堆外内存OOM4.1模拟14.2模拟24.3模拟35.堆外内存OOM的定位及解决1.ByteBuffer堆外内存介绍在介绍OOM那篇文章中，对堆外内存进行了介绍，就直接把它复制过来；ByteBuffer和DirectByteB
Clickhouse负载均衡客户端BalancedClickhouseDataSource源码分析颍天 clickhouse clickhouse
文章目录BalancedClickhouseDataSource源码分析结论BalancedClickhouseDataSource源码分析BalancedClickhouseDataSource的完整路径是ru.yandex.clickhouse.BalancedClickhouseDataSource，源码主要包括三部分，构造方法、获取连接、以及生成可用的地址列表。BalancedClickh
SpringBoot统一功能处理——统一异常处理棕豆兔＆ spring boot spring java
目录一、异常简单使用二、@ControllerAdvice源码分析一、异常简单使用统一异常处理使用的是@ControllerAdvice+@ExceptionHandler来实现的，@ControllerAdvice表示控制器通知类，@ExceptionHandler是异常处理器，两个结合表示当出现异常的时候执行某个通知，也就是执行某个方法事件。importcom.example.demo.mod
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin