horizonheart

机器学习系列--GBDT算法总结与源码分析

最近在看Kaggle2014年的一个比赛–Display Advertising Challenge。三个台湾人得了比赛的第一名，他们使用的是FFM算法(这个后面再做总结)，在他们比赛的代码中，使用了GBDT算法进行了特征的处理。他们没有使用scikit-learn中封装好的算法，而是自己手撸了一个GBDT的实现。下面就GBDT的一些原理和源码进行分析总结。

1. GBDT算法总结

梯度提升决策树GBDT(Gradient Boosting Decision Tree)最早由Friedman文章“Greedy Function Approximation: A Gradient Boosting Machine”提出这个概念。GBDT中的树用的是CART回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。由于GBDT中的CART树，在模型训练的时候，需要逐个训练样本进行计算，模型的训练时间相当之长。因此，这个也决定了GBDT不适合实时的线上训练，更加适用于离散的场景。
GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。Facebook(Practical Lessons From Predicting Clicks on Ads at Facebook)使用其来自动发现有效的特征、特征组合，来作为LR模型中的特征，以提高 CTR预估（Click-Through Rate Prediction）的准确性。GBDT在万能的淘宝搜索及预测业务上也发挥了重要作用。

1.1-Bagging和Boosting

要想理解清楚GBDT，首先要明白Bagging和Boosting的区别与联系。Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。

Bagging即套袋法，其算法过程如下：
A）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）
B）每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）
C）对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）

关于Boosting的两个核心问题：
A）在每一轮如何改变训练数据的权值或概率分布？
通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。
B）通过什么方式来组合弱分类器？
通过加法模型将弱分类器进行线性组合，比如AdaBoost通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。而提升树通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型。
总的来说，Bagging的训练样本在每次训练的时候，是通过抽样采取；而Boosting的核心是每次训练样本都是一样的，但是训练时候的训练样本的权重不一样。
1）Bagging + 决策树 = 随机森林
2）AdaBoost + 决策树 = 提升树
3）Gradient Boosting + 决策树 = GBDT

1.2-CART回归树

在机器学习算法中，决策树的种类有很多。最早使用的是ID3算法，之后又陆续的提出C4.5算法和CART算法，这是三个比较常用的决策树算法。ID3算法十分简单，核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征。ID3采用的信息增益度量存在一个缺点，它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益?(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大).为了避免这个不足C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。CART树是二叉树，既可以用于分类，也可以用于回归问题，最先由 Breiman 等提出，分类树的输出是样本的类别，回归树的输出是一个实数。GBDT中使用的是CART回归树，这里我们详细分析一下回归树的算法，其他算法感兴趣的同学可以查看相关的文献。

回归树的生成
具体的推导过程可以参考李航博士的统计学习方法。这个算法应该说是很easy的，稍做说明的就是输出值选择该节点样本点的平均值可以通过求导轻松得到相应的结论。由于决策树很容易产生过拟合的现象，在生成CART树后，还需要进行剪枝操作，生成一系列的回归树，之后通过交叉验证，选择效果相对较好的决策树。

1.3-GBDT算法

有了前面的CART回归树，就可以正式进入GBDT的算法了。GBDT算法是通过逐轮的迭代生成一系列的树，最终的结果是这一系列的树的加权求和。假设我们前一轮迭代得到的强学习器是 Fm−1(x) ,损失函数是 L(y,Fm−1(x)) 。我们本轮迭代的目标是找到一个CART回归树模型的弱学习器 h(x,am) (其中 am 是CART树的参数)，使得 L(y,Fm(x))=L(y,Fm−1(x)+h(x,am)) 最小，也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。
GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。
那么现在的难点是在GBDT中如何去量我们每一轮的损失啊。大牛Freidman提出了用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树。
我自己的理解(一家之言，仅供参考)是可以从损失函数泰勒展开的角度来理解Freidman大牛的做法。将损失函数进行泰勒展开，得到如下结果：

L (y, F m (x)) = L (y, F m - 1 (x) + h (x, a m)) = L (y, F m - 1 (x)) + \partial L ( y , F m - 1 ( x ) ) \partial F m - 1 h (x, a m)

要想保证等号左边的取值小于等号的右边，即

∂L(y,Fm−1(x))∂Fm−1h(x,am)<0 恒成立，又因为

h(x,am) 是将要计算的CART树，这个是未知，只有梯度是已知的，因此不妨假设要拟合的CART树就是梯度的负方向，即

h(x,am)=−∂L(y,Fm−1(x))∂Fm−1 这个就可以保证上面的等式恒成立。

GBDT中使用的损失函数是 L(y,F)=log(1+exp(−2yF),y∈{−1,1} ,有关损失函数，可以参考新浪微博的赵志勇总结的机器学习中损失函数。GBDT中损失函数的梯度的负方向为：

y i ~ = r i m = - [\partial L ( y i , F ( x i ) ) ) \partial F ( x i )] F (x) = F m - 1 (x) = 2 y i ( 1 + e x p ( 2 y i F m - 1 ( x ) ) )

利用

(xi,rim)(i=1,2,..N) ，我们可以拟合一颗CART回归树，得到了第m颗回归树。其对应的叶节点区域

γjm,j=1,2,...,J 。其中

J 为叶子节点的个数。针对每一个叶子节点里的样本，我们求出使损失函数最小，也就是拟合叶子节点最好的的输出值

γjm 如下：

γ j m = a r g m i n          c \sum x i \in R j m L (y i, F m - 1 (x i) + γ) = a r g m i n          c \sum x i \in R j m l o g (1 + e x p (- 2 y i (F m - 1 (x i) + γ)))

这样我们就得到了本轮的决策树拟合函数如下( 在此说明一下，我们上面提到的CART数算法中不是说的是叶子节点的最后输出值是该节点样本的均值吗？为什么在这我们还要求呢？这个问题可以这么理解，Freidman大牛的原始论文中还有一个学习率 ρ ,就是说CART树的输出还要乘上一个学习率，在这进一步的缩写就是说CART树的输出和学习率的乘积看成了CART回归树的最终输出，这样就可以避免了学习率的设置)：

h (x, a m) = \sum j = 1 J γ j m I (x \in R j m)

从而本轮最终得到的强学习器的表达式如下：

F m (x) = F m - 1 (x) + \sum j = 1 J c j m I (x \in R j m)

以上就是GBDT的核心的公式了，还有一些细节我们做一下说明。首先就是初始值，初始值我们应该怎么取？令损失函数其偏导为0，偏导等于零才有可能取到极值。

F 0 (x) = a r g m i n \sum j = 1 N L (y i, F (x i)) \Rightarrow \partial \sum j = 1 N L ( y i , F ( x i ) ) \partial F = 0

求解上述方程

\sum j = 1 N ( - 2 y i ) e - 2 y i F e - 2 y i F + 1 = 0 \Rightarrow \sum i : y i = 1 - 2 e - 2 F e - 2 F + 1 + \sum i : y i = 1 - 2 e - 2 F e - 2 F + 1 = 0

假设训练集中有

m 个正样本，

n 个负样本，此时上式可以化简为：

- 2 m + 2 n e 2 F e 2 F + 1 = 0 \Rightarrow e 2 F = m n = 1 + m - n m + n 1 - m - n m + n = 1 + y ¯ 1 - y ¯

y¯ 正好是样本的均值，

F0(x)=12ln1+y¯1−y¯
第二个问题就是

γjm 的求解，由于

γjm 是非线性函数，很难求其最小值，这个时候我们可以借助牛顿法求解其近似解。定义

g (γ) = \sum x i \in R j m l o g (1 + e x p (- 2 y i (F m - 1 (x i) + γ)))

其一二阶偏导如下：

g' (γ) = \sum x i \in R j m - 2 y i 1 + e x p ( 2 y i ( F m - 1 ( x i ) + γ ) ) g'' (γ) = \sum x i \in R j m 4 e x p ( 2 y i ( F m - 1 ( x i ) + γ ) ) [ 1 + e x p ( 2 y i ( F m - 1 ( x i ) + γ ) ) ] 2

利用牛顿迭代法进行迭代一步

γjm=γ0−g′(γ0)g′′(γ0) 。初始时，可以从

γ0=0 开始迭代，

γjm=∑xi∈Rjmyi~∑xi∈Rjm|yi~|(2−|yi~|) 。到此为止，GBDT算法所有的公式都已经知道如何计算了，下面就是按照如下的算法进行计算：

2. GBDT源码分析

在这主要分析的是14年kaggle比赛中使用到的代码，这个代码中没有CART树剪枝的过程。用到的是比赛中真实的数据，数据前期利用Python进行了清洗处理。具体的可以参考作者的Github。以下仅仅是核心代码的分析，整体的代码分析可以参考我的Github–https://github.com/horizonheart/GBDT

void GBDT::fit(Problem const &Tr, Problem const &Va)
{
     bias = calc_bias(Tr.Y);//计算初始值F0

std::vector F_Tr(Tr.nr_instance, bias), F_Va(Va.nr_instance, bias);

Timer timer;
printf("iter     time    tr_loss    va_loss\n");
// 开始训练每一棵CART树
for(uint32_t t = 0; t < trees.size(); ++t)
{
    timer.tic();

    std::vector const &Y = Tr.Y;
    std::vector R(Tr.nr_instance), F1(Tr.nr_instance);// 记录残差和F(生成树) F1即F_{m-1}

    #pragma omp parallel for schedule(static)
    for(uint32_t i = 0; i < Tr.nr_instance; ++i) 
        R[i] = static_cast(Y[i]/(1+exp(Y[i]*F_Tr[i])));//计算残差，或者称为梯度下降的方向
    // 利用上面的残差值，在此函数中构造一棵树
    trees[t].fit(Tr, R, F1); // 分类树的生成

    // 用上面训练的结果更新F_Tr，并计算log_loss
    double Tr_loss = 0;
    #pragma omp parallel for schedule(static) reduction(+: Tr_loss)
    for(uint32_t i = 0; i < Tr.nr_instance; ++i) 
    {
        F_Tr[i] += F1[i];
        Tr_loss += log(1+exp(-Y[i]*F_Tr[i]));
    }
    Tr_loss /= static_cast(Tr.nr_instance);
     /// 用上面训练的结果预测测试集，打印log_loss
    #pragma omp parallel for schedule(static)
    for(uint32_t i = 0; i < Va.nr_instance; ++i)
    {
        std::vector x = construct_instance(Va, i);
        F_Va[i] += trees[t].predict(x.data()).second;
    }

    double Va_loss = 0;
    #pragma omp parallel for schedule(static) reduction(+: Va_loss)
    for(uint32_t i = 0; i < Va.nr_instance; ++i) 
        Va_loss += log(1+exp(-Va.Y[i]*F_Va[i]));
    Va_loss /= static_cast(Va.nr_instance);

    printf("%4d %8.1f %10.5f %10.5f\n", t, timer.toc(), Tr_loss, Va_loss);
    fflush(stdout);
  }
}
//************************************
// Method:    fit
// FullName:  CART::fit
// Access:    public 
// Returns:   void
// Qualifier: 根据残差训练CART树
// Parameter: Problem const & prob
// Parameter: std::vector const & R 残差，负梯度方向
// Parameter: std::vector & F1 上一步计算的值，相当于F_{m-1}步的值
//************************************
void CART::fit(Problem const &prob, std::vector const &R, 
    std::vector &F1)
{
    uint32_t const nr_field = prob.nr_field;//特征的个数
    uint32_t const nr_sparse_field = prob.nr_sparse_field;
    uint32_t const nr_instance = prob.nr_instance;//样本的个数

std::vector locations(nr_instance);  // 样本信息
#pragma omp parallel for schedule(static)
for(uint32_t i = 0; i < nr_instance; ++i)
    locations[i].r = R[i]; // 记录每一个样本的残差
for(uint32_t d = 0, offset = 1; d < max_depth; ++d, offset *= 2) // d:深度 offset其实就是每一层有多少个节点
{
    uint32_t const nr_leaf = static_cast(pow(2, d));// 叶子节点的个数
    std::vector metas0(nr_leaf); // 叶子节点的信息

    //计算所有总的残差
    for(uint32_t i = 0; i < nr_instance; ++i)
    {
        Location &location = locations[i]; //第i个样本的信息
        if(location.shrinked)
            continue;

        Meta &meta = metas0[location.tnode_idx - offset]; //找到对应的叶子节点
        meta.s += location.r;//残差之和
        ++meta.n;
    }

    std::vector defenders(nr_leaf*nr_field); //记录每一个叶节点的每一维特征
    std::vector defenders_sparse(nr_leaf*nr_sparse_field);

    //初始化当前叶子节点每一维的切分点的值
    for(uint32_t f = 0; f < nr_leaf; ++f)
    {
        Meta const &meta = metas0[f];//拿到当前的叶子节点
        double const ese = meta.s*meta.s/static_cast(meta.n);//计算当前叶子节点的ese
        for(uint32_t j = 0; j < nr_field; ++j)
            defenders[f*nr_field+j].ese = ese;
        for(uint32_t j = 0; j < nr_sparse_field; ++j)
            defenders_sparse[f*nr_sparse_field+j].ese = ese;
    }
    std::vector defenders_inv = defenders;

    std::thread thread_f(scan, std::ref(prob), std::ref(locations),
        std::ref(metas0), std::ref(defenders), offset, true);//从正方向开始判断
    std::thread thread_b(scan, std::ref(prob), std::ref(locations),
        std::ref(metas0), std::ref(defenders_inv), offset, false);//从负方向开始判断
    scan_sparse(prob, locations, metas0, defenders_sparse, offset, true);
    thread_f.join();
    thread_b.join();
    // 找出最佳的ese，scan里是每个字段的最佳ese，这里是所有字段的最佳ese，赋值给相应的tnode
    for(uint32_t f = 0; f < nr_leaf; ++f)
    {
        // 对于每一个叶节点都找到最好的划分
        Meta const &meta = metas0[f];
        double best_ese = meta.s*meta.s/static_cast(meta.n);
        TreeNode &tnode = tnodes[f+offset];
        //计算稠密矩阵的最佳切分点
        for(uint32_t j = 0; j < nr_field; ++j)
        {
            Defender defender = defenders[f*nr_field+j];//每一个叶节点都对应着所有的特征
            //计算最好的划分点
            if(defender.ese > best_ese)
            {
                best_ese = defender.ese;
                tnode.feature = j;
                tnode.threshold = defender.threshold;
            }

            defender = defenders_inv[f*nr_field+j];
            if(defender.ese > best_ese)
            {
                best_ese = defender.ese;
                tnode.feature = j;
                tnode.threshold = defender.threshold;
            }
        }
        //计算稀疏矩阵的最佳切分点
        for(uint32_t j = 0; j < nr_sparse_field; ++j)
        {
            Defender defender = defenders_sparse[f*nr_sparse_field+j];
            if(defender.ese > best_ese)
            {
                best_ese = defender.ese;
                tnode.feature = nr_field + j;
                tnode.threshold = defender.threshold;
            }
        }
    }
    // 把每个instance都分配给树里的一个叶节点下
    #pragma omp parallel for schedule(static)
    for(uint32_t i = 0; i < nr_instance; ++i)
    {
        Location &location = locations[i];
        if(location.shrinked)
            continue;

        uint32_t &tnode_idx = location.tnode_idx;
        TreeNode &tnode = tnodes[tnode_idx];
        if(tnode.feature == -1)
        {
            location.shrinked = true;
        }
        else if(static_cast(tnode.feature) < nr_field) //划分的特征是不是稠密矩阵的特征
        {
            if(prob.Z[tnode.feature][i].v < tnode.threshold)
                tnode_idx = 2*tnode_idx; //分配到左节点
            else
                tnode_idx = 2*tnode_idx+1; 
        }
        else
        {
            //划分的特征是稀疏矩阵的特征
            uint32_t const target_feature 
                = static_cast(tnode.feature-nr_field);
            bool is_one = false;
            for(uint64_t p = prob.SJP[i]; p < prob.SJP[i+1]; ++p) 
            {
                if(prob.SJ[p] == target_feature)
                {
                    is_one = true;
                    break;
                }
            }
            if(!is_one)
                tnode_idx = 2*tnode_idx; 
            else
                tnode_idx = 2*tnode_idx+1; 
        }
    }
}
//以上代码为训练出了CART树
// 用于计算gamma
std::vector> 
    tmp(max_tnodes, std::make_pair(0, 0));
for(uint32_t i = 0; i < nr_instance; ++i)
{
    float const r = locations[i].r;
    uint32_t const tnode_idx = locations[i].tnode_idx;//当前样本所在的节点的索引
    tmp[tnode_idx].first += r;
    tmp[tnode_idx].second += fabs(r)*(1-fabs(r));
}

for(uint32_t tnode_idx = 1; tnode_idx <= max_tnodes; ++tnode_idx)
{
    double a, b;
    std::tie(a, b) = tmp[tnode_idx-1];
    tnodes[tnode_idx-1].gamma = (b <= 1e-12)? 0 : static_cast(a/b);
}

#pragma omp parallel for schedule(static)
for(uint32_t i = 0; i < nr_instance; ++i)
    F1[i] = tnodes[locations[i].tnode_idx].gamma;// 重新更新F1的值

}
参考博客：http://blog.csdn.net/google19890102/article/details/51746402

常见机器学习算法总结婉妃
基本算法总结正面.jpeg图的左半部分列出了常用的机器学习算法与它们之间的演化关系，分为有监督学习，无监督学习，强化学习3大类。右半部分列出了典型算法的总结比较，包括算法的核心点如类型，预测函数，求解的目标函数，求解算法。理解和记忆这张图，对你系统化的掌握机器学习与深度学习会非常有帮助！基本公式反面.jpeg
机器学习算法总结 doverxu
回归算法线性回归算法：支持向量机&向前逐步回归&惩罚线性回归（岭回归/套索回归/ElasticNet/最小角度回归LARS/Glmnet）非线性回归算法二元决策树：分割点评价标准是基尼不纯性度量和信息增益自举集成（Bagging）：从训练数据集获得一系列的自举样本，对每一个自举样本训练一个基学习器，将基学习器的均值作为结果。梯度提升算法：与Bagging和随机森林的不同之处在于它在减少方差的同时，
【深入探究人工智能】：常见机器学习算法总结 .小智小智带你闲聊人工智能机器学习算法
文章目录1、前言1.1机器学习算法的两步骤1.2机器学习算法分类2、逻辑回归算法2.1逻辑函数2.2逻辑回归可以用于多类分类2.3逻辑回归中的系数3、线性回归算法3.1线性回归的假设3.2确定线性回归模型的拟合优度3.3线性回归中的异常值处理4、支持向量机（SVM）算法4.1优点4.2缺点小结博客主页：小智_x0___0x_欢迎关注：点赞收藏✍️留言系列专栏：小智带你闲聊代码仓库：小智的代码仓库1
Lime算法总结--可解释性机器学习算法总结南京比高IT 可解释性分析算法人工智能
一.引言前面我们进行了CAM、GRAD-CAM算法的介绍，本文我们继续介绍一种算法:Lime（LocalInterpretableModel-AgnosticExplanations）二.算法介绍Lime算法是基于局部代理模型来对单个样本进行解释。假设对于需要解释的黑盒模型，取关注的实例样本，在其附近进行扰动生成新的样本点，并得到黑盒模型的预测值，基于新的数据集训练可解释的模型来得到对黑盒模型良好
机器学习算法总结 Yngxiao123 机器学习
朴素贝叶斯：有以下几个地方需要注意：只能做分类1.如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位置是该单词出现的次数。2.计算公式如下：其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法，而由朴素贝叶斯的前提假设可知，=，因此一般有两种，一种是在类别为ci的那些样本集中，找到wj出现次
机器学习算法总结程序汪赵可乐 cv nlp 算法机器学习人工智能
机器学习两个核心任务：任务一：如何优化训练数据—>主要用于解决欠拟合问题任务二：如何提升泛化性能—>主要用于解决过拟合问题KNN定义：给定一个训练集，对新输入的未知样本，通过计算与每个训练样本的距离，找到与该实例最邻近的K个实例，这K个实例大多属于某个类，该样本就属于某个类应用场景：分类/回归问题算法流程：计算已知类别数据集中的点与当前点之间的距离按照距离值进行排序选取最小的k个距离，并统计这k个
机器学习算法总结正在思考中机器学习机器学习
机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。严格的定义：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里所说的“机器”，指的就是计算机，电子计算机，中子计算机、光子计算机或神经计算
十大常用机器学习算法总结（持续完善）二哥不像程序员数据挖掘机器学习算法 python 机器学习人工智能新星计划
前言之前二哥连载了各类常用的机器学习算法的原理与具体推倒过程，本文我们对常用的十大机器学习算法进行总结。记得收藏+点赞+评论呦！目录前言一、线性回归二、K近邻算法（KNN）三、朴素贝叶斯（NB）四、逻辑回归（LR）五、支持向量机（SVM）六、决策树（DT）七、随机森林（RF）八、GBDT九、XGBoost十、K-Means一、线性回归思路：线性回归假设目标值与特征之间线性相关，即满足一个多元一次方
【机器学习算法总结】XGBoost y430 Kaggle Machine learning
目录1.XGBoost2.CART树2.1优缺点2.2分裂依据2.2.1分类2.2.2回归2.3总结2.4参考3.算法原理3.1定义树的复杂度3.2打分函数计算示例3.3分裂结点3.3.1贪心法3.3.2近似算法3.3.3分布式加权直方图算法（WeightedQuantileSketch）4.损失函数（指定grad、hess）4.1参考5.缺失值6.其他优化6.1正则化6.2计算速度提升6.2.1
机器学习算法总结(六)——EM算法与高斯混合模型 weixin_30291791 人工智能
极大似然估计是利用已知的样本结果，去反推最有可能（最大概率）导致这样结果的参数值，也就是在给定的观测变量下去估计参数值。然而现实中可能存在这样的问题，除了观测变量之外，还存在着未知的隐变量，因为变量未知，因此无法直接通过最大似然估计直接求参数值。EM算法是一种迭代算法，用于含有隐变量的概率模型的极大似然估计，或者说是极大后验概率估计。1、经典的三硬币模型引入一个例子来说明隐变量存在的问题。假设有3
机器学习总结一：Bagging之决策树、随机森林原理与案例想考个研机器学习决策树随机森林
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means一、Bagging之决策树、随机森林原理与案例1.决策树1.1简介决策树(DecisionTree)是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据种总结出决策规则，并利用树状图结构呈现这些规则
机器学习总结三：SVM原理推导与案例想考个研机器学习支持向量机算法
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means三、SVM1.原理推导（硬间隔）1.1分类问题代数化**svm原理一句话概括：找出一个最优的直线(或超平面)去隔离不同类别样本数据，达到分类目的。**图1图2图1:找出一条直线将样本完美地划分成两类（注意这样
机器学习总结四：逻辑回归与反欺诈检测案例想考个研机器学习逻辑回归算法
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means四、逻辑回归1、概述由线性回归变化而来的，应用于分类问题中的广义回归算法。组成：回归函数z=w1x1+w2x2+...+wnxn+b=[w1w2wnb]∗[x1x2⋮xn1]=wTXz=w_1x_1+w_2x
机器学习算法总结--朴素贝叶斯 spearhead_cai 机器学习算法总结机器学习算法朴素贝叶斯
这次需要总结的是朴素贝叶斯算法，参考文章：《统计学习方法》机器学习常见算法个人总结（面试用）朴素贝叶斯理论推导与三种常见模型朴素贝叶斯的三个常用模型：高斯、多项式、伯努利简介朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。贝叶斯定理是基于条件概率来计算的，条件概率是在已知事件B发生的前提下，求解事件A发生的概率，即P(A|B)=P(AB)P(B)，而贝叶斯定理则可以通过P(A|B)来求解P
机器学习算法总结 ZQ_ZHU Machine Learning 秋招机器学习算法
转自：https://blog.csdn.net/weixin_40411446/article/details/81836322~~~~~·个人整理，如需转载，请说明并备注，不甚感激~~~~~~（这篇文章我很早发布在简书上，不用简书好多年了，哈哈哈，居然上了热搜，特复制在CSDN上供大家参考，为秋招攒点人品）suxuer简书原文地址BAT机器学习面试系列1.请简要介绍下SVM。SVM，全称是su
机器学习算法总结 #叫啥名字呢机器学习机器学习算法
~~~~~·个人整理，如需转载，请说明并备注，不甚感激~~~~~~（这篇文章我很早发布在简书上，不用简书好多年了，哈哈哈，居然上了热搜，特复制在CSDN上供大家参考，为秋招攒点人品）suxuer简书原文地址BAT机器学习面试系列1.请简要介绍下SVM。SVM，全称是supportvectormachine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不
机器学习期末练习题 unseven 机器学习机器学习期末练习题
目录KNN决策树朴素贝叶斯SVMadaboost梯度下降法KmeansAprioriSVD重要的评估指标（注意F1score）机器学习算法总结过拟合和欠拟合产生的原因：解决欠拟合(高偏差)的方法解决过拟合(高方差)的方法：KNN决策树朴素贝叶斯SVMadaboost这个题的答案给的有问题，推荐看完这个解析41、AdaBoost算法原理的举例推演梯度下降法KmeansAprioriSVD重要的评估指
梯度提升决策树（GBDT）与XGBoost、LightGBM weixin_ry5219775 决策树机器学习算法
20211224【机器学习算法总结】XGBoost_yyy430的博客-CSDN博客_xgboostxgboost参数默认：auto。XGBoost中使用的树构造算法。可选项：auto，exact，approx，hist，gpu_exact，gpu_hist。分布式和外部存储器版本仅支持tree_method=approx。auto：使用启发式方法选择最快的方法。（1）对于中小型数据集，将使用精确
支持向量机SVM 余生最年轻机器学习
关键字：vector,support,machine,核函数，支持向量机由于自然语言分类总结：SVM是一个分类问题，在学习复杂的非线性方程时效果很好，是监督式学习（详见前面的微博：机器学习算法总结）。例子：from吴恩达的机器学习视频，肿瘤大小与是否患病的例子1.定义找到一条直线，使得直线可以划分两类，并且到两类的距离（就是图上的垂线长度）一样，这是一条最佳的直线。离直线最近的点叫vector，直
机器学习算法总结之聚类：K-means kaiyuan_sjtu ML算法总结
写在前面在前面学习的ML算法中，基本都是有监督学习类型，即存在样本标签。然而在机器学习的任务中，还存在另外一种训练样本的标签是未知的，即“无监督学习”。此类任务中研究最多、应用最广泛的是“聚类”（clustering），常见的无监督学习任务还有密度估计、异常检测等。本文将首先介绍聚类基本概念，然后具体地介绍几类细分的聚类算法。参考资料：K-Means聚类算法原理1.聚类简介聚类试图将数据集中的样本
机器学习算法总结知识点索引光英的记忆算法 tensorflow NLP
百面机器学习算法总结索引（声明：以下所有内容及其链接内容来自于百面机器学习一书，仅供自己方便学习和复习，不做任何商业用途，所有链接内容继承本声明）第一节：特征归一化1.为什么需要对数值类型的特征做归一化？2.在对数据进行预处理时，应该怎样处理类别型特征？3.如何处理高纬度组合特征？什么是组合特征？4.5.有哪些文本表示模型？它们各有什么优缺点？6.Word2vec是如何工作的？它和LDA有什么区别
机器学习算法总结--决策树 spearhead_cai 机器学习算法
简介定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。决策树学习本质上是从训练数据集中归纳出一组分类规则，也可以说是由训练数据集估计条件概率模型。它使用的损失函数通常是正则化的极大似然函数，其策略是以损失函数为目标函数的最
使用Python语言进行机器学习工作流的实例分析冬之晓东 python 机器学习数据处理数据挖掘
最近，在kaggle上找到一位大牛写的机器学习算法总结，感觉流程清晰，内容详实，因此翻译并分享下，由于作者不明原因将原文删除了，所以没法放上原文地址，文中主要以代码实践的方式展开各种算法，原理方面参考文中的地址连接（这是自己加上的），以便随时查阅~目录目录使用Python语言进行机器学习工作流的实例分析1.介绍2.机器学习工作流程3问题定义3.1问题特征3.2目标3.3变量4.输入输出5.安装工具
机器学习算法总结11:XGBoost 小颜学人工智能机器学习
XGBoost(eXtremeGradientBoosting)是于2015年提出的GradientBoosting实现算法，在速度和精度较GBDT有显著提升。XGBoost以类似牛顿法的方式进行优化。任何机器学习问题都可以从目标函数出发，目标函数分为两部分：损失函数+正则化项，其中，损失函数用于描述模型拟合数据的程度，正则化项用于控制模型的复杂度。与GDBT一样，XGBoost采用加法模型，设基
机器学习算法总结12:LightGBM 小颜学人工智能机器学习
LightGBM是一个梯度(GradientBoosting，GB)框架，可用于分类、回归、排序等机器学习任务。相比于XGBoost，LightGBM在不降低准确率的前提下，速度提升了10倍左右，占用内存下降了3倍左右。直方图算法(HistogramAlgorithm)的基本思想是将连续的特征离散化为k个离散特征，同时构造一个宽度为k的直方图，用于统计信息(含有k个bin)即将连续值映射到对应bi
机器学习算法总结9:k-means聚类算法小颜学人工智能机器学习
无监督学习：训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。聚类是典型无监督学习任务，它试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇。距离度量：通过距离来定义相似度度量，距离越大，相似度越小。最常用的距离度量是闵可夫斯基距离，其中，当p=2时，称为欧氏距离；当p=1时，称为曼哈顿距离。详见我的博客：机器学
机器学习算法总结10:Bagging及随机森林小颜学人工智能机器学习
Bagging是并行式集成学习方法最著名的代表，可以用于分类任务，也可以用于回归任务，被誉为“代表集成学习技术水平的方法”。不同于Boosting方法对训练数据集赋予不同的权重训练基学习器，Bagging采用“重采样法”，将训练数据集进行采样，进而产生若干个不同的子集，再从每个数据子集中训练出一个基学习器，然后使用结合策略得到强学习器。为得到不同的采样集，使用自助采样法进行采样：给定包含m个样本的
机器学习算法总结6:线性回归与逻辑回归小颜学人工智能机器学习
线性回归(LinearRegression)：线性回归是回归模型，y=f(x)：表明自变量x和因变量y的关系。1.模型2.策略损失函数(平方损失函数)：注：平方误差代价函数是解决回归问题最常用的代价函数。3.算法最小二乘法：注意：要求X是满秩的！逻辑回归(LogisticRegression)：逻辑回归是统计学习中的经典分类方法，属于对数线性模型。1.模型逻辑回归实际上是处理二类分类问题的模型，输
基于scikit-learn的随机森林调参实战 kaiyuan_sjtu ML算法总结
写在前面在之前一篇机器学习算法总结之Bagging与随机森林中对随机森林的原理进行了介绍。还是老套路，学习完理论知识需要实践来加深印象。在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor。当然RF的变种ExtraTrees也有，分类类ExtraTreesClassifier，回归类ExtraTreesRegr
【机器学习算法总结】GBDT y430 Machine learning Kaggle
目录1、GBDT2、GBDT思想3、负梯度拟合4、损失函数4.1、分类4.2、回归5、GBDT回归算法6、GBDT分类算法6.1、二分类6.2、多分类7、正则化8、RF与GBDT之间的区别与联系9、优缺点优点缺点10、应用场景11、主要调参的参数12、sklearn.ensemble.GradientBoostingClassifier参数及方法说明参考1、GBDTGBDT(GradientBoo
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数