adaboost简介和思考

  1. boosting and bagging :  
  • bagging :(bootstrap aggregating)简称bagging ,是一种基于数据随机抽取的分类器构造方法,从数据中按一定的抽取方式S个样本,然后s个样本对应s个分类器,经训练后,输入新的数据后,经过s个分类器的投票后确定类别并输出。
  • boosting :其代表是adaboost方法,(adaptive boosting )简称自适应boosting方法;过程为:为训练集添加一个向量D,表示每条数据的权值,,在每次训练比较弱的分类器的时候,根据错误率调整向量D的大小,(其实过程就是把分错的行数据权值提高,把分对的权值降低),在此之前要计算出每个分类器的权值alpha值; 公式如下:

                 每个分类器出错率  ,alpha 计算公式 ,向量迭代D的公式:或 ,一个是样本被正确分类的公式,一个是未被正确分类时的公式,(注意分类器出错率的大小是0到0.5之间的,可能有人会在上面的公式犯糊涂。。)


这是书上的流程框架图挺清晰的。代码 及相关解释的链接:点击打开链接 另一个人的博客换不错,,
 2. 其实我是想改造adaboost算法的,主要思路:
  •  在权值更新时考虑上限控制和下限控制,这样可以避免一些数据权重太高。
  • 在难数据场景的情况下,考虑选取弱分类器真阳率和假阳率的结合。

你可能感兴趣的:(机器学习(python))