Spark.GBDT学习-GBT总结

Spark.ML中的GBT分类/回归算法的总结。分类和回归任务的区别在于损失函数和基学习器(决策树)不纯度计算准则不同,分类问题被当作label为-1/+1的回归问题处理。分类问题不能得到预测概率,只能得到预测label,原始预测结果通过和阈值0比较得到预测label。

GBT参数

GBTRegressorGBTClassifier分别继承了GBTxxxParams参数,该参数又继承了多个参数。所以最终GBT的参数如下图所示。

GBT参数.png

  1. GBTxxxParams
    分类和回归任务分别设置了lossType
  2. TreexxxParams
    分类和回归分别设置了基学习器的impurity
  3. GBTParams
    设置maxIterstepSize
  4. TreeEnsembleParams
    设置subsamplingRate

GBT过程

GBT过程.png
  1. 两个方法都是调用GradientBoostedTrees.run方法训练,得到对应的预测模型。
  2. 分类问题会在该方法中通过将label转换成-1/+1,将分类问题当作回归问题进行。
  3. GradientBoostedTrees并非最底层的实现,再往下的实现日后学习。

你可能感兴趣的:(Spark.GBDT学习-GBT总结)