决策树与随机森林

文章目录

    • 熵的定义回顾
    • 条件熵
    • 决策树
    • 决策树的评价
    • 决策树的过拟合
      • 随机森林
      • Bagging的策略
    • 样本不均衡常用处理方法
    • 随机森林的其他应用
      • 使用RF计算样本之间的相似度
      • 计算特征重要度
      • 异常检测
    • 使用决策树做回归

熵的定义回顾

熵是定义不确定性的物理量,越不确定,熵越大,越确定,熵越小。
决策树与随机森林_第1张图片

条件熵

决策树与随机森林_第2张图片
H(X,Y)表示X,Y共同发生的不确定性,H(X)表示X发生的不确定性,将X发生的不确定性减去,反过来说,给定了X发生情况下,Y发生的不确定性就是H(YginvenX)
决策树与随机森林_第3张图片

决策树与随机森林_第4张图片

决策树

决策树与随机森林_第5张图片
决策树与随机森林_第6张图片

决策树与随机森林_第7张图片
决策树与随机森林_第8张图片
决策树与随机森林_第9张图片
以根据‘outlook’‘humidity’‘temperature’‘windy’这四个特征确定是否去打球为例
1、计算时间“是否出去打球的信息熵H0”,根据信息熵公式
H0=-5/14ln5/14-9/14ln9/14
2、遍历所有特征,计算条件信息熵。比如,任选一个特征,比如选outlook做为根节点,对数据进行切分,可以看到outlook有三个分类方法即‘sunny’‘overcast’‘rainy’,先根据这三个分类方法计算出条件信息熵=5/14*(-3/5ln3/5-2/5ln2/5)+4/15*(-4/4ln4/4)+5/14*(-2/5ln2/5-3/5ln3/5).再选择其他特征计算其他特征对应的条件信息熵H1。
3、计算信息增益。计算信息熵H0与各条件信息熵H1的差,记做信息增益。
决策树与随机森林_第10张图片

4、信息增益大对应的特征为本次分裂子节点时选用的特征。
5、在子节点中再次重复1~4的过程。子节点中结算信息熵,也是根据分到该子节点的样本数计算。比如,第一次分类选择overcast做为特征,则sunny子节点中共有五个样本点,sunny子节点对应的信息熵为-3/5ln3/5-2/5ln2/5(五个样本点钟有3个NO,2个Yes)。之后在计算条件信息熵,再计算信息增益确定信息增益最大的特征为分类特征。
6、在达到要求的深度即停止。

决策树的评价

决策树与随机森林_第11张图片
决策树的评价函数是对叶子节点的样本数加权求熵和也就是上述公式中的C(T)。这里可以对训练集进行训练,得到深度为1,2,3…的决策树,再分别计算其深度为1,2,3…时测试集的C(T),观察各深度对应的C(T)值,取C(T)值最小的深度做为最终结果。

决策树的过拟合

决策树与随机森林_第12张图片

随机森林

假设在这些样本中某一个特征下树模型过拟合,通过采样的方式,得到足够多的样本,则最终会建立足够多的的决策树,可以综合考虑所有决策树分类结果给出最终分类结果,这样可以减小过拟合的影响,因为样本噪声在样本中占的比率比较小,则只会有一个或若干个决策树拟合到了样本噪声,在样本足够多的,决策树足够多的情况下,样本噪声对预测结果影响较小。

Bagging的策略

决策树与随机森林_第13张图片
每次重采样可以使用树模型,也可以使用SVM或者LOGISTIC回归,但一般不用这两种回归,主要会用到树模型。这是因为树模型是弱分类器而SVM LOGISTIC回归是强分类器,弱分类器的集成一般效果会更好。

样本不均衡常用处理方法

决策树与随机森林_第14张图片

随机森林的其他应用

使用RF计算样本之间的相似度

决策树与随机森林_第15张图片

计算特征重要度

决策树与随机森林_第16张图片

异常检测

决策树与随机森林_第17张图片

使用决策树做回归

决策树使用MSE做为评价标准,则MSE取最小值时,对应的预测值Ypred为样本的均值。具体推导过程如下
决策树与随机森林_第18张图片
参照决策树分类算法,采用贪心方法,遍历按照每种特征分类后,类别对应的真实值的均值做为按照该特征进行分类的预测值(均值就是MSE最小时样本的预测值)。

(参考:https://blog.csdn.net/weixin_40604987/article/details/79296427)
单一特征参考以上链接
对于有多个特征的回归问题,可以考虑采用GBDT的方式,这一部分,在提升中继续讨论。

你可能感兴趣的:(机器学习)