【机器学习】决策树缺失值处理方法

随机森林如何处理缺失值

  1. 对于缺失的数值型变量,用其对应类别的中位数代替。
    对于缺失的描述性变量,用其对应类别中出现次数最多的数值代替。
  2. 同1也是使用中位数和出现最多的数替换,但引入了权重。
    先计算要替换的数据和其他同类数据计算相似度,根据相似度确定缺失值是否更靠近该数据点。
  • 首先,给缺失值预设一些估计值,比如数值型特征,选择其余数据的中位数或众数作为当前的估计值
  • 然后,根据估计的数值,建立随机森林,把所有的数据放进随机森林里面跑一遍。记录每一组数据在决策树中一步一步分类的路径.
  • 判断哪组数据和缺失数据路径最相似,引入一个相似度矩阵,来记录数据之间的相似度,比如有N组数据,相似度矩阵大小就是N*N
  • 如果缺失值是类别变量,通过权重投票得到新估计值,如果是数值型变量,通过加权平均得到新的估计值,如此迭代,直到得到稳定的估计值

解释相似度矩阵
相似度矩阵就是任意两个观测实例间的相似度矩阵,原理是如果两个观测实例落在同一棵树的相同节点次数越多,则这两个观测实例的相似度越高

详细来说:
Proximity 用来衡量两个样本之间的相似性。原理就是如果两个样本落在树的同一个叶子节点的次数越多,则这两个样本的相似度越高。当一棵树生成后,让数据集通过这棵树࿰

你可能感兴趣的:(机器学习,决策树,算法)