特征工程

1.EDA

特征工程_第1张图片

2.缺失值处理

如果用树模型的话,缺失值也可以不处理,因为会把缺失值也当成一个待定取值。因为CART树就是一颗二叉树,无非就是左右两种取值可能。因此分别向左和向右导一下计算各自的信息增益,然后选择增益更大的那个方向。
特征工程_第2张图片
特征工程_第3张图片

3.数值转换

  • 归一化

数据量纲不一致时,送入到神经网络当中各个权重就会产生很大的偏置。因此一定需要做归一化的。**如果是送到决策树模型当中的话,是不需要做归一化,因为是一个特征一个特征来进行处理的。**与其他特征不会产生关联。

  • 对数转换
    对于标签分布的偏度大于0.75时,就需要对标签进行对数转换(注意是标签,不是特征,并且决策树还是不需要处理)

对于偏度数据-数值转换

特征工程_第4张图片

特征组

你可能感兴趣的:(算法,决策树)