决策树-特征连续/离散,输出连续/离散

特征:
注意:普通的DT可以多分叉,CART是二叉树
离散:DT就正常分,CART采用二分类,对于每个类别选择一个离散值,其余的合到一组(是/否分类思想)
连续:都是采用二分,取值分成<=&>两部分

输出
离散:分类问题,GINI系数,信息增益
连续:回归问题,采用min(两部分平方误差)

CART连续特征:
比如m个样本的连续特征A有m个,从小到大排列为a1,a2,…,am,则CART算法取相邻两样本值的中位数,一共取得m-1个划分点,其中第i个划分点表示Ti表示为:Ti=ai+ai+12。
对于这m-1个点,分别计算以该点作为二元分类点时的基尼系数。选择基尼系数最小的点作为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为at,则小于at的值为类别1,大于at的值为类别2,这样我们就做到了连续特征的离散化。要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。

比如当前层采用的4.5作为划分,下一层可以采用2.3进行划分

CART离散特征:
对于CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。

RF
基于CART,按基学习器是分类还是回归来决定RF是分类还是回归
分类:
所有CART分类的投票结果作为最后结果(GINI标准)
回归:
所有CART回归的平均值(最小方差)

超参数:
随机森林需要调整的参数有:

(1) 决策树的个数

(2) 特征属性的个数

(3) 递归次数(即决策树的深度)

你可能感兴趣的:(ML)