机器学习(2)———— 决策树

机器学习(2)———— 决策树_第1张图片

 

ID3 算法
其大致步骤为:
1. 初始化特征集合和数据集合;
2. 计算数据集合 信息熵 和所有特征的 条件熵 ,选择 信息增益 最大的特征作为当
前决策节点;
3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不
同分支的数据集合);
4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。
C4.5 算法
C4.5 算法是 Ross 对 ID3 算法的改进。
信息增益率 来选择属性。ID3选择属性用的是子树的信息增益,
而C4.5用的是 信息增益率
在决策树构造过程中进行 剪枝
非离散数据 也能处理。
能够对 不完整数据 进行处理。
CART
Classification and Regression Tree (CART) 是决策树的一种。
基尼指数 来选择属性(分类),或用 均方差 来选择属性(回归)。
顾名思义, CART 算法既可以用于创建分类树,也可以用于创建回归
树,两者在构建的过程中稍有差异。
如果目标变量是离散的,称为分类树。
如果目标变量是连续的,称为回归树。

你可能感兴趣的:(互联网行业认知,机器学习,决策树,算法)