决策树笔记

决策树模型学习过程

1.根节点选择什么特征
2.只关注决策树的左侧分支
3.再关注右侧分支
决策树笔记_第1张图片
决策树笔记_第2张图片

纯度

熵就是样本的混乱程度,熵越大,越混乱,纯度就越低
减小熵=信息增益

选择拆分信息增益

决策树笔记_第3张图片
选择信息增益大的,以增加纯度
p1left 定义为等于左子树中具有正标签(即猫)的示例的分数
w^left 定义为转到左子分支的根节点的所有示例的示例的分数
p1right 定义为等于右子树中具有正标签(即猫)的示例的分数
w^right 定义为转到右子分支的根节点的所有示例的示例的分数

整合

决策树笔记_第4张图片

独热编码One-hot

决策树笔记_第5张图片

处理两个及两个以上离散的特征,其中一个特征始终取1(热特征)

连续有价值的功能

决策树笔记_第6张图片
使用拆分时,只需考虑要拆分的不同值,执行通常的信息增益计算,并决定在该连续值特征提供尽可能高的信息增益时,进行拆分

回归树

预测一个数字
尝试减少每个数据子集的值Y的权重方差
决策树笔记_第7张图片

使用多个决策树

一个决策树对数据比较敏感,构建多个决策树的树集成
使用树集合的原因是通过拥有大量决策树并让它们投票,它使整体算法对任何一棵树可能正在做的事情不太敏感,因为它只能获得三分之二的一票或i许多不同的投票,使整体算法更加健壮

有放回抽样(替代抽样)

会有重复,可能有的没有被抽样

随机森林(袋装决策树)

把训练示例放入虚拟包
选k个信息增益最大的特征 然后放入袋子里随机选一个分裂
将参数范围缩小有助于避免过拟合。而且也不用担心某些关键参数没被选上,因为是随机深林,这个决策树没选上,还有下一个决策树。
决策树笔记_第8张图片

决策树笔记_第9张图片

XGBoost

极端梯度提升,决策树多选择错误的示例
用于分类
决策树笔记_第10张图片
用于回归
决策树笔记_第11张图片

何时使用决策树

决策树笔记_第12张图片

你可能感兴趣的:(决策树,笔记,机器学习)