2022-2-5第四章机器学习进阶决策树

决策树定义

叶子节点是分类(离散值)或是回归(阈值)的结果
2022-2-5第四章机器学习进阶决策树_第1张图片

条件熵的推导
2022-2-5第四章机器学习进阶决策树_第2张图片(连续数据的熵不一定大于等于0)

2022-2-5第四章机器学习进阶决策树_第3张图片2022-2-5第四章机器学习进阶决策树_第4张图片相对熵
两个概率分布可以看作一个是样本本身概率分布px、一个是预测值的概率分布qx
D的值越小,表示q分布和p分布越接近,预测效果越好,如果越大,则说明预测误差越大 ;期望在这里只是一个乘数并没有太大的作用
2022-2-5第四章机器学习进阶决策树_第5张图片
互信息—KL散度的定义式—就是交集
(如果独立,互信息为0;如果不为0,互信息大于0)
2022-2-5第四章机器学习进阶决策树_第6张图片2022-2-5第四章机器学习进阶决策树_第7张图片2022-2-5第四章机器学习进阶决策树_第8张图片

决策树

建立一个从根节点到叶子节点,信息熵快速不断下降的过程

2022-2-5第四章机器学习进阶决策树_第9张图片自顶向下的递归方法、构造一棵熵值下降最快的树,到叶子节点处的熵为0(贪心算法)
如何布置特征选择过程使熵下降最快—信息增益(给定某一个特征,使信息熵减少了多少)

2022-2-5第四章机器学习进阶决策树_第10张图片2022-2-5第四章机器学习进阶决策树_第11张图片基尼系数:经济上的定义(基尼系数接近1,样本越不平均,接近0完全平均)
基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小;
G 越大,数据的不确定性越高;
G 越小,数据的不确定性越低;
G = 0,数据集中的所有样本都是同一类别;

2022-2-5第四章机器学习进阶决策树_第12张图片2022-2-5第四章机器学习进阶决策树_第13张图片

你可能感兴趣的:(决策树,机器学习,人工智能)