决策树、熵与最大熵

熵:表示数据的内部混乱程度。熵越大越混乱,反之。


决策树、熵与最大熵_第1张图片
决策树-熵

‘基尼’系数和熵变化差不多。

决策树

信息增益:
原来有一个熵值A,选择一个特征的信息熵B,两者相减
信息增益 G:
G = A - B
那个信息增益值最大,说明选取这个特征比较好。

ID3 :信息增益

例如:

决策树、熵与最大熵_第2张图片
天气预报

决策树、熵与最大熵_第3张图片
总的熵值

决策树、熵与最大熵_第4张图片
基于四个特征的划分

决策树、熵与最大熵_第5张图片
举例outlook

决策树、熵与最大熵_第6张图片
计算一个特征的信息熵

另一个特征的计算是一样的。
决策树、熵与最大熵_第7张图片
过程

缺点:
添加一列编号的特征值1、2、3、4、5、6.。。。。。。。
决策树、熵与最大熵_第8张图片
使用Id 编号为特征的值,发生信息增益很大

信息增益到此为止啦。
《机器学习实战》笔记之三——决策树ID3算法

C4.5 信息增益率

信息增益率 = 信息增益/特征自身的熵值

决策树、熵与最大熵_第9张图片
信息增益率

引入了一个评价函数:
H(t) 表示当前叶子结点的熵值或者Gini系数,
Nt 表示当前叶子结点有几个样本
决策树、熵与最大熵_第10张图片

对于连续值怎么分割
决策树、熵与最大熵_第11张图片

损失处理

为甚要得到一个最矮的决策树,决策树太高,意味着分支太多,会有过拟合的风险。
预剪枝:在决策树的过程中,提前停止。比如限制深度、当前叶子结点的样本数小于50个提前停止。
后剪枝:决策树构建好啦,然后才开始剪枝。


决策树、熵与最大熵_第12张图片

Tleaf表示叶子结点数

随机森林

对于分类来说:求众数也可以。
对于回归任务来说:构造了多棵决策树,首先一片决策树,使用这些决策树同时处理一个任务,然后结果统一处理得出来的。

随机森林;
随机啥意思,有双重随机性的
第一,选择60%样本数据(又放回的哈)。
第二,关于特征的,比如有8个特征,选择其中6个(这个没有放回的哈)。

关于参数

画图的库seaborn


决策树、熵与最大熵_第13张图片

决策树、熵与最大熵_第14张图片

决策树、熵与最大熵_第15张图片

2.best 拿所有的遍历找最好的,random 是随机选取几个特征。
3.候选特征比较多的时候,指定一个特征。
4.指定深度。
5.当前这个节点样本数比较小的时候,停止切分。
7.用的比较少,通常不用。
8.限制叶子结点数。
9.类别

最大熵

“最大熵”这个名词听起来很玄奥,但是它的原理很简单,我们每天都在用。说白啦,就是保留全部的不确定性,将风险降到最小。

最大熵原理指出,对于一个随机时间的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。

总结:
最大熵模型可以将各种信息整合到一个统一的模型中。它有很多良好的特性:从形式上看,它非常优美:从效果上看,它是唯一一种既能满足各个信息源的限制条件,又能保证平滑行的模型。由于最大熵模型具有这些良好的特性,因此应用范围十分广泛。但是,最大熵模型计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。

一步一步理解最大熵模型
信息熵公式的由来

你可能感兴趣的:(决策树、熵与最大熵)