熵

熵：表示数据的内部混乱程度。熵越大越混乱，反之。

决策树-熵

‘基尼’系数和熵变化差不多。

决策树

信息增益：
原来有一个熵值A，选择一个特征的信息熵B，两者相减
信息增益 G：
G = A - B
那个信息增益值最大，说明选取这个特征比较好。

ID3 ：信息增益

例如：

天气预报

总的熵值

基于四个特征的划分

举例outlook

计算一个特征的信息熵

另一个特征的计算是一样的。

过程

缺点：
添加一列编号的特征值1、2、3、4、5、6.。。。。。。。

使用Id 编号为特征的值，发生信息增益很大

信息增益到此为止啦。
《机器学习实战》笔记之三——决策树ID3算法

C4.5 信息增益率

信息增益率 = 信息增益/特征自身的熵值

信息增益率

引入了一个评价函数：
H(t) 表示当前叶子结点的熵值或者Gini系数，
Nt 表示当前叶子结点有几个样本

对于连续值怎么分割

损失处理

为甚要得到一个最矮的决策树，决策树太高，意味着分支太多，会有过拟合的风险。
预剪枝：在决策树的过程中，提前停止。比如限制深度、当前叶子结点的样本数小于50个提前停止。
后剪枝：决策树构建好啦，然后才开始剪枝。

Tleaf表示叶子结点数

随机森林

对于分类来说：求众数也可以。
对于回归任务来说：构造了多棵决策树，首先一片决策树，使用这些决策树同时处理一个任务，然后结果统一处理得出来的。

随机森林;
随机啥意思，有双重随机性的
第一，选择60%样本数据（又放回的哈）。
第二，关于特征的，比如有8个特征，选择其中6个（这个没有放回的哈）。

关于参数

画图的库seaborn

2.best 拿所有的遍历找最好的，random 是随机选取几个特征。
3.候选特征比较多的时候，指定一个特征。
4.指定深度。
5.当前这个节点样本数比较小的时候，停止切分。
7.用的比较少，通常不用。
8.限制叶子结点数。
9.类别

最大熵

“最大熵”这个名词听起来很玄奥，但是它的原理很简单，我们每天都在用。说白啦，就是保留全部的不确定性，将风险降到最小。

最大熵原理指出，对于一个随机时间的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。

总结：
最大熵模型可以将各种信息整合到一个统一的模型中。它有很多良好的特性：从形式上看，它非常优美：从效果上看，它是唯一一种既能满足各个信息源的限制条件，又能保证平滑行的模型。由于最大熵模型具有这些良好的特性，因此应用范围十分广泛。但是，最大熵模型计算量巨大，在工程上实现方法的好坏决定了模型的实用与否。

一步一步理解最大熵模型
信息熵公式的由来

决策树、熵与最大熵

熵

决策树

ID3 ：信息增益

C4.5 信息增益率

损失处理

随机森林

关于参数

最大熵

你可能感兴趣的:(决策树、熵与最大熵)