張張張張

【机器学习系列】之“西瓜数据集”决策树构建数学公式计算过程

作者：張張張張
github地址：https://github.com/zhanghekai
【转载请注明出处，谢谢！】

【机器学习系列】之“西瓜数据集”决策树构建数学公式计算过程
【机器学习系列】之决策树剪枝和连续值、缺失值处理数学公式计算
【机器学习系列】之ID3、C4.5、CART决策树构建代码

文章目录

一、决策树概述
二、决策树场景
三、决策树概念须知

1.名词定义
2.构建“树”时的基本要求

四、三种决策树对比
五、划分选择

1.ID3信息增益
2.C4.5信息增益率
3.CART基尼系数

一、决策树概述

决策树（Decision Tree）算法是一种基本的分类与回归方法，是最经常使用的数据挖掘算法之一。决策树是一种非线性有监督分类模型必须将已有的数据进行离散化，即：从字符串变成数值。构造决策树的基本思想是随着树深度的增加，节点的“熵”迅速降低，熵降低的速度越快越好，这样我们有望得到一棵高度最矮的决策树。

决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树的定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种类型：内部结点（internal node）和叶结点（leaf node）。内部结点表示一个特征或属性(features)，叶结点表示一个类(labels)。

用决策树对需要测试的实例进行分类：从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分配到叶结点的类中。

决策树学习通常包括 3 个步骤：特征选择、决策树的生成和决策树的修剪。

二、决策树场景

一个叫做 “二十个问题” 的游戏，游戏的规则很简单：参与游戏的一方在脑海中想某个事物，其他参与者向他提问，只允许提 20 个问题，问题的答案也只能用对或错回答。问问题的人通过推断分解，逐步缩小待猜测事物的范围，最后得到游戏的答案。
一个邮件分类系统，大致工作流程如下：

首先检测发送邮件域名地址。如果地址为 myEmployer.com, 则将其放在分类 "无聊时需要阅读的邮件"中。
如果邮件不是来自这个域名，则检测邮件内容里是否包含单词 “曲棍球” , 如果包含则将邮件归类到 “需要及时处理的朋友邮件”, 如果不包含则将邮件归类到 “无需阅读的垃圾邮件” 。

三、决策树概念须知

1.名词定义

熵（entropy）：指体系的混乱的程度，在不同的学科中也有引申出的更为具体的定义，是各领域十分重要的参量。

信息熵（information theory）：使度量样本集合纯度最常用的一种指标。信息熵度量了事物的不确定性，越不确定的事物，它的熵就越大。

信息增益（information gain）：在划分数据集前后信息熵发生的变化称为信息增益。信息增益越大，表明数据“纯度”提升越大。

信息增益率（infor gain ratio）：正信息增益的基础上，解决过拟合问题的方法。

基尼系数（Gini index）：CART决策树划分属性的指标，数据集的纯度可以用基尼值来度量，基尼值越小，数据集的纯度越高。

纯度（purity）：叶子节点中正确分类的标签所占该叶子节点中包含数据的比例。

2.构建“树”时的基本要求

决策树的生成是一个递归过程，即决策树以深度优先遍历进行构建。
每个节点可选择的特征为：除该节点的父节点和祖父节点之外的所有特征。
若当前节点为空集，对应的处理措施为：将其设置为叶节点，类别设置为其父节点，所含样本最多的类别。

四、三种决策树对比

	支持模型	树结构	特征选择	连续值处理
ID3	分类	多叉树	信息增益	不支持
C4.5	分类	多叉树	信息增益率	支持
CART	分类、多回归	二叉树	基尼系数、均方差	支持

五、划分选择

我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的“纯度”越来越高。

我们使用周志华一书《机器学习》中的“西瓜数据集”进行计算：

1.ID3信息增益

$\sum_{k = 1}^{|Y|}p_k log_2 p_k$

$\sum_{v = 1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$

|Y|：代表分类标签的数量，“好瓜”、“坏瓜”，所以|Y|=2
a:代表数据集所包含的特征，a={色泽，根蒂，敲声，纹理，脐部，触感}
v：代表每一个特征下所包含的属性，例如特征“色泽“下v={青绿，乌黑，浅白}
正例：”是“好瓜
反例：”否“好瓜
$\frac{|D^v|}{|D|}$ ：代表该节点所包含的数据数量占其父节点数据数量的比例

根节点包含D中所有数据，数据总数：17，正例占p1=8/17，反例占p2=9/17。

根节点的信息熵为：
$Ent(D)=-\sum_{k=1}^{2}p_k log_2 p_k=-(\frac{8}{17}log_2 \frac{8}{17}+\frac{9}{17}log_2 \frac{9}{17})=0.998$

然后，我们要计算出当前特征集合{色泽，根蒂，敲声，纹理，脐部，触感}中每个特征的信息熵和信息增益。

★特征”色泽“：
$D^1$ （色泽=青绿）：{1，4，6，10，13，17}，正例p1=3/6，反例p2=3/6
$Ent(D^1)=-(\frac{3}{6}log_2 \frac{3}{6} + \frac{3}{6}log_2 \frac{3}{6}) = 1.000$

$D^2$ （色泽=乌黑）：{2，3，7，8，9，15}，正例p1=4/6，反例p2=2/6
$Ent(D^2)=-(\frac{4}{6}log_2 \frac{4}{6} + \frac{2}{6}log_2 \frac{2}{6}) = 0.918$

$D^3$ （色泽=浅白）：{5，11，12，14，16}，正例p1=1/5，反例p2=4/5
$Ent(D^3)=-(\frac{1}{5}log_2 \frac{1}{5} + \frac{4}{5}log_2 \frac{4}{5}) = 0.722$

"色泽"特征的信息增益：

$\sum_{v = 1}^{V}\frac{|D^v|}{|D|}Ent(D^v)\\ =0.998-(\frac{6}{17}\times 1 +\frac{6}{17}\times 0.918 + \frac{5}{17}\times 0.722)=0.109$

类似的，计算出其他特征的信息增益：
Gain（D，根蒂）=0.143 $\quad$ Gain（D，敲声）=0.141 $\quad$ Gain（D，纹理）=0.381
Gain（D，脐部）=0.289 $\quad$ Gain（D，触感）=0.006

特征”纹理”的信息增益最大，选他作为划分属性。

其中节点上方红色字体表示：创建该node节点时可选择的特征。

$D^1$ 中有编号为{1，2，3，4，5，6，8，10，15}，可用特征集合为{色泽，根蒂，敲声，脐部，触感}，其中正例p1=7/9，反例p2=2/9。

$D^1$ 节点的信息熵为：
$Ent(D^1)=-\sum_{k=1}^{2}p_k log_2 p_k=-(\frac{7}{9}log_2 \frac{7}{9}+\frac{2}{9}log_2 \frac{2}{9})=0.763$
★特征”色泽“：
$D^{11}$ （色泽=青绿）：{1，4，6，10}，正例p1=3/4，反例p2=1/4
$Ent(D^{11})=-(\frac{3}{4}log_2 \frac{3}{4} + \frac{1}{4}log_2 \frac{1}{4}) = 0.811$

$D^{12}$ （色泽=乌黑）：{2，3，8，15}，正例p1=3/4，反例p2=1/4
$Ent(D^{12})=-(\frac{3}{4}log_2 \frac{3}{4} + \frac{1}{4}log_2 \frac{1}{4}) = 0.811$

$D^{13}$ （色泽=浅白）：{5}，正例p1=1，反例p2=0
$Ent(D^{13})=-(1log_2 1 + 0log_2 0) =0$

"色泽"特征的信息增益：

$Gain(D^1,色泽)=Ent(D^1) - \sum_{v = 1}^{V}\frac{|D^v|}{|D|}Ent(D^v)\\ =0.763-(\frac{4}{9}\times 0.811 +\frac{4}{9}\times 0.811 + \frac{1}{9}\times 0)=0.043$

类似的，计算出其他特征的信息增益：
Gain（D1，根蒂）=0.458 $\quad$ Gain（D1，敲声）=0.331
Gain（D1，脐部）=0.458 $\quad$ Gain（D1，触感）=0.458
其中“根蒂”，“脐部”，“触感”均获得最大信息增益，可任选其一作为特征划分。此处我们选择“根蒂”特征。

$D^{11}$ 中有编号为{1，2，3，4，5}，可用特征集合为{色泽，敲声，脐部，触感}，其中正例p1=1，反例p2=0。
$D^{11}$ 节点的信息熵为：
$Ent(D^{11})=-\sum_{k=1}^{2}p_k log_2 p_k=-(1log_2 1 +0log_2 0)=0$

由于Ent（D11）的值已达最小，说明D11中数据纯度已达到最高，数据分类已完全分类，则无需再往下进行划分，将该节点设置为叶子节点。

$D^{12}$ 中编号为{6，8，15}，可用特征集合为{色泽，敲声，脐部，触感}，其中正例p1=2/3，反例p2=1/3。
$D^{12}$ 节点的信息熵为：
$Ent(D^{12})=-\sum_{k=1}^{2}p_k log_2 p_k=-(\frac{2}{3}log_2 \frac{2}{3} +\frac{1}{3}log_2 \frac{1}{3})=0.918$
★特征“色泽”：
$D^{121}$ （色泽=青绿）：{6}，正例p1=1，反例p2=0
$Ent(D^{121})=-(1log_2 1 + 0log_2 0) = 0$

$D^{122}$ （色泽=乌黑）：{8，15}，正例p1=1/2，反例p2=1/2
$Ent(D^{122})=-(\frac{1}{2}log_2 \frac{1}{2} + \frac{1}{2}log_2 \frac{1}{2}) = 1$

$D^{123}$ （色泽=浅白）：{ }，正例p1=0，反例p2=0
$Ent(D^{123})=-(0log_2 0 + 0log_2 0) =0$

"色泽"特征的信息增益：

$Gain(D^{12},色泽)=Ent(D^{12}) - \sum_{v = 1}^{V}\frac{|D^v|}{|D|}Ent(D^v)\\ =0.918-(\frac{1}{3}\times 0 +\frac{2}{3}\times 1 + 0\times 0)=0.251$

类似的，计算出其他特征的信息增益：
Gain（D12，敲声）=0 $\quad$ Gain（D12，脐部）=0 $\quad$ Gain（D12，触感）=0.251

其中“色泽”和“触感”均获得最大信息增益，可任选其一作为特征划分。此处我们选择“色泽”特征。

$D^{121}$ 中编号为{6}，可用特征集合为{敲声，脐部，触感}，其中p1=1，p2=0。
$D^{121}$ 节点的信息熵为：
$Ent(D^{121})=-\sum_{k=1}^{2}p_k log_2 p_k=-(1log_2 1 +0 log_2 0)=0$
将该节点划分为叶子节点。
$D{122}$ 中编号为{8，15}，可用特征集合为{敲声，脐部，触感}，p1=1/2，p2=1/2。
$D^{122}$ 节点的信息熵为：
$Ent(D^{122})=-\sum_{k=1}^{2}p_k log_2 p_k=-(\frac{1}{2}log_2 \frac{1}{2} +\frac{1}{2} log_2 \frac{1}{2})=1$
★特征“触感”：
$D^{1221}$ （触感=硬滑）：{8}，正例p1=1，反例p2=0
$Ent(D^{1221})=-(1log_2 1 + 0log_2 0) = 0$

$D^{1222}$ （触感=软粘）：{15}，正例p1=0，反例p2=1
$Ent(D^{1221})=-(0log_2 0 + 1log_2 1) = 0$

"触感"特征的信息增益：

$Gain(D^{122},色泽)=Ent(D^{122}) - \sum_{v = 1}^{V}\frac{|D^v|}{|D|}Ent(D^v)\\ =1-(\frac{1}{2}\times 0 +\frac{1}{2}\times 0)=1$
类似的，计算出其他特征的信息增益：
Gain（D122，敲声）=0 $\quad$ Gain（D122，脐部）=0

所以选择“触感”特征作为划分节点。

$D^{1221}$ 中编号为{8}，可用特征集合为{敲声，脐部}，p1=1，p2=0。
$D^{1221}$ 节点的信息熵为：
$Ent(D^{1221})=-\sum_{k=1}^{2}p_k log_2 p_k=-(1log_2 1 +0 log_2 0)=0$
所以将该节点设置为叶子节点。
$D^{1222}$ 中编号为{15}，可用特征集合为{敲声，脐部}，p1=0，p2=1。
$D^{1222}$ 节点的信息熵为：
$Ent(D^{1222})=-\sum_{k=1}^{2}p_k log_2 p_k=-(0log_2 0 +1 log_2 1)=0$

此时需要往回遍历，找到第三层“色泽”特征下的D123属性集合。

$D^{123}$ 中为空集{ }，将其设置为叶节点，且类别设置为其父节点所含样本最多的类别即{6，8，15}
中，p1=2/3，p2=1/3，所以该叶子节点类别为“好瓜”。

继续往回遍历，找到第二层“根蒂”特征下的D13属性集合。

$D^{13}$ 中编号为{10}，可用特征集合为{色泽，敲声，脐部，触感}，p1=0，p2=1。
$D^{13}$ 节点的信息熵为：
$Ent(D^{13})=-\sum_{k=1}^{2}p_k log_2 p_k=-(0log_2 0 +1 log_2 1)=0$
所以将该节点设置为叶子节点。

继续往回遍历，找到第一层“纹理”特征下的D2属性集合。

$D^{2}$ 中编号为{7，9，13，14，17}，可用特征集合为{色泽，根蒂，敲声，脐部，触感}，p1=1/5，p2=4/5。
$D^{2}$ 节点的信息熵为：
$Ent(D^{2})=-\sum_{k=1}^{2}p_k log_2 p_k=-(\frac{1}{5}log_2 \frac{1}{5} +\frac{4}{5} log_2 \frac{4}{5})=0.722$
★特征“色泽”：
$D^{21}$ （色泽=青绿）：{13，17}，正例p1=0，反例p2=1
$Ent(D^{21})=-(0log_2 1 + 1log_2 0) = 0$

$D^{22}$ （色泽=乌黑）：{7，9}，正例p1=1/2，反例p2=1/2
$Ent(D^{22})=-(\frac{1}{2}log_2 \frac{1}{2} + \frac{1}{2}log_2 \frac{1}{2}) = 1$

$D^{23}$ （色泽=浅白）：{14}，正例p1=0，反例p2=1
$Ent(D^{23})=-(0log_2 0 + 1log_2 1) =0$

"色泽"特征的信息增益：

$Gain(D^{2},色泽)=Ent(D^{2}) - \sum_{v = 1}^{V}\frac{|D^v|}{|D|}Ent(D^v)\\ =0.722-(\frac{2}{5}\times 0 +\frac{2}{5}\times 1 + \frac{1}{5}\times 0)=0.322$
类似的，计算出其他特征的信息增益：
Gain（D2，敲声）=0.322 $\quad$ Gain（D2，脐部）= 0.172
Gain（D2，触感）= 0.722 $\quad$ Gain（D2，根蒂）= 0.073

特征“触感”的信息增益最大，选他作为划分属性。

12. $D^{21}$ 中编号为{9，13，14，17}，可用特征集合为{色泽，根蒂，敲声，脐部}，其中正例p1=0，反例p2=1.

$D{21}$ 节点的信息熵为：
$Ent(D^{21})=-\sum_{k=1}^{2}p_k log_2 p_k=-(0log_2 0 +1 log_2 1)=0$
所以将该节点划分为叶子节点。

$D^{22}$ 中编号为{7}，可用特征集合为{色泽，根蒂，敲声，脐部}，其中正例p1=1，反例p2=0.

$D{22}$ 节点的信息熵为：
$Ent(D^{22})=-\sum_{k=1}^{2}p_k log_2 p_k=-(1log_2 1 +0 log_2 0)=0$
所以将该节点划分为叶子节点。

往回遍历，找到第一层“纹理”特征下的D3属性集合。

$D^3$ 中有编号为{11，12，16}，可用特征集合为{色泽，根蒂，敲声，脐部，触感},其中正例p1=0，反例p2=1。

$D{3}$ 节点的信息熵为：
$Ent(D^{3})=-\sum_{k=1}^{2}p_k log_2 p_k=-(0log_2 0 +1 log_2 1)=0$

所以将其设置为叶子节点。

至此，使用信息增益构建的ID3决策树已经建立好了，如上图所示。

2.C4.5信息增益率

信息增益缺点：是对可取属性多的特征有偏好，比如如果把“编号”这一列当作特征也考虑在内，那么可以计算处它的信息增益大于其他的候选特征，因为“编号”有17个可取的数值，产生17个分支，每个分支节点仅包含一个样本，显然这些分支节点的纯度最大。但是，这样的决策树显然不具有泛化能力，无法对新样本进行有效预测。C4.5决策树算法：使用“信息增益率”来选择最优划分属性，可以很好的克服上述缺点。

信息增益率定义为：
$Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
其中：
$IV(a)=-\sum_{v=1}^{V} \frac{|D^v|}{|D|}log_2 \frac{|D^v|}{|D|}IV(a)$
IV(a)称为特征a的“固有值”，特征a的可能取值数目越多（即V越大），则 IV(a)的值通常会越大。但增益率也可能产生一个问题就是对属性较少的特征有所偏好。注意：C4.5算法并不是直接选择增益率最大的候选划分特征，而是先从候选划分特征中找出信息增益高于平均水平的特征，再从中选择增益率最高的。

由于信息增益的计算方法在ID3中已经详细介绍并给出计算例子，在这里不再赘述，重点计算信息增益率的求解。

计算数据集D中所有特征的信息增益和信息增益率：

Gain(D,色泽 ) = 0.109 $\quad$ Gain(D,根蒂) = 0.143 $\quad$ Gain(D,敲声) = 0.141

Gain(D,纹理) = 0.381 $\quad$ Gain(D,脐部) = 0.289 $\quad$ Gain(D,触感) = 0.006
$ave\_Gain(D)=\frac{0.109+0.143+0.141+0.381+0.289+0.006}{6}=0.178$
选择信息增益高于平均水平的特征，即选择“纹理”和“脐部”计算信息增益率：

★特征“纹理”：清晰：9；稍糊：5；模糊：3
$IV(纹理)=-(\frac{9}{17}log_2 \frac{9}{17} + \frac{5}{17}log_2 \frac{5}{17} + \frac{3}{17}log_2 \frac{3}{17})=1.446$
信息增益率为：
$Gain\_ratio(D,纹理)=\frac{0.381}{1.446}=0.263$
★特征“脐部”：凹陷：7；稍凹：6；平坦：4
$IV(脐部)=-(\frac{7}{17}log_2 \frac{7}{17} + \frac{6}{17}log_2 \frac{6}{17} + \frac{4}{17}log_2 \frac{4}{17})=1.548$
信息增益率为：
$Gain\_ratio(D,脐部)=\frac{0.289}{1.548}=0.187$
“纹理”的信息增益率大于“脐部”的信息增益率，所以选择特征“纹理”当作节点，划分数据集。
计算数据集D1中可用特征的信息增益和信息增益率：

Gain(D1,色泽 ) = 0.043 $\quad$ Gain(D1,根蒂) = 0.458 $\quad$ Gain(D1,敲声) = 0.331

Gain(D1,脐部) = 0.458 $\quad$ Gain(D1,触感) = 0.458
$ave\_Gain(D1)=\frac{0.043+0.458+0.331+0.458+0.458}{5}=0.3496$
选择信息增益高于平均水平的特征，即选择“根蒂”、“触感”和“脐部”计算信息增益率：

★特征“根蒂”：蜷缩：5；稍蜷：3；硬挺：1
$IV(根蒂)=-(\frac{5}{9}log_2 \frac{5}{9} + \frac{3}{9}log_2 \frac{3}{9} + \frac{1}{9}log_2 \frac{1}{9})=1.351$
信息增益率为：
$Gain\_ratio(D1,根蒂)=\frac{0.458}{1.351}=0.339$
★特征“脐部”：凹陷：5；稍凹：3；平坦：1
$IV(脐部)=-(\frac{5}{9}log_2 \frac{5}{9} + \frac{3}{9}log_2 \frac{3}{9} + \frac{1}{9}log_2 \frac{1}{9})=1.351$
信息增益率为：
$Gain\_ratio(D1,脐部)=\frac{0.458}{1.351}=0.339$
★特征“触感”：硬滑：6；软粘：3
$IV(触感)=-(\frac{6}{9}log_2 \frac{6}{9} + \frac{3}{9}log_2 \frac{3}{9} )=0.918$
信息增益率为：
$Gain\_ratio(D1,触感)=\frac{0.458}{0.918}=0.499$
“触感”的信息增益率最大，所以选择特征“触感”当作节点，划分数据集。
计算数据集D11中的信息：

由于数据集D11的信息熵为0，所以此节点以完全分类，将其设置为叶子节点。
计算数据集D12中的信息：

Gain(D12,色泽)=0.251 $\quad$ Gain(D12,根蒂)=0.251

Gain(D12,敲声)=0.251 $\quad$ Gain(D12,脐部)=0.251

★特征“脐部”：凹陷：0；稍凹：2；平坦：1
$log_2 0 + \frac{2}{3}log_2 \frac{2}{3} + \frac{1}{3}log_2 \frac{1}{3})=0.251$
不难发现，这四个特征均是一个属性包含数据为0，一个属性包含数据为2，另一个属性包含数据为1，所以他们的信息增益率均相同，这种情况我们可以任选其一划分数据，类别为其中包含最多的类别；也可以将其设置为叶子节点，牺牲正确率换取更低的决策树层数。在这里我采取的方法为后者。
计算数据集D2中的信息

类似于数据集D12的情况，由于D2中只包含一个正例，所以依然可以采取牺牲正确率换取更低的决策树层数，或是进行计算选出一个特征来划分。此处采取设置为叶节点，有兴趣的同学可以自行计算。
计算数据集D3中的信息

由于数据集D11的信息熵为0，所以此节点以完全分类，将其设置为叶子节点。

3.CART基尼系数

CART决策树：使用”基尼指数“来选择划分特征。数据集的纯度可用基尼值(Gini)来度量。Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率，Gini值越小，则数据集的纯度越高。
$Gini(D)=1-\sum_{k=1}^{|Y|}p_{k}^{2}$
特征的“基尼指数”(Gini index)定义如下，选择使得划分后基尼指数最小的特征作为最优划分特征。
$Gini\_index(D,a)=\sum_{v=1}^{V} \frac{|D^v|}{|D|}Gini(D^v)$

计算每个特征的基尼指数前，先计算下该节点的基尼值，若基尼值为0，则表示该节点下的数据集已完全分类。

根节点包含D中所有数据，数据总数为17，可用特征{色泽，根蒂，敲声，纹理，脐部，触感}：

★特征“色泽”：

青绿：{1，4，6，10，13，17}，数据总计：6，正例p1= 3/6，反例p2= 3/6
$Gini(青绿)=1-\sum_{k=1}^{|Y|}p_k^2=1-(\frac{3}{6}\times \frac{3}{6} + \frac{3}{6}\times \frac{3}{6})=0.5$
乌黑：{2，3，7，8，9，15}，数据总计：6，正例p1= 4/6，反例p2= 2/6
$Gini(乌黑)=1-\sum_{k=1}^{|Y|}p_k^2=1-(\frac{4}{6}\times \frac{4}{6} + \frac{2}{6}\times \frac{2}{6})=0.444$
浅白：{5，11，12，14，16}，数据总计：5，正例p1= 1/5，反例p2= 4/5
$Gini(浅白)=1-\sum_{k=1}^{|Y|}p_k^2=1-(\frac{1}{5}\times \frac{1}{5} + \frac{4}{5}\times \frac{4}{5})=0.32$

“色泽”特征的基尼指数为：
$Gini\_index(D,色泽)=\frac{6}{17}\times 0.5 +\frac{6}{17}\times 0.444 + \frac{5}{17} \times 0.32=0.427$
同理可以计算出其他特征的基尼指数为：

Gini_index(D,根蒂) = 0.422 $\quad$ Gini_index(D,敲声) = 0.424 $\quad$ Gini_index(D,纹理) = 0.277

Gini_index(D,脐部) = 0.345 $\quad$ Gini_index(D,触感) = 0.494

选择基尼指数最小的特征进行划分，所以此次划分使用“纹理”特征。
D1中包含数据总数为9，可用特征{色泽，根蒂，敲声，脐部，触感}：

★特征“色泽”

青绿：{1，4，6，10}，数据总计：4，正例p1= 3/4，反例p2= 1/4
$Gini(青绿)=1-\sum_{k=1}^{|Y|}p_k^2=1-(\frac{3}{4}\times \frac{3}{4} + \frac{1}{4}\times \frac{1}{4})=0.375$
乌黑：{2，3，8，15}，数据总计：4，正例p1= 3/4，反例p2= 1/4
$Gini(乌黑)=1-\sum_{k=1}^{|Y|}p_k^2=1-(\frac{3}{4}\times \frac{3}{4} + \frac{1}{4}\times \frac{1}{4})=0.375$
浅白：{5}，数据总计：1，正例p1= 1，反例p2= 0
$Gini(浅白)=1-\sum_{k=1}^{|Y|}p_k^2=1-(1\times 1 + 0\times 0)=0$
“色泽”特征的基尼指数为：
$Gini\_index(D^1,色泽)=\frac{4}{9}\times 0.375 +\frac{4}{9}\times 0.375 + \frac{1}{9} \times 0=0.333$
同理可以计算出其他特征的基尼指数为：

Gini_index(D1,根蒂) = 0.148 $\quad$ Gini_index(D1,敲声) = 0.185

Gini_index(D1,脐部) = 0.148 $\quad$ Gini_index(D1,触感) = 0.148

由于“根蒂”、“脐部”和“触感”的基尼指数相同，任选其一作为特征进行划分数据集，这里我们选择“根蒂”特征：
D11中包含数据总数为5，其中正例p1=1，反例p2=0。

该节点基尼值为：
$Gini(D^11)=1-\sum_{k=1}^{|Y|}p_k^2=1-(1\times 1 +0 \times 0) = 0$
该节点基尼值已达最小，将其设置为叶子节点。
D12中包含数据总数位3，可用特征为{色泽，敲声，脐部，触感}

★特征“色泽”：

青绿：{6}，数据总计：1，正例p1= 1，反例p2= 1/40
$Gini(青绿)=1-\sum_{k=1}^{|Y|}p_k^2=1-(1\times 1 + 0\times 0)=0$
乌黑：{8，15}，数据总计：2，正例p1= 1/2，反例p2= 1/2
$Gini(乌黑)=1-\sum_{k=1}^{|Y|}p_k^2=1-(\frac{1}{2}\times \frac{1}{2} + \frac{1}{2}\times \frac{1}{2})=0.5$
浅白：{ }，数据总计：0，正例p1= 0，反例p2= 0
$Gini(浅白)=1-\sum_{k=1}^{|Y|}p_k^2=1-(0\times 0 + 0\times 0)=0$
“色泽”特征的基尼指数为：
$Gini\_index(D^{12},色泽)=\frac{1}{3}\times 0 +\frac{2}{3}\times 0.5 + 0 \times 0=0.333$
同理可以计算出其他特征的基尼指数为：

Gini_index(D12,敲声) = 0.444 $\quad$ Gini_index(D12,脐部) = 0.444 $\quad$ Gini_index(D12,触感) = 0.333

由于“色泽”和“触感”的基尼指数相同，任选其一作为特征进行划分数据集，这里我们选择“色泽”特征：
D121中已完全分类，设置为叶节点。
D122中包含数据总数为2，可用特征为{敲声，脐部，触感}

Gini_index(D122,敲声) = 0.5 $\quad$ Gini_index(D122,脐部) = 0.5 $\quad$ Gini_index(D122,触感) = 0

所以选择“触感”特征划分数据集。

D1221中已完全分类，设置为叶节点。
D1222中已完全分类，设置为叶节点。

往回遍历，找到第三层“色泽”特征下的D123属性集合。

该节点集合为空，设置为其父节点数据中类别最多的类。

往回遍历，找到第二层“根蒂”特征下的D13属性集合

D13中已完全分类，设置为叶节点。

往回遍历，找到第一层“纹理”特征下的D2属性集合

D2中包含数据总数为5，可用特征为{色泽，根蒂，敲声，脐部，触感}

Gini_index(D2,敲声) = 0.467 $\quad$ Gini_index(D2,脐部) = 0.267 $\quad$ Gini_index(D2,触感) = 0

Gini_index(D2,色泽) = 0.2 $\quad$ Gini_index(D1,根蒂) = 0.3

所以选择“触感”作为特征划分数据集。
D21中已完全分类，设置为叶节点。
D22中已完全分类，设置为叶节点。
D3中已完全分类，设置为叶节点。

建立好的决策树如下图所示：

至此，三种决策树构建时的计算过程已经整理完了，在下一篇文章中我们来看看预剪枝与缺失值处理是怎么操作的。

【参考文献】

apache github主页：https://github.com/apachecn/AiLearning
天泽28 CSDN博客：https://blog.csdn.net/u012328159/article/details/70184415
刘建平博客园：https://www.cnblogs.com/pinard/
周志华《机器学习》

你可能感兴趣的:(机器学习,决策树,西瓜数据集,机器学习,树的构建)

推荐文章：GPU 基于顶点着色器的高效动画系统 for Unity.Entities 劳治亮
推荐文章：GPU基于顶点着色器的高效动画系统forUnity.Entities去发现同类优质开源项目:https://gitcode.com/1、项目介绍该项目是一个专为Unity.Entities设计的轻量级但极快的GPU顶点着色器动画系统。灵感源自Nordeus和Unity的合作，经过优化和调整，以适应最新的实体系统。它特别适用于需要大量角色各自独特动画的情况，且动画状态处理极其简单。2、项目
人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
【DeepSeek应用】本地部署deepseek模型后，如何在vscode中调用该模型进行代码撰写，检视和优化？ AndrewHZ 深度学习新浪潮 AI算法工程师面试指北 vscode 人工智能深度学习 DeepSeek 算法语言模型编辑器
若已成功在本地部署了DeepSeek模型（例如通过vscode-llm、ollama或私有API服务），在VSCode中调用本地模型进行代码撰写、检视和优化的完整流程如下：1.准备工作：确认本地模型服务状态模型服务类型：若使用HTTPAPI服务（如FastAPI/Flask封装），假设服务地址为http://localhost:8000。若使用ollama部署，模型名称为deepseek，调用命令
JAVA中运算符要注意的地方优雅的落幕 Java java 开发语言
本文章主要突出其与C语言的区别1.增量运算符+=-=*=%=1.a+=1.0a+=1.0;a=(int)(a+1.0);这两个等价而不是单纯的等价于a=a+1.02.a=a++publicstaticvoidmain(String[]args){inta=10;a=a++;System.out.println(a);}在上述代码中，a的结果是什么呢？是不是a=11?但其实不是的a=10其实这样赋值
[Unity] GPU动画实现（四）——生成动画数据 Zhidai_ Unity unity 动画游戏引擎
目前使用的方法有一个很大缺陷在于基于顶点生成的动画占用的空间很大，一个理想的情况是基于骨骼数据，本文权当抛砖引玉，后续有时间考虑尝试一下基于骨骼数据生成动画。本文内容大量参考自白菊花瓣丶的视频，感谢！生成动画数据需要用到ComputeShader来提高运行的效率，首先在Resources下创建这样一个computeshader，在这里我将其命名为"AnimVertices"。#pragmakern
[Unity] GPU动画实现（一）——介绍 Zhidai_ Unity unity 动画游戏引擎游戏开发
当谈到戴森球计划的时候，我师兄说里面的动画都是一个叫GPU动画的东西来实现的，几乎一切图形功能名字扯到GPU的时候，通常都是高性能的体现，让我不禁好奇GPU动画是什么东西。定义首先什么是GPU动画，GPU动画是将动画的顶点信息记录下来，通过Shader在顶点着色器阶段重新设置顶点的位置，从而渲染出动画。因此GPU动画是典型的空间换时间的方案。实现步骤本系列主要目标是实现GPU动画，围绕这个目标要做
小米音频理解技术重大突破：7B模型借助DeepSeek-R1算法引领行业新篇章耶耶Norsea 网络杂烩人工智能深度学习
摘要小米公司通过采用DeepSeek-R1算法的迁移技术，在音频理解领域实现了重大突破。其7B模型在MMAU音频评测基准中表现出色，成功登顶排行榜。MMAU评测基准包含10000条音频样本，涵盖语音、环境声和音乐等多种类型，难度极高。即便如此，该模型的表现已超越人类专家的82.2%识别准确率，展现出卓越的音频理解能力。关键词小米音频突破,DeepSeek-R1算法,7B模型进展,MMAU评测基准,
异步加载回调问题，多个资源异步加载，让其全部加载完回调 QO_GQ lua 开发语言
刚刚遇到一个bug，场景大图需要提前加载，所有场景组件就需要等图加载好后再处理，但是由于场景背景图是异步加载的，并且是同时for循环进行异步加载的，所以无法确认哪一个图是最后加载出来的，抱着试一试的心态，这样写了一下，发现没用：---记载所有背景图functionLoadBgRawImage(mapID,func)fori=1,lendo...localpath="xxx\xxx\xxx.jpg"
unity shader卡通渲染（描边）+阴影+多光源处理 QO_GQ shader shader unity3d
说道卡通渲染，应该都会想到描边：我所学的描边有三种：一种是计算边缘深度检测描边一种是色差检测描边一种是利用顶点法线向外扩展返回单色pass，使用正面裁剪我用的第三种：pass{//剔除前面（朝向摄像机的面）保留内部渲染CullFrontCGPROGRAM#pragmafragmentfragfloat4_LineColor;float_Line;structa2v{float4pos:POSITI
生成式AI+安全：API防护的“进化革命”——从被动防御到智能对抗的技术跃迁数信云 DCloud 人工智能安全 ai
在生成式AI重塑数字世界的今天，API作为数据流动的“数字血管”，其安全性已成为企业生死存亡的关键。行业数据显示，2025年全球77%的企业将深度整合生成式AI技术，承载着75%互联网流量的API体系，正驱动着超2000亿美元的数字经济浪潮。然而，这场技术革命也催生了新型威胁：攻击者利用生成式AI自动化构造恶意请求，绕过传统规则引擎；大模型API的滥用导致算力耗尽与数据泄露；甚至AI生成的代码漏洞
HarmonyOS实战开发：@ohos.arkui.UIContext （UIContext）蜀道衫QAQ 鸿蒙 harmonyos 华为鸿蒙系统 android 鸿蒙
在Stage模型中，WindowStage/Window可以通过loadContent接口加载页面并创建UI的实例，并将页面内容渲染到关联的窗口中，所以UI实例和窗口是一一关联的。一些全局的UI接口是和具体UI实例的执行上下文相关的，在当前接口调用时，通过追溯调用链跟踪到UI的上下文，来确定具体的UI实例。若在非UI页面中或者一些异步回调中调用这类接口，可能无法跟踪到当前UI的上下文，导致接口执行
Easyexcel操作文件一诚学编程 java 开发语言
常见问题汇总1.往文件里写数据时，如果没有对应的实体类时，需要创建一个List>来保存一行的数据privateMapconvertToMap(ResultSetrs){LinkedHashMaprow=newLinkedHashMap;for(inti=0;i>data=newArrayListrowData=newHashMap<>();rowData.put(0,"张三");rowData.p
Markdig：强大的 .NET Markdown 解析器详解江沉晚呤时 Net core .netcore net c#asp.net
在现代开发中，Markdown已经成为了一种广泛使用的轻量级标记语言，特别是在文档、博客和内容管理系统中，Markdown为开发者提供了快速、简洁的格式化文本方式。而在.NET生态中，Markdig是一款非常强大的Markdown解析器，它不仅支持标准的Markdown语法，还提供了许多扩展功能，让开发者能够灵活地定制Markdown文本的解析与渲染。本文将详细介绍Markdig的基本用法、扩展功
Matlab GPU加速技术算法工程师y matlab 开发语言
1.GPU加速简介（1）为什么使用GPU加速？CPU擅长处理逻辑复杂的串行任务，而GPU拥有数千个流处理器，专为并行计算设计。对于大规模矩阵运算、深度学习训练或科学计算等任务，GPU加速可将计算速度提升数十至数百倍。（2）Matlab的GPU支持功能依赖：需安装ParallelComputingToolbox（并行计算工具箱）。硬件要求：支持CUDA的NVIDIAGPU（如Tesla、GeForc
鸿蒙 @ohos.animator (动画) 淼学派对 harmonyos 华为
鸿蒙@ohos.animator(动画)在鸿蒙Next开发中，@ohos.animator模块提供了强大的动画功能，支持属性动画、帧动画等多种动画效果。通过@ohos.animator，开发者可以轻松实现复杂的动画效果，提升应用的用户体验。本文将详细介绍如何使用@ohos.animator模块实现动画效果，并提供一些实际代码示例。一、动画模块的基本概念在鸿蒙Next中，动画可以分为以下几类：属性动
证券交易系统核心技术解析：LinkTrader 的毫秒级响应架构与风控实践 Ashlee_code 架构 python java c++
一、行业痛点：为什么传统交易系统正在被淘汰？2024年，证券行业guweng22346的技术竞争已从“功能完备”转向**“速度+智能”的极限博弈**。以下是传统系统的三大致命缺陷：数据延迟：非官方行情源导致套利窗口丢失（实测延迟普遍>0.1秒）；风控低效：依赖人工监控，凌晨时段风险拦截率不足30%；扩展性差：单体架构下订单处理峰值低于10万/秒，极易崩溃。典型案例：某券商因系统延迟0.05秒，单日
如何在 GitHub 上修改他人的分支 vortex5 教程 github
在GitHub上修改他人的分支是一个常见的协作需求，但具体操作取决于你是否拥有目标仓库的直接推送权限。如果你是项目的协作者，可以直接修改分支；如果没有权限，则需要通过Fork和PullRequest（PR）的方式贡献代码。本文将详细介绍这两种情况的操作步骤，涵盖从克隆仓库到提交变更的完整流程，并提供实用建议，确保你的协作过程顺畅高效。一、直接修改他人分支（需要协作者权限）如果你被添加为目标仓库的协
缓存：节省使用大模型的成本雪碧没气阿 spring 人工智能机器人自然语言处理 AI 大模型缓存
稍有经验的程序员对缓存都不陌生，在任何一个正式的工程项目上都少不了缓存的身影。硬件里面有缓存，软件里面也有缓存，缓存已经成了程序员的必修课。我们为什么要使用缓存呢？主要就是为了减少访问低速服务的次数，提高访问速度。大模型显然就是一个低速服务，甚至比普通的服务还要慢。为了改善大模型的使用体验，人们已经做出了一些努力，比如采用流式响应，提升第一个字出现在用户面前的速度。缓存，显然是另外一个可以解决大模
音频 Alsa、Framework及Android ‘禹’你一起后端
目录1Alsa、Framework及Android1.1ALSA架构简介图11.2ALSA架构简介图21.3ALSA架构简介图31.4ALSA架构简介图41.5ALSA架构简介图51.6ALSA架构简介图61.8音频代码1Alsa、Framework及Android目前，linux系统常用的音频驱动有两种形式:alsa和oss。Alsa：现在是linux下音频驱动的主要形式，与简单的oss兼容。o
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型源泉的小广场大模型大模型量化推理模型量化量化 qwq32b gptq量化大模型推理性能调优
1.量化背景之所以做量化，就是希望在现有的硬件条件下，提升性能。量化能将模型权重从高精度（如FP32）转换为低精度（如INT8/FP16），内存占用可减少50%~75%。低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。我们的任务是，将QwQ-32B微调后的推理模型，也就是bf16的精度，通过量化，压缩到int4。关于QwQ-32B微调，可以参考《利用ms-swift微
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
JAVA随机生成六位验证码 Ning.L java python 开发语言
使用java语言随机生成六位数的验证码在importjava.util.Random;publicclassRandomCodeGenerator{publicstaticvoidmain(String[]args){//生成六位数验证码StringverificationCode=generateVerificationCode(6);System.out.println("生成的验证码是:"+
从零开始学习鸿蒙系统 Ning.L 华为 harmonyos
1.移动通讯技术的发展-1G时代：1980年摩托罗拉开发出了第一部手机，使用的就是1G的技术。只能进行语音通话。就是大哥大。-2G时代：1996年到1997年出现了第二代GSM、CDMA等数字制式手机，增加了接收数据的功能。2G不仅可以通话，还可以数据收发的功能，最开始的速度只有9K/S。如果我想收发一些图片或者音频技术是不可能的，因为速度太慢了。后来随着互联网多媒体的流行，多了图片，视频等，所以
嵌入式开发之STM32学习笔记day06 小程同学>o< 嵌入式学习之STM32 stm32 学习笔记
基于STM32F103C8T6的开发实践——从入门到精通011.引言STM32系列微控制器是STMicroelectronics推出的一款高性能、低功耗的32位微控制器，广泛应用于嵌入式系统中。STM32F103C8T6是其中非常受欢迎的一款，凭借其强大的性能、丰富的外设接口和低廉的价格，成为了开发者的首选之一。本文将通过实例，详细介绍如何基于STM32F103C8T6进行开发，并带领读者完成从简
## centos7搭建nfs高可用共享存储 weixin_45674361 高可用部署 linux 服务器 centos nfs 运维
centos7搭建nfs双机热备的高可用共享存储本文通过使用keepalived＋nfs＋rsync，解决了主从服务器双向同步和客户端挂载失效的问题，实现了nfs文件系统双机热备。名称IP地址客户端192.168.1.1服务端服务器1192.168.1.100服务端服务器2192.168.1.200实施步骤keepalived部署在192.168.1.100和192.168.1.200上执行安装依
前端缓存接口数据 jjjjjjjjj¢ 笔记前端
在前端缓存接口数据时，可以结合浏览器缓存策略、前端存储（localStorage、sessionStorage、IndexedDB）、内存缓存（变量存储）、ServiceWorker等方式，选择适合的方案。使用浏览器HTTP缓存（推荐，依赖后端支持）如果接口数据不会频繁变化，可以使用HTTP缓存策略（强缓存+协商缓存），减少不必要的请求。后端设置Cache-Control在接口响应头中，服务器可以
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
linux系统命令——权限 why—空空 linux 服务器运维
一、有哪些权限读（r）——对应数字4写（w）——对应数字2执行（x）——对应数字1二、权限及数字的对应4对应r--2对应-w-1对应--x5对应r-x6对应rw-7对应rwx三、文件的基本属性如图：①中如果是"一"表示文件类型为文件；如果是"d"表示文件类型是文件夹；如果是"l"表示文件类型为链接②表示文件属主(即谁创建的文件)的权限③中表示文件属主所属组(即文件属主所在的组)中的用户的权限④表示
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
Github开源库Xpopup代码阅读月亮下的小草屋 github开源库代码阅读 android
前言很久没写点东西了，在家闲着考了个驾照，花了一个半月，中国的驾考真的是没眼看，刚拿到驾照当天就被疫情封闭在家，直接封了一个多月，人都麻了，再来一次估计直接过年了，最近刚开始干点活。Xpopup是我非常喜欢的一个Github开源库，一直在用，我在Xpopup2.x版本的时候看过一遍它的代码，现在已经更新到3.x版本了，这两天也没啥事，又重新看了一遍，Xpopup的代码还是很容易阅读的，有兴趣的话可
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

【机器学习系列】之“西瓜数据集”决策树构建数学公式计算过程

文章目录

一、决策树概述

二、决策树场景

三、决策树概念须知

1.名词定义

2.构建“树”时的基本要求

四、三种决策树对比

五、 划分选择

1.ID3信息增益

2.C4.5信息增益率

3.CART基尼系数

你可能感兴趣的:(机器学习,决策树,西瓜数据集,机器学习,树的构建)

五、划分选择