信息增益生成决策树

首先查看数据集

信息增益生成决策树_第1张图片
我们用这个数据集来构造决策树,判断一个新的西瓜是否为好瓜。

决策树的构造

计算数据集的信息熵

首先观察数据集 D D D,发现数据集 D D D中有好瓜和坏瓜两个类别,其中好瓜占比 p 1 = 8 17 p_1=\frac {8}{17} p1=178,坏瓜占比 p 2 = 9 17 p_2=\frac {9}{17} p2=179,计算出数据集 D D D的信息熵为
E n t ( D ) = − ∑ k = 1 2 p k l o g 2 p k = − ( 8 17 l o g 2 8 17 + 9 17 l o g 2 9 17 ) = 0.998 Ent(D)=-\sum_{k=1}^{2}p_klog_2p_k=-(\frac{8}{17}log_2\frac{8}{17}+\frac{9}{17}log_2\frac{9}{17})=0.998 Ent(D)=k=12pklog2pk=(178log2178+179log2179)=0.998

计算各个属性的信息增益

观察数据集可以发现,西瓜的属性有色泽、根蒂、敲声、纹理、脐部、触感,首先对色泽计算信息增益。

西瓜的色泽有青绿、乌黑和浅白三种情况,青绿记做 D 1 D^1 D1,乌黑记做 D 2 D^2 D2,浅白记做 D 3 D^3 D3;
对于 D 1 D^1 D1,其中正例占 3 6 \frac{3}{6} 63,对于 D 2 D^2 D2,正例占 3 6 \frac{3}{6} 63,分别计算它们的信息熵
E n t ( D 1 ) = − ( 3 6 l o g 2 3 6 + 3 6 l o g 2 3 6 ) = 1.000 , Ent(D^1)=-(\frac{3}{6}log_2\frac{3}{6}+\frac{3}{6}log_2\frac{3}{6})=1.000, Ent(D1)=(63log263+63log263)=1.000,
E n t ( D 2 ) = − ( 4 6 l o g 2 4 6 + 2 6 l o g 2 2 6 ) = 0.918 , Ent(D^2)=-(\frac{4}{6}log_2\frac{4}{6}+\frac{2}{6}log_2\frac{2}{6})=0.918, Ent(D2)=(64log264+62log262)=0.918,
E n t ( D 3 = − 1 5 l o g 2 1 5 + 4 5 l o g 2 4 5 ) = 0.722. Ent(D^3=-\frac{1}{5}log_2\frac{1}{5}+\frac{4}{5}log_2\frac{4}{5})=0.722. Ent(D3=51log251+54log254)=0.722.
计算色泽的信息增益
G a i n ( D , 色 泽 ) = E n t ( D ) − ∑ v = 1 v = 3 ∣ D v ∣ ∣ D ∣ E n t ( D v ) = 0.998 − ( 6 17 ∗ 1.000 + 6 17 ∗ 0.918 + 5 17 ∗ 0.722 ) = 0.109 \begin{aligned} Gain(D,色泽) &=Ent(D)-\sum_{v=1}^{v=3}\frac{|D_v|}{|D|}Ent(D_v)\\ &=0.998-(\frac{6}{17}*1.000+\frac{6}{17}*0.918+\frac{5}{17}*0.722)\\ &=0.109 \end{aligned} Gain(D,)=Ent(D)v=1v=3DDvEnt(Dv)=0.998(1761.000+1760.918+1750.722)=0.109
用同样的方法可以计算出
G a i n ( D , 根 蒂 ) = 0.143 ; G a i n ( D , 敲 声 ) = 0.141 ; G a i n ( D , 纹 理 ) = 0.381 ; G a i n ( D , 脐 部 ) = 0.289 ; G a i n ( D , 触 感 ) = 0.006 \begin{aligned} &Gain(D,根蒂)=0.143;Gain(D,敲声)=0.141;\\&Gain(D,纹理)=0.381;Gain(D,脐部)=0.289;\\&Gain(D,触感)=0.006 \end{aligned} Gain(D,)=0.143;Gain(D,)=0.141;Gain(D,)=0.381;Gain(D,)=0.289;Gain(D,)=0.006
其中纹理的信息增益最大,于是选择纹理作为数据集 D D D的划分标准,构造第一级的决策树
信息增益生成决策树_第2张图片
决策树算法对每一个分支结点继续进行划分,方法和上一步相同,最后生成的决策树如下
信息增益生成决策树_第3张图片

你可能感兴趣的:(机器学习)