决策树的生成-ID3算法生成_例题详解

数据集:

决策树的生成-ID3算法生成_例题详解_第1张图片

判断特征集是否是空集,进行下一步

选择信息增益最大的那个特征作为根节点,以“有自己的房子”作为限定条件看其他特征

决策树的生成-ID3算法生成_例题详解_第2张图片

 D1(有自己的房子)不确定性为0,以D2(没有自己的房子)为新的训练集,A1(年龄),A2(有工作),A4(信贷情况)为新的特征集

 D2(没有自己的房子)共9个样本

特征一:年龄

g( D2 , A1 ) = H ( D2 ) - H ( D2 | A1 )

H(D_{2})=-\frac{6}{9}log_{2}\frac{6}{9}-\frac{3}{9}log_{2}\frac{3}{9}=0.918

决策树的生成-ID3算法生成_例题详解_第3张图片

H(D_{2}|A_{1})=\frac{4}{9}H(D_{21})+\frac{2}{9}H(D_{22})+\frac{3}{9}H(D_{23})

H(D_{22})=-\frac{0}{2}log_{2}\frac{0}{2}-\frac{2}{2}log_{2}\frac{2}{2}=0 

H(D_{23})=-\frac{2}{3}log_{2}\frac{2}{3}-\frac{1}{3}log_{2}\frac{1}{3}=0.667

 特征二:有无工作

g( D2 , A2 ) = H ( D2 ) - H ( D2 | A2 )

 决策树的生成-ID3算法生成_例题详解_第4张图片

 H(D_{2}|A_{2})=\frac{3}{9}H(D_{21})+\frac{6}{9}H(D_{22})=0

  特征四:信贷情况

g( D2 , A4 ) = H ( D2 ) - H ( D2 | A4 )

 决策树的生成-ID3算法生成_例题详解_第5张图片

 H(D_{2}|A_{4})=\frac{1}{9}H(D_{21})+\frac{4}{9}H(D_{22})+\frac{4}{9}H(D_{23})= 0.444

H(D_{21}) =0

H(D_{23}) =0

H(D_{22}) =-\frac{2}{4}log_{2}\frac{2}{4}-\frac{2}{4}log_{2}\frac{2}{4} = 0.444

整理:

决策树的生成-ID3算法生成_例题详解_第6张图片

“有无工作”  的信息增益最大 

参考有无工作的数据情况,发现在D2“有自己的房子”的情况下,只要还”有工作“就一定有贷款,反之没有(即, 属于同一类),因此决策树停止,得到叶子结点

 决策树的生成-ID3算法生成_例题详解_第7张图片

 

 

 

你可能感兴趣的:(决策树的生成-ID3算法生成_例题详解)