#决策树
______
##决策树的学习
###1.reference blog:
https://blog.csdn.net/jiaoyangwm/article/details/79525237#t0 (机器学习实战简略版,更容易懂,附在下面)
###2.reference book:《机器学习实战》
###3.Sklearn实现决策树并用Graphviz可视化决策树(一个例子):
https://blog.csdn.net/zhyh1435589631/article/details/53869803/
###4.使用 sklearn 实现决策树(一个例子):
https://blog.csdn.net/zhyh1435589631/article/details/53869803/
###5.Python机器学习算法库——决策树(scikit-learn学习 - 决策树)(从细方面讲代码):
https://blog.csdn.net/Yeoman92/article/details/73436632
1.reference blog 之代码解析
(编译在:google云盘~决策树.ipynb :
https://colab.research.google.com/drive/1fGx90cJP7PuNbJN8xmqiiRR4XwrlK5sw#scrollTo=01mig8gorfUl&uniqifier=1)
```
from math import log
"""
函数说明:创建测试数据集
Parameters:无
Returns:
dataSet:数据集
labels:分类属性
Modify:
2018-03-12
"""
def creatDataSet():
# 数据集
dataSet=[[0, 0, 0, 0, 'no'],
[0, 0, 0, 1, 'no'],
[0, 1, 0, 1, 'yes'],
[0, 1, 1, 0, 'yes'],
[0, 0, 0, 0, 'no'],
[1, 0, 0, 0, 'no'],
[1, 0, 0, 1, 'no'],
[1, 1, 1, 1, 'yes'],
[1, 0, 1, 2, 'yes'],
[1, 0, 1, 2, 'yes'],
[2, 0, 1, 2, 'yes'],
[2, 0, 1, 1, 'yes'],
[2, 1, 0, 1, 'yes'],
[2, 1, 0, 2, 'yes'],
[2, 0, 0, 0, 'no']]
#分类属性
labels=['年龄','有工作','有自己的房子','信贷情况']
#返回数据集和分类属性
return dataSet,labels
"""
函数说明:计算给定数据集的经验熵(香农熵)
Parameters:
dataSet:数据集
Returns:
shannonEnt:经验熵
Modify:
2018-03-12
"""
def calcShannonEnt(dataSet):
#返回数据集行数
numEntries=len(dataSet)
#保存每个标签(label)出现次数的字典
labelCounts={}
#对每组特征向量进行统计
for featVec in dataSet:
currentLabel=featVec[-1] #提取标签信息
if currentLabel not in labelCounts.keys(): #如果标签没有放入统计次数的字典,添加进去
labelCounts[currentLabel]=0
labelCounts[currentLabel]+=1 #label计数
shannonEnt=0.0 #经验熵
#计算经验熵
for key in labelCounts:
prob=float(labelCounts[key])/numEntries #选择该标签的概率
shannonEnt-=prob*log(prob,2) #利用公式计算
return shannonEnt #返回经验熵
"""
函数说明:计算给定数据集的经验熵(香农熵)
Parameters:
dataSet:数据集
Returns:
shannonEnt:信息增益最大特征的索引值
Modify:
2018-03-12
"""
def chooseBestFeatureToSplit(dataSet):
#特征数量
numFeatures = len(dataSet[0]) - 1
print("numFeatures=",numFeatures) #4
#计数数据集的香农熵
baseEntropy = calcShannonEnt(dataSet) #0.97..
print("baseEntropy=",baseEntropy)
#信息增益
bestInfoGain = 0.0
#最优特征的索引值
bestFeature = -1
#遍历所有特征
for i in range(numFeatures): #每一列,共4列
# 获取dataSet的第i个所有特征
featList = [example[i] for example in dataSet] #datas of every list
#print("featList=",featList)
#创建set集合{},元素不可重复
uniqueVals = set(featList)
#print("uniqueVals=",uniqueVals) # 看每一列(每个特征)的类别个数,eg,第一列有3个类别,二~2,三~2,四~3
#经验条件熵
newEntropy = 0.0
#计算信息增益
for value in uniqueVals: #eg 第一列 0 1 2
#subDataSet划分后的子集
subDataSet = splitDataSet(dataSet, i, value)
print("subDataSet=",subDataSet)
print("len of subDataSet=",len(subDataSet)) #第四列 5 6 4
#计算子集的概率
prob = len(subDataSet) / float(len(dataSet)) #第一列 5/15 6/15 4/15
#根据公式计算经验条件熵
newEntropy += prob * calcShannonEnt((subDataSet))
#信息增益
infoGain = baseEntropy - newEntropy
#打印每个特征的信息增益
print("第%d个特征的增益为%.3f" % (i, infoGain))
#计算信息增益
if (infoGain > bestInfoGain):
#更新信息增益,找到最大的信息增益
bestInfoGain = infoGain
#记录信息增益最大的特征的索引值
bestFeature = i
#返回信息增益最大特征的索引值
return bestFeature
"""
函数说明:按照给定特征划分数据集
Parameters:
dataSet:待划分的数据集
axis:划分数据集的特征
value:需要返回的特征的值
Returns:
shannonEnt:经验熵
Modify:
2018-03-12
"""
def splitDataSet(dataSet,axis,value):
retDataSet=[]
for featVec in dataSet:
if featVec[axis]==value:
reducedFeatVec=featVec[:axis]
reducedFeatVec.extend(featVec[axis+1:])
retDataSet.append(reducedFeatVec)
return retDataSet
#main函数
if __name__=='__main__':
dataSet,features=creatDataSet()
# print(dataSet)
# print(calcShannonEnt(dataSet))
print("最优索引值:"+str(chooseBestFeatureToSplit(dataSet)))
```
结果截图:
![这里写图片描述](https://img-blog.csdn.net/20180827174746454?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIyNzAzMjA1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)