决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。
决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数据进行分类了。
alcohol | malic_acid | ash | alcalinity_of_ash | magnesium | total_phenols | flavanoids | class |
---|---|---|---|---|---|---|---|
14.23 | 1.71 | 2.43 | 15.6 | 127.0 | 2.80 | 3.06 | 0 |
13.20 | 1.78 | 2.14 | 11.2 | 100.0 | 2.65 | 2.76 | 1 |
13.16 | 2.36 | 2.67 | 18.6 | 101.0 | 2.80 | 3.24 | 2 |
例如上面的数据集,根据红酒数据的不同特征,将其分为不同的类别(Class)
在这个决策过程中,我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点,而得到的每一个结论(动物的类别)都叫做叶子节点。
关键概念:节点
根节点:没有进边,有出边。包含最初的,针对特征的提问。
中间节点:既有进边也有出边,进边只有一条,出边可以有很多条。都是针对特征的提问。
叶子节点:有进边,没有出边,每个叶子节点都是一个类别标签。
子节点和父节点:在两个相连的节点中,更接近根节点的是父节点,另一个是子节点。
决策树算法的核心是要解决两个问题:
如何从数据表中找出最佳节点和最佳分枝?
如何让决策树停止生长,防止过拟合?
help(tree)
代码 | 类型 |
---|---|
tree.DecisionTreeClassifier | 分类树 |
tree.DecisionTreeRegressor | 回归树 |
tree.export_graphviz | 决策树可视化 |
tree.ExtraTreeCalssifier | 高随机版本分类树 |
tree.ExtraTreeRegressor | 高随机版本回归树 |
from sklearn import tree
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
wine = load_wine()# 载入红酒数据集
print(wine.data.shape)
print(wine.target.shape)
print(wine.target_names)
data = pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)], axis=1)
col_names = list(wine.feature_names)
col_names.append('calss')
data.columns = col_names
data.head(5)
为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。
不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。
Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:
entropy
:使用信息熵gini
:使用基尼系数E n t r o p y ( t ) = − ∑ i = 0 c − 1 p ( i ∣ t ) log 2 p ( i ∣ t ) Entropy\left( t \right) =-\sum_{i=0}^{c-1}{p\left( i|t \right) \log _2p\left( i|t \right)} Entropy(t)=−i=0∑c−1p(i∣t)log2p(i∣t)
G i n i ( t ) = 1 − ∑ i = 0 c − 1 p ( i ∣ t ) 2 Gini\left( t \right) =1-\sum_{i=0}^{c-1}{p\left( i|t \right) ^2} Gini(t)=1−i=0∑c−1p(i∣t)2
其中t
代表给定的节点,i
代表标签的任意分类,p(i|t)
代表标签分类i
在节点t
上所占的比例。注意,当使用信息熵时,sklearn实际计算的是基于信息熵的信息增益(Information Gain),即父节点的信息熵和子节点的信息熵之差。
比起基尼系数,信息熵对不纯度更加敏感,对不纯度的惩罚最强。但是在实际使用中,信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些,因为基尼系数的计算不涉及对数。另外,因为信息熵对不纯度更加敏感,所以信息熵作为指标时,决策树的生长会更加“精细”,因此对于高维数据或者噪音很多的数,信息熵很容易过拟合,基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候,即当模型在训练集和测试集上都表现不太好的时候,使用信息熵。当然,这些不是绝对的。
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data, wine.target, test_size=0.3)
# train_test_split输入自变量,因变量,比例三个参数划分数据集
print('训练集大小:', Xtrain.shape)
print('测试集大小:', Xtest.shape)
# 训练集大小: (124, 13)
# 测试集大小: (54, 13)
clf = tree.DecisionTreeClassifier(criterion="entropy")
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) #返回预测的准确度accuracy
print('accuracy score: %.2f' % score)
# accuracy score: 0.94
# 决策树绘图
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','稀释葡萄酒','脯氨酸']
import graphviz
dot_data = tree.export_graphviz(clf,
out_file=None,
feature_names = feature_name,
class_names=["琴酒","雪莉","贝尔摩德"],
filled=True,
rounded=True)
graph = graphviz.Source(dot_data)
graph
# 特征重要性
[*zip(feature_name,clf.feature_importances_)]
'''
[('酒精', 0.0),
('苹果酸', 0.022446861636353448),
('灰', 0.0),
('灰的碱性', 0.0),
('镁', 0.0),
('总酚', 0.014422336735850102),
('类黄酮', 0.11855919792009308),
('非黄烷类酚类', 0.0),
('花青素', 0.037023347251702504),
('颜色强度', 0.08787275638401838),
('色调', 0.02541551409286573),
('稀释葡萄酒', 0.2537216563624776),
('脯氨酸', 0.4405383296166392)]
'''
在只了解一个参数的情况下,建立了一棵完整的决策树。但是回到步骤2建立模型,score会在某个值附近波动,引起步骤3中画出来的每一棵树都不一样。它为什么会不稳定呢?如果使用其他数据集,它还会不稳定吗?
由于不纯度是基于节点来计算的,也就是说,决策树在建树时,是靠优化节点来追求一棵优化的树,但最优的节点能够保证最优的树吗?集成算法被用来解决这个问题:
sklearn中,既然一棵树不能保证最优,那就建更多的不同的树,然后从中取最好的。怎样从一组数据集中建不同的树?在每次分枝时,不从使用全部特征,而是随机选取一部分特征,从中选取不纯度相关指标最优的作为分枝用的节点。这样,每次生成的树也就不同了。
*random_state
*用来设置分枝中的随机模式的参数,默认None
,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。
splitter
也是用来控制决策树中的随机选项的,有两种输入值,输入best
,决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性*feature_importances_
查看),输入random
*,决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当预测到模型会过拟合,用这两个参数来帮助你降低树建之后过拟合的可能性。
在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有更多的特征可用为止。这样的决策树往往会过拟合,这就是说,它会在训练集上表现很好,在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。
#我们的树对训练集的拟合程度如何?
score_train = clf.score(Xtrain, Ytrain)
score_train
# 1.0
为了让决策树有更好的泛化性,我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大,正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了不同的剪枝策略:
max_depth
限制树的最大深度,超过设定深度的树枝全部剪掉这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从n=3开始尝试,看看拟合的效果再决定是否增加设定深度。
min_samples_leaf & min_samples_split
*min_samples_leaf
限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf
个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf
*个样本的方向去发生。
一般搭配*max_depth
*使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。对于类别不多的分类问题,=1通常就是最佳选择。
*min_samples_split
限定,一个节点必须要包含至少min_samples_split
*个训练样本,这个节点才允许被分枝,否则分枝就不会发生。
clf = tree.DecisionTreeClassifier(criterion="entropy", # 可以选择entropy,gini
random_state=30, # 随机特征选择
splitter="random", # random随机分枝,防止过拟合
# 剪枝参数
max_depth=4,
min_samples_leaf=10,
min_samples_split=10)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)# 返回预测的准确度
print('accuracy score: %.2f' % score)
# accuracy score: 0.93
dot_data = tree.export_graphviz(clf,
out_file=None,
feature_names = feature_name,
class_names=["琴酒","雪莉","贝尔摩德"],
filled=True,
rounded=True)
graph = graphviz.Source(dot_data)
graph
(本部分笔者仅作演示,感兴趣可自行尝试最优参数和拟合结果)
max_feature & min_impurity_decrease
*max_features
限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和max_depth
异曲同工,max_features
*是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。
使用超参数曲线判断参数选择,使用已经训练好的决策树模型clf。超参数的学习曲线,是一条以超参数的取值为横坐标,模型的度量指标为纵坐标的曲线,它是用来衡量不同超参数取值下模型的表现的线。在建好的决策树里,模型度量指标就是score。
import matplotlib.pyplot as plt
test = []
for i in range(10):
clf = tree.DecisionTreeClassifier(max_depth=i+1
,criterion="entropy"
,random_state=30
,splitter="random"
)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()
属性是在模型训练之后,能够调用查看的模型的各种性质。对决策树来说,最重要的是**feature_importances_
**,能够查看各个特征对模型的重要性。
sklearn中许多算法的接口都是相似的,比如说我们之前已经用到的fit和score,几乎对每个算法都可以使用。除了这两个接口之外,决策树最常用的接口还有apply和predict。apply()
中输入测试集返回每个测试样本所在的叶子节点的索引,predict()
输入测试集返回每个测试样本的标签。
在这里不得不提的是,**所有接口中要求输入X_train和X_test的部分,输入的特征矩阵必须至少是一个二维矩阵。sklearn接受任何一维矩阵作为特征矩阵被输入。如果你的数据的确只有一个特征,那必须用reshape(-1,1)来给矩阵增维;如果你的数据只有一个特征和一个样本,使用reshape(1,-1)来给你的数据增维。
#apply返回每个测试样本所在的叶子节点的索引
clf.apply(Xtest)
array([ 9, 27, 27, 16, 4, 10, 4, 4, 27, 27, 10, 22, 24, 16, 22, 27, 16,
27, 4, 4, 16, 16, 16, 27, 22, 8, 27, 4, 22, 24, 8, 22, 4, 4,
27, 16, 13, 22, 16, 13, 16, 27, 4, 22, 22, 27, 16, 27, 9, 6, 16,
10, 27, 4], dtype=int64)
#predict返回每个测试样本的分类/回归结果
clf.predict(Xtest)
array([1, 0, 0, 1, 2, 1, 2, 2, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 2, 2, 1, 1,
1, 0, 1, 2, 0, 2, 1, 0, 2, 1, 2, 2, 0, 1, 1, 1, 1, 1, 1, 0, 2, 1,
1, 0, 1, 0, 1, 2, 1, 1, 0, 2])
需要注意的是,在回归树中,没有标签分布是否均衡的问题,因此没有class_weight这样的参数。
回归树衡量分枝质量的指标,支持的标准有三种:
属性中最重要的依然是**feature_importances_
**,接口依然是apply
, fit
, predict
, score
最核心。
M S E = 1 N ∑ i = 1 N ( f i − y i ) 2 MSE=\frac{1}{N}\sum_{i=1}^N{\left( f_i-y_i \right) ^2} MSE=N1i=1∑N(fi−yi)2
其中 N 是样本数量,i 是每一个数据样本,fit 是模型回归出的数值,y_i 是样本点 i 实际的数值标签。所以MSE的本质,其实是样本真实数据与回归结果的差异。在回归树中,MSE不只是分枝质量衡量指标,也是最常用的衡量回归树回归质量的指标,当我们在使用交叉验证,或者其他方式获取回归树的结果时,我们往往选择均方误差作为我们的评估(在分类树中这个指标是score代表的预测准确率)。在回归中,我们追求的是,MSE越小越好。
然而,回归树的接口score返回的是R平方,并不是MSE。
R 2 = 1 − ∑ i = 1 N ( f i − y i ) 2 ∑ i = 1 N ( y i − y ^ i ) 2 R^2=1-\frac{\sum_{i=1}^N{\left( f_i-y_i \right) ^2}}{\sum_{i=1}^N{\left( y_i-\widehat{y}_i \right) ^2}} R2=1−∑i=1N(yi−y i)2∑i=1N(fi−yi)2
值得一提的是,虽然均方误差永远为正,但是sklearn当中使用均方误差作为评判标准时,却是计算负均方误差(neg_mean_squared_error)。这是因为sklearn在计算模型评估指标的时候,会考虑指标本身的性质,均方误差本身是一种误差,所以被sklearn划分为模型的一种损失(loss),因此在sklearn当中,都以负数表示。真正的均方误差MSE的数值,其实就是neg_mean_squared_error去掉负号的数字。(了解即可)
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
data = pd.read_csv("data.csv",index_col = 0)
data.head()
data.info()
<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 11 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Survived 891 non-null int64
1 Pclass 891 non-null int64
2 Name 891 non-null object
3 Sex 891 non-null object
4 Age 714 non-null float64
5 SibSp 891 non-null int64
6 Parch 891 non-null int64
7 Ticket 891 non-null object
8 Fare 891 non-null float64
9 Cabin 204 non-null object
10 Embarked 889 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB
#删除缺失值过多的列,和观察判断来说和预测的y没有关系的列
data.drop(["Cabin","Name","Ticket"],inplace=True,axis=1)
#处理缺失值,对缺失值较多的列进行填补,有一些特征只确实一两个值,可以采取直接删除记录的方法
data["Age"] = data["Age"].fillna(data["Age"].mean())
data = data.dropna()
#将分类变量转换为数值型变量
#将二分类变量转换为数值型变量
#astype能够将一个pandas对象转换为某种类型,和apply(int(x))不同,astype可以将文本类转换为数字,用这个方式可以很便捷地将二分类特征转换为0~1
data["Sex"] = (data["Sex"]== "male").astype("int")
#将三分类变量转换为数值型变量
labels = data["Embarked"].unique().tolist()
data["Embarked"] = data["Embarked"].apply(lambda x: labels.index(x))
#查看处理后的数据集
data.head()
X = data.iloc[:,data.columns != "Survived"]
y = data.iloc[:,data.columns == "Survived"]
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3)
#修正测试集和训练集的索引
for i in [Xtrain, Xtest, Ytrain, Ytest]:
i.index = range(i.shape[0])
#查看分好的训练集和测试集
Xtrain.head()
clf = DecisionTreeClassifier(random_state=25)
clf = clf.fit(Xtrain, Ytrain)
accuracy_score = clf.score(Xtest, Ytest)
cross_score = cross_val_score(clf, X, y, cv=10).mean()
print('accuracy_score: %.2f' % accuracy_score)
print('cross_val_score: %.2f' % cross_score)
accuracy_score: 0.78
cross_val_score: 0.77
这里的交叉验证是用来观察模型的稳定性的一种方法,我们将数据划分为n份,依次使用其中一份作为测试集,其他n-1份作为训练集,多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果,因此用交叉验证n次的结果求出的平均值,是对模型效果的一个更好的度量。
tr = []
te = []
for i in range(10):
clf = DecisionTreeClassifier(random_state=25,
max_depth=i+1,
criterion="entropy")
clf = clf.fit(Xtrain, Ytrain)
score_tr = clf.score(Xtrain, Ytrain)
score_te = cross_val_score(clf, X, y, cv=10).mean()
tr.append(score_tr)
te.append(score_te)
print(max(te))
plt.plot(range(1,11),tr,color="red",label="train")
plt.plot(range(1,11),te,color="blue",label="test")
plt.xticks(range(1,11))
plt.legend()
plt.show()
在机器学习模型中,需要人工选择的参数称为超参数。比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定。超参数选择不恰当,就会出现欠拟合或者过拟合的问题。而在选择超参数的时候,有两个途径,一个是凭经验微调,另一个就是选择不同大小的参数,带入模型中,挑选表现最好的参数。
微调的一种方法是手工调制超参数,直到找到一个好的超参数组合,这么做的话会非常冗长,你也可能没有时间探索多种组合,所以可以使用Scikit-Learn的**GridSearchCV
**来做这项搜索工作。
class sklearn.model_selection.GridSearchCV(estimator, # 选择使用的分类器,并且传入除需要确定最佳的参数之外的其他参数。
param_grid, # 需要最优化的参数的取值,值为字典或者列表
scoring=None, # 模型评价标准
fit_params=None,
n_jobs=1, # CPU核数
iid=True, # 默认为各个样本fold概率分布一致,误差估计为所有样本之和而非平均
refit=True,
cv=None, # 交叉验证参数,默认None
verbose=0,
pre_dispatch=‘2*n_jobs’,
error_score=’raise’,
return_train_score=’warn’)
gini_thresholds = np.linspace(0,0.5,20)
parameters = {'splitter':('best','random')
,'criterion':("gini","entropy")
,"max_depth":[*range(1,10)]
,'min_samples_leaf':[*range(1,50,5)]
,'min_impurity_decrease':[*np.linspace(0,0.5,20)]
}
clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf,
parameters,
cv=10)
GS.fit(Xtrain,Ytrain)
print(GS.best_params_)
{'criterion': 'entropy', 'max_depth': 6, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 6, 'splitter': 'best'}
ID3算法构建决策树
ID3算法原型见于J.R Quinlan的博士论文,是基础理论较为完善,使用较为广泛的决策树模型,在此基础上J.R Quinlan进行优化后,陆续推出了C4.5和C5.0决策树算法,后二者现已称为当前最流行的决策树算法,我们先从ID3开始讲起,再讨论如何从ID3逐渐优化至C4.5。
为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,而衡量这个“最佳”的指标叫做**“不纯度”**。不纯度基于叶子节点来计算的,所以树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。
决策树的每个叶子节点中都会包含一组数据,在这组数据中,如果有某一类标签占有较大的比例,我们就说叶子节点“纯”,分枝分得好。某一类标签占的比例越大,叶子就越纯,不纯度就越低,分枝就越好。如果没有哪一类标签的比例很大,各类标签都相对平均,则说叶子节点”不纯“,分枝不好,不纯度高。
这个其实非常容易理解。分类型决策树在叶子节点上的决策规则是少数服从多数,在一个叶子节点上,如果某一类标签所占的比例较大,那所有进入这个叶子节点的样本都回被认为是这一类别。距离来说,如果90%根据规则进入叶子节点的样本都是类别0(叶子比较纯),那新进入叶子节点的测试样本的类别也很有可能是0。但是,如果51%的样本是0,49%的样本是1(极端情况),叶子节点还是会被认为是0类叶子节点,但此时此刻进入这个叶子的测试样本点几乎有一半的可能性应该是类别1。从数学上来说,类分布为(0,100%)的结点具有零不纯性,而均衡分布(50%,50%)的结点具有最高的不纯性。如果叶子本身不纯,那测试样本就很有可能被判断错误,相对的叶子越纯,那样本被判断错误的可能性就越小。
通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。若我们定义t代表决策树的某节点, 是t节点所对应的数据集,设 p(i|t) 表示给定结点 t 中属于类别 i 的样本所占的比例,这个比例越高,则代表叶子越纯。
决策树最终的优化目标是使得叶节点的总不纯度最低,即对应衡量不纯度的指标最低。ID3采用信息熵来衡量不纯度,此处就先以信息熵为例进行讨论。ID3最优条件是叶节点的总信息熵最小,因此ID3决策树在决定是否对某节点进行切分的时候,会尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。换言之,就是要求父节点信息熵和子节点总信息熵之差要最大。对于ID3而言,二者之差就是信息增益,即Information gain。
g ( D , A ) = H ( D ) − H ( D , A ) g(D,A)=H(D)-H(D,A) g(D,A)=H(D)−H(D,A)
总的来说,决策树模型是一个典型的贪心模型,总目标是一个全局最优解,即一整套合理的分类规则使得最终叶节点的纯度最高,但全局最优解在随特征增加而呈现指数级增加的搜索空间内很难高效获取,因此我们退而求其次,考虑采用局部最优来一步步推导结果——只要保证信息增益最大,我们就能得到次最优的模型。当然,局部最优不一定等于全局最优,接下来我们就ID3可能存在的一些问题及改进方向进行一些讨论。
ID3的局限性
C4.5算法
有些时候,使用信息增益会比较粗暴,效果也不一定好。因为增益这个指标天然地偏向于选择那些分支比较多的属性。这种偏向性是必须消除的,算法应该公正地评价所有的属性,因此,信息增益率(Gain Ratio)被提出:
G a i n r a t i o = I n f o r a m t i o n G a i n I n f o r m a t i o n V a l u e Gain ratio=\frac{Inforamtion Gain}{Information Value} Gainratio=InformationValueInforamtionGain
根据信息增益率进行决策的过程,称为C4.5决策树学习算法。
下面笔者自行创造了一套数据集示例,并给出了两种算法的计算过程,感兴趣可自行尝试:
#DecsionTree算法
#构建数据集
def createDataSet():
dataSet = [[0, 2, 0, 0, 'N'],
[0, 2, 0, 1, 'N'],
[1, 2, 0, 0, 'Y'],
[2, 1, 0, 0, 'Y'],
[2, 0, 1, 0, 'Y'],
[2, 0, 1, 1, 'N'],
[1, 0, 1, 1, 'Y'],
[0, 1, 0, 0, 'N'],
[0, 0, 1, 0, 'Y'],
[2, 1, 1, 0, 'Y'],
[0, 1, 1, 1, 'Y'],
[1, 1, 0, 1, 'Y'],
[1, 2, 1, 0, 'Y'],
[2, 1, 0, 1, 'N']]
labels = ['Age', 'Income', 'Job', 'Credit']
return dataSet, labels
dS1,lab = createDataSet()
print(dS1)
print(lab)
#计算数据集的信息熵
#参数:dataset-List列表,训练集,包含了样本数据和分类结果
#返回值:shannonEnt-浮点数,训练集的香农熵
def calcShannonEnt(dataSet):
numEntries = len(dataSet)
labelCounts = {}
for featVec in dataSet:
#featVec[-1]表示列表featVec中的最后一项,就是Y/N的分类结果
currentLabel = featVec[-1]
#对currentLabel计数,对应的分类为Y/N的样本各有多少个
if currentLabel not in labelCounts.keys():
labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1
shannonEnt = 0.0
#计算信息熵
for key in labelCounts:
prob = float(labelCounts[key])/numEntries
shannonEnt -= prob * log(prob, 2)
return shannonEnt
snEnt = calcShannonEnt(dS1)
print('原始数据集香农熵:')
print(snEnt)
#按照feat指定的标签分割数据集
#参数:dataset-List列表,待分割样本集合
# axie-数值,属性列表项序号,按照此属性的取值来分割样本集合
# value-数值,属性取值
#返回值:retDataSet-List列表,分割后的样本集合,去除了分割属性
def splitDataSet(dataSet, axis, value):
retDataSet = []
for featVec in dataSet:
if featVec[axis] == value:
reduceFeatVec = featVec[:axis]
reduceFeatVec.extend(featVec[axis+1:])
retDataSet.append(reduceFeatVec)
return retDataSet
print('splitDataSet函数示例')
print('将原始样本分割出Income(在labels中序号为1)值为0的集合:')
retDS1 = splitDataSet(dS1,1, 0)
print(retDS1)
#决策树ID3算法
#按照信息熵增益来确定用于分割的属性
#参数:dataset-List列表,待分割样本集合
#返回值:bestFeature-数值,分割属性对应在labels中的序号
def ID3(dataSet):
#属性数量=样本列表元素数量-1(最后一项是分类结果,不是属性)
numFeatures = len(dataSet[0]) - 1
#计算原始数据集信息熵
baseEntropy = calcShannonEnt(dataSet)
bestInfoGain= 0.0
bestFeature = -1
for i in range(numFeatures):
#当前属性下,所有样本的值构成列表
featList = [example[i] for example in dataSet]
uniqueVals = set(featList)
newEntropy = 0.0
for value in uniqueVals:
#当使用该属性分割时,计算其香农信息熵
subDataSet = splitDataSet(dataSet, i, value)
prob = len(subDataSet)/float(len(dataSet))
newEntropy += prob * calcShannonEnt(subDataSet)
infoGain = baseEntropy - newEntropy
#找出最大熵增益对应的属性
if (infoGain > bestInfoGain):
bestInfoGain = infoGain
bestFeature = i
return bestFeature
bFID3=ID3(dS1)
print('ID3第一次选择的最佳分割属性:')
print(bFID3)
#决策树C45算法
#按照信息熵增益率来确定用于分割的属性
#参数:dataset-List列表,待分割样本集合
#返回值:bestFeature-数值,分割属性对应在labels中的序号
def C45(dataSet):
numFeatures = len(dataSet[0]) - 1
baseEntropy = calcShannonEnt(dataSet)
#用于找出最大增益率的变量
bestInfoGainRatio = 0.0
bestFeature = -1
for i in range(numFeatures):
featList = [example[i] for example in dataSet]
uniqueVals = set(featList)
newEntropy = 0.0
#用于计算分离信息
splitInfo = 0.0
for value in uniqueVals:
subDataSet = splitDataSet(dataSet, i, value)
prob = len(subDataSet)/float(len(dataSet))
newEntropy += prob * calcShannonEnt(subDataSet)
splitInfo += -prob * log(prob, 2)
infoGain = baseEntropy - newEntropy
if (splitInfo == 0):
continue
#属性选取标准改为增益率
infoGainRatio = infoGain / splitInfo
if (infoGainRatio > bestInfoGainRatio):
bestInfoGainRatio = infoGainRatio
bestFeature = i
return bestFeature
bFC45=C45(dS1)
print('C45第一次选择的最佳分割属性:')
print(bFC45)