决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法
想一想这个女生为什么把年龄放在最上面判断!!!!!!!!!
为了高效的决策–>特征的先后顺序
为了更好理解决策树具体怎么分类的,我们通过一个问题例子?
已知 四个特征 预测 是否贷款给某个人
问题:如何对这些客户进行分类预测?你是如何去划分?
那么我们怎么知道这些特征哪个更好放在最上面,那么决策树的真是划分是这样的
根据最开始的数据可以看出,只要是有自己房子的人,最后的判断类别都是’是’
没有自己房子的,有工作的都是’是’,没有工作的都是‘否’
先看房子,在看工作 -->是否贷款 只看了两个特征
如果先看年龄–>信贷情况–>工作 看了三个特征才能觉得是否贷款
需要用到信息论的知识!!!问题:通过例子引入信息熵
香农 定义了 信息:消除随机不定性的东西
最开始,我们不知道小明的年龄
小明说:我今年十八岁 ------>是信息
小华说:小明明年十九岁---->是否算信息?
答案:不是信息,因为通过小明自己说的话我们已经知道小明18,可以推断出明年19岁,小华的话并没有消除随机不定型的东西,不属于信息。
信息的衡量–信息量–信息熵
以上面银行贷款的例子,带入公式演示:
问题:来了一个新的某人,已知年龄,工作,房子,信贷情况,是否应该贷款给这个人
15个样本中,有6个“否”,9个“是”,所以总的不确定性:
H(总的信息熵)= -(6/15 * log26/15 +9/15 *1og2 9/15) ≈ 0.971
(决策树思路)哪个特征对不确定性影响最大,也就是加入这个特征后,不确定性减少对最多,那么我们就先这个特征
特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D) 与 特征A给定条件下D的信息条件熵H(D|A) 之差,即公式为:
注:信息增益表示得知特征X的信息的不确定性减少的程度使得类Y的信息熵减少的程度
我们以年龄特征来计算:
年龄总共有三种情况:青年5、中年5、老年5
1、g(D, 年龄) = H(D) - H(D|年龄) = 0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年]
2、H(D) = -(6/15log(6/15)+9/15log(9/15))=0.971
3、H(青年) = -[(3/5)*log2(3/5) +(2/5)*log2(2/5)]
H(中年)= -[(3/5)*log2(3/5) +(2/5)*log2(2/5)]
H(老年)= -[(4/5)*log2(4/5)+(1/5)*log(1/5)]
我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D, A1) = 0.313, g(D, A2) = 0.324, g(D, A3) = 0.420,g(D, A4) = 0.363。所以我们选择A3 作为划分的第一个特征。这样我们就可以一棵树慢慢建立
当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似,我们就不去举例计算。
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’ ,max_depth=None,random_state=None)
其中会有些超参数:max_depth:树的深度大小
其它超参数我们会结合随机森林讲解
# 用决策树对鸢尾花进行分类
# 1.获取数据集
# 2.划分数据集
# 3.决策树预估器分类
# 4.模型评估
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
# 为了与knn模型对比,选择一样的random_stat
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=22)
from sklearn.tree import DecisionTreeClassifier
estimator = DecisionTreeClassifier(criterion ="entropy")
estimator.fit(x_train,y_train)
y_predict= estimator.predict(x_test)
print("y_predict:\n",y_predict)
print("直接比对真实值和预测值:\n",y_test==y_predict)
score=estimator.score(x_test,y_test)
print("准确率为:\n",score)
from sklearn.tree import DecisionTreeClassifier,export_graphviz
export_graphviz(estimator,out_file="iris_tree.dot",feature_names=iris.feature_names)
结果对比分析:
knn的准确率达到 0.974 ; 决策数准确率只有 0.895
150个样本 knn 的准确率更高;如果数据量更大,使用决策树会更好
sklearn.tree.export_graphviz()
该函数能够导出DOT格式export_graphviz(dc, out_file="./tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])
dot文件当中的内容如下:
digraph Tree {
node [shape=box] ;
0 [label="petal width (cm) <= 0.75\nentropy = 1.584\nsamples = 112\nvalue = [39, 37, 36]"] ;
1 [label="entropy = 0.0\nsamples = 39\nvalue = [39, 0, 0]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="petal width (cm) <= 1.75\nentropy = 1.0\nsamples = 73\nvalue = [0, 37, 36]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
3 [label="petal length (cm) <= 5.05\nentropy = 0.391\nsamples = 39\nvalue = [0, 36, 3]"] ;
2 -> 3 ;
4 [label="sepal length (cm) <= 4.95\nentropy = 0.183\nsamples = 36\nvalue = [0, 35, 1]"] ;
3 -> 4 ;
5 [label="sepal width (cm) <= 2.45\nentropy = 1.0\nsamples = 2\nvalue = [0, 1, 1]"] ;
4 -> 5 ;
6 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
5 -> 6 ;
7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ;
5 -> 7 ;
8 [label="entropy = 0.0\nsamples = 34\nvalue = [0, 34, 0]"] ;
4 -> 8 ;
9 [label="petal width (cm) <= 1.55\nentropy = 0.918\nsamples = 3\nvalue = [0, 1, 2]"] ;
3 -> 9 ;
10 [label="entropy = 0.0\nsamples = 2\nvalue = [0, 0, 2]"] ;
9 -> 10 ;
11 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
9 -> 11 ;
12 [label="petal length (cm) <= 4.85\nentropy = 0.191\nsamples = 34\nvalue = [0, 1, 33]"] ;
2 -> 12 ;
13 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
12 -> 13 ;
14 [label="entropy = 0.0\nsamples = 33\nvalue = [0, 0, 33]"] ;
12 -> 14 ;
}
1、乘坐班是指乘客班(1,2,3),是社会经济阶层的代表
2、其中age数据存在缺失
数据:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
import pandas as pd
# 1. 获取数据
# path = "http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt"
# 这个网址有问题,我们选择自己传入网上能下载到的 泰坦尼克号训练数据集
# titanic = pd.read_csv(path)
# titanic
titanic = pd.read_csv("train.csv")
titanic
# 输出1
# 2.数据处理 筛选特征值和目标值
# row.names编号、name名字、home.dest目的地 等 都对存活结果无关
# pclass贵族、age年龄、sex性别 等 对存活结果有影响
x = titanic[["Pclass","Age","Sex"]]
y = titanic["Survived"]
x
# 输出2
y
# 输出3
# 2.数据处理 --- 缺失值处理
x["Age"].fillna(x["Age"].mean(),inplace=True)
x
# 输出4
# 特征值-->字典类型
x = x.to_dict(orient="recordes")
x
#输出5
# 3.划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=22)
# 4.字典特征抽取
from sklearn.feature_extraction import DictVectorizer
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)
# 5.决策树评估
from sklearn.tree import DecisionTreeClassifier
# 调树的输出深度,不然太多了
estimator = DecisionTreeClassifier(criterion ="entropy",max_depth = 8)
estimator.fit(x_train,y_train)
y_predict= estimator.predict(x_test)
print("y_predict:\n",y_predict)
print("直接比对真实值和预测值:\n",y_test==y_predict)
score = estimator.score(x_test,y_test)
print("准确率为:\n",score)
# 输出6