3.5 决策树

文章目录

    • 3.5.1 认识决策树
    • 3.5.2 决策树分类原理详解
      • 1. 原理
      • 2. 信息熵的定义
      • 3. 决策树的划分依据之一------信息增益
      • 4. 决策树的三种算法实现
    • 3.5.3 决策树API
      • 使用决策树对鸢尾花数据集进行分类
    • 3.5.4 决策树可视化
      • 1. 保存数的结构到dot文件
      • 2. 网络显示结构
    • 3.5.5 决策树总结
    • 3.5.6 案例:泰坦尼克号乘客生存预测
      • 1. 流程分析
      • 2. 代码
      • 3. 输出
      • 4. 决策树可视化

3.5.1 认识决策树

决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法

怎么理解这句话?通过一个对话例子(相亲对话)
3.5 决策树_第1张图片

想一想这个女生为什么把年龄放在最上面判断!!!!!!!!!
为了高效的决策–>特征的先后顺序

3.5.2 决策树分类原理详解

为了更好理解决策树具体怎么分类的,我们通过一个问题例子?
已知 四个特征 预测 是否贷款给某个人
3.5 决策树_第2张图片
问题:如何对这些客户进行分类预测?你是如何去划分?

有可能你的划分是这样的
3.5 决策树_第3张图片

那么我们怎么知道这些特征哪个更好放在最上面,那么决策树的真是划分是这样的3.5 决策树_第4张图片

根据最开始的数据可以看出,只要是有自己房子的人,最后的判断类别都是’是’
没有自己房子的,有工作的都是’是’,没有工作的都是‘否’
先看房子,在看工作 -->是否贷款 只看了两个特征
如果先看年龄–>信贷情况–>工作 看了三个特征才能觉得是否贷款

1. 原理

  • 信息熵、信息增益等

需要用到信息论的知识!!!问题:通过例子引入信息熵
香农 定义了 信息:消除随机不定性的东西
最开始,我们不知道小明的年龄
小明说:我今年十八岁 ------>是信息
小华说:小明明年十九岁---->是否算信息?

答案:不是信息,因为通过小明自己说的话我们已经知道小明18,可以推断出明年19岁,小华的话并没有消除随机不定型的东西,不属于信息。

2. 信息熵的定义

信息的衡量–信息量–信息熵

  • H的专业术语称之为信息熵,单位为比特。
    3.5 决策树_第5张图片

以上面银行贷款的例子,带入公式演示:
问题:来了一个新的某人,已知年龄,工作,房子,信贷情况是否应该贷款给这个人

15个样本中,有6个“否”,9个“是”,所以总的不确定性:
H(总的信息熵)= -(6/15 * log26/15 +9/15 *1og2 9/15) ≈ 0.971

(决策树思路)哪个特征对不确定性影响最大,也就是加入这个特征后,不确定性减少对最多,那么我们就先这个特征

3. 决策树的划分依据之一------信息增益

  • 定义与公式

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)特征A给定条件下D的信息条件熵H(D|A) 之差,即公式为:
在这里插入图片描述

信息熵的计算:
3.5 决策树_第6张图片
条件熵的计算:
在这里插入图片描述

注:信息增益表示得知特征X的信息的不确定性减少的程度使得类Y的信息熵减少的程度

  • 贷款特征重要计算
我们以年龄特征来计算:
年龄总共有三种情况:青年5、中年5、老年5
1、g(D, 年龄) = H(D) - H(D|年龄) = 0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年]

2、H(D) = -(6/15log(6/15)+9/15log(9/15))=0.971

3、H(青年) = -[(3/5)*log2(3/5) +(2/5)*log2(2/5)]
   H(中年)= -[(3/5)*log2(3/5) +(2/5)*log2(2/5)]
   H(老年)= -[(4/5)*log2(4/5)+(1/5)*log(1/5)]

我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D, A1) = 0.313, g(D, A2) = 0.324, g(D, A3) = 0.420,g(D, A4) = 0.363。所以我们选择A3 作为划分的第一个特征。这样我们就可以一棵树慢慢建立

4. 决策树的三种算法实现

当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似,我们就不去举例计算。

  • ID3
    o 信息增益 最大的准则
  • C4.5
    o 信息增益比 最大的准则
  • CART
    o 分类树: 基尼系数 最小的准则 在sklearn中可以选择划分的默认原则
    o 优势:划分更加细致(从后面例子的树显示来理解)

3.5.3 决策树API

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’ ,max_depth=None,random_state=None)

  • 决策树分类器
  • criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy’
  • max_depth:树的深度大小 -->设置适当大小,提高准确率,增加泛化能力
  • random_state:随机数种子

其中会有些超参数:max_depth:树的深度大小
其它超参数我们会结合随机森林讲解

使用决策树对鸢尾花数据集进行分类

# 用决策树对鸢尾花进行分类
# 1.获取数据集
# 2.划分数据集
# 3.决策树预估器分类
# 4.模型评估
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
# 为了与knn模型对比,选择一样的random_stat
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=22)

from sklearn.tree import DecisionTreeClassifier
estimator = DecisionTreeClassifier(criterion ="entropy")
estimator.fit(x_train,y_train)

y_predict= estimator.predict(x_test)
print("y_predict:\n",y_predict)
print("直接比对真实值和预测值:\n",y_test==y_predict)

score=estimator.score(x_test,y_test)
print("准确率为:\n",score)

from sklearn.tree import DecisionTreeClassifier,export_graphviz
export_graphviz(estimator,out_file="iris_tree.dot",feature_names=iris.feature_names)

决策树可视化结果:(方法在下面)
3.5 决策树_第7张图片

结果对比分析:
knn的准确率达到 0.974 ; 决策数准确率只有 0.895
150个样本 knn 的准确率更高;如果数据量更大,使用决策树会更好

3.5.4 决策树可视化

1. 保存数的结构到dot文件

  • sklearn.tree.export_graphviz() 该函数能够导出DOT格式
    o tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])
    export_graphviz(dc, out_file="./tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])
    dot文件到内容是文本文件,不是树

dot文件当中的内容如下:

digraph Tree {
node [shape=box] ;
0 [label="petal width (cm) <= 0.75\nentropy = 1.584\nsamples = 112\nvalue = [39, 37, 36]"] ;
1 [label="entropy = 0.0\nsamples = 39\nvalue = [39, 0, 0]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="petal width (cm) <= 1.75\nentropy = 1.0\nsamples = 73\nvalue = [0, 37, 36]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
3 [label="petal length (cm) <= 5.05\nentropy = 0.391\nsamples = 39\nvalue = [0, 36, 3]"] ;
2 -> 3 ;
4 [label="sepal length (cm) <= 4.95\nentropy = 0.183\nsamples = 36\nvalue = [0, 35, 1]"] ;
3 -> 4 ;
5 [label="sepal width (cm) <= 2.45\nentropy = 1.0\nsamples = 2\nvalue = [0, 1, 1]"] ;
4 -> 5 ;
6 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
5 -> 6 ;
7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ;
5 -> 7 ;
8 [label="entropy = 0.0\nsamples = 34\nvalue = [0, 34, 0]"] ;
4 -> 8 ;
9 [label="petal width (cm) <= 1.55\nentropy = 0.918\nsamples = 3\nvalue = [0, 1, 2]"] ;
3 -> 9 ;
10 [label="entropy = 0.0\nsamples = 2\nvalue = [0, 0, 2]"] ;
9 -> 10 ;
11 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
9 -> 11 ;
12 [label="petal length (cm) <= 4.85\nentropy = 0.191\nsamples = 34\nvalue = [0, 1, 33]"] ;
2 -> 12 ;
13 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
12 -> 13 ;
14 [label="entropy = 0.0\nsamples = 33\nvalue = [0, 0, 33]"] ;
12 -> 14 ;
}

2. 网络显示结构

  • http://webgraphviz.com/
    3.5 决策树_第8张图片

3.5.5 决策树总结

  • 优点:
    o 简单的理解和解释,树木可视化–>解释能力强
  • 缺点:
    o 决策树学习者可以创建不能很好地推广数据的过于复杂的树,容易产生过拟合
  • 改进:
    o 减枝cart算法(决策树API当中已经实现,随机森林参数调优有相关介绍)
    o 随机森林
    注:企业重要决策,由于决策树很好的分析能力,在决策过程应用较多, 可以选择特征

3.5.6 案例:泰坦尼克号乘客生存预测

  • 泰坦尼克号数据
    在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。

1、乘坐班是指乘客班(1,2,3),是社会经济阶层的代表

2、其中age数据存在缺失

数据:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
3.5 决策树_第9张图片

1. 流程分析

  1. 获取数据
  2. 数据处理—选择我们认为重要的几个特征 [‘pclass’, ‘age’, ‘sex’]
    缺失值处理
    特征值–>字典类型 方便后续处理(需要进行one-hot编码处理(DictVectorizer)
    x.to_dict(orient=“records”)
  3. 准备好特征值 目标值
  4. 划分数据集
  5. 特征工程:字典特征抽取
  6. 决策树预估器流程
  7. 模型评估

2. 代码

import pandas as pd
# 1. 获取数据
# path = "http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt"
# 这个网址有问题,我们选择自己传入网上能下载到的 泰坦尼克号训练数据集
# titanic = pd.read_csv(path)
# titanic
titanic = pd.read_csv("train.csv")
titanic
# 输出1

# 2.数据处理 筛选特征值和目标值
# row.names编号、name名字、home.dest目的地 等 都对存活结果无关
# pclass贵族、age年龄、sex性别 等 对存活结果有影响
x = titanic[["Pclass","Age","Sex"]]
y = titanic["Survived"]
x
# 输出2
y
# 输出3

# 2.数据处理 --- 缺失值处理
x["Age"].fillna(x["Age"].mean(),inplace=True)
x
# 输出4

# 特征值-->字典类型
x = x.to_dict(orient="recordes")
x
#输出5

# 3.划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=22)

# 4.字典特征抽取
from sklearn.feature_extraction import DictVectorizer
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)

# 5.决策树评估
from sklearn.tree import DecisionTreeClassifier
# 调树的输出深度,不然太多了
estimator = DecisionTreeClassifier(criterion ="entropy",max_depth = 8)
estimator.fit(x_train,y_train)

y_predict= estimator.predict(x_test)
print("y_predict:\n",y_predict)
print("直接比对真实值和预测值:\n",y_test==y_predict)

score = estimator.score(x_test,y_test)
print("准确率为:\n",score)
# 输出6

3. 输出

  • 输出13.5 决策树_第10张图片

  • 输出2
    3.5 决策树_第11张图片

  • 输出3
    3.5 决策树_第12张图片

  • 输出4
    3.5 决策树_第13张图片

  • 输出5
    3.5 决策树_第14张图片

  • 输出6
    3.5 决策树_第15张图片

4. 决策树可视化

3.5 决策树_第16张图片

你可能感兴趣的:(python机器学习入门,决策树,机器学习,算法)