Python数据挖掘学习笔记-决策树分类

1、决策树算法原理&主要流程框架

决策树方法在分类、决策、规则提取等领域有着广泛的应用。

决策树是一种树状结构,其中包含三种节点:

  • 根节点:没有入边,但有零条或多条出边。
  • 内部节点:恰有一条入边和两条或多条出边。
  • 叶节点:恰有一条入边,但没有出边。

也就是说每一个叶节点对应着一个分类,非叶节点对应着某个属性上的划分。

构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。
常用的决策树算法有ID3算法、C4.5算法、CART算法等,下面介绍经典的ID3算法。

ID3算法
在决策树的各级节点上都用信息增益作为判断标准进行属性的选择,使得在每个节点上都能获得最大的类别分类增益,使分类后的额数据集的熵最小,这样使得树的平均深度最小,从而有效地提高了分类效率。

ID3算法流程框架
1. 对当前样本集合,计算所有属性的信息增益;
2. 选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本集;
3. 若子样本集的类别只有单个,则分支为叶节点;否则对子样本集循环调用本算法。

用属性A划分样本集S后所得的信息增益(Gain)为:
信息增益计算公式
其中,这里写图片描述是给定样本的总的信息熵,由以下公式得来:
这里写图片描述

E(A)是根据属性A划分样本的信息熵值,由以下公式得来:
这里写图片描述

下面结合具体案例说明信息熵的意义。

Python数据挖掘学习笔记-决策树分类_第1张图片

上图是企业销量与相关因素的数据表,其中,天气“好”代表“多云”、“多云转晴”、“晴”这些适宜外出的天气;同理,对于“雨”等不适宜外出的天气设置为“坏”。
这里写图片描述
这里写图片描述
这里写图片描述

由此计算天气、是否周末、是否有促销属性的信息增益值:

这里写图片描述

由上图所示显示,是否周末属性的信息增益值最大,所以它的两个属性值“是”和“否”作为该根节点的两个分支,对于每个分支继续进行其它属性信息增益值的计算,如此循环反复,直到没有新的节点分支,最终构成一颗决策树。如下图所示:

Python数据挖掘学习笔记-决策树分类_第2张图片

备注:ID3决策树算法只能处理离散型属性,对于连续型属性,在分类前需要对其进行离散化,如“身高”,明显是一种连续性属性,但是可以自主选择划分标准,如大于170cm属于“高”,小于170cm属于“低”。

2、Python实现

#-*- coding: utf-8 -*-
#使用ID3决策树算法预测销量高低

import pandas as pd
from sklearn.tree import DecisionTreeClassifier as DTC
from sklearn.tree import export_graphviz

#参数初始化
inputfile = 'D://mypy/sales_data.xls'
data = pd.read_excel(inputfile, index_col = u'序号')#导入数据

#数据是类别标签,要将它转换为数据
#用1来表示“好”、“是”、“高”这三个属性,用-1来表示“坏”、“否”、“低”
data[data == u'好'] = 1
data[data == u'是'] = 1
data[data == u'高'] = 1
data[data != 1] = -1
x = data.iloc[:,:3].as_matrix().astype(int)
y = data.iloc[:,3].as_matrix().astype(int)

dtc = DTC(criterion='entropy') #建立决策树模型,基于信息熵
dtc.fit(x, y) #训练模型


x = pd.DataFrame(x)

#导入相关函数,可视化决策树。
#导出的结果是一个dot文件,需要安装Graphviz才能将它转换为pdf或png等格式。
with open("tree.dot", 'w') as f:
    f = export_graphviz(dtc, feature_names =['tianqi', 'zhoumo', 'cuxiao'], out_file = f)

如需进一步转化为可视化格式,需要安装graphviz,然后进一步进行编译。

注:代码和文字整合自《数据挖掘导论》、《Python数据分析与挖掘实战》、《Python数据挖掘入门与实战》

你可能感兴趣的:(python数据分析)