机器学习:决策树的划分依据

决策树的划分依据之一 信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:
在这里插入图片描述

注:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

信息熵的计算:
机器学习:决策树的划分依据_第1张图片
条件熵的计算:
在这里插入图片描述注:C_k表示属于某个类别的样本数

例子:
机器学习:决策树的划分依据_第2张图片机器学习:决策树的划分依据_第3张图片结论:决策树的分类依据之一: 信息增益

常见其他决策树使用的算法:
ID3
信息增益 最大的准则
C4.5
信息增益比 最大的准则
CART
回归树: 平方误差 最小
分类树: 基尼系数 最小的准则 在sklearn中可以选择划分的原则

sklearn决策树API

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

决策树分类器
criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy’
max_depth:树的深度大小
random_state:随机数种子

method:
decision_path:返回决策树的路径

决策树分类例子:泰坦尼克号能存活人的概率

泰坦尼克号数据
在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。在泰坦尼克号的数据帧不包含从剧组信息,但它确实包含了乘客的一半的实际年龄。关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。
我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。乘坐班是指乘客班(1,2,3),是社会经济阶层的代表。
其中age数据存在缺失。

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
机器学习:决策树的划分依据_第4张图片泰坦尼克号乘客生存分类模型:流程
1、pd读取数据

2、选择有影响的特征,处理缺失值

3、进行特征工程,pd转换字典,特征抽取
x_train.to_dict(orient=“records”)

4、决策树估计器流程

决策树的结构、本地保存

1、sklearn.tree.export_graphviz() 该函数能够导出DOT格式
tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])

2、工具:(能够将dot文件转换为pdf、png)
安装graphviz
ubuntu:sudo apt-get install graphviz Mac:brew install graphviz

3、运行命令
然后我们运行这个命令
$ dot -Tpng tree.dot -o tree.png

import pandas  as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz

def decision():
    """决策树对泰坦尼克号预测生死"""
    #获取数据
    titan=pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")

    #处理数据,找特征值和目标值
    x=titan[['pclass','age','sex']]
    y=titan['survived']
    print(x)
    #缺失值处理
    x['age'].fillna(x['age'].mean(),inplace=True)
    #分割数据
    x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25)

    #进行特征工程 当特征是类别时用one-hot 编码
    dict=DictVectorizer(sparse=False)

    x_train=dict.fit_transform(x_train.to_dict(orient="records"))
    print(dict.get_feature_names())

    x_test=dict.transform(x_test.to_dict(orient="records"))
    print(x_train)

    #用决策数进行预测
    dec=DecisionTreeClassifier()
    dec.fit(x_train,y_train)

    #预测的准确率
    print("预测的准确率是:",dec.score(x_test,y_test))

    #导出决策树结构
    export_graphviz(dec,out_file='./tree.dot',feature_names=['年龄', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])

    return None
if __name__ == '__main__':
    decision()

决策树结构
机器学习:决策树的划分依据_第5张图片
这个决策树很庞大,就是基尼系数的作用。

决策树的优缺点以及改进

优点:
简单的理解和解释,树木可视化。
需要很少的数据准备,其他技术通常需要数据归一化,

缺点:
决策树学习者可以创建不能很好地推广数据的过于复杂的树,
这被称为过拟合。
决策树可能不稳定,因为数据的小变化可能会导致完全不同的树
被生成

改进:
减枝cart算法
随机森林

你可能感兴趣的:(机器学习,决策树的划分依据)