机器学习——监督学习之决策树分类模型

概念

a.一种树形结构的分类器。
b.通过顺序询问分类点的属性决定分类点的最终类别
c.决策树的构建通常根据特征的信息增益或其他指标
d.分类时,只需要按照决策树中的结点依次进行判断,即可得到样本所属类别。

Eg:
信用卡偿还能力分类决策树
机器学习——监督学习之决策树分类模型_第1张图片(一个无房产,单身,年收入55K的人会被归入无法偿还信用卡这个类别)

引用方法

可通过sklearn.tree.DecisionTreeClassifier创建一个决策树用于分类,主要参数:
1.criterion:用于选择属性的准则。(“gini”代表基尼系数,“entropy”代表信息增益)
2.max_features:在决策树结点进行分裂时,从多少个特征中选择最优特征。(可设定固定数目、百分比或其他标准,默认为使用所有特征个数)

Eg:

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score   # 计算交叉验证值的函数cross_val_score

clf = DecisionTreeClassifier()		# 创建一颗基于基尼系数的决策树并赋值给clf
iris = load_iris()					# 鸢尾花数据赋值

# 将决策树分类器作为待评估模型,iris.data鸢尾花数据作为特征,iris.target鸢尾花分类标签作为目标结果,通过设定cv为10,使用10折交叉验证,即可得到最终的交叉验证得分
print(cross_val_score(clf, iris.data, iris.target, cv=10))

输出:
在这里插入图片描述

使用说明

a.决策树本质上是寻找一种对特征空间上的划分,旨在构建一个训练数据拟合的好,并且复杂度小的决策树。
b.实际使用中需根据实际数据情况调整DecisionTreeClassifier类中的传入的参数,比如选择合适的criterion,设置随机变量等。

你可能感兴趣的:(决策树,机器学习,python)