决策树(二)

CART算法

Gini指数

决策树(二)_第1张图片

我们对以下数据进行分类

决策树(二)_第2张图片决策树(二)_第3张图片

决策树(二)_第4张图片

决策树(二)_第5张图片

# CART算法
from sklearn.feature_extraction import DictVectorizer   # 将特征与值的映射字典组成的列表转换成向量
from sklearn import tree    # 导入决策树库
from sklearn import preprocessing   # 数据标准化
import csv
import numpy as np

# 读入数据
# 文件是很多字符,使用csv来读取
tree_1 = open('D:/数据/决策树2.csv', encoding='utf-8')
tree_data = csv.reader(tree_1)

# 获取第一行数据
headers = tree_data.__next__()
print(headers)

# 定义两个列表
featureList = []   # 保存特征
labelList = []     # 保存标签
incomeList = []    # 保存收入

# 上面读取了一行之后指针指向了下一行
for row in tree_data:
    # 保存label
    labelList.append(row[-1])
    incomeList.append(row[-2])
    rowDict = {}
    for i in range(1, len(row)-2):
        # 建立一个数据字典
        rowDict[headers[i]] = row[i]
    # 把数据存入list
    featureList.append(rowDict)
print(featureList)

# 把数据转化成0和1表示
vec = DictVectorizer()      # 实例化类
# 对字典列表进行转换,转换成特征矩阵
x_data = vec.fit_transform(featureList).toarray()
x_data_list = x_data.tolist()
for i in range(len(x_data_list)):
    x_data_list[i].append(int(incomeList[i]))

x_data = np.array(x_data_list)
print(x_data)
# 打印属性名称
print(vec.get_feature_names())
# 打印标签
print(str(labelList))

# 把标签转化为0和1表示
label = preprocessing.LabelBinarizer()
y_data = label.fit_transform(labelList)
print(str(y_data))


# 创建决策树模型
# criterion参数默认是gini(基尼)指数使用的是CART算法; entropy是信息熵,使用的是ID3算法
model = tree.DecisionTreeClassifier()
# 建立模型
model.fit(x_data, y_data)

# 测试
x_text = x_data[0]
# x_text = np.array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0])
print("x_text:", str(x_text))
# 使用测试集做模型效果检验
predict = model.predict(x_text.reshape(1, -1))   # 转化成二维数据
print("predict:", predict)


# 导出决策树
import graphviz

data = tree.export_graphviz(
    model,
    out_file=None,
    feature_names=['house_yes', 'house_no', 'single', 'divorced', 'married', 'income'],
    class_names=label.classes_,
    filled=True,
    rounded=True,
    special_characters=True
)

graph = graphviz.Source(data)
graph.render('computer2')
'''
['\ufeff序号', '是否有房', '婚姻状况', '年收入', '是否拖欠贷款']
[{'是否有房': 'yes', '婚姻状况': 'single'}, {'是否有房': 'no', '婚姻状况': 'married'}, {'是否有房': 'no', '婚姻状况': 'single'}, {'是否有房': 'yes', '婚姻状况': 'married'}, {'是否有房': 'no', '婚姻状况': 'divorced'}, {'是否有房': 'no', '婚姻状况': 'married'}, {'是否有房': 'yes', '婚姻状况': 'divorced'}, {'是否有房': 'no', '婚姻状况': 'single'}, {'是否有房': 'no', '婚姻状况': 'married'}, {'是否有房': 'no', '婚姻状况': 'single'}]
[[  0.   0.   1.   0.   1. 125.]
 [  0.   1.   0.   1.   0. 100.]
 [  0.   0.   1.   1.   0.  70.]
 [  0.   1.   0.   0.   1. 120.]
 [  1.   0.   0.   1.   0.  95.]
 [  0.   1.   0.   1.   0.  60.]
 [  1.   0.   0.   0.   1. 220.]
 [  0.   0.   1.   1.   0.  85.]
 [  0.   1.   0.   1.   0.  75.]
 [  0.   0.   1.   1.   0.  90.]]
['婚姻状况=divorced', '婚姻状况=married', '婚姻状况=single', '是否有房=no', '是否有房=yes']
['no', 'no', 'no', 'no', 'yes', 'no', 'no', 'yes', 'no', 'yes']
[[0]
 [0]
 [0]
 [0]
 [1]
 [0]
 [0]
 [1]
 [0]
 [1]]
x_text: [  0.   0.   1.   0.   1. 125.]
predict: [0]

'''

决策树(二)_第6张图片

你可能感兴趣的:(机器学习)