Learning machine learning algorithm(二)

机器学习——决策树

Principle

决策树(decision tree):是一种基本的分类和回归方法,在分类问题中,表示基于特征对数据进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

直观说明
决策树,顾名思义,树为形,决策为本。事实上,其原理类似于问答猜测结果,根据一系列问题,进行猜测最终得到正确答案。
Learning machine learning algorithm(二)_第1张图片
上图表示一个决策树流程,正方形代表判断模块,椭圆(即叶子节点)代表终止模块,表示已经得出结果,可以终止运行。

Structure

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着特征空间的划分,也对应着决策树的构建。

a.构建根节点,将所有训练数据都放在根节点,选择一个最优特征,按照这一特征将训练数据分割成子集,使得各个子集有一个在当前分类条件下最好的分类
b.如果这些子集已经能够被大致分类正确,则可构造叶子节点,并将这些子集分到所对应得叶子节点中去
c.如果还有子集不能够被正确地分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构造相应的节点,递归进行,直至所有训练子集大致被正确分类,或者没有合适的特征为止。

上述为建树过程,事实上,一个决策树还需要经过剪枝等操作。在此可总结一下,一棵具有较好分类效果的决策树需要经过以下几个步骤:1.特征选择 2.建树 3.剪枝

至于为什么需要进行剪枝操作,可先分析一下决策树的特点/优缺点,对症下药。

缺点:过拟合,之所以会导致过拟合,是因为在利用决策树算法生成决策树时,每一个特征(属性)都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本基本上都是"纯"的。对于训练数据而言这种效果非常好,但是对于测试数据,我们所构建的决策树表现出来的分类效果可能就不会太好。

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

Practice

选择企鹅数据(palmerpenguins)进行数据分析练习。该数据集一共包含8个变量,其中7个特征变量,1个目标分类变量,共有150个样本。目标变量为企鹅的三个亚属,分别是(Adélie, Chinstrap and Gentoo)。7个特征变量包含企鹅的七个特征,分别是所在岛屿,嘴巴长度,嘴巴深度,脚蹼长度,身体体积,性别以及年龄。

##Step 1:函数库导入
##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

##Step 2:数据读取/载入
## 利用Pandas自带的read_csv函数读取并转化为DataFrame格式

data = pd.read_csv('datalab/531811/Datawhale/penguins_raw.csv')
## 为了方便仅选取四个简单的特征
data = data[['Species','Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]
            
##Step 3:数据信息简单查看     
## 利用.info()查看数据的整体信息
data.info()
## 进行简单的数据查看,可以利用 .head() 头部.tail()尾部
data.head()
##数据填充
data = data.fillna(-1)
##利用unique()函数查看不重复值(类)
data['Species'].unique()
## 利用value_counts函数查看每个类别数量
pd.Series(data['Species']).value_counts()
## 对于特征进行一些统计描述
data.describe()

##Step 4:可视化描述
## 特征与标签组合的散点可视化
sns.pairplot(data=data, diag_kind='hist', hue= 'Species')
plt.show()

Summary

本次利用决策树进行分类,与上一次进行逻辑回归进行分类类似,且仅调包进行分类,笔记内容较少,关于手写决策树代码以及模型特征选择方法等内容只待后续再进行补充了。

你可能感兴趣的:(机器学习,机器学习)