关于机器学习中(决策树)分类器的快速构建、可视化及效果评估

感觉自己在学习和实践机器学习的路上看过不少官方或民间教程,但各处说法不一,即使连sklearn官方给的上手案例也通常模模糊糊,亦没有帮读者太明确从构建数据集到评估效果这一个标准流程。故本人结合个人经验和参考资料,尝试以决策树为例,展现一个机器学习分类器的搭建、训练和评估过程。欢迎评论和指正!

 

(注意,请确保文中代码所涉及的Python包已下载安装配置好)

 

我们现在面对的是一个分类任务,假设目前数据集已处理好为如下格式(若数据源文件为excel,强烈建议转为csv或txt格式,然后可直接在Python中通过Pandas包提供的read_csv功能读入):

 

 

特征1

特征2

特征3

特征4

特征5

特征6

标签

数据点1

 

 

 

 

 

 

 

数据点2

 

 

 

 

 

 

 

数据点3

 

 

 

 

 

 

 

……

 

 

 

 

 

 

 

 

那关于我们的数据,我们的X (training input samples或叫predictor)就是上方“特征”区域的矩阵,而我们的y (target class values)则是“标签”区域的列向量。需要注意X和y中都包含的是数值,而非string。如果有string的话则需要做一个映射转换。所以,我们代码的最开始可以这样写(具体X和y如何输入则取决于你的数据处理和引入方式):

​​​​​​​# Input training samples
X = # matrix for feature values

# target label values
y = # column vector for labels

 

然后呢,我们就要将这份数据分为训练集与测试集,通常是8:2或者9:1。下面这个例子中是8:2 (test_size=0.2),sklearn提供了非常方便的随机分配功能,这样可以减少我们人工处理带来的bias。

​​​​​​​from sklearn.mo

你可能感兴趣的:(技术,机器学习,决策树,数据可视化,分类算法,人工智能)