一文讲透Python机器学习决策树算法的基本概念与原理

1.决策树算法的基本特点与优势

决策树算法是一种有监督、非参数、简单、高效的机器学习算法。相对于非监督式学习方法,决策树算法由于充分利用了响应变量的信息,因此能够很好地克服噪声问题,在分类及预测方面效果更佳。决策树的决策边界为矩形,所以对于真实决策也为矩形的样本数据集有着很好的预测效果。此外,决策树算法以树形展示分类结果,在结果的展示方面比较直观,所以在实务中应用较为广泛。

2.决策树示例及解读

决策树算法借助树的分支结构构建模型。如果是用于分类问题,则决策树为分类树;如果是用于回归问题,则决策树为回归树。一个典型的决策树例子如图所示。

一文讲透Python机器学习决策树算法的基本概念与原理_第1张图片

在图中,最上面的一个点是根节点,最下面的各个点是叶节点,其他的点都是内节点(本例中展示的决策树内节点只有一层,但实务中可能有很多层都属于内节点)。

本例中根节点为0号(node #0),样本全集中未违约客户和违约客户的占比分别为0.739、0.261。

在样本全集中,如果客户的工作年限workyears<=7.35,就会被分到1号节点,1号节点未违约客户和违约客户的占比分别为0.493、0.507;如果客户的工作年限workyears>7.35,就会被分到4号节点,4号节点未违约客户和违约客户的占比分别为0.941、0.059。然后在1号节点中,如果客户的债务率debtratio <= 12.653,就会被分到2号节点,2号节点未违约客户和违约客户的占比分别为0.718、0.282;如果信用卡客户的债务率debtratio >12.653,就会被分到3号节点,3号节点未违约客户和违约客户的占比分别为0.24、0.76,需要引起高度重视。

如果是分类树,叶节点将类别占比最大的类别作为该叶节点的预测值;如果是回归树,叶节点将节点内所有样本响应变量实际值的平均值作为该叶节点的预测值。

3.决策树执行的是一种自上而下的贪心算法

从原理的角度来看,决策树本质上就是依次选取最为合适的特征向量,按照特征向量的具体取值不断对特征空间进行矩形分割,因为每一次切割都是直线,所以其决策边界为矩形。在分割空间时,决策树执行的是一种自上而下的贪心算法,即每次仅选择一个变量按照变量临界值进行分割,该变量及其临界值都是当前步骤下,能够实现局部最优的分割变量和分割临界值,并未从全盘考虑整体最优

4.决策树算法不需要对特征变量进行标准化处理

一般来说,大部分机器学习都需要将特征变量标准化, 以便让特征之间的比较可以在同一个量纲上进行。但是对于决策树算法而言,从数据构建过程来看, 不纯度函数的计算和比较都是单特征的,所以决策树算法不需要对特征变量进行标准化处理

综上所述,决策树的分类规则非常容易理解,准确率也比较高,尤其是针对实际决策边界为矩形的情形,而且不需要了解背景知识就可以进行分类,是一个非常有效的算法。

5.针对Python数据分析或机器学习推荐两本入门级的图书

Python作为一门简单、易学、易读、易维护、用途广泛、速度快、免费、开源的主流编程语言,广泛应用于Web开发、大数据处理、人工智能、云计算、爬虫、游戏开发、自动化运维开发等各个领域,是众多高等院校的必修基础课程,也是堪与Office办公软件比肩的职场人士必备技能。Python可以很好地完成数据分析以及机器学习中的数据清洗、特征工程、算法执行、数据可视化等任务,在实务中也得到了非常广泛的应用。因此将Python作为实现工具。

针对Python​​​​​​​数据分析或机器学习推荐两本入门级的图书:《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂,较少涉及数学推导,对数学基础要求相对不高,在python代码方面讲的很细致,看了以后根据自身需要选取算法、优化代码、科学调参。都有配套免费提供的源代码、数据文件和视频讲解,也有PPT、思维导图、习题等。

(1)《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)

为什么说这两本书值得?首先说《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社),内容非常详实,包含了Python和机器学习,相当于一次获得了两本书。在讲解各类机器学习算法时,逐一详解用到的各种Python代码,针对每行代码均有恰当注释(这一点基本上是大多数书目做不到的)。恒丰银行总行副行长郑现中,山东大学经济学院教学实验中心主任 副教授 韩振,德勤华永会计师事务所 华文伟 合伙人,首创证券深圳分公司机构业务部 樊磊 总经理 中国准精算师,山东省农村信用社联合社数据管理项目组 郝路安 总监等一众大牛联袂推荐。这本书在出版之前曾开发成9次系列课程,在恒丰银行全行范围类开展培训,490人跟随杨维忠老师上课学习(课程限报490人),培训完成后课程在知鸟平台上回放超过3万人次。很多银行员工通过这些学习一下子就学会了Python,并且用于工作中开展数据分析、机器学习、数据可视化等,这本书也被多家商业银行选做数字化人才培训教材,成为银行员工的一本网红书。

一文讲透Python机器学习决策树算法的基本概念与原理_第2张图片

(2)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)

《Python数据科学应用从入门到精通》一书,旨在教会读者实现全流程的数据分析,并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容,进一步降低了学习难度。国务院发展研究中心创新发展研究部第二研究室主任杨超 ,山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博,山东管理学院信息工程学院院长 袁锋 教授、硕士生导师,山东大学经济学院刘一鸣副研究员、硕士生导师,得厚投资合伙人张伟民等一众大牛联袂推荐。书中全是干活,买这一本书相当于一下子得到了5本书(Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模),而且入门超级简单,不需要编程基础,也不需要过多数学推导,非常适用于零基础学生。全书内容共分13章。其中第1章为数据科学应用概述,第2章讲解Python的入门基础知识,第3章讲解数据清洗。第4~6章介绍特征工程,包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门,再到数据清洗与特征工程,最终完成数据挖掘与建模或数据可视化,从而可以为读者提供“从拿到数据开始,一直到构建形成最终模型或可视化报告成果”的一站式、全流程指导。

一文讲透Python机器学习决策树算法的基本概念与原理_第3张图片

两本书随书赠送的学习资料也很多,包括全部的源代码、PPT、思维导图,还有10小时以上的讲解视频,每一章后面还有练习题及参考答案,还有学习群,相对于只看网络上的视频,一方面更加系统、高效,另一方面照着书一步步操作学起来也事半功倍。全网热销中,当当、京东等平台搜索“Python机器学习 杨维忠”“Python数据科学 杨维忠”即可。

《Python机器学习原理与算法实现》(杨维忠、张甜著,2023年2月,清华大学出版社),适用于学习Python/机器学习

《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)适用于学习数据分析、数据科学、数据可视化等。

创作不易,恳请多多点赞,感谢您的支持!也期待大家多多关注我,让我共同学习数据分析知识。

你可能感兴趣的:(python,人工智能,开发语言,机器学习,决策树,算法,数据分析)