Decision Trees from scratch using Python

作者:禅与计算机程序设计艺术

1.简介

决策树(decision tree)是一种机器学习方法,它可以用来分类或回归问题。它可以用来解决多种复杂的问题,包括预测性分析、分类问题、回归问题等。本文将从零开始实现决策树算法,并使用Python语言实现该决策树。 决策树算法由多颗子树组成,每一个子树对应着若干个特征的测试。具体地,每一个子树对应于对数据集的一个划分。子树分枝的选择依赖于信息增益或信息增益比,在每次分枝时都按照最优的方式进行选择。通过这种方式,决策树算法能够找到数据的最佳分类结果。 因此,决策树算法具有广泛的应用范围。例如,在网页点击率预测、垃圾邮件过滤、医疗诊断、化石燃料开采及其他许多领域均有着广泛的应用。

2.相关术语

2.1 概念

决策树(decision tree)是一个基于树形结构的数据模型,其中每个节点表示一个特征或者属性,每个分支代表一个判断条件(如大于某值的情况),而每个叶子结点代表一个类别(如买车、不买车)。下图给出了一个决策树的示意图。

2.2 相关算法

2.2.1 ID3算法(Iterative Dichotomiser 3)

ID3算法是一种最古老、最简单的决策树学习算法。它的基本想法是通过递归地 splitting the set of examples into two new sets based on a chosen feature and an associated value to split at, so as to maximize the information gain for the split in qu

你可能感兴趣的:(大数据AI人工智能,机器学习,自然语言处理,人工智能,语言模型,编程实践,开发语言,架构设计)