机器学习实战学习笔记2——决策树算法

一、 决策树算法概述

1.概念:决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。常见的决策树算法有ID3、C4.5、CART等。
2.决策树的构造:
决策树的构造可以分为两部分:(如果构造精度高、规模小的决策树是决策树算法的核心内容)
(1)决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。
(2)决策树的剪枝:是对上一阶段生成的决策树进行检验、校正和修改的过程。主要用测试数据集中的数据校验决策树生成过程中产生的初步规则,对那些影响预测正确性的分枝剪除。
3.工作原理:
决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
4.决策树算法优缺点:
(1)优点:分类精度高、生成的模式简单、数据形式易于理解、对噪声数据有很好的强壮性。
(2)缺点:可能会产生过度匹配(overfitting)的问题。
适用范围:数值型和标称型数据。

二、 决策树的实现:

你可能感兴趣的:(python学习笔记,机器学习)