李航老师《统计学习方法》第五章阅读笔记

决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。

以下是关于分类决策树的一些基本概念和特点:

  1. 树形结构:决策树模型呈现为一种树状结构,其中包括根节点、内部节点和叶子节点。每个节点表示一个特征或属性,每个边表示一个特征值或属性值的判断条件。从根节点开始,通过遵循不同的条件路径,最终到达叶子节点,叶子节点代表了一个类别标签或回归值。
  2. if-then规则:决策树可以看作是一组if-then规则的集合,每个规则表示一个从根节点到叶子节点的路径,其中包括特征条件和对应的类别标签。当新样本进入决策树时,它会根据特征的条件依次遵循路径,最终确定样本所属的类别。
  3. 条件概率分布:决策树也可以看作是定义在特征空间与类别空间上的条件概率分布。每个内部节点表示一个特征条件,每个叶子节点表示一个类别,并且沿着路径的条件概率决定了样本被分类到不同的类别。
  4. 学习过程:决策树的学习过程通常包括以下步骤:
    • 特征选择:选择最佳的特征作为根节点,以最大化分类效果。
    • 分裂节点:将数据集根据选定的特征进行分割,生成子节点。
    • 递归学习:对每个子节点递归应用上述步骤,直到达到停止条件(例如,达到最大深度、样本数量小于阈值等)。
    • 剪枝(可选):在生成决策树后,可以应用剪枝算法来减小过拟合风险。
  5. 优点:决策树具有易于理解和解释的特点,可以生成清晰的分类规则。它们适用于离散和连续特征,对缺失值具有一定的容忍性,且在某些情况下表现良好。
  6. 缺点:决策树容易过拟合训练数据,因此需要进行剪枝等正则化方法。它们可能在处理复杂问题时产生过多的规则,导致模型过于复杂。此外,决策树对数据中的噪声和不稳定性敏感。

决策树是一种强大的机器学习工具,适用于各种分类和回归任务。通过合适的参数调整和正则化方法,可以改善其性能并减小过拟合的风险。在实际应用中,决策树通常与集成学习方法(如随机森林和梯度提升树)相结合,以进一步提高模型的性能。

它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

特征空间(Feature Space)和类空间(Class Space)是机器学习中常用的两个概念,它们用于描述模型和数据的属性。

  1. 特征空间(Feature Space)

    • 特征空间是指用来描述样本(数据点)的属性或特征的空间。每个样本可以在特征空间中表示为一个向量,其中每个维度对应一个特征。
    • 在特征空间中,每个维度表示一个特征,而每个样本由这些特征的值组成。例如,在文本分类任务中,特征空间可能包括词汇表中的单词,每个维度表示一个单词在文本中的出现次数或TF-IDF值。
    • 特征空间的维度取决于数据集中的特征数量,可以是高维的(包含许多特征)或低维的(包含较少的特征)。
  2. 类空间(Class Space)

    • 类空间是指用来描述样本所属类别或标签的空间。每个样本都被分配到类空间中的一个类别。
    • 在分类问题中,类空间包括所有可能的类别或标签。每个样本在类空间中被分配到一个类别,以表示其所属类别。
    • 类空间通常是离散的,每个类别由一个唯一的标识符表示。例如,二元分类问题中的类空间可能包括 “正类” 和 “负类” 两个类别。

    在机器学习任务中,特征空间和类空间之间的映射关系是模型的关键。机器学习模型的目标是学习如何从特征空间中的数据映射到类空间中的类别。决策树、支持向量机、神经网络等各种模型都是用来建立特征空间到类空间的映射关系,并用于分类或回归任务。
    总之,特征空间描述了数据的特征属性,而类空间描述了数据的类别或标签,它们在机器学习中是重要的概念,用于建模和解决各种问题。

其主要优点:1.模型具有可读性;2.分类速度快

阶段 操作
学习时 利用训练数据,根据损失函数最小化的原则建立决策树模型
预测时 对新的数据,利用决策树模型进行分类

决策树学习通常包括3个步骤:特征选择->决策树的生成->决策树的修剪

5.1决策树模型与学习

5.1.1决策树模型

5.1.2决策树与if-then规则

5.1.3决策树与条件概率分布

5.1.4决策树学习

5.2特征选择

5.2.1特征选择问题

5.2.2信息增益

5.2.3信息增益比

5.3决策树的生成

5.3.1 ID3算法

5.3.2 C4.5的生成算法

5.4决策树的剪枝

5.5 CART算法

5.5.1 CART生成

5.5.2 CART剪枝

你可能感兴趣的:(学习方法,笔记,机器学习)