机器学习之分类算法-决策树

       决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策树对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

 连续特征离散化

        决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。包括特征选择、决策树的生成和决策树的剪枝过程。

        决策树算法构造决策树来发现数据中蕴含的分类规则。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步:决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪枝:决策树的剪枝是对上一阶段生成的决策树进行检验,校正和修下的过程,主要是用新的样本数据集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。

信息熵,香农定理

信息熵是事物不确定性的度量标准。

熵越大,不确定性越大,即混乱度越大。

学习算法

给定训练数据,决定树的结构。

        节点分裂规则

        叶子节点输出规则

  • 设S是s个数据样本的集合,假定类别标签具有m个不同的值,定义m个不同类Ci(i = 1,2,...,m),设Si是Ci的样本数,对于一个给定的样本分类所需要的信息熵由下式给出:

       I(S1,S2,... ... Sm) = - \sum(i) pilog(pi)

  • pi是任意样本属于Ci的概率,并用pi = si/|S| 估计

信息增益

使用信息增益确定决策树分支的划分依据。

你可能感兴趣的:(NLP,决策树,分类)