决策树系列之决策树知识点

1、什么是决策树;(decision tree)

决策树是一种树型结构,其中:

    每个内部的结点表示在一个属性的测试;

    每个分支代表一个测试的输出;

    每个叶节点代表一种类别;

决策树是以实例为基础的归纳学习,采取的是自顶向下的递归方法;

基本思想是,以信息熵为度量构建一颗熵值下降最快的树,到叶子结点处的熵值为0,此时所有的叶节点的熵值都属于同一类。

附上:叶节点的信息熵公式为:



2、决策树算法的整体特点

最大的特点是,可以自学习,不要求过多的理论知识,只需要对训练实例能进行较好的标注

属于有监督学习,是从一群无序、无规则(概念)中推理出决策树表示的分类规则。


3、生成算法的整体思路:

决策树的关键在于:

 Step 1、如何评估当前的状态?

 Step 2、如何确定,在当前状态下选择哪个属性为分类依据?

 Step 3、如何评估决策树模型?

 Step 4、如何解决过拟合问题?

在此之前,我们先需要理清相关概念。


4、基本概念:

接下来解释五个概念,分别有信息熵、信息增益、经验条件熵、信息增益率、Gini系数


4.1、信息熵:Entropy

信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。

你可能感兴趣的:(机器学习,机器学习,决策树)