科学计算法(机器学习)----决策树定义以相关概念

一..决策树

1.决策树是机器学习中一类非常常见的算法,它是一种分类与回归算法,但以分类为主。它的决策思维非常符合人类正常的决策方式。

2.举一个简单的例子, 比如我们要挑选一件衣服,我们就需要做出以下决策:我需要一件男装还是女装?女装。我需要一件正装还是休闲装?休闲装。我需要一件连衣裙还是普通外衣?连衣裙。我需要一件白色的还是其他颜色的?白色。以上几个选择做完,我就可以将具有{女装、休闲装、连衣裙、白色}这一属性组的包做一个“可以买”的标记。如果我认为衣服可以不是白色的,也可以是蓝色的,那么{女装、休闲装、连衣裙、蓝色}这样一个属性组也可以标记为“可以买”。其实,针对{性别、类型1、类型2、颜色}这样一组特征来说,会有很多个不同组合的属性组合。我们可以一一考虑,并分布给每一个分支一个标记,“可以买”或“不会买”。这就是一个简单的决策树决策过程。

3.在决策过程中,对于特征的选择还是比较重要的。比如一件衣服,其实不仅仅只有上面几个特征,可能还有千千万万的特征,然而我们对特征的分类就显得比较棘手,因此我们需要了解信息熵。

二.信息熵

信息熵这一概念由克劳德·香农于1948 年提出。香农是美国著名的数学家、信息论创始人,他提出的“信息熵”的概念,为信息论和数字通信奠定了基础。公式如下:(可以不用了解)

 一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。

 

三.ID3算法(决策树的发展)

ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。

该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。

四.决策树的组成(结构)

决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的测试输出导致不同的分支,最后会到达一个叶子结点,这个过程就是利用决策树进行分类的过程,利用若干个变量来判断所属的类别。

学号:202113430110

姓名:罗媛

你可能感兴趣的:(机器学习,决策树,人工智能)