机器学习笔记之信息熵、信息增益和决策树(ID3算法)

决策树算法:

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。

算法原理:
决策树是一个简单的为输入值选择标签的流程图。这个流程图由检查特征值的决策节点和分配标签的子叶节点组成。为输入值选择标签,我们以流程图的初始决策节点(即根节点)开始。此节点包含一个条件,检查输入值的特征之一,基于该特征的值选择一个分支。沿着这个描述我们输入值的分支,我们到到了一个新的决策节点,有一个关于输入值的特征的新条件。我们继续沿着每个节点的条件选择的分支,直到到达叶节点,它为输入值提供了一个标签。

算法流程:
收集数据:即建立训练测试数据集。
准备数据:决策树构造算法只适用于标称型数据,因此数值型数据必须是离散化的。
分析数据:建立构造数,构造树完成后我们检查图形是否符合预期。
训练数据:完善构造树的数据结构。
测试数据:使用经验树计算。
使用算法:对实际数据进行预测。

那么问题来了我们是如何确定有多少个树杈节点呢?这里我们采用ID3算法来构造决策树。

ID3算法:
ID3算法(Iterative Dichotomiser 3,迭代二叉树3代)是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。

为了实现ID3算法我们还需要了解这个高富帅提出的三个概念:信息、信息熵和信息增益。

那么我们就需要认识认识一下这些概念的提出者美国高(高智商)富帅数学家香农

机器学习笔记之信息熵、信息增益和决策树(ID3算法)_第1张图片

克劳德·艾尔伍德·香农(Claude Elwood Shannon ,1916年4月30日—2001年2月24日)是美国数学家、信息论的创始人。

这个帅哥提出了下面三个概念



   机器学习笔记之信息熵、信息增益和决策树(ID3算法)_第2张图片



    并且由上面的公式我们可以看出其实信息熵就是信息的期望值,所以我们可知,信息熵越越小,信息的纯度越高,也就是信息越少,在分类领域来讲就是里面包含的类别越少,所以我们可以得出,与初始信息熵的差越大分类效果越好。

   下面我们来举个例子:
    我一般买苹果的时候,从外观上评判一个苹果甜不甜有两个依据:红不红  和  圆不圆 (原谅我浅薄的挑苹果经验吧。。。)

         苹果编号    红不红  圆不圆   甜不甜
               1               1         1           yes
               2               1         1           yes
               3               1         0           no
               4               0         1           no
               5               0         1           no

下面我来算一下啊这5个苹果是不是好苹果的信息熵:

机器学习笔记之信息熵、信息增益和决策树(ID3算法)_第3张图片

下面给出python求信息熵的代码

def calcShannonEnt(dataSet):
    numEntries = len(dataSet) #数据集大小
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]   #获取分类标签
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1  #每个类中数据个数统计
    shannonEnt = 0.0
    for key in labelCounts:  #信息熵计算
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) 
    return shannonEnt

我们来用程序求一下我们这个小例子的结果:



和我们的笔算结果完全一致。。。

接下来我们要寻找怎么分类比较好也就是决策树的叉,我们的例子中可以按两个方式分类,红不红和圆不圆。。到的按哪个分更好一点呢,这下就用到信息增益了:

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1  #计算分类依据的个数
    baseEntropy = calcShannonEnt(dataSet)   #计算原始分类的信息熵
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):    #对apple进行分类
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:  #计算该种分类的信息熵
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)     
        infoGain = baseEntropy - newEntropy  #计算当前分类的信息增益
        if (infoGain > bestInfoGain):  #比较那种分类的信息增益最大并返回
            bestInfoGain = infoGain
            bestFeature = i    
    return bestFeature

按红不红分类的各项数据结果

机器学习笔记之信息熵、信息增益和决策树(ID3算法)_第4张图片

我们可以看出,这种分类的信息熵是0.5509775,它的信息增益是0.419973

如果按照圆不圆来分类:

机器学习笔记之信息熵、信息增益和决策树(ID3算法)_第5张图片


我们可以看出,这种分类的信息熵是0.8,它的信息增益是0.17095
显然第一种分类的信息增益较大

我们来看一下啊两个划分的结果集:

机器学习笔记之信息熵、信息增益和决策树(ID3算法)_第6张图片

确实第一种方法划分的较好。
这样我们的决策树也就构建好了:

机器学习笔记之信息熵、信息增益和决策树(ID3算法)_第7张图片


你可能感兴趣的:(机器学习)