Bruceoxl

《人工智能》机器学习 - 第4章决策树算法【分类】（二 ID3算法实现）

4.2决策树ID3实践

决策树算法最原始的版本是ID3算法，ID3算法由Ross Quinlan发明，建立在“奥卡姆剃刀”的基础上：越是小型的决策树越优于大的决策树（be simple简单理论）。ID3算法中根据信息增益评估和选择特征，每次选择信息增益最大的特征作为判断模块建立子结点。ID3算法可用于划分标称型数据集，没有剪枝的过程，为了去除过度数据匹配的问题，可通过裁剪合并相邻的无法产生大量信息增益的叶子节点（例如设置信息增益阀值）。使用信息增益的话其实是有一个缺点，那就是它偏向于具有大量值的属性。就是说在训练集中，某个属性所取的不同值的个数越多，那么越有可能拿它来作为分裂属性，而这样做有时候是没有意义的，另外ID3不能处理连续分布的数据特征，于是就有了C4.5算法。CART算法也支持连续分布的数据特征。

前文讲解了决策树的基础知识，决策树的实现主要有三个部分：特征选择、决策树的生成、决策树的修剪。接下来我们结合算法和实例，一步一步编程来实现决策树。

4.2.1决策树简单实例之电脑购买

首先笔者给出样本数据表1，我们通过一个人的年龄、学生与否等特征来判断是否购买电脑，好了，我们结合这个实例，如何使用决策树来判断购买电脑与否。

表1样本数据表

RID	age	student	credit_rating	income	class_buys_computer
1	youth	no	fair	high	no
2	youth	no	excellent	high	no
3	middle_aged	no	fair	high	yes
4	senior	no	fair	medium	yes
5	senior	yes	fair	low	yes
6	senior	yes	excellent	low	no
7	middle_aged	yes	excellent	low	yes
8	youth	no	fair	medium	no
9	youth	yes	fair	low	yes
10	senior	yes	fair	medium	yes
11	youth	yes	excellent	medium	yes
12	middle_aged	no	excellent	medium	yes
13	middle_aged	yes	fair	high	yes
14	senior	no	excellent	medium	no

4.2.1.1特征选择

特征选择问题希望选取对训练数据具有良好分类能力的特征，这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。为了解决特征选择问题，找出最优特征，先要介绍一些信息论里面的概念。
**1.熵（entropy） **
熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量，其概率分布为：

$\color{red}P(X=x_i=p_i ,i=1,2...,n$

则随机变量的熵定义为：
$\color{red}H(X)=-\sum_{i=1}^{n}p_ilogp_i$

其中 $n$ 代表 $X$ 的 $n$ 种不同的离散取值。而 $p_i$ 代表了 $X$ 取值为 $i$ 的概率， $l o g$ 为以 $2$ 或者 $e$ 为底的对数。当对数的底为 $2$ 时，熵的单位为bit；为 $e$ 时，单位为nat。
熵越大，随机变量的不确定性就越大。从定义可验证:

$\color{red}0<H(p)<logn$

这些都是前文已经讲解过了，笔者在此放到这里，是为了行文的需要。好了，我们来计算熵。当然了，这数据量比较少，对概率分布可以很容易计算出来，但是编程就不会这样简单了，具体过程请看下文的代码，下面是根据概率计算熵。

因此，熵为0.94.接下来我们就通过python来实现。
我们先对数据集进行属性标注。
年龄：0代表青年，1代表中年，2代表老年；
有学生：0代表否，1代表是；
信誉等级：0代表不好，1代表良好；
收入情况：0代表一般，1代表好，2代表非常好；
类别(是否购买电脑)：no代表否，yes代表是。
确定这些之后，那么使用python怎实现呢？代码如下，注释很清楚了，笔者就不在一一解释了。

# -*- coding: UTF-8 -*-
from math import log
"""
函数说明:创建测试数据集

Parameters:
	无
Returns:
	dataSet - 数据集
	labels - 特征标签
"""
def createDataSet():
    #数据集
    dataSet = [[0, 0, 0, 2, 'no'], 
               [0, 0, 1, 2, 'no'], 
               [1, 0, 0, 2, 'yes'], 
               [2, 0, 0, 1, 'yes'],
               [2, 1, 0, 0, 'yes'], 
               [2, 1, 1, 0, 'no'], 
               [1, 1, 1, 0, 'yes'], 
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 0, 'yes'],
               [2, 1, 0, 1, 'yes'], 
               [0, 1, 1, 1, 'yes'], 
               [1, 0, 1, 1, 'yes'], 
               [1, 1, 0, 2, 'yes'],
               [2, 0, 2, 2, 'no']]
    #特征标签
    labels = ['age', 'student', 'credit_rating', 'income']

    #返回数据集和分类属性
    return dataSet, labels 	

"""
函数说明:计算给定数据集的经验熵(香农熵)

Parameters:
    dataSet - 数据集
Returns:
    shannonEnt - 经验熵(香农熵)
"""
def calcShannonEnt(dataSet):
    #返回数据集的行数
    numEntires = len(dataSet)                        
    
    #保存每个标签(Label)出现次数的字典
    labelCounts = {}                                
    
    #对每组特征向量进行统计
    for featVec in dataSet:                            
        #提取标签(Label)信息
        currentLabel = featVec[-1]                    
        
        #如果标签(Label)没有放入统计次数的字典,添加进去
        if currentLabel not in labelCounts.keys():    
            
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1   #Label计数            
        
    shannonEnt = 0.0   #经验熵(香农熵)                             
    
    #计算香农熵
    for key in labelCounts:                            
        
        #选择该标签(Label)的概率
        prob = float(labelCounts[key]) / numEntires    
        
        #利用公式计算
        shannonEnt -= prob * log(prob, 2)            
        
    #返回经验熵(香农熵)
return shannonEnt 
#测试   
if __name__ == '__main__':
    dataSet, features = createDataSet()
    print(dataSet)
    print(calcShannonEnt(dataSet))

结果如下所示。

可以看到，和前文手工计算的是一致的。

**2.条件熵（conditional entropy） **
设有随机变量 $(X, Y)$ ，其联合概率分布为
$\color{red}P(X=x_i,Y=y_j)=p_{ij},i=1,2,...,n;j=1,2,...,m$

条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵 $H (Y ∣ X)$ ，定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望。
$\color{red}H(Y|X)=\sum_{I=1}^np_iH(Y|X=x_i)$

以年龄为例，计算得到的条件熵如下。

Python代码如下所示。

# -*- coding: utf-8 -*-
from math import log
import operator

"""
函数说明:创建测试数据集

Parameters:
	无
Returns:
	dataSet - 数据集
	labels - 特征标签
"""
def createDataSet():
    #数据集
    dataSet = [[0, 0, 0, 2, 'no'], 
               [0, 0, 1, 2, 'no'], 
               [1, 0, 0, 2, 'yes'], 
               [2, 0, 0, 1, 'yes'],
               [2, 1, 0, 0, 'yes'], 
               [2, 1, 1, 0, 'no'], 
               [1, 1, 1, 0, 'yes'], 
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 0, 'yes'],
               [2, 1, 0, 1, 'yes'], 
               [0, 1, 1, 1, 'yes'], 
               [1, 0, 1, 1, 'yes'], 
               [1, 1, 0, 2, 'yes'],
               [2, 0, 2, 2, 'no']]
    #特征标签
    labels = ['age', 'student', 'credit_rating', 'income']

    #返回数据集和分类属性
    return dataSet, labels 	

"""
函数说明:按照给定特征划分数据集

Parameters:
	dataSet - 待划分的数据集
	axis - 划分数据集的特征
	value - 需要返回的特征的值
Returns:
	无
"""
def splitDataSet(dataSet, axis, value):		
    #创建返回的数据集列表
    retDataSet = []										
    #遍历数据集
    for featVec in dataSet: 							
        if featVec[axis] == value:
            #去掉axis特征
            reducedFeatVec = featVec[:axis]
            #将符合条件的添加到返回的数据集
            reducedFeatVec.extend(featVec[axis+1:]) 	
            
            retDataSet.append(reducedFeatVec)
	
    #返回划分后的数据集
    return retDataSet		  							

"""
函数说明:计算X_i给定的条件下，Y的条件熵

Parameters:
    dataSet - 待划分的数据集
    i - 维度i
    uniqueVals - 数据集特征集合
Returns:
    newEntropy - 条件熵
"""
def calcConditionalEntropy(dataSet, i, uniqueVals):
    
    #经验条件熵
    newEntropy = 0.0
    for value in uniqueVals:
        subDataSet = splitDataSet(dataSet, i, value)
        prob = len(subDataSet) / float(len(dataSet))  # 极大似然估计概率
        newEntropy += prob * calcShannonEnt(subDataSet)  # 条件熵的计算
    return newEntropy

#测试
if __name__ == '__main__':
dataSet, labels = createDataSet()
#特征数量
    numFeatures = len(dataSet[0]) - 1	
    #遍历所有特征
    for i in range(numFeatures): 						
        #获取dataSet的第i个所有特征
        featList = [example[i] for example in dataSet]
        #创建set集合{},元素不可重复
        uniqueVals = set(featList)     					
		
        #经验条件熵
        newEntropy = 0.0
        newEntropy = calcConditionalEntropy(dataSet, i, uniqueVals)
        print(newEntropy)

结果如下所示。

可以看出，第一个就是年龄特征的条件熵，还是和手工计算的一样。

3.信息增益（information gain）
信息增益表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即
$\color{red}g(D,A)=H(D)-H(D|A)$

这个差又称为互信息。信息增益大的特征具有更强的分类能力。
根据信息增益准则的特征选择方法是：对训练数据集（或子集）计算其每个特征的信息增益，选择信息增益最大的特征。
还是结合实例来讲解。年龄的增益如下。

类似，Gain(income) = 0.029, Gain(student) = 0.151, Gain(credit_rating)=0.048
所以，选择age作为第一个根节点

图1

Python代码如下所示。

# -*- coding: utf-8 -*-
from math import log
import operator

"""
函数说明:创建测试数据集

Parameters:
	无
Returns:
	dataSet - 数据集
	labels - 特征标签
"""
def createDataSet():
    #数据集
    dataSet = [[0, 0, 0, 2, 'no'], 
               [0, 0, 1, 2, 'no'], 
               [1, 0, 0, 2, 'yes'], 
               [2, 0, 0, 1, 'yes'],
               [2, 1, 0, 0, 'yes'], 
               [2, 1, 1, 0, 'no'], 
               [1, 1, 1, 0, 'yes'], 
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 0, 'yes'],
               [2, 1, 0, 1, 'yes'], 
               [0, 1, 1, 1, 'yes'], 
               [1, 0, 1, 1, 'yes'], 
               [1, 1, 0, 2, 'yes'],
               [2, 0, 2, 2, 'no']]
    #特征标签
    labels = ['age', 'student', 'credit_rating', 'income']

    #返回数据集和分类属性
    return dataSet, labels 	

"""
函数说明:计算给定数据集的经验熵(香农熵)

Parameters:
    dataSet - 数据集
Returns:
    shannonEnt - 经验熵(香农熵)
"""
def calcShannonEnt(dataSet):
    #返回数据集的行数
    numEntires = len(dataSet)                        
    
    #保存每个标签(Label)出现次数的字典
    labelCounts = {}                                
    
    #对每组特征向量进行统计
    for featVec in dataSet:                            
        #提取标签(Label)信息
        currentLabel = featVec[-1]                    
        
        #如果标签(Label)没有放入统计次数的字典,添加进去
        if currentLabel not in labelCounts.keys():    
            
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1   #Label计数            
        
    shannonEnt = 0.0   #经验熵(香农熵)                             
    
    #计算香农熵
    for key in labelCounts:                            
        
        #选择该标签(Label)的概率
        prob = float(labelCounts[key]) / numEntires    
        
        #利用公式计算
        shannonEnt -= prob * log(prob, 2)            
        
    #返回经验熵(香农熵)
    return shannonEnt                                						

"""
函数说明:按照给定特征划分数据集

Parameters:
	dataSet - 待划分的数据集
	axis - 划分数据集的特征
	value - 需要返回的特征的值
Returns:
	无
"""
def splitDataSet(dataSet, axis, value):		
    #创建返回的数据集列表
    retDataSet = []										
    #遍历数据集
    for featVec in dataSet: 							
        if featVec[axis] == value:
            #去掉axis特征
            reducedFeatVec = featVec[:axis]
            #将符合条件的添加到返回的数据集
            reducedFeatVec.extend(featVec[axis+1:]) 	
            
            retDataSet.append(reducedFeatVec)
	
    #返回划分后的数据集
    return retDataSet		  							

"""
函数说明:计算X_i给定的条件下，Y的条件熵

Parameters:
    dataSet - 待划分的数据集
    i - 维度i
    uniqueVals - 数据集特征集合
Returns:
    newEntropy - 条件熵
"""
def calcConditionalEntropy(dataSet, i, uniqueVals):
    
    #经验条件熵
    newEntropy = 0.0
    for value in uniqueVals:
        subDataSet = splitDataSet(dataSet, i, value)
        prob = len(subDataSet) / float(len(dataSet))  # 极大似然估计概率
        newEntropy += prob * calcShannonEnt(subDataSet)  # 条件熵的计算
    return newEntropy

"""
函数说明:计算信息增益

Parameters:
    dataSet - 数据集
    baseEntropy - 数据集的信息熵
Returns:
    bestIndex - 最好的特征索引
    bestInfoGain - 最好的信息增益
"""
def calcInformationGain(dataSet, baseEntropy):

    #最优特征的索引值	
    bestIndex = -1
    #信息增益
    bestInfoGain = 0.0  	
    
    #特征数量
    numFeatures = len(dataSet[0]) - 1	
    #遍历所有特征
    for i in range(numFeatures): 						
        #获取dataSet的第i个所有特征
        featList = [example[i] for example in dataSet]
        #创建set集合{},元素不可重复
        uniqueVals = set(featList)     					
		
        #经验条件熵
        newEntropy = 0.0
        #计算条件熵
        newEntropy = calcConditionalEntropy(dataSet, i, uniqueVals)
        #得到增益
        infoGain = baseEntropy - newEntropy  # 信息增益，就yes熵的减少，也就yes不确定性的减少
        if (infoGain > bestInfoGain): 	#计算信息增益
            #更新信息增益，找到最大的信息增益
            bestInfoGain = infoGain 		
			
            #记录信息增益最大的特征的索引值
            bestIndex = i 
    
return bestIndex, bestInfoGain

#测试
if __name__ == '__main__':
dataSet, labels = createDataSet()
ent = calcShannonEnt(dataSet)
    
index,gain = calcInformationGain(dataSet, ent)
print(gain)

结果如下所示。

结果和我们计算的一样。说明我们的代码是没有问题的。
好了，下面总结下计算信息增益的算法。
算法（计算信息增益）
输入：训练数据集 $D$ 和特征 $A$ ；
输出*：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ 。

Step1: 计算数据集 $D$ 的经验熵 $H (D)$
Step2: 计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H (D ∣ A)$
Step3: 计算信息增益

【注】以信息增益作为划分训练数据集的特征的算法称为ID3算法。

4.信息增益比（information gain ratio）

特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比，即

其中， $n$ 是特征 $A$ 取值的个数。
用信息增益比来选择特征的算法称为C4.5算法。关于C4.5后文会介绍。

4.2.1.2 ID3算法的具体过程

我们已经学习了从数据集构造决策树算法所需要的子功能模块，包括经验熵的计算和最优特征的选择，其工作原理如下：得到原始数据集，然后基于最好的属性值划分数据集，由于特征值可能多于两个，因此可能存在大于两个分支的数据集划分。第一次划分之后，数据集被向下传递到树的分支的下一个结点。在这个结点上，我们可以再次划分数据。因此我们可以采用递归的原则处理数据集。

构建决策树的算法有很多，比如C4.5、ID3和CART，这些算法在运行时并不总是在每次划分数据分组时都会消耗特征。由于特征数目并不是每次划分数据分组时都减少，因此这些算法在实际使用时可能引起一定的问题。目前我们并不需要考虑这个问题，只需要在算法开始运行前计算列的数目，查看算法是否使用了所有属性即可。

决策树生成算法递归地产生决策树，直到不能继续下去未为止。这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化。

ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征，递归地构建决策树。具体方法是：从根结点(root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子节点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止，最后得到一个决策树。ID3相当于用极大似然法进行概率模型的选择。

算法（ID3算法）
输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $ϵ$ ；
输出：决策树 $T$ ；

step.1初始化信息增益的阈值 $ϵ$
step.2判断样本 $D$ 是否为同一类输出 $C_k$ ，若 $T$ 为单节点树 $T$ ，则将类 $C_k$ 作为该节点的类标记，返回 $T$ ；
step.3判断特征集 $A$ 是否为空，如果是空则返回单节点树 $T$ ，标记类别为样本中输出类别 $C_k$ 实例数最多的类别返回 $T$ ；
step.4计算 $A$ 中的各个特征（一共 $n$ 个）对输出 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ；
step.5如果 $A_g$ 的信息增益小于阈值 $ϵ$ ，则返回单节点树 $T$ ，标记类别为样本中输出类别 $D$ 实例数最多的类别 $C_k$ ，返回 $T$ 。
step.6否则，按特征 $A_g$ 的不同取值 $a_i$ 将对应的样本输出 $D$ 分成若干个非空子集 $D_i$ ，将 $D_i$ 中实例数的做大的类作为标记，构建子节点，由节点及其子节点构成数 $T$ ，返回 $T$ 。
step.7对第 $i$ 个子节点，以 $D_I$ 为训练集，以 $A -$ { $A_g$ }为特征集，递归地调用步(2)~步(6)，得到子树 $T_i$ ，返回 $T_i$ 。

根据前文的计算，选择信息增益最大的特征“年龄”作为结点的特征。由于“年龄”有三个可能取值，从这一结点引出三个子结点：一个对应“青年”的子结点，包含5个样本，它们属于同一类，所以这是一个叶结点；另一个是对应“中年”的子结点，包含4个样本，它们也属于同一类，所以这也是一个叶结点；还有一个节点就是“老年”。

好了，来看代码吧。

# -*- coding: utf-8 -*-
from math import log
import operator

"""
函数说明:创建测试数据集

Parameters:
	无
Returns:
	dataSet - 数据集
	labels - 特征标签
"""
def createDataSet():
    #数据集
    dataSet = [[0, 0, 0, 2, 'no'], 
               [0, 0, 1, 2, 'no'], 
               [1, 0, 0, 2, 'yes'], 
               [2, 0, 0, 1, 'yes'],
               [2, 1, 0, 0, 'yes'], 
               [2, 1, 1, 0, 'no'], 
               [1, 1, 1, 0, 'yes'], 
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 0, 'yes'],
               [2, 1, 0, 1, 'yes'], 
               [0, 1, 1, 1, 'yes'], 
               [1, 0, 1, 1, 'yes'], 
               [1, 1, 0, 2, 'yes'],
               [2, 0, 2, 2, 'no']]
    #特征标签
    labels = ['age', 'student', 'credit_rating', 'income']

    #返回数据集和分类属性
    return dataSet, labels 	

"""
函数说明:计算给定数据集的经验熵(香农熵)

Parameters:
    dataSet - 数据集
Returns:
    shannonEnt - 经验熵(香农熵)
"""
def calcShannonEnt(dataSet):
    #返回数据集的行数
    numEntires = len(dataSet)                        
    
    #保存每个标签(Label)出现次数的字典
    labelCounts = {}                                
    
    #对每组特征向量进行统计
    for featVec in dataSet:                            
        #提取标签(Label)信息
        currentLabel = featVec[-1]                    
        
        #如果标签(Label)没有放入统计次数的字典,添加进去
        if currentLabel not in labelCounts.keys():    
            
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1   #Label计数            
        
    shannonEnt = 0.0   #经验熵(香农熵)                             
    
    #计算香农熵
    for key in labelCounts:                            
        
        #选择该标签(Label)的概率
        prob = float(labelCounts[key]) / numEntires    
        
        #利用公式计算
        shannonEnt -= prob * log(prob, 2)            
        
    #返回经验熵(香农熵)
    return shannonEnt                                						

"""
函数说明:按照给定特征划分数据集

Parameters:
	dataSet - 待划分的数据集
	axis - 划分数据集的特征
	value - 需要返回的特征的值
Returns:
	无
"""
def splitDataSet(dataSet, axis, value):		
    #创建返回的数据集列表
    retDataSet = []										
    #遍历数据集
    for featVec in dataSet: 							
        if featVec[axis] == value:
            #去掉axis特征
            reducedFeatVec = featVec[:axis]
            #将符合条件的添加到返回的数据集
            reducedFeatVec.extend(featVec[axis+1:]) 	
            
            retDataSet.append(reducedFeatVec)
	
    #返回划分后的数据集
    return retDataSet		  							

"""
函数说明:计算X_i给定的条件下，Y的条件熵

Parameters:
    dataSet - 数据集
    i - 维度i
    uniqueVals - 数据集特征集合
Returns:
    newEntropy - 条件熵
"""
def calcConditionalEntropy(dataSet, i, uniqueVals):
    
    #经验条件熵
    newEntropy = 0.0
    for value in uniqueVals:
        subDataSet = splitDataSet(dataSet, i, value)
        prob = len(subDataSet) / float(len(dataSet))  # 极大似然估计概率
        newEntropy += prob * calcShannonEnt(subDataSet)  # 条件熵的计算
    return newEntropy

"""
函数说明:计算信息增益

Parameters:
    dataSet - 数据集
    baseEntropy - 数据集的信息熵
Returns:
    bestIndex - 最好的特征索引
    bestInfoGain - 最好的信息增益
"""
def calcInformationGain(dataSet):

    #最优特征的索引值	
    bestIndex = -1
    #信息增益
    bestInfoGain = 0.0  	
    
    baseEntropy = calcShannonEnt(dataSet)
    
    #特征数量
    numFeatures = len(dataSet[0]) - 1	
    #遍历所有特征
    for i in range(numFeatures): 						
        #获取dataSet的第i个所有特征
        featList = [example[i] for example in dataSet]
        #创建set集合{},元素不可重复
        uniqueVals = set(featList)     					
		
        #经验条件熵
        newEntropy = 0.0
        #计算条件熵
        newEntropy = calcConditionalEntropy(dataSet, i, uniqueVals)
        #得到增益
        infoGain = baseEntropy - newEntropy  # 信息增益，就yes熵的减少，也就yes不确定性的减少
        
        #最优增益选择
        if (infoGain > bestInfoGain): 	
            #更新信息增益，找到最大的信息增益
            bestInfoGain = infoGain 		
			
            #记录信息增益最大的特征的索引值
            bestIndex = i 
    
    return bestIndex, bestInfoGain

"""
函数说明:统计classList中出现此处最多的元素(类标签)

Parameters:
	classList - 类标签列表
Returns:
	sortedClassCount[0][0] - 出现此处最多的元素(类标签)

"""
def majorityCnt(classList):
    classCount = {}
    
    for vote in classList:		
        #统计classList中每个元素出现的次数
        if vote not in classCount.keys():
            classCount[vote] = 0	
            classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)		#根据字典的值降序排序
    
    #返回classList中出现次数最多的元素
    return sortedClassCount[0][0]								

"""
函数说明:创建决策树

Parameters:
	dataSet - 训练数据集
	labels - 分类属性标签
	featLabels - 存储选择的最优特征标签
Returns:
	myTree - 决策树

"""
def createTree(dataSet, labels, featLabels):
    
    #取分类标签(是否放贷:yes or no)
    classList = [example[-1] for example in dataSet]			
    
    #如果类别完全相同则停止继续划分
    if classList.count(classList[0]) == len(classList):			
        return classList[0]
     
    #遍历完所有特征时返回出现次数最多的类标签
    if len(dataSet[0]) == 1:									
        return majorityCnt(classList)
    
    bestFeat, bestInfoGain= calcInformationGain(dataSet)	#选择最优特征
    bestFeatLabel = labels[bestFeat]#最优特征的标签
    
    featLabels.append(bestFeatLabel)
    myTree = {bestFeatLabel:{}}			#根据最优特征的标签生成树
    del(labels[bestFeat])			#删除已经使用特征标签
    
    #得到训练集中所有最优特征的属性值
    featValues = [example[bestFeat] for example in dataSet]		
    
    uniqueVals = set(featValues)		#去掉重复的属性值
    
    for value in uniqueVals:	#遍历特征，创建决策树。						
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), labels, featLabels)

    return myTree

#测试
if __name__ == '__main__':
    dataSet, labels = createDataSet()
    featLabels = []
    myTree = createTree(dataSet, labels, featLabels)
    print(myTree)

结果如下。

决策树是出来了，那这也太抽象了，到底怎么分类的呢？好了，直接看代码吧。

"""
函数说明:使用决策树分类

Parameters:
	inputTree - 已经生成的决策树
	featLabels - 存储选择的最优特征标签
	testVec - 测试数据列表，顺序对应最优特征标签
Returns:
	classLabel - 分类结果
""" 
def classify(inputTree, featLabels, testVec):
    firstStr = next(iter(inputTree))		#获取决策树结点
    secondDict = inputTree[firstStr]				#下一个字典
    featIndex = featLabels.index(firstStr)		
    
    for key in secondDict.keys():
        if testVec[featIndex] == key:

            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else: 
                classLabel = secondDict[key]
    return classLabel

结果如下。

从实例可以判断是青年人，会购买，通过算法也表明要购买电脑。
【完整代码参考附件.\1.DT_buys_computer_Classifty\DT_buys_computer_Classifty_v1
\DT_buys_computer_Classifty_v1.0\ DT_buys_computer_Classifty_v1.0.py】

4.2.1.3决策树简单实例之电脑购买-调用sklearn库

前面几章都使用了sklearn来实现算法，这一章也不例外。直接看代码吧。

# -*- coding: utf-8 -*-
from sklearn import tree
from sklearn.feature_extraction import DictVectorizer
import csv
from sklearn import preprocessing

#测试
if __name__ == '__main__':
    
    ## Step 1: load data
    print("Step 1: load data...")

    # Read in the csv file and put features into list of dict and list of class label
    Data = open("C:/TensorFlow/data.csv", "rt")
    
    #读取文件的原始数据
    reader = csv.reader(Data)#返回的值是csv文件中每行的列表，将每行读取的值作为列表返回
    
    #3.x版本使用该语法，2.7版本则使用headers=reader.next()
    headers = next(reader)#读取行的文件对象,reader指向下一行
    #headers存放的是csv的第一行元素，也是后文rowDict的键值
    #print("headers :\n" + str(headers))
    
    featureList = []
    labelList = []
    
    for row in reader:
        labelList.append(row[len(row)-1])
        rowDict = {}
        for i in range(1, len(row)-1):
            rowDict[headers[i]] = row[i]
        featureList.append(rowDict)
    
    #print("featureList:\n" + str(featureList))
    #print("labelList:\n" + str(labelList))
    
    ## Step 2: Vetorize data...
    print("Step 2: Vetorize data...")

    #提取数据
    # Vetorize features
    vec = DictVectorizer()#初始化字典特征抽取器
    dummyX = vec.fit_transform(featureList).toarray()
    # 查看提取后的特征值
    #输出转化后的特征矩阵
    #print("dummyX: \n" + str(dummyX))
    #输出各个维度的特征含义
    #print(vec.get_feature_names())

    # vectorize class labels
    lb = preprocessing.LabelBinarizer()# 将标签矩阵二值化
    dummyY = lb.fit_transform(labelList)
    #print("dummyY: \n" + str(dummyY))
    
    ## Step 3: init DT...
    print("Step 3: init DT...")
    # Using decision tree for classification
    # http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier
    ## criterion可选‘gini’, ‘entropy’，默认为gini(对应CART算法)，entropy为信息增益（对应ID3算法）
    clf = tree.DecisionTreeClassifier(criterion='entropy')
    
    ## Step 4: training...
    print("Step 4: training...")
    clf = clf.fit(dummyX, dummyY)

   #预测数据
    oneRowX = dummyX[0, :]
    #print("oneRowX: " + str(oneRowX))
    
    newRowX = oneRowX
    newRowX[0] = 1
    newRowX[2] = 0
    print("newRowX: " + str(newRowX))
    
    ## Step 5: testing
    print("Step 5: testing...")
    #predictedY = clf.predict([newRowX])#方法一
    predictedLabel = clf.predict(newRowX.reshape(1,-1))#方法二

    ## Step 6: show the result
    print("Step 4: show the result...")
    #print("predictedLabel" + str(predictedLabel))

    if predictedLabel == 1:
        print("要购买")
    else:
        print("不购买")

结果运行如下所示。

【完整代码参考附件1.DT_buys_computer_Classifty\DT_buys_computer_Classifty-sklearn_v2.0\DT_buys_computer_Classifty-sklearn_v2.0.0\ DT_buys_computer_Classifty-sklearn_v2.0.0.py】

4.2.1.4决策树的可视化

4.2.1.4.1决策树的可视化

决策树可视化需要Matplotlib，Matplotlib主要是用于可视化编程的API，在本章中可视化需要用到的函数如下：
 getNumLeafs：获取决策树叶子结点的数目
 getTreeDepth：获取决策树的层数
 plotNode：绘制结点
 plotMidText：标注有向边属性值
 plotTree：绘制决策树
 createPlot：创建绘制面板
Python实现如下。

# -*- coding: utf-8 -*-
import pandas as pd
from math import log
import operator
from matplotlib.font_manager import FontProperties
import matplotlib.pyplot as plt

"""
函数说明:计算给定数据集的经验熵(香农熵)

Parameters:
    dataSet - 数据集
Returns:
    shannonEnt - 经验熵(香农熵)
"""
def calcShannonEnt(dataSet):
    #返回数据集的行数
    numEntires = len(dataSet)                        
    
    #保存每个标签(Label)出现次数的字典
    labelCounts = {}                                
    
    #对每组特征向量进行统计
    for featVec in dataSet:                            
        #提取标签(Label)信息
        currentLabel = featVec[-1]                    
        
        #如果标签(Label)没有放入统计次数的字典,添加进去
        if currentLabel not in labelCounts.keys():    
            
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1   #Label计数            
        
    shannonEnt = 0.0   #经验熵(香农熵)                             
    
    #计算香农熵
    for key in labelCounts:                            
        
        #选择该标签(Label)的概率
        prob = float(labelCounts[key]) / numEntires    
        
        #利用公式计算
        shannonEnt -= prob * log(prob, 2)            
        
    #返回经验熵(香农熵)
    return shannonEnt                                						

"""
函数说明:按照给定特征划分数据集

Parameters:
	dataSet - 待划分的数据集
	axis - 划分数据集的特征
	value - 需要返回的特征的值
Returns:
	无
"""
def splitDataSet(dataSet, axis, value):		
    #创建返回的数据集列表
    retDataSet = []										
    #遍历数据集
    for featVec in dataSet: 							
        if featVec[axis] == value:
            #去掉axis特征
            reducedFeatVec = featVec[:axis]
            #将符合条件的添加到返回的数据集
            reducedFeatVec.extend(featVec[axis+1:]) 	
            
            retDataSet.append(reducedFeatVec)
	
    #返回划分后的数据集
    return retDataSet		  							

"""
函数说明:计算X_i给定的条件下，Y的条件熵

Parameters:
    dataSet - 数据集
    i - 维度i
    uniqueVals - 数据集特征集合
Returns:
    newEntropy - 条件熵
"""
def calcConditionalEntropy(dataSet, i, uniqueVals):
    
    #经验条件熵
    newEntropy = 0.0
    for value in uniqueVals:
        subDataSet = splitDataSet(dataSet, i, value)
        prob = len(subDataSet) / float(len(dataSet))  # 极大似然估计概率
        newEntropy += prob * calcShannonEnt(subDataSet)  # 条件熵的计算
    return newEntropy

"""
函数说明:计算信息增益

Parameters:
    dataSet - 数据集
    baseEntropy - 数据集的信息熵
Returns:
    bestIndex - 最好的特征索引
    bestInfoGain - 最好的信息增益
"""
def calcInformationGain(dataSet):

    #最优特征的索引值	
    bestIndex = -1
    #信息增益
    bestInfoGain = 0.0  	
    
    baseEntropy = calcShannonEnt(dataSet)
    
    #特征数量
    numFeatures = len(dataSet[0]) - 1	
    #遍历所有特征
    for i in range(numFeatures): 						
        #获取dataSet的第i个所有特征
        featList = [example[i] for example in dataSet]
        #创建set集合{},元素不可重复
        uniqueVals = set(featList)     					
		
        #经验条件熵
        newEntropy = 0.0
        #计算条件熵
        newEntropy = calcConditionalEntropy(dataSet, i, uniqueVals)
        #得到增益
        infoGain = baseEntropy - newEntropy  # 信息增益，就yes熵的减少，也就yes不确定性的减少
        
        #最优增益选择
        if (infoGain > bestInfoGain): 	
            #更新信息增益，找到最大的信息增益
            bestInfoGain = infoGain 		
			
            #记录信息增益最大的特征的索引值
            bestIndex = i 
    
    return bestIndex, bestInfoGain

"""
函数说明:统计classList中出现此处最多的元素(类标签)

Parameters:
	classList - 类标签列表
Returns:
	sortedClassCount[0][0] - 出现此处最多的元素(类标签)

"""
def majorityCnt(classList):
    classCount = {}
    
    for vote in classList:		
        #统计classList中每个元素出现的次数
        if vote not in classCount.keys():
            classCount[vote] = 0	
            classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)		#根据字典的值降序排序
    
    #返回classList中出现次数最多的元素
    return sortedClassCount[0][0]								

"""
函数说明:创建决策树

Parameters:
	dataSet - 训练数据集
	labels - 分类属性标签
	featLabels - 存储选择的最优特征标签
Returns:
	myTree - 决策树

"""
def createTree(dataSet, labels, featLabels):
    
    #取分类标签(是否放贷:yes or no)
    classList = [example[-1] for example in dataSet]			
    
    #如果类别完全相同则停止继续划分
    if classList.count(classList[0]) == len(classList):			
        return classList[0]
     
    #遍历完所有特征时返回出现次数最多的类标签
    if len(dataSet[0]) == 1:									
        return majorityCnt(classList)
    
    bestFeat, bestInfoGain= calcInformationGain(dataSet)	#选择最优特征
    bestFeatLabel = labels[bestFeat]#最优特征的标签
    
    featLabels.append(bestFeatLabel)
    myTree = {bestFeatLabel:{}}			#根据最优特征的标签生成树
    del(labels[bestFeat])			#删除已经使用特征标签
    
    #得到训练集中所有最优特征的属性值
    featValues = [example[bestFeat] for example in dataSet]		
    
    uniqueVals = set(featValues)		#去掉重复的属性值
    
    for value in uniqueVals:	#遍历特征，创建决策树。						
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), labels, featLabels)

    return myTree

"""
函数说明:使用决策树分类

Parameters:
	inputTree - 已经生成的决策树
	featLabels - 存储选择的最优特征标签
	testVec - 测试数据列表，顺序对应最优特征标签
Returns:
	classLabel - 分类结果
""" 
def classify(inputTree, featLabels, testVec):
    firstStr = next(iter(inputTree))		#获取决策树结点
    secondDict = inputTree[firstStr]				#下一个字典
    featIndex = featLabels.index(firstStr)		
    
    for key in secondDict.keys():
        if testVec[featIndex] == key:

            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else: 
                classLabel = secondDict[key]
    return classLabel

#############################可视化##############################
"""
函数说明:获取决策树叶子结点的数目

Parameters:
    myTree - 决策树
Returns:
    numLeafs - 决策树的叶子结点的数目
"""
def getNumLeafs(myTree):
    #初始化叶子
    numLeafs = 0                                               
        
    #python3中myTree.keys()返回的是dict_keys,
    #不在是list,所以不能使用myTree.keys()[0]的方法获取结点属性，
    #可以使用list(myTree.keys())[0]
    firstStr = next(iter(myTree))                                

    #获取下一组字典
    secondDict = myTree[firstStr]                                
    
    for key in secondDict.keys():
        #测试该结点是否为字典，如果不是字典，代表此结点为叶子结点
        if type(secondDict[key]).__name__=='dict':               
           
            numLeafs += getNumLeafs(secondDict[key])
        else:   numLeafs +=1
    return numLeafs

"""
函数说明:获取决策树的层数

Parameters:
    myTree - 决策树
Returns:
    maxDepth - 决策树的层数
"""
def getTreeDepth(myTree):
    #初始化决策树深度
    maxDepth = 0                                                
    
    #python3中myTree.keys()返回的是dict_keys,
    #不在是list,所以不能使用myTree.keys()[0]的方法获取结点属性，
    #可以使用list(myTree.keys())[0]
    firstStr = next(iter(myTree))                                
    
    #获取下一个字典
    secondDict = myTree[firstStr]                                
    
    for key in secondDict.keys():
        #测试该结点是否为字典，如果不是字典，代表此结点为叶子结点
        if type(secondDict[key]).__name__=='dict':                
            
            thisDepth = 1 + getTreeDepth(secondDict[key])
        else:   
            thisDepth = 1
        if thisDepth > maxDepth: 
            maxDepth = thisDepth   #更新层数
    return maxDepth

"""
函数说明:绘制结点

Parameters:
    nodeTxt - 结点名
    centerPt - 文本位置
    parentPt - 标注的箭头位置
    nodeType - 结点格式
Returns:
    无
"""
def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    arrow_args = dict(arrowstyle="<-")     #定义箭头格式
    font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)  #设置中文字体
    createPlot.ax1.annotate(nodeTxt, xy=parentPt,  xycoords='axes fraction',    #绘制结点
        xytext=centerPt, textcoords='axes fraction',
        va="center", ha="center", bbox=nodeType, arrowprops=arrow_args, FontProperties=font)

"""
函数说明:标注有向边属性值

Parameters:
    cntrPt、parentPt - 用于计算标注位置
    txtString - 标注的内容
Returns:
    无
"""
def plotMidText(cntrPt, parentPt, txtString):
    xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0]     #计算标注位置                   
    yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1]
    createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)

"""
函数说明:绘制决策树

Parameters:
    myTree - 决策树(字典)
    parentPt - 标注的内容
    nodeTxt - 结点名
Returns:
    无
"""
def plotTree(myTree, parentPt, nodeTxt):
    #设置结点格式
    decisionNode = dict(boxstyle="sawtooth", fc="0.8")     
    
    #设置叶结点格式
    leafNode = dict(boxstyle="round4", fc="0.8")     
   
    #获取决策树叶结点数目，决定了树的宽度
    numLeafs = getNumLeafs(myTree)               
    
    depth = getTreeDepth(myTree)   #获取决策树层数
    firstStr = next(iter(myTree))                 #下个字典                                                 
    cntrPt = (plotTree.xOff + (1.0 + float(numLeafs))/2.0/plotTree.totalW, plotTree.yOff)    #中心位置
    plotMidText(cntrPt, parentPt, nodeTxt)         #标注有向边属性值
    plotNode(firstStr, cntrPt, parentPt, decisionNode)     #绘制结点
    secondDict = myTree[firstStr]             #下一个字典，也就是继续绘制子结点
    plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD               #y偏移
    
    for key in secondDict.keys():                               
        if type(secondDict[key]).__name__=='dict':       #测试该结点是否为字典，如果不是字典，代表此结点为叶子结点
            plotTree(secondDict[key],cntrPt,str(key))            #不是叶结点，递归调用继续绘制
        else:                                           #如果是叶结点，绘制叶结点，并标注有向边属性值                                             
            plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW
            plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)
            plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
    plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD

"""
函数说明:创建绘制面板

Parameters:
    inTree - 决策树(字典)
Returns:
    无
"""
def createPlot(inTree):
    fig = plt.figure(1, facecolor='white')   #创建fig
    fig.clf()        #清空fig
    axprops = dict(xticks=[], yticks=[])
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)    #去掉x、y轴
   
    #获取决策树叶结点数目
    plotTree.totalW = float(getNumLeafs(inTree))  
    
    #获取决策树层数
    plotTree.totalD = float(getTreeDepth(inTree))             
    
    plotTree.xOff = -0.5/plotTree.totalW; plotTree.yOff = 1.0;       #x偏移
    plotTree(inTree, (0.5,1.0), '')                                 #绘制决策树
    plt.show()

#测试
if __name__ == '__main__':
    ## Step 1: load data
    print("Step 1: load data...")

    df=pd.read_csv('data.csv')
    data=df.values[:-1,1:].tolist()
    
    dataSet=data[:]
    label=df.columns.values[1:-1].tolist()
    labels=label[:]
    
    #print(dataSet)
    #print(labels)
    ## Step 2: training...
    print("Step 2: training...")

    featLabels = []
    myTree = createTree(dataSet, labels, featLabels)
    #print(myTree)

    ## Step 3: show pic
    print("Step 3: show the picture...")
    createPlot(myTree)
    
    ## Step 4: testing
    print("Step 4: testing...")
    #测试数据
    testVec = ['middle_aged', 'yes', 'excellent', 'low']
    
    print("测试实例："+ str(testVec))
    result = classify(myTree, featLabels, testVec)
    
    ## Step 5: show the result
    print("Step 5: show the result...")
    print("result:"+ str(result))
    if result == 'yes':
        print("要购买")
    else:
        print("不购买")

结果如下所示。

可以看到决策树绘制完成，从图中很清楚的看到中年人会购买电脑。
【完整代码参考附件1.DT_buys_computer_Classifty\DT_buys_computer_Classifty_v1
\DT_buys_computer_Classifty_v1.2\DT_buys_computer_Classifty_v1.2.py】
上面是使用Matplotlib来画决策树，代码比较多，那么有没有简单点的呢？答案是一定的，Graphviz提供了可视化的方法，下面笔者就带领大家来看看Graphviz怎么使用的。

4.2.1.4.2决策树的可视化只之使用Graphviz

首先需要安装Graphviz，笔者使用的是Anaconda集成环境，只需在在终端窗口输入：

conda install python-graphviz

需要在代码中添加如下代码。
# Visualize model
    with open("Infor_Gain.dot", 'w') as f:
        f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)

【完整代码参考附件1.DT_buys_computer_Classifty\DT_buys_computer_Classifty-sklearn_v2.0\DT_buys_computer_Classifty-sklearn_v2.0.1\ DT_buys_computer_Classifty-sklearn_v2.0.1.py】

运行成功后会在目录下生成Infor_Gain.dot的文件，需要转化dot文件至pdf可视化决策树。

dot -Tpdf Infor_Gain.dot -o output.pdf

结果如下。

图2

笔者觉得还是很麻烦，还有单独转化，有没有更加简单的呢，答案是有的。
代码如下。

# -*- coding: utf-8 -*-
import pandas as pd
import graphviz
from sklearn import tree

def createDataSet():
    #数据集
    dataSet = [[0, 0, 0, 2],
               [0, 0, 1, 2],
               [1, 0, 0, 2],
               [2, 0, 0, 1],
               [2, 1, 0, 0], 
               [2, 1, 1, 0],
               [1, 1, 1, 0], 
               [0, 0, 0, 1],
               [0, 1, 0, 0],
               [2, 1, 0, 1], 
               [0, 1, 1, 1], 
               [1, 0, 1, 1], 
               [1, 1, 0, 2],
               [2, 0, 2, 2]]
    #特征标签
    labels = [0,0,1,1,1,0,1,0,1,1,1,1,1,0]

    #返回数据集和分类属性
    return dataSet, labels 

#测试
if __name__ == '__main__':
    ## Step 1: load data
    print("Step 1: load data...")
    #方式一
    df=pd.read_csv('data.csv')
    data=df.values[:-1,1:5]
    dataSet=data[:]
    
    labels=df.values[:-1,5:6]
    
    #方式二
    #dataSet,labels = createDataSet()
    
    #print(dataSet)
    #print(labels)
    
    ## Step 2: init DT...
    print("Step 2: init DT...")

    ## criterion可选‘gini’, ‘entropy’，默认为gini(对应CART算法)，entropy为信息增益（对应ID3算法）
    clf = tree.DecisionTreeClassifier(criterion='entropy')
    
    
    ## Step 3: training...
    print("Step 3: training...")
    clf = clf.fit(dataSet, labels)
    
    ## Step 4: picture...
    print("Step 4: picture...")
    """
    dot_data = tree.export_graphviz(clf, out_file=None) 

    """
    #高级配置
    dot_data = tree.export_graphviz(clf, out_file=None, 
                            filled=True, rounded=True,  
                            special_characters=True)  
    graph = graphviz.Source(dot_data)  
    graph.render("tree")
    
    ## Step 5: testing
    print("Step 5: testing...")
    test = [1,0,0,2]
    predictedLabel = clf.predict([test])
    
    # Step 6: show the result
    print("Step 6: show the result...")
    print("predictedLabel" + str(predictedLabel))

结果如下。

【完整代码参考附件1.DT_buys_computer_Classifty\DT_buys_computer_Classifty-sklearn_v2\DT_buys_computer_Classifty-sklearn_v2.1\DT_buys_computer_Classifty-sklearn_v2.1.py】

Graphviz官网： http://www.graphviz.org/
参考：
https://blog.csdn.net/WuchangI/article/details/79589542
https://pypi.org/project/pydotplus/

4.2.2决策树简单实例之鸢尾花卉分类

和前面几章一样，还是使用同样的数据来进行分类处理，看是否能进行分类。

# -*- coding: utf-8 -*-
from sklearn import datasets
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

def test_DT():
    ## Step 1: load data
    print("Step 1: load data...")
    #导入数据
    iris = datasets.load_iris()

    ## Step 2: split data
    print("Step 2: split data...")
    #分离数据
    # X = features
    X = iris.data
    # Y = label
    Y = iris.target
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.6)

    ## Step 3: init NB
    print("Step 3: init NB...")
    #初始化贝叶斯分类器
    clf = tree.DecisionTreeClassifier(criterion='entropy')

    ## Step 4: training...
    print("Step 4: training...")
    #训练数据
    clf.fit(X_train, Y_train)

    ## Step 5: testing
    print("Step 5: testing...")
    #预测数据
    predictedLabel =  clf.predict(X_test)
    #predictedLabel = clf.fit(X_train, Y_train).predict(X_test)

    ## Step 6: show the result
    print("Step 6: show the result...")
    #求准确率
    # http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
    print(accuracy_score(Y_test, predictedLabel))
    #print("predictedLabel is :")
    #print(predictedLabel)

if __name__ == '__main__':
    test_DT()

结果如下。

【完整代码参考附件2.DT_Iris_Classify\DT_Iris_Classify-sklearn_v1.0】
可以和前几个算法比较准确率。有兴趣的自行去比较吧，时间复杂度也可以比较。同样可以画出决策树。

# -*- coding: utf-8 -*-
from sklearn import datasets
from sklearn import tree
import graphviz

def test_DT():
    ## Step 1: load data
    print("Step 1: load data...")
    #导入数据
    iris = datasets.load_iris()

    ## Step 2: split data
    print("Step 2: split data...")
    #分离数据
    # X = features
    X = iris.data
    # Y = label
    Y = iris.target

    ## Step 3: init NB
    print("Step 3: init NB...")
    #初始化贝叶斯分类器
    clf = tree.DecisionTreeClassifier(criterion='entropy')

    ## Step 4: training...
    print("Step 4: training...")
    #训练数据
    clf.fit(X, Y)
    
    ## Step 5: picture..
    print("Step 5: picture...")
    """
    dot_data = tree.export_graphviz(clf, out_file=None) 

    """
    #高级配置
    dot_data = tree.export_graphviz(clf, out_file=None, 
                            feature_names=iris.feature_names,  
                            class_names=iris.target_names,  
                            filled=True, rounded=True,  
                            special_characters=True)  
    graph = graphviz.Source(dot_data)  
    graph.render("tree")

if __name__ == '__main__':
    test_DT()

结果如下。

【完整代码参考附件2.DT_Iris_Classify\DT_Iris_Classify-sklearn_v2.0】

4.3决策树数据存储

构造决策树是很耗时的任务，即使处理很小的数据集，如前面的样本数据，也要花费几秒的时间，如果数据集很大，将会耗费很多计算时间。然而用创建好的决策树解决分类问题，则可以很快完成。因此，为了节省计算时间，最好能够在每次执行分类时调用已经构造好的决策树。为了解决这个问题，需要使用Python模块pickle序列化对象。序列化对象可以在磁盘上保存对象，并在需要的时候读取出来。

# -*- coding: utf-8 -*-
import pandas as pd
from math import log
import operator
import pickle

"""
函数说明:创建测试数据集

Parameters:
	无
Returns:
	dataSet - 数据集
	labels - 特征标签
"""
def createDataSet():
    #数据集
    dataSet = [[0, 0, 0, 2, 'no'], 
               [0, 0, 1, 2, 'no'], 
               [1, 0, 0, 2, 'yes'], 
               [2, 0, 0, 1, 'yes'],
               [2, 1, 0, 0, 'yes'], 
               [2, 1, 1, 0, 'no'], 
               [1, 1, 1, 0, 'yes'], 
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 0, 'yes'],
               [2, 1, 0, 1, 'yes'], 
               [0, 1, 1, 1, 'yes'], 
               [1, 0, 1, 1, 'yes'], 
               [1, 1, 0, 2, 'yes'],
               [2, 0, 2, 2, 'no']]
    #特征标签
    labels = ['age', 'student', 'credit_rating', 'income']

    #返回数据集和分类属性
    return dataSet, labels 	

"""
函数说明:计算给定数据集的经验熵(香农熵)

Parameters:
    dataSet - 数据集
Returns:
    shannonEnt - 经验熵(香农熵)
"""
def calcShannonEnt(dataSet):
    #返回数据集的行数
    numEntires = len(dataSet)                        
    
    #保存每个标签(Label)出现次数的字典
    labelCounts = {}                                
    
    #对每组特征向量进行统计
    for featVec in dataSet:                            
        #提取标签(Label)信息
        currentLabel = featVec[-1]                    
        
        #如果标签(Label)没有放入统计次数的字典,添加进去
        if currentLabel not in labelCounts.keys():    
            
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1   #Label计数            
        
    shannonEnt = 0.0   #经验熵(香农熵)                             
    
    #计算香农熵
    for key in labelCounts:                            
        
        #选择该标签(Label)的概率
        prob = float(labelCounts[key]) / numEntires    
        
        #利用公式计算
        shannonEnt -= prob * log(prob, 2)            
        
    #返回经验熵(香农熵)
    return shannonEnt                                						

"""
函数说明:按照给定特征划分数据集

Parameters:
	dataSet - 待划分的数据集
	axis - 划分数据集的特征
	value - 需要返回的特征的值
Returns:
	无
"""
def splitDataSet(dataSet, axis, value):		
    #创建返回的数据集列表
    retDataSet = []										
    #遍历数据集
    for featVec in dataSet: 							
        if featVec[axis] == value:
            #去掉axis特征
            reducedFeatVec = featVec[:axis]
            #将符合条件的添加到返回的数据集
            reducedFeatVec.extend(featVec[axis+1:]) 	
            
            retDataSet.append(reducedFeatVec)
	
    #返回划分后的数据集
    return retDataSet		  							

"""
函数说明:计算X_i给定的条件下，Y的条件熵

Parameters:
    dataSet - 数据集
    i - 维度i
    uniqueVals - 数据集特征集合
Returns:
    newEntropy - 条件熵
"""
def calcConditionalEntropy(dataSet, i, uniqueVals):
    
    #经验条件熵
    newEntropy = 0.0
    for value in uniqueVals:
        subDataSet = splitDataSet(dataSet, i, value)
        prob = len(subDataSet) / float(len(dataSet))  # 极大似然估计概率
        newEntropy += prob * calcShannonEnt(subDataSet)  # 条件熵的计算
    return newEntropy

"""
函数说明:计算信息增益

Parameters:
    dataSet - 数据集
    baseEntropy - 数据集的信息熵
Returns:
    bestIndex - 最好的特征索引
    bestInfoGain - 最好的信息增益
"""
def calcInformationGain(dataSet):

    #最优特征的索引值	
    bestIndex = -1
    #信息增益
    bestInfoGain = 0.0  	
    
    baseEntropy = calcShannonEnt(dataSet)
    
    #特征数量
    numFeatures = len(dataSet[0]) - 1	
    #遍历所有特征
    for i in range(numFeatures): 						
        #获取dataSet的第i个所有特征
        featList = [example[i] for example in dataSet]
        #创建set集合{},元素不可重复
        uniqueVals = set(featList)     					
		
        #经验条件熵
        newEntropy = 0.0
        #计算条件熵
        newEntropy = calcConditionalEntropy(dataSet, i, uniqueVals)
        #得到增益
        infoGain = baseEntropy - newEntropy  # 信息增益，就yes熵的减少，也就yes不确定性的减少
        
        #最优增益选择
        if (infoGain > bestInfoGain): 	
            #更新信息增益，找到最大的信息增益
            bestInfoGain = infoGain 		
			
            #记录信息增益最大的特征的索引值
            bestIndex = i 
    
    return bestIndex, bestInfoGain

"""
函数说明:统计classList中出现此处最多的元素(类标签)

Parameters:
	classList - 类标签列表
Returns:
	sortedClassCount[0][0] - 出现此处最多的元素(类标签)

"""
def majorityCnt(classList):
    classCount = {}
    
    for vote in classList:		
        #统计classList中每个元素出现的次数
        if vote not in classCount.keys():
            classCount[vote] = 0	
            classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)		#根据字典的值降序排序
    
    #返回classList中出现次数最多的元素
    return sortedClassCount[0][0]								

"""
函数说明:创建决策树

Parameters:
	dataSet - 训练数据集
	labels - 分类属性标签
	featLabels - 存储选择的最优特征标签
Returns:
	myTree - 决策树

"""
def createTree(dataSet, labels, featLabels):
    
    #取分类标签(是否放贷:yes or no)
    classList = [example[-1] for example in dataSet]			
    
    #如果类别完全相同则停止继续划分
    if classList.count(classList[0]) == len(classList):			
        return classList[0]
     
    #遍历完所有特征时返回出现次数最多的类标签
    if len(dataSet[0]) == 1:									
        return majorityCnt(classList)
    
    bestFeat, bestInfoGain= calcInformationGain(dataSet)	#选择最优特征
    bestFeatLabel = labels[bestFeat]#最优特征的标签
    
    featLabels.append(bestFeatLabel)
    myTree = {bestFeatLabel:{}}			#根据最优特征的标签生成树
    del(labels[bestFeat])			#删除已经使用特征标签
    
    #得到训练集中所有最优特征的属性值
    featValues = [example[bestFeat] for example in dataSet]		
    
    uniqueVals = set(featValues)		#去掉重复的属性值
    
    for value in uniqueVals:	#遍历特征，创建决策树。						
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), labels, featLabels)

    return myTree

"""
函数说明:存储决策树

Parameters:
    inputTree - 已经生成的决策树
    filename - 决策树的存储文件名
Returns:
    无

"""
def storeTree(inputTree, filename):
    with open(filename, 'wb') as fw:
        pickle.dump(inputTree, fw)
        
        
#测试
if __name__ == '__main__':
    ## Step 1: load data
    print("Step 1: load data...")

    #方式一
    #dataSet, labels = createDataSet()
        
    #方式二
    df=pd.read_csv('data.csv')
    data=df.values[:-1,1:].tolist()
    
    dataSet=data[:]
    label=df.columns.values[1:-1].tolist()
    labels=label[:]
    
    #print(dataSet)
    #print(labels)
    ## Step 2: training...
    print("Step 2: training...")

    featLabels = []
    myTree = createTree(dataSet, labels, featLabels)
    
    #print(myTree)
    
    ## Step 3: Storage tree ...
    print("Step 3: Storage tree...")
    storeTree(myTree, 'classifierStorage.txt')

运行代码，在该Python文件的相同目录下，会生成一个名为classifierStorage.txt的txt文件，这个文件二进制存储着我们的决策树。我们可以打开看下存储结果。

【注】打开classifierStorage.txt有要求，笔者使用的是Sublime Text 。
因为这个是个二进制存储的文件，我们也无需看懂里面的内容，会存储，会用即可。那么怎么用呢？使用pickle.load进行载入即可，编写代码如下。

# -*- coding: utf-8 -*-
import pickle

"""
函数说明:读取决策树

Parameters:
    filename - 决策树的存储文件名
Returns:
    pickle.load(fr) - 决策树字典
"""
def grabTree(filename):
    fr = open(filename, 'rb')
    return pickle.load(fr)
#测试
if __name__ == '__main__':
    myTree = grabTree('classifierStorage.txt')
    print(myTree)

结果如下。

4.4决策树ID3算法的不足

ID3算法虽然提出了新思路，但是还是有很多值得改进的地方。　　
A）ID3没有考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。这大大限制了ID3的用途。

B）ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现，在相同条件下，取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值，各为1/2，另一个变量为3个值，各为1/3，其实他们都是完全不确定的变量，但是取3个值的比取2个值的信息增益大。如果校正这个问题呢？

C）ID3算法对于缺失值的情况没有做考虑；

D）没有考虑过拟合的问题。

ID3算法的作者昆兰基于上述不足，对ID3算法做了改进，这就是C4.5算法，也许你会问，为什么不叫ID4，ID5之类的名字呢?那是因为决策树太火爆，他的ID3一出来，别人二次创新，很快就占了ID4， ID5，所以他另辟蹊径，取名C4.0算法，后来的进化版为C4.5算法。在后文就会谈C4.5算法

参考文档：
英文文档：http://scikit-learn.org/stable/modules/tree.html
中文文档：http://sklearn.apachecn.org/cn/0.19.0/modules/tree.html

参考实例：
英文链接
中文链接

参考文献：
[1]《机器学习》周志华著
[2]《统计学习方法》李航著
[3]L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, 1984.
[4] Quinlan, JR. (1986) Induction of Decision Trees. Machine Learning, 1, 81-106.
[5]J.R. Quinlan. C4. 5: programs for machine learning. Morgan Kaufmann, 1993.
[6]T. Hastie, R. Tibshirani and J. Friedman. Elements of Statistical Learning, Springer, 2009.

问题解决：
ValueError: Expected 2D array, got 1D array instead:
array=[1. 0. 0. 0. 1. 1. 0. 0. 1. 0.].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
出现如上错误，这是使用的是一个新的scikit学习版本，它抛出了一个错误，因为在新版本中，所有东西都必须是一个二维矩阵，甚至是一个列或行。可以看到错误下的提示，就可解决问题。也就是用数组来重塑你的数据。如果您的数据有一个单独的特性或数组，那么重构(-1，1)。重构(1，-1)如果它包含一个单一的样本。逼着给出两种方法。
方法一：

predictedY = clf.predict([newRowX])

方法二：

predictedY = clf.predict(newRowX.reshape(1,-1))

参考：
https://blog.csdn.net/dongyanwen6036/article/details/78864585

本章参考附件
点击进入

你可能感兴趣的:(《人工智能》机器学习)

阿里巴巴发布 R1-Omni：首个基于 RLVR 的全模态大语言模型，用于情感识别新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/情感识别一直是AI领域的难题，尤其是视觉与音频信号的融合。单独依赖视觉或音频的模型，往往
安全中心建设关键技术之机器学习 sinfoyou 安全机器学习人工智能
1.1.1功能要求针对目前广为流行的网银、掌上银行撞库行为，需要围绕撞库防护建立针对性的发现、预警、拦截体系。在本课题在大量数据中自动分析获得规律，并利用规律对未知数据进行预测。通过机器学习重点解决目前无法在识别撞库攻击源IP地址的基础上，进一步识别出被撞库成功的账号。由于机器学习算法需要从数据中自动分析获得规律，所以必须要有历史数据。在针对撞库攻击行为分析的场景中，首先需要获取手机银行和网上银行
认知科学：解决复杂问题的5个关键策略 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍认知科学是一门研究人类思维、认知和行为的科学。它涉及到大脑、神经科学、心理学、语言学、人工智能和计算机科学等多个领域。认知科学试图揭示人类如何理解和处理信息，以及如何进行决策和行动。在本文中，我们将探讨5个关键策略，这些策略可以帮助我们解决复杂问题。这些策略包括：模式识别规则抽取推理和逻辑推理知识表示和知识图谱多模态处理我们将在接下来的部分中详细讨论这些策略，并提供代码实例和数学模型公
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
如何优化AI模型的Prompt：深度指南 Earth explosion 人工智能 prompt
随着人工智能（AI）技术的快速发展，AI模型在文本生成、翻译、问答等领域的应用越来越广泛。在使用这些模型时，**Prompt（提示）**的质量直接影响输出结果的好坏。优化Prompt不仅能提升生成文本的准确性，还能显著提高工作效率。作为一个希望提升AI应用效果的普通人，如何才能优化Prompt呢？本文将为你提供一份详细的指南，涵盖从基础知识到高级技巧的各个方面。一、什么是Prompt？1.1定义P
AI 行业发展趋势：科技创新引领未来变革我是阿萌畅聊AI 人工智能科技学习
在当今数字化时代，人工智能（AI）行业正以前所未有的速度蓬勃发展，深刻地改变着我们的生活、工作和社会格局。从基础技术的突破到广泛的应用场景拓展，AI展现出了一系列令人瞩目的发展趋势，预示着一个充满无限可能的未来。一、技术创新持续突破模型规模与性能提升AI模型正朝着更大规模、更复杂的方向发展。以GPT系列为代表的大语言模型，参数数量不断攀升，从GPT-2的15亿参数到GPT-4的万亿级参数，模型的语
前沿技术有哪些推动行业发展的新技术简介 jiemidashi 经验分享
现在有很多新东西正在改变的生活。比如人工智能。它能帮做很多事情。像写文章、画画还有处理数据。这些都很有用。再说说区块链。它让信息更安全。数据不容易被改掉。这对隐私很有帮助。还有5G网络。速度快得不得了。看视频玩游戏都特别顺畅。感觉和以前完全不一样。再就是新能源车。不用油了。用电就行。省钱又环保。开着还很安静。最后说说虚拟现实。戴上眼镜就能去别的世界。玩游戏或者学习都超级酷。这些东西都在慢慢走进的生
DeepSeek R1有什么不同新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/深度思考实验室（DeepSeek）最近发布了全新的推理模型R1，声称该模型不仅性能超越目
基于RWA 与 AI-Agent 协同的企业数字化生态构建 leijiwen 人工智能
在当前数字经济高速发展的背景下，企业数字化转型已成为提升竞争力和创新能力的必由之路。以实体零售与文旅行业为代表的传统产业，正通过现实世界资产（RWA）数字化与人工智能代理（AI-Agent）的协同应用，构建全新的数字生态系统。正如“无数据不基础、无token不可信、无AI不产品、无产业不应用”这一理念所强调的，数字化生态的建立必须依托数据、信任机制、智能技术以及产业深度融合，才能实现真正的转型升级
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
科技创新：改变生活的力量与未来趋势 jiemidashi 科技生活人工智能经验分享
人工智能在智能客服中的应用越来越普遍。它改变了传统的客服模式。AI可以快速回答用户的问题，提高了客服效率和服务质量。首先，人工智能能够处理大量信息。智能客服可以在几秒钟内回应客户的请求。这比人工客服快得多。客户不需要等待很久就能得到答案。举个例子，某电商平台使用AI聊天机器人来处理用户咨询。这个机器人能够24小时工作，随时解决问题。这样，顾客体验得到了显著提升。其次，人工智能能提供个性化服务。通过
Cursor 终极使用指南：从零开始走向AI编程二川bro 智能AI 前端 AI编程
Cursor终极使用指南：从零开始走向AI编程问什么是cursor?mindmaproot(Cursor核心功能)智能编码代码生成自动补全错误修复项目管理多窗口布局版本控制终端集成个性设置主题定制快捷键配置插件扩展AI协作对话编程知识检索文档生成前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
Gemma 3 发布：最强单 GPU/TPU 可运行模型，性能超 Llama-405B！新加坡内哥谈技术人工智能自然语言处理语言模型深度学习 copilot llama
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/GoogleDeepMind再次掀起AI界的狂潮，正式推出Gemma3——一款轻量级但性
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
《深度剖析：鸿蒙系统下智能NPC与游戏剧情的深度融合》人工智能深度学习
在游戏开发领域，鸿蒙系统的崛起为开发者们带来了前所未有的机遇与挑战。尤其是在开发基于鸿蒙系统的人工智能游戏时，实现智能NPC的行为逻辑与游戏剧情紧密结合，成为了打造沉浸式游戏体验的关键。鸿蒙系统作为一款面向全场景的分布式操作系统，具有强大的多设备协同能力和出色的性能表现。这为人工智能游戏的开发提供了坚实的基础，使得游戏能够在不同设备上流畅运行，并且实现数据的无缝同步。而人工智能技术的融入，则为游戏
《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》人工智能深度学习
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
1985-2024年地级市人工智能专利数据经管数据库人工智能
《地级市人工智能专利数据（1985-2024）》于2025年1月完成最新更新。数据聚焦于中国各地级市，时间跨度设定为1985年至2024年。在数据整理过程中，参照《关键数字技术专利分类体系（2023）》，依据其中“人工智能”类技术的专利分类号，结合国家知识产权局所提供的信息，对各地每年的专利申请展开搜索与匹配。在此基础上，从众多专利申请中精准筛选出属于“人工智能”类别的专利，并进行数量统计，数据涵
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
《今日AI-人工智能-编程日报》小亦工作室人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
1章5节：大模型术语解读与从生成到推理的演进 DAT｜R科学与人工智能人工智能
在人工智能的浩瀚宇宙中，大模型正以前所未有的速度演进，推动着科技变革的新浪潮。从多模态到通用模型，再到行业模型，人工智能的边界不断拓展，为各行各业带来了全新的机遇与挑战。本篇文章将深入剖析大模型相关的核心术语，探讨其内涵、应用及发展趋势，并回顾大模型从生成到推理的演进历程，解析全球科技巨头与国内前沿企业在这一领域的竞争与创新。让我们一同探索大模型的演进脉络，把握智能时代的发展脉搏。一、剖析大模型相
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
嵌入式人工智能应用- 第七章人脸识别数贾电子科技嵌入式人工智能应用人工智能
嵌入式人工智能应用`文章目录嵌入式人工智能应用1人脸识别1.1dlib介绍1.2dlib特点1.3dlib的安装与编译2人脸识别原理2.1ResNet3代码部署3.1安装[CUDAToolkit12.8](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubunt
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

《人工智能》机器学习 - 第4章 决策树算法【分类】（二 ID3算法实现）

4.2决策树ID3实践

4.2.1决策树简单实例之电脑购买

4.2.1.1特征选择

4.2.1.2 ID3算法的具体过程

4.2.1.3决策树简单实例之电脑购买-调用sklearn库

4.2.1.4决策树的可视化

4.2.1.4.1决策树的可视化

4.2.1.4.2决策树的可视化只之使用Graphviz

4.2.2决策树简单实例之鸢尾花卉分类

4.3决策树数据存储

4.4决策树ID3算法的不足

你可能感兴趣的:(《人工智能》机器学习)

《人工智能》机器学习 - 第4章决策树算法【分类】（二 ID3算法实现）