weixin_51978164

【机器学习】决策树算法--2（代码模块实现）

文章目录

接之前的【机器学习】决策树算法--1(算法介绍)
- 三好学生评选表进行代码实例
- - 1、整体决策树模块（先从离散型数据开始）
  - 2、可视化决策树
  - 3、将数据集增加一列连续型数据
  - - 3.1、离散型与连续型处理区别
    - 3.2、注意事项
  - 4、预剪枝介绍及实现
  - - 预剪枝思考：
  - 5、后剪枝介绍及实现
  - - 后剪枝相比于预剪枝：
    - 预剪枝实现：
    - 后剪枝实现
  - 6、总结

接之前的【机器学习】决策树算法–1(算法介绍)

三好学生评选表进行代码实例

1、整体决策树模块（先从离散型数据开始）

                            集美大学三好学生评选表

—	是否挂科	获得奖学金次数	综测评价	体质健康是否达标	宿舍检评	是否符合条件
1	no	4	excellect	yes	excellent	yes
2	no	1	good	no	excellent	no
3	no	0	excellect	yes	excellent	yes
4	no	1	excellect	no	excellent	no
5	no	2	good	yes	excellent	yes
6	no	1	excellect	yes	excellent	no
7	no	1	excellect	yes	excellent	yes
8	yes	0	good	yes	excellent	no
9	no	2	good	yes	good	no
10	no	2	excellect	yes	excellent	yes
11	yes	2	excellect	yes	excellent	no
12	yes	0	good	yes	good	no
13	yes	0	excellect	yes	pass	no
14	no	4	excellect	yes	excellent	yes
15	no	2	excellect	yes	excellent	yes

def createDataSet1():    # 创造示例数据
    dataSet = [['no', '4','excllent', 'yes','excllent','yes'],
               ['no', '1', 'good','no','excllent','no'],
               ['no', '0', 'excllent','yes','excllent','yes'],
               ['no', '1', 'excllent','no','excllent','no'],
               ['no', '2', 'good','yes','excllent','yes'],
               ['no', '1', 'excllent','yes','excllent','no'],
               ['no', '1', 'excllent','yes','excllent','yes'],
               ['yes', '0', 'good','yes','excllent','no'],
               ['no', '2', 'good','yes','good','no'],
               ['no', '2', 'excllent','yes','excllent','yes'],
               ['yes', '2', 'excllent','yes','excllent','no'],
               ['yes', '0', 'good','yes','good','no'],
               ['yes', '0', 'excllent','yes','pass','no'],
               ['no', '4', 'excllent','yes','excllent','yes'],
               ['no', '2', 'excllent','yes','excllent','yes']]
    labels = ['Failclass','Scholarship-num','Grade-ranking','Physically-fit','Hostel-assessment'] 
    #是否挂科，奖学金次数，综测分评价，体质健康是否符合标准，宿舍检评
    return dataSet,labels
 


def createTree(dataSet,labels):
    classList=[example[-1] for example in dataSet]#递归的调用，判断最后的标签是否都是一样的
    if classList.count(classList[0])==len(classList):#看这里面的标签是否和整体相同
        return classList[0]
    if len(dataSet[0]) == 1:#用了一列就删掉一列，直到只剩下一个标签，遍历完数据集
        return majorityCnt(classList)#返回最多的类别
    bestFeat=chooseBestFeatureToSplit(dataSet)#遍历数据集，选择最优的特征去进行分割
    bestFeatLabel=labels[bestFeat]#找到对应的标签
    myTree={bestFeatLabel:{}} #字典嵌套字典，对应根节点下面的节点，第一次是根节点，之后嵌套节点
    del(labels[bestFeat])#嵌套一个节点后要删掉，列名
    featValues=[example[bestFeat] for example in dataSet]#统计里面有多少个相同的属性，就是分多少个树杈
    uniqueVals=set(featValues)
    for value in uniqueVals:
        subLabels=labels[:]#去掉一列的标签
        myTree[bestFeatLabel][value]=createTree(splitDataSet\
                            (dataSet,bestFeat,value),subLabels)#在当前最好节点下继续做，递归创建添加最好的节点下面，splitDataSet切分后的数据集
    return myTree
 
def majorityCnt(classList):    #返回最多类别
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():#如果说这个vote不在那赋值为0
            classCount[vote]=0
        classCount[vote]+=1#在就加等于一
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)#排序后的
    return sortedClassCount[0][0]

def chooseBestFeatureToSplit(dataSet):  #选择最优的特征
    numFeatures = len(dataSet[0])-1#当前特征数量，要减去labels
    baseEntropy = calcShannonEnt(dataSet)  #基础的熵值，啥都没做的时候的熵值
    bestInfoGain = 0#最好的信息增益
    bestFeature = -1#最好的特征
    for i in range(numFeatures):#遍历特征列
        featList = [example[i] for example in dataSet]#得到当前列的特征
        uniqueVals = set(featList)#得到唯一的个数
        newEntropy = 0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet,i,value)
            prob =len(subDataSet)/float(len(dataSet))#看下去掉列后占总体的比值，后面要用到剩下的占总体的概率值
            newEntropy +=prob*calcShannonEnt(subDataSet) #计算累加后面新的熵值，对每一个特征进行操作
            print("信息熵：%f"  %newEntropy)
        infoGain = baseEntropy - newEntropy #信息增益
        print("信息增益：%f"  %infoGain)
        if (infoGain>bestInfoGain):   
            bestInfoGain=infoGain
            bestFeature = i#选最好的特征
    return bestFeature
 
def calcShannonEnt(dataSet):  # 计算数据的熵(entropy)
    numEntries=len(dataSet)  # 所有的样本个数
    labelCounts={}#看labels里面的类出现的次数
    for featVec in dataSet:
        currentLabel=featVec[-1] # 每行样本的最后一个labels
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel]=0#因为第一次都没在这个里面
        labelCounts[currentLabel]+=1  #在的话就统计，分别有多少个
    shannonEnt=0
    for key in labelCounts:
        prob=float(labelCounts[key])/numEntries # 计算labels中的一个类的熵值
        shannonEnt-=prob*log(prob,2) # 累加每个类的熵值，按照那个信息熵的公式
    return shannonEnt

def splitDataSet(dataSet,axis,value): #切分数据集，
    retDataSet=[]
    for featVec in dataSet:#遍历样本
        if featVec[axis]==value:#要从传进来的value列找到labels里面是同一个值，同个类
            reducedFeatVec =featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])#直接把featVec[axis]这一列就给去掉了
            retDataSet.append(reducedFeatVec)#要删除正在遍历的这一列
    return retDataSet

对上述模型进行输出：

if __name__ == '__main__':
    dataSet, labels=createDataSet1()  # 创造示列数据
    myTree = createTree(dataSet, labels)
    print(myTree)  # 输出决策树模型结果

运行得到：

2、可视化决策树

#获取叶节点的数目
def getNumLeafs(myTree):
    # 定义叶子结点数目
    numLeaf=0
    # 获得myTree的第一个键值，即第一个特征，分割的标签
    firstStr=list(myTree.keys())[0]
    # 根据键值得到对应的值，即根据第一个特征分类的结果
    secondDict=myTree[firstStr]
    # 遍历得到的secondDict
    for key in secondDict.keys():
        # 如果secondDict[key]为一个字典，即决策树结点，type()可以判断子节点是否为字典类型
        if type(secondDict[key]).__name__=='dict':
            # 则递归的计算secondDict中的叶子结点数，并加到numLeafs上
            numLeaf+=getNumLeafs(secondDict[key])
        # 如果secondDict[key]为叶子结点
        else:
            # 则将叶子结点数加1
            numLeaf+=1
    # 返回求的叶子结点数目
    return numLeaf

#获取树的层数
def getTreeDepth(myTree):
    # 定义树的深度
    maxDepth=0
    # 获得myTree的第一个键值，即第一个特征，分割的标签
    firstStr=list(myTree.keys())[0]
    # 根据键值得到对应的值，即根据第一个特征分类的结果
    secondDict=myTree[firstStr]
    for key in secondDict.keys():
        # 如果secondDict[key]为一个字典
        if type(secondDict[key]).__name__=='dict':
            # 则当前树的深度等于1加上secondDict的深度，只有当前点为决策树点深度才会加1
            thisDepth=1+getTreeDepth(secondDict[key])
        # 如果secondDict[key]为叶子结点
        else:
            # 则将当前树的深度设为1
            thisDepth=1
        # 比较当前树的深度与最大数的深度
        if thisDepth>maxDepth:
            maxDepth=thisDepth
    # 返回树的深度
    return maxDepth

#预先存储树的信息
#def retrieveTree(i):
    listOfTree=[{'no surfacing':{0:'no',1:{'flippers':{0:'no',1:'yes'}}}},
        {'no surfacing':{0:'no',1:{'flippers':{0:{'head':{0:'no',1:'yes'}},1:'no'}}}}]
    return listOfTree[i]

 
# 绘制中间文本
def plotMidText(cntrPt,parentPt,txtString):
    # 求中间点的横坐标
    xMid=(parentPt[0]-cntrPt[0])/2.0+cntrPt[0]
    # 求中间点的纵坐标
    yMid=(parentPt[1]-cntrPt[1])/2.0+cntrPt[1]
    # 绘制树结点
    createPlot.ax1.text(xMid,yMid,txtString)

# 绘制决策树
def plotTree(myTree,parentPt,nodeTxt):
    # 定义并获得决策树的叶子结点数
    numLeafs=getNumLeafs(myTree)
    depth=getTreeDepth(myTree)
    # 得到第一个特征
    firstStr=list(myTree.keys())[0]
    # 计算坐标，x坐标为当前树的叶子结点数目除以整个树的叶子结点数再除以2，y为起点
    cntrPt=(plotTree.xOff+(1.0+float(numLeafs))/2.0/plotTree.totalW,plotTree.yOff)
    # 绘制中间结点，即决策树结点，也是当前树的根结点
    plotMidText(cntrPt,parentPt,nodeTxt)
    # 绘制决策树结点
    plotNode(firstStr,cntrPt,parentPt,decisionNode)
    # 根据firstStr找到对应的值
    secondDict=myTree[firstStr]
    # 因为进入了下一层，所以y的坐标要变 ，图像坐标是从左上角为原点
    plotTree.yOff=plotTree.yOff-1.0/plotTree.totalD
    # 遍历secondDict
    for key in secondDict.keys():
        # 如果secondDict[key]为一棵子决策树，即字典
        if type(secondDict[key]).__name__=='dict':
            # 递归的绘制决策树
            plotTree(secondDict[key],cntrPt,str(key))
        # 若secondDict[key]为叶子结点
        else:
            # 计算叶子结点的横坐标
            plotTree.xOff=plotTree.xOff+1.0/plotTree.totalW
            # 绘制叶子结点
            plotNode(secondDict[key],(plotTree.xOff,plotTree.yOff),cntrPt,leafNode)
            #特征值
            plotMidText((plotTree.xOff,plotTree.yOff),cntrPt,str(key))
    # 计算纵坐标
    plotTree.yOff=plotTree.yOff+1.0/plotTree.totalD

#主函数 绘图
def createPlot(inTree):
    # 定义一块画布
    fig=plt.figure(1,facecolor='white')
    # 清空画布
    fig.clf()
    # 定义横纵坐标轴，无内容
    axprops=dict(xticks=[],yticks=[])
    # 绘制图像，无边框，无坐标轴
    createPlot.ax1=plt.subplot(111,frameon=False,**axprops)
    # plotTree.totalW保存的是树的宽
    plotTree.totalW=float(getNumLeafs(inTree))
    # plotTree.totalD保存的是树的高
    plotTree.totalD=float(getTreeDepth(inTree))
    # 决策树起始横坐标
    plotTree.xOff=-0.5/plotTree.totalW
    # 决策树的起始纵坐标
    plotTree.yOff=1.0
    # 绘制决策树
    plotTree(inTree,(0.5,1.0),'')
    # 显示图像
    plt.show()

对上述可视化操作运行：

运行得到：

3、将数据集增加一列连续型数据

我是直接在后面再加上一个特征属性获奖率，是个连续型数据

3.1、离散型与连续型处理区别

通过将连续型转换成离散型，再按照上述代码进行。就是以这个集美大学三好学生评选表为例，先从小到大排序，再从第一个开始在第1，2个样本的获奖率切一刀，然后左边只有一个0.089，右边14个，这是计算获奖率小于0.089的Gain(D,获奖率<0.089)，这是第一个信息增益，再在第2，3个样本来一刀，左边两个右边13个，计算Gain(D,获奖率<0.101)，以此类推，求初最后Gain(D,获奖率<651),然后再选出最大的信息增益，从而选出最合适的分割点。具体代码修改如下：

def createTree(dataSet,labels):
    classList=[example[-1] for example in dataSet]#递归的调用，判断最后的标签是否都是一样的
    if classList.count(classList[0])==len(classList):#看这里面的标签是否和整体相同
        return classList[0]
    if len(dataSet[0]) == 1:#用了一列就删掉一列，直到只剩下一个标签，遍历完数据集
        return majorityCnt(classList)#返回最多的类别
    bestFeat=chooseBestFeatureToSplit(dataSet)#遍历数据集，选择最优的特征去进行分割
    bestFeatLabel=''#得到最好特征的名称

    # 记录此刻是连续值还是离散值,1连续，2离散
    flagSeries = 0

    # 如果是连续值，记录连续值的划分点
    midSeries = 0.0

    # 如果是元组的话，说明此时是连续值
    if isinstance(bestFeat, tuple):
        # 重新修改分叉点信息
        bestFeatLabel = str(labels[bestFeat[0]]) + '小于' + str(bestFeat[1]) + '?'
        # 得到当前的划分点
        midSeries = bestFeat[1]
        # 得到下标值
        bestFeat = bestFeat[0]
        # 连续值标志
        flagSeries = 1
    else:
        # 得到分叉点信息
        bestFeatLabel = labels[bestFeat]
        # 离散值标志
        flagSeries = 0

    myTree={bestFeatLabel:{}} #字典嵌套字典，对应根节点下面的节点，第一次是根节点，之后嵌套节点
    
    featValues=[example[bestFeat] for example in dataSet]#统计里面有多少个相同的属性，就是分多少个树杈

    # 连续值处理
    if flagSeries:
        # 将连续值划分为不大于当前划分点和大于当前划分点两部分
        eltDataSet, gtDataSet = splitDataSetForSeries(dataSet, bestFeat, midSeries)
        # 得到剩下的特征标签
        subLabels = labels[:]
        # 递归处理小于划分点的子树
        subTree = createTree(eltDataSet, subLabels)
        myTree[bestFeatLabel]['小于'] = subTree

        # 递归处理大于当前划分点的子树
        subTree = createTree(gtDataSet, subLabels)
        myTree[bestFeatLabel]['大于'] = subTree

        return myTree

    # 离散值处理
    else:
        del(labels[bestFeat])#嵌套一个节点后要删掉，列名
        uniqueVals=set(featValues)
        for value in uniqueVals:
            subLabels=labels[:]#去掉一列的标签
            myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)#在当前最好节点下继续做，递归创建添加最好的节点下面，splitDataSet切分后的数据集
        return myTree

最优解特征就是上述连续型数据处理的过程，分成两个小于分割点的和大于分割点的之后在递归按照离散的处理就可以了。

def chooseBestFeatureToSplit(dataSet):  #选择最优的特征
    numFeatures = len(dataSet[0])-1#当前特征数量，要减去labels
    baseEntropy = calcShannonEnt(dataSet)  #基础的熵值，啥都没做的时候的熵值
    flagSeries = 0# 标记当前最好的特征值是不是连续值
    bestSeriesMid = 0.0# 如果是连续值的话，用来记录连续值的划分点
    bestInfoGain = 0#最好的数据列
    bestFeature = -1#最好的特征
    for i in range(numFeatures):#遍历特征列
        featList = [example[i] for example in dataSet]#得到当前列的特征
        if isinstance(featList[0], str):
            uniqueVals = set(featList)#得到唯一的个数
            newEntropy = 0
            for value in uniqueVals:
                subDataSet = splitDataSet(dataSet,i,value)
                prob =len(subDataSet)/float(len(dataSet))#看下去掉列后占总体的比值，后面要用到剩下的占总体的概率值
                newEntropy +=prob*calcShannonEnt(subDataSet) #计算累加后面新的熵值，对每一个特征进行操作
                #print("信息熵：%f"  %newEntropy)
            infoGain = baseEntropy - newEntropy #信息增益
            #print("信息增益：%f"  %infoGain)
            
        else:
            maxInfoGain = 0.0 # 记录最大的信息增益  
            bestMid = -1# 最好的划分点
            featList = [example[i] for example in dataSet]# 得到数据集中所有的当前特征值列表
            classList = [example[-1] for example in dataSet]# 得到分类列表
            dictList = dict(zip(featList, classList))
            sortedFeatList = sorted(dictList.items(), key=operator.itemgetter(0)) # 将其从小到大排序，按照连续值的大小排列
            numberForFeatList = len(sortedFeatList)# 计算连续值有多少个
            midFeatList = [round((sortedFeatList[i][0] + sortedFeatList[i+1][0])/2.0, 3)for i in range(numberForFeatList - 1)]# 计算划分点，保留三位小数                                                                                                                                
            # 计算出各个划分点信息增益
            for mid in midFeatList:  
                eltDataSet, gtDataSet = splitDataSetForSeries(dataSet, i, mid)# 将连续值划分为不大于当前划分点和大于当前划分点两部分                                                                                                                                                                                                                                                        
                newEntropy = len(eltDataSet)/len(sortedFeatList)*calcShannonEnt(eltDataSet) + len(gtDataSet)/len(sortedFeatList)*calcShannonEnt(gtDataSet)# 计算两部分的特征值熵和权重的乘积之和 
                infoGain = baseEntropy - newEntropy # 计算出信息增益
                if infoGain > maxInfoGain:
                    bestMid = mid
                    maxInfoGain = infoGain

        print('当前特征值为：' + labels[i] + '，对应的信息增益值为：' + str(infoGain))
        if infoGain > bestInfoGain:
            # 最好的信息增益
            bestInfoGain = infoGain
            # 新的最好的用来划分的特征值
            bestFeature = i
            flagSeries = 0
            if not isinstance(dataSet[0][bestFeature], str):
                flagSeries = 1
                bestSeriesMid = bestMid
    print('信息增益最大的特征为：' + labels[bestFeature])

    if flagSeries:
        return bestFeature, bestSeriesMid
    else:
        return bestFeature

也新添加了切分连续数据集的方法

def splitDataSetForSeries(dataSet, axis, value):
    """
    按照给定的数值，将数据集分为不大于和大于两部分
    :param dataSet: 要划分的数据集
    :param i: 特征值所在的下标
    :param value: 划分值
    :return:
    """
    eltDataSet = []# 用来保存不大于划分值的集合
    gtDataSet = []# 用来保存大于划分值的集合
    # 进行划分，保留该特征值
    for feat in dataSet:
        if feat[axis] <= value:
            eltDataSet.append(feat)
        else:
            gtDataSet.append(feat)

    return eltDataSet, gtDataSet

最后运行得到如下图：
在选择最有特征方法适当print，使结果更易看出。

可视化：

3.2、注意事项

添加下方红圈里代码防止乱码（无线显示中文）。

列表索引必须是整数或切片，而不是元组，而下方又是以是否元组为判断连续值的依据，所以直接改最好特征标签，同时也不影响离散型操作。

4、预剪枝介绍及实现

预剪枝，即在生成决策树的过程中提前停止树的增长。核心思想是在树中结点进行扩展之前，先计算当前的划分是否能带来模型泛化能力的提升，如果不能，则不再继续生长子树。此时可能存在不同类别的样本同时存于结点中，按照多数投票的原则判断该结点所属类别。预剪枝对于何时停止决策树的生长有以下几种方法：
( 1 ）当树到达一定深度的时候，停止树的生长。
( 2 ）当到达当前结点的样本数量小于某个阈值的时候，停止树的生长。
( 3 ）计算每次分裂对测试集的准确度提升，当小于某个阈值的时候，不再继续扩展。
集美大学三好学生评选表

—	是否挂科	获得奖学金次数	综测评价	体质健康是否达标	宿舍检评	是否符合条件
1	no	4	excellect	yes	excellent	yes
3	no	0	excellect	yes	excellent	yes
7	no	1	excellect	yes	excellent	yes
5	no	2	good	yes	excellent	yes
4	no	1	excellect	no	excellent	no
2	no	1	good	no	excellent	no
6	no	1	excellect	yes	excellent	no
8	yes	0	good	yes	excellent	no
9	no	2	good	yes	good	no
–	–	–		–	–	–
10	no	2	excellect	yes	excellent	yes
14	no	4	excellect	yes	excellent	yes
15	no	2	excellect	yes	excellent	yes
11	yes	2	excellect	yes	excellent	no
12	yes	0	good	yes	good	no
13	yes	0	excellect	yes	pass	no

还是以集美大学三好学生评选表为例：
将1-9作为训练集，10-15作为验证集
未剪枝之前的图是这样：

开始对Failclass进行验证，再划分前:

划分后（验证过程：首先划分前对验证集可以看出3yes,3no所以验证集精度为3 / 6 = 50%，对其进行划分得到no，yes两者，在训练集里yes对应的标签都为no，no对应的标签4yes，4no，所以就以yes为标签，在转移到验证集里no对应的标签都是yes，所以{10，14，15}还是三个，3 / 6 = 50%,结果还是50%没得到提升，那就不划分了）：

最后得到的结果是：

但是，如果你继续往下分会发现：

然后继续对这个Scholarship-num划分：得到0对应标签是yes，1对应标签是no，2对应标签是yes，4对应标签是yes,所以到验证里，0，2，4对应标签都是yes，{10，14，15，11，12，13}六个全是，6 / 6 = 100%，精度提高了所以，那不是应该要继续分吗，但是之前又不划分，这不就矛盾了吗？

预剪枝思考：

显然，根据上图可知预剪枝使得很多分支没有展开，虽然这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间。但是，有些分支虽当前不能提升泛化性。甚至可能导致泛化性暂时降低，但在其基础上进行后续划分却有可能导致显著提高，因此预剪枝的这种贪心本质，给决策树带来了欠拟合的风险。所以，接下来带来后剪枝方法

5、后剪枝介绍及实现

后剪枝，是在已经生成的过拟合决策树上进行剪枝，得到简化版的剪枝决策树。核心思想是让算法生成一棵完全生长的决策树，然后从最底层向上计算是否剪枝。剪枝过程将子树删除，用一个叶子结点替代，该结点的类别同样按照多数投票的原则进行判断。同样地，后剪枝也可以通过在测试集上的准确率进行判断，如果剪枝过后准确率有所提升，则进行剪枝。相比于预剪枝，后剪枝方法通常可以得到泛化能力更强的决策树，但时间开销会更大。
还是以上面的集美大学三好学生评选表为例：
未剪枝结果如下：

未剪枝前还是之前算的50%，自底向上，对Hostel-assessment进行剪枝excellent对应的标签是yes，good对应的标签是no，转到验证集{10，14，15，11}是yes，那么4 / 6 = 66.7%是划分后验证集精度，那么看Hostel-assessment在Physically-fit是yes的范围里看yes多还是no多，所以可代替为yes,那么则变为

继续对Physically-fit划分，此时验证集精度为如图：

Physically-fit在训练集里yes对应的标签为4yes,3no，则为yes,no对应的标签全为no，则为no,所以{10，14，15，11，12，13}全为yes，则6 / 6 = 100%验证集精度提升，那么就将此节点代替为no(在Scholarship-num=1下no标签大于1)所以变成如下图：

然后Hostel-assessment划分后的验证集精度是66.7%,也是没有提升，跟全部树刚开始的精度一样没提升所以，最后剪枝后的树如下图：

后剪枝相比于预剪枝：

显然，从上图可知后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下，后剪枝决策树的欠拟合风险很小，泛化性能往往由于预剪枝决策树，但是后剪枝过程是在生成完全决策树后进行的，并且要自下往上地对树中的非叶子节点逐一进行考察计算，因此训练时间的开销比为剪枝和预剪枝决策树都要大得多。

预剪枝实现：

# 创建预剪枝决策树
def createTreePrePruning(dataTrain, labelTrain, dataTest, labelTest, names):
   
    trainData = np.asarray(dataTrain)
    labelTrain = np.asarray(labelTrain)
    testData = np.asarray(dataTest)
    labelTest = np.asarray(labelTest)
    names = np.asarray(names)
    # 如果结果为单一结果
    if len(set(labelTrain)) == 1: 
        return labelTrain[0] 
    # 如果没有待分类特征
    elif trainData.size == 0: 
        return majorityCnt(labelTrain)
    # 其他情况则选取特征 
    bestFeat, bestEnt = chooseBestFeatureToSplit(dataTrain, labelTrain)
    # 取特征名称
    bestFeatName = names[bestFeat]
    # 从特征名称列表删除已取得特征名称
    names = np.delete(names, [bestFeat])
    # 根据最优特征进行分割
    dataTrainSet, labelTrainSet = splitFeatureData(dataTrain, labelTrain, bestFeat)

    # 预剪枝评估
    # 划分前的分类标签
    labelTrainLabelPre = majorityCnt(labelTrain)
    labelTrainRatioPre = equalNums(labelTrain, labelTrainLabelPre) / labelTrain.size
    # 划分后的精度计算 
    if dataTest is not None: 
        dataTestSet, labelTestSet = splitFeatureData(dataTest, labelTest, bestFeat)
        # 划分前的测试标签正确比例
        labelTestRatioPre = equalNums(labelTest, labelTrainLabelPre) / labelTest.size
        # 划分后 每个特征值的分类标签正确的数量
        labelTrainEqNumPost = 0
        for val in labelTrainSet.keys():
            labelTrainEqNumPost += equalNums(labelTestSet.get(val), majorityCnt(labelTrainSet.get(val))) + 0.0
        # 划分后 正确的比例
        labelTestRatioPost = labelTrainEqNumPost / labelTest.size 
    
    # 如果没有评估数据 但划分前的精度等于最小值0.5 则继续划分
    if dataTest is None and labelTrainRatioPre == 0.5:
        decisionTree = {bestFeatName: {}}
        for featValue in dataTrainSet.keys():
            decisionTree[bestFeatName][featValue] = createTreePrePruning(dataTrainSet.get(featValue), labelTrainSet.get(featValue)
                                      , None, None, names)
    elif dataTest is None:
        return labelTrainLabelPre 
    # 如果划分后的精度相比划分前的精度下降, 则直接作为叶子节点返回
    elif labelTestRatioPost < labelTestRatioPre:
        return labelTrainLabelPre
    else :
        # 根据选取的特征名称创建树节点
        decisionTree = {bestFeatName: {}}
        # 对最优特征的每个特征值所分的数据子集进行计算
        for featValue in dataTrainSet.keys():
            decisionTree[bestFeatName][featValue] = createTreePrePruning(dataTrainSet.get(featValue), labelTrainSet.get(featValue)
                                      , dataTestSet.get(featValue), 		labelTestSet.get(featValue)
                                      , names)
    return decisionTree 


xgDataTrain, xgLabelTrain, xgDataTest, xgLabelTest = splitXgData20(xgData, xgLabel)
# 生成不剪枝的树
xgTreeTrain = createTree(xgDataTrain, xgLabelTrain, xgName)
# 生成预剪枝的树
xgTreePrePruning = createTreePrePruning(xgDataTrain, xgLabelTrain, xgDataTest, xgLabelTest, xgName)
# 画剪枝前的树
print("剪枝前的树")
createPlot(xgTreeTrain)
# 画剪枝后的树
print("剪枝后的树")
createPlot(xgTreePrePruning)

对数据集进行分类前9个为训练集，后6个为验证集

def splitXgData20(xgData, xgLabel):
    xgDataTrain = xgData[[0, 1, 2, 3, 4, 5, 6, 7, 8],:]
    xgDataTest = xgData[[9, 10, 11, 12, 13, 14],:]
    xgLabelTrain = xgLabel[[0, 1, 2, 3, 4, 5, 6, 7, 8]]
    xgLabelTest = xgLabel[[9, 10, 11, 12, 13, 14]]
    return xgDataTrain, xgLabelTrain, xgDataTest, xgLabelTest

运行结果：

后剪枝实现

# 后剪枝 训练完成后决策节点进行替换评估  这里可以直接对xgTreeTrain进行操作
def treePostPruning(labeledTree, dataTest, labelTest, names):
    newTree = labeledTree.copy()
    dataTest = np.asarray(dataTest)
    labelTest = np.asarray(labelTest)
    names = np.asarray(names)
    # 取决策节点的名称 即特征的名称
    featName = list(labeledTree.keys())[0]
    print("\n当前节点：" + featName)
    # 取特征的列
    featCol = np.argwhere(names==featName)[0][0]
    names = np.delete(names, [featCol])
    print("当前节点划分的数据维度：" + str(names))
    print("当前节点划分的数据：" )
    print(dataTest)
    print(labelTest)
    # 该特征下所有值的字典
    newTree[featName] = labeledTree[featName].copy()
    featValueDict = newTree[featName]
    featPreLabel = featValueDict.pop("_vpdl")
    print("当前节点预划分标签：" + featPreLabel)
    # 是否为子树的标记
    subTreeFlag = 0
    # 分割测试数据 如果有数据 则进行测试或递归调用  np的array我不知道怎么判断是否None, 用is None是错的
    dataFlag = 1 if sum(dataTest.shape) > 0 else 0
    if dataFlag == 1:
        print("当前节点有划分数据！")
        dataTestSet, labelTestSet = splitFeatureData(dataTest, labelTest, featCol)
    for featValue in featValueDict.keys():
        print("当前节点属性 {0} 的子节点：{1}".format(featValue ,str(featValueDict[featValue])))
        if dataFlag == 1 and type(featValueDict[featValue]) == dict:
            subTreeFlag = 1 
            # 如果是子树则递归
            newTree[featName][featValue] = treePostPruning(featValueDict[featValue], dataTestSet.get(featValue), labelTestSet.get(featValue), names)
            # 如果递归后为叶子 则后续进行评估
            if type(featValueDict[featValue]) != dict:
                subTreeFlag = 0 
            
        # 如果没有数据  则转换子树
        if dataFlag == 0 and type(featValueDict[featValue]) == dict: 
            subTreeFlag = 1 
            print("当前节点无划分数据！直接转换树："+str(featValueDict[featValue]))
            newTree[featName][featValue] = convertTree(featValueDict[featValue])
            print("转换结果：" + str(convertTree(featValueDict[featValue])))
    # 如果全为叶子节点， 评估需要划分前的标签，这里思考两种方法，
    #     一是，不改变原来的训练函数，评估时使用训练数据对划分前的节点标签重新打标
    #     二是，改进训练函数，在训练的同时为每个节点增加划分前的标签，这样可以保证评估时只使用测试数据，避免再次使用大量的训练数据
    #     这里考虑第二种方法 写新的函数 createTreeWithLabel，当然也可以修改createTree来添加参数实现
    if subTreeFlag == 0:
        ratioPreDivision = equalNums(labelTest, featPreLabel) / labelTest.size
        equalNum = 0
        for val in labelTestSet.keys():
            equalNum += equalNums(labelTestSet[val], featValueDict[val])
        ratioAfterDivision = equalNum / labelTest.size 
        print("当前节点预划分标签的准确率：" + str(ratioPreDivision))
        print("当前节点划分后的准确率：" + str(ratioAfterDivision))
        # 如果划分后的测试数据准确率低于划分前的，则划分无效，进行剪枝，即使节点等于预划分标签
        # 注意这里取的是小于，如果有需要 也可以取 小于等于
        if ratioAfterDivision < ratioPreDivision:
            newTree = featPreLabel 
    return newTree


xgTreeBeforePostPruning = {'Failclass': {"_vpdl": "是"
                                        ,'yes': 'no', 'no': {'Scholarship-num': {"_vpdl": "是"
                                        ,'0': 'yes', '1': {'Physically-fit': {"_vpdl": "是",'yes': {'Hostel-assessment': {"_vpdl": "是"
                                        ,'excllent': {'Grade-ranking': {"_vpdl": "是",'excllent': 'yes'}}}}, 'no': 'no'}}, '2': {'Hostel-assessment': {'good': 'no', 'excllent': 'yes'}}, '4': 'yes'}}}}
                                        

xgTreePostPruning = treePostPruning(xgTreeBeforePostPruning, xgDataTest, xgLabelTest, xgName)
createPlot(convertTree(xgTreeBeforePostPruning))
createPlot(xgTreeBeforePostPruning)

后剪枝评估时需要划分前的标签，这里思考两种方法：
一是，不改变原来的训练函数，评估时使用训练数据对划分前的节点标签重新打标
二是，改进训练函数，在训练的同时为每个节点增加划分前的标签，这样可以保证评估时只使用测试数据，避免再次使用大量的训练数据
结果如图：

代码参考及后剪枝划分标签参考：https://blog.csdn.net/ylhlly/articl****e/details/93213633

6、总结

**上述决策树算法用的时ID3算法，接之前的【机器学习】决策树算法–1(算法介绍)中ID3算法已经以上述例子作了具体的讲述，具体算法核心过程：从根节点开始，计算所有特征里的信息熵，之后算出信息增益，并选择信息增益最大的特征作为下一个节点，继续建立这个特征的子节点，在对子节点进行递归调用上述方法，构建决策树，直到所有特征遍历完或者其信息增益均很小时停止；但是，对于编号的特征属性还是比其他特征属性要有所喜好。所以，信息增益对可取值数目较多的属性有所喜好。
还有就是离散型和连续型数据的区别，学会理解两种类型的区别以及决策树中处理方法。
对比未剪枝的决策树和经过预剪枝的决策树可以看出：预剪枝使得决策树的很多分支都没有“展开”，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但是，另一方面，因为预剪枝是基于“贪心”的，所以，虽然当前划分不能提升泛华性能，但是基于该划分的后续划分却有可能导致性能提升，因此预剪枝决策树有可能带来欠拟合的风险。
**

你可能感兴趣的:(决策树,算法)

12312312 二进制掌控者 c++
c语言中的小小白-CSDN博客c语言中的小小白关注算法,c++,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm=1001.2014.3001.5343给大家分享一句我很喜欢我话：知不足而奋进，望远山而前行！！！铁铁们，成功的路上必然是孤独且艰难的，但是我们不可以放弃，远山就在前方，但我们
你知道什么是回调函数吗？二进制掌控者 #C语言专栏 c语言开发语言
c语言中的小小白-CSDN博客c语言中的小小白关注算法,c++,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm=1001.2014.3001.5343给大家分享一句我很喜欢我话：知不足而奋进，望远山而前行！！！铁铁们，成功的路上必然是孤独且艰难的，但是我们不可以放弃，远山就在前方，但我们
贪心算法day31|56. 合并区间、738. 单调递增的数字(整数与字符串的转换)、贪心刷题总结桃酥403 贪心算法算法 leetcode c++字符串
贪心算法day31|56.合并区间、738.单调递增的数字、贪心刷题总结56.合并区间738.单调递增的数字贪心刷题总结56.合并区间以数组intervals表示若干个区间的集合，其中单个区间为intervals[i]=[starti,endi]。请你合并所有重叠的区间，并返回一个不重叠的区间数组，该数组需恰好覆盖输入中的所有区间。示例1：输入：intervals=[[1,3],[2,6],[8,
哈希表 and 算法 (笑)z 算法散列表哈希算法
哈希表：哈希表（Hashtable），也被称为散列表，是一种根据关键码值（Keyvalue）而直接进行访问的数据结构。它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数被称为散列函数或哈希函数，而存放记录的数组则被称为散列表或哈希表。哈希表的优点查找速度快：哈希表通过哈希函数直接定位到数组中的位置，因此查找速度非常快，时间复杂度接近O(1)。插入和删除操作方便：由于哈希表
数据结构，有头链表 (笑)z 数据结构
数据结构基本概念：1.定义一组用来保存一种或者多种特定关系的数据的集合（组织和存储数据）程序的设计：将现实中大量而复杂的问题以特定的数据类型和特定的存储结构存储在内存中，并在此基础上实现某个特定的功能的操作；程序=数据结构+算法2.数据与数据之间的关系数据的逻辑结构：数据元素与元素之间的关系集合：关系平等线性结构：元素之间一对一的关系（表（数组，链表），队列。栈。。。）树型结构：元素之间一对多的关
Python中的策略模式：解锁编程的灵活之钥小鹿( ﹡ˆoˆ﹡ ) python 观察者模式开发语言 Python
引言在软件开发过程中，我们经常需要根据不同的条件或上下文来改变算法的行为。例如，在电子商务网站中，根据用户所在地区选择合适的支付方式；或者在游戏中，根据玩家等级调整敌人AI的行为。这些场景都需要我们的程序能够动态地切换算法。而这就是策略模式大显身手的地方了！策略模式允许我们将一组算法封装起来，并使它们可以互相替换。这样一来，算法的变化便不会影响到使用它的客户端代码，从而实现了算法的独立性和灵活性。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
KMP-看毛片算法无休居士数据结构
#include#includevoidinsert(int*arr,inta,intn){/*0到n-1都已排好序*/inti;intkey=a;for(i=0;i=i;j--){arr[j+1]=arr[j];}arr[i]=key;return;}}arr[n]=key;return;}voidsort(int*arr,intsize){if(size<2)return;inti;for(i
2024年CSP-J初赛备考建议再临TSC c++杂谈 c++学习
针对2024年CSP-J（ComputerSciencePrinciplesJunior，即计算机科学原理初级认证）的备考，首先，先来看考试可能考的东西：动规（包括背包问题），主要在程序阅读还有程序补全题考，这方面，了解动规的原理就可以轻松拿分高精，也是在阅读和补全题，了解原理即可，Z2~Z3应该就学高精了深搜广搜，基础题可能会给你一个片段，然后问你这是什么算法，或者，问你下列选项中哪个正确，给你
详解贪心算法凭君语未可算法软考算法贪心算法
贪心算法什么是贪心算法？贪心算法的特点贪心算法的应用场景贪心算法的基本思路贪心算法的经典应用1.活动选择问题2.最小硬币找零问题3.霍夫曼编码问题贪心算法的正确性贪心算法的优缺点总结什么是贪心算法？贪心算法（GreedyAlgorithm）是一种基于每一步都选择当前最优解的算法设计思想。它在每个阶段总是做出在当前看来最优的选择（局部最优解），而不回溯或考虑整个问题的全局最优性。它期望通过这样逐步构
Java 后端程序员必须要懂的几种框架分享 Java烟雨 java mvc 开发语言
MVC框架MVC模式是软件工程中的一种软件架构模式，可以把软件系统分为三个基本部分：模型（Model），编写程序应有的功能（实现算法等等）、进行数据管理和数据库设计，。视图（View），界面设计人员进行图形界面设计。控制器（Controller），负责转发请求，对请求进行处理。比较知名的MVC框架有SpringMVC，是一种基于请求驱动类型的轻量级Web框架，目的是帮助我们后端程序员简化开发。我个
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
【ShuQiHere】从插入排序到归并排序：探究经典排序算法的魅力与实战应用 ShuQiHere 排序算法算法
【ShuQiHere】引言在计算机科学领域，排序算法是我们日常编程中经常会遇到的基本问题。无论是对数据进行排序、查找，还是优化复杂系统，排序算法都起着至关重要的作用。在这篇文章中，我们将详细探讨两种经典排序算法：插入排序和归并排序，通过对它们的原理、时间复杂度和实际应用场景的分析，帮你更好地理解并灵活应用这些算法。1.插入排序：像整理扑克牌一样排序插入排序（InsertionSort）是一种简单且
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
Java-后端程序员个人知识总结金肴羽 java 开发语言
文章目录概要1.编程语言2.数据结构与算法3.数据库知识4.框架和库5.服务器管理6.网络知识7.版本控制8.测试9.安全知识10.系统设计11.编码规范与最佳实践12.持续学习和适应能力概要后端程序员，主要负责应用程序的逻辑、数据库交互、服务器配置以及应用的性能优化等。成为一名优秀的后台程序员，需要掌握以下技能：1.编程语言掌握至少一种后台编程语言JavaPythonHtmlJavaScript
【3.6 python中的numpy编写一个“手写数字识”的神经网络】 wang151038606 深度学习入门 python numpy 神经网络
3.6python中的numpy编写一个“手写数字识”的神经网络要使用Python中的NumPy库从头开始编写一个“手写数字识别”的神经网络，我们通常会处理MNIST数据集，这是一个广泛使用的包含手写数字的图像数据集。但是，完全用NumPy来实现神经网络（包括数据的加载、预处理、模型定义、前向传播、损失计算、反向传播和权重更新）是一个相当复杂的任务，因为NumPy本身不提供自动微分或高级优化算法（
掌握检索技术：构建高效知识检索系统的架构与算法23 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
掌握检索技术：构建高效知识检索系统的架构与算法21 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
连通无向图一般中心的算法及其matlab程序详解夏天天天天天天天# 图论算法 matlab 图论
#################本文为学习《图论算法及其MATLAB实现》的学习笔记#################若服务点只允许取在各顶点上,而服务对象却取在各顶点及各边(或弧)上的点,则在所有顶点中选定一个顶点作为图的一般中心其条件是该点离它本身的最远服务对象(包括顶点及各边(或弧)上的点)的距离达到极小值。寻找无向图的一般中心对解决网络最佳服务点确定的问题是十分有效的，使得服务对象的范围
垂直领域大模型微调实践经验最全总结人工智能大模型讲师培训咨询叶梓人工智能微调性能优化大模型 ai 训练微调大模型微调
瓦力算法学研所技术总结专栏作者：vivida本篇从基座模型选择、模型整体架构、数据设计、训练微调四个角度总结垂直领域大模型微调经验。本篇将现有垂类大模型微调已公布的实践经验做一个全面的总结，大部分经验实测可推广，大家在自己实践过程中可以进行适当参考。下面是一个快捷目录，其中数据设计和训练微调是重点。1.基座模型选择2.模型整体架构3.数据设计4.训练微调基座模型选择1.医学类大模型微调怎么选择大模
MATLAB|基于多时段动态电价的电动汽车有序充电策略优化科研工作站电动汽车 matlab 电动汽车动态电价场景分析无序充电有序充电粒子群
目录主要内容模型研究一、蒙特卡洛模拟部分代码部分结果一览下载链接主要内容该模型参考文献《基于多时段动态电价的电动汽车有序充电策略优化》，采用蒙特卡洛随机抽样方法来模拟电动汽车无序充电状态下的负荷曲线，并设置三个对比算例--基础场景（无电动汽车）、电动汽车无序充电和电动汽车有序充电场景，有序充电场景以电网端负荷差最小和用户侧充电成本最经济为目标，通过粒子群算法进行求解，程序采用matlab+matp
【HarmonyOS】- 常见算法简单写法数的羊都睡了 HarmonyOS ArkTS 鸿蒙
文章目录知识回顾前言源码分析1.冒泡排序2.二分法查找拓展知识时间、空间复杂度总结知识回顾前言常见算法简单写法源码分析1.冒泡排序functionbubbleSort(arr:number[]):number[]{constn=arr.length;for(leti=0;iarr[j+1]){//交换元素consttemp=arr[j];arr[j]=arr[j+1];arr[j+1]=temp;
大模型框架：vLLM m0_37559973 大模型大模型通义千问 Qwen
目录一、vLLM介绍二、安装vLLM2.1使用GPU进行安装2.2使用CPU进行安装2.3相关配置三、使用vLLM3.1离线推理3.2适配OpenAI-API的API服务一、vLLM介绍vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。二、安装vLLM2.1使用GPU进行安装vLLM是一个Py
AI算法部署方式对比分析：哪种方案性价比最高？ TSINGSEE AI智能人工智能视频监控技术安防视频监控
随着人工智能技术的飞速发展，AI算法在各个领域的应用日益广泛。AI算法的部署方式直接关系到系统的性能、实时性、成本及安全性等多个方面。本文将探讨AI算法分析的三种主要部署方式：本地计算、边缘计算和云计算，并详细分析它们的优劣性。一、本地计算1）部署方式本地计算是指将AI算法直接部署在摄像头或其他终端设备上。这种部署方式使得数据处理和分析在设备本地完成，无需通过网络传输数据。2）优点高效实时：由于数
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
Vue项目中实现AES加密解密小金子J 前端框架 JavaScript分享 vue.js 前端 javascript
在前端开发中，保护用户数据的安全性至关重要。AES（高级加密标准）作为一种广泛使用的对称加密算法，因其高效性和安全性而受到青睐。本文将介绍如何在Vue项目中实现AES加密解密，包括ECB和CBC两种模式。环境搭建在Vue项目中使用AES加密解密功能之前，需要先安装crypto-js库。通过执行以下命令，可以轻松地将crypto-js添加到项目中：npminstallcrypto-js--save-
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
【JAVA】数据脱敏技术（对称加密算法、非对称加密算法、哈希算法、消息认证码（MAC）算法、密钥交换算法）使用方法来一杯龙舌兰 Java java 开发语言数据脱敏技术加密算法 AES
文章目录数据脱敏的定义和目的数据脱敏的技术分类对称加密算法非对称加密算法哈希算法消息认证码（MAC）算法密钥交换算法数据脱敏的技术方案实现字符替换哈希算法（例如:SHA-3算法）消息认证码（MAC）算法(CMAC)消息认证码（MAC）算法(HMAC)对称/非对称加密实现方式（例如：AES加密算法）数据分段数据伪装更多相关内容可查看数据脱敏的定义和目的数据脱敏（DataMasking）是指对数据进行
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class