lullaby_UUN

决策树之剪枝处理、连续值处理

1.剪枝处理

剪枝是一种可以提高算法时间和空间效率的技巧，经过剪枝的算法在执行效率上远超过未经剪枝处理的算法。有些算法甚至可以通过剪枝优化降低计算的时间复杂度等级，突破应用瓶颈。

首先剪枝（pruning）的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本，不停地对结点进行划分，因此这会导致整棵树的分支过多，也就导致了过拟合。决策树的剪枝策略最基本的有两种：预剪枝（pre-pruning）和后剪枝（post-pruning）

1.1剪枝策略

决策树算法是机器学习中的经典算法。如果要解决分类问题，决策树算法再合适不过了。不过决策树算法并非至善至美，决策树分类算法最容易出现的问题就是“过拟合”。什么是“过拟合”我们在教程的开篇已经提及过，它指的机器学习模型对于训练集数据能够实现较好的预测，而对于测试集性能较差。

“过拟合”使决策树模型学习到了并不具备普遍意义的分类决策条件，从而导致模型的分类效率、泛化能力降低。

决策树出现过拟合的原因其实很简单，因为它注重细节。决策树会根据数据集各个维度的重要性来选择 if -else 分支，如果决策树将所有的特征属性都用完的情况下，那么过拟合现象就很容易出现。

我们知道，每个数据集都会有各种各样的属性维度，总会出现一些属性维度样本分类实际上并不存在关联关系的情况。因此，在理想情况下决策树算法应尽可能少地使用这些不相关属性，但理想终归是理想，在现实情况下很难实现。那么我们要如何解决这种过拟合问题呢？这时就要用到“剪枝策略”。

1.2预剪枝

预剪枝（pre-pruning）：预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛华性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。

1.2.1代码实现

在上一篇中已经完成了创建数据集、计算数据集的信息熵、计算数据集的信息增益并根据最优属性进行划分的决策树创建https://blog.csdn.net/lullaby_UUN/article/details/127872437?spm=1001.2014.3001.5502

在这里我们将仅展示预剪枝的代码。

创建数据集

def createDataSet():
    """
    传入要处理的数据集
    :return: 数据集内容，数据集标签
    """
    dataSet = [[1, 1, 1, 'yes'],
               [1, 1, 1, 'yes'],
               [0, 1, 0, 'no'],
               [1, 0, 1, 'yes'],
               [1, 0, 1, 'yes'],
               [0, 0, 1, 'no'],
               [1, 0, 0, 'no'],
               [1, 0, 1, 'yes'],
               [0, 0, 1, 'no']]
    labels = ['十一点前睡觉', '每天运动', '每天护肤']
    # print(f'dataset:\n{dataSet}')
    return dataSet, labels

划分训练集和测试集

def splitcreatDataSet(myData, myLabel):
    myDataTrain = myData[[0, 1, 2, 5, 6, 9],:]
    myDataTest = myData[[3, 4, 7, 8],:]
    myLabelTrain = myLabel[[0, 1, 2, 5, 6, 9]]
    myLabelTest = myLabel[[3, 4, 7, 8]]
    return myDataTrain, myLabelTrain, myDataTest, myLabelTest

预剪枝代码

def createTreePrePruning(dataTrain, labelTrain, dataTest, labelTest, names, method = 'id3'):
    trainData = np.asarray(dataTrain)
    labelTrain = np.asarray(labelTrain)
    testData = np.asarray(dataTest)
    labelTest = np.asarray(labelTest)
    names = np.asarray(names)
    # 如果结果为单一结果
    if len(set(labelTrain)) == 1: 
        return labelTrain[0] 
    # 如果没有待分类特征
    elif trainData.size == 0: 
        return voteLabel(labelTrain)
    # 其他情况则选取特征 
    bestFeat, bestEnt = bestFeature(dataTrain, labelTrain, method = method)
    # 取特征名称
    bestFeatName = names[bestFeat]
    # 从特征名称列表删除已取得特征名称
    names = np.delete(names, [bestFeat])
    # 根据最优特征进行分割
    dataTrainSet, labelTrainSet = splitFeatureData(dataTrain, labelTrain, bestFeat)
 
    # 预剪枝评估
    # 划分前的分类标签
    labelTrainLabelPre = voteLabel(labelTrain)
    labelTrainRatioPre = equalNums(labelTrain, labelTrainLabelPre) / labelTrain.size
    # 划分后的精度计算 
    if dataTest is not None: 
        dataTestSet, labelTestSet = splitFeatureData(dataTest, labelTest, bestFeat)
        # 划分前的测试标签正确比例
        labelTestRatioPre = equalNums(labelTest, labelTrainLabelPre) / labelTest.size
        # 划分后 每个特征值的分类标签正确的数量
        labelTrainEqNumPost = 0
        for val in labelTrainSet.keys():
            labelTrainEqNumPost += equalNums(labelTestSet.get(val), voteLabel(labelTrainSet.get(val))) + 0.0
        # 划分后 正确的比例
        labelTestRatioPost = labelTrainEqNumPost / labelTest.size 
    
    # 如果没有评估数据 但划分前的精度等于最小值0.5 则继续划分
    if dataTest is None and labelTrainRatioPre == 0.5:
        decisionTree = {bestFeatName: {}}
        for featValue in dataTrainSet.keys():
            decisionTree[bestFeatName][featValue] = createTreePrePruning(dataTrainSet.get(featValue), labelTrainSet.get(featValue)
                                      , None, None, names, method)
    elif dataTest is None:
        return labelTrainLabelPre 
    # 如果划分后的精度相比划分前的精度下降, 则直接作为叶子节点返回
    elif labelTestRatioPost < labelTestRatioPre:
        return labelTrainLabelPre
    else :
        # 根据选取的特征名称创建树节点
        decisionTree = {bestFeatName: {}}
        # 对最优特征的每个特征值所分的数据子集进行计算
        for featValue in dataTrainSet.keys():
            decisionTree[bestFeatName][featValue] = createTreePrePruning(dataTrainSet.get(featValue), labelTrainSet.get(featValue)
                                      , dataTestSet.get(featValue), labelTestSet.get(featValue)
                                      , names, method)
    return decisionTree

划分结果可视化

def plotTree(decisionTree, parentPt, parentValue):
    # 计算宽与高
    leafNum, treeDepth = getTreeSize(decisionTree)
    # 在 1 * 1 的范围内画图，因此分母为 1
    # 每个叶节点之间的偏移量
    plotTree.xOff = plotTree.figSize / (plotTree.totalLeaf - 1)
    # 每一层的高度偏移量
    plotTree.yOff = plotTree.figSize / plotTree.totalDepth
    # 节点名称
    nodeName = list(decisionTree.keys())[0]
    # 根节点的起止点相同，可避免画线；如果是中间节点，则从当前叶节点的位置开始，
    #      然后加上本次子树的宽度的一半，则为决策节点的横向位置
    centerPt = (plotTree.x + (leafNum - 1) * plotTree.xOff / 2.0, plotTree.y)
    # 画出该决策节点
    plotNode(nodeName, centerPt, parentPt, decisionNodeStyle)
    # 标记本节点对应父节点的属性值
    plotMidText(centerPt, parentPt, parentValue)
    # 取本节点的属性值
    treeValue = decisionTree[nodeName]
    # 下一层各节点的高度
    plotTree.y = plotTree.y - plotTree.yOff
    # 绘制下一层
    for val in treeValue.keys():
        # 如果属性值对应的是字典，说明是子树，进行递归调用； 否则则为叶子节点
        if type(treeValue[val]) == dict:
            plotTree(treeValue[val], centerPt, str(val))
        else:
            plotNode(treeValue[val], (plotTree.x, plotTree.y), centerPt, leafNodeStyle)
            plotMidText((plotTree.x, plotTree.y), centerPt, str(val))
            # 移到下一个叶子节点
            plotTree.x = plotTree.x + plotTree.xOff
    # 递归完成后返回上一层
    plotTree.y = plotTree.y + plotTree.yOff


# 画出决策树
def createPlot(decisionTree):
    fig = plt.figure(1, facecolor="white")  # 创建一个新图形
    fig.clf()  # 清空绘图区
    font = {'family': 'Songti SC'}
    matplotlib.rc("font", **font)
    axprops = {"xticks": [], "yticks": []}
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)
    # 定义画图的图形尺寸
    plotTree.figSize = 1.5
    # 初始化树的总大小
    plotTree.totalLeaf, plotTree.totalDepth = getTreeSize(decisionTree)
    # 叶子节点的初始位置x 和 根节点的初始层高度y
    plotTree.x = 0
    plotTree.y = plotTree.figSize
    plotTree(decisionTree, (plotTree.figSize / 2.0, plotTree.y), "")
    plt.show()

剪枝前的树

剪枝后的树

1.3后剪枝


# 将数据分割为测试集和训练集
myDataTrain, myLabelTrain, myDataTest, myLabelTest = splitMyData20(myData, myLabel)
# 生成不剪枝的树
myTreeTrain = createTree(myDataTrain, myLabelTrain, myName, method = 'id3')
# 生成预剪枝的树
myTreePrePruning = createTreePrePruning(myDataTrain, myLabelTrain, myDataTest, myLabelTest, myName, method = 'id3')
# 画剪枝前的树
print("剪枝前的树")
createPlot(myTreeTrain)
# 画剪枝后的树
print("剪枝后的树")
createPlot(myTreePrePruning)

后剪枝（post-pruning）：后剪枝就是先把整颗决策树构造完毕，然后自底向上的对非叶结点进行考察，若将该结点对应的子树换为叶结点能够带来泛华性能的提升，则把该子树替换为叶结点。

周志华老师《机器学习》中述说如下：后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来泛化性能提升，则将该子树替换为叶结点。

李航《统计学习方法》中述说如下：

1.3.1代码实现

# 创建决策树 带预划分标签
def createTreeWithLabel(data, labels, names, method = 'id3'):
    data = np.asarray(data)
    labels = np.asarray(labels)
    names = np.asarray(names)
    # 如果不划分的标签为
    votedLabel = voteLabel(labels)
    # 如果结果为单一结果
    if len(set(labels)) == 1: 
        return votedLabel 
    # 如果没有待分类特征
    elif data.size == 0: 
        return votedLabel
    # 其他情况则选取特征 
    bestFeat, bestEnt = bestFeature(data, labels, method = method)
    # 取特征名称
    bestFeatName = names[bestFeat]
    # 从特征名称列表删除已取得特征名称
    names = np.delete(names, [bestFeat])
    # 根据选取的特征名称创建树节点 划分前的标签votedPreDivisionLabel=_vpdl
    decisionTree = {bestFeatName: {"_vpdl": votedLabel}}
    # 根据最优特征进行分割
    dataSet, labelSet = splitFeatureData(data, labels, bestFeat)
    # 对最优特征的每个特征值所分的数据子集进行计算
    for featValue in dataSet.keys():
        decisionTree[bestFeatName][featValue] = createTreeWithLabel(dataSet.get(featValue), labelSet.get(featValue), names, method)
    return decisionTree 
 
 
# 将带预划分标签的tree转化为常规的tree
# 函数中进行的copy操作，原因见有道笔记 【YL20190621】关于Python中字典存储修改的思考
def convertTree(labeledTree):
    labeledTreeNew = labeledTree.copy()
    nodeName = list(labeledTree.keys())[0]
    labeledTreeNew[nodeName] = labeledTree[nodeName].copy()
    for val in list(labeledTree[nodeName].keys()):
        if val == "_vpdl": 
            labeledTreeNew[nodeName].pop(val)
        elif type(labeledTree[nodeName][val]) == dict:
            labeledTreeNew[nodeName][val] = convertTree(labeledTree[nodeName][val])
    return labeledTreeNew
 
 
# 后剪枝 训练完成后决策节点进行替换评估  这里可以直接对xgTreeTrain进行操作
def treePostPruning(labeledTree, dataTest, labelTest, names):
    newTree = labeledTree.copy()
    dataTest = np.asarray(dataTest)
    labelTest = np.asarray(labelTest)
    names = np.asarray(names)
    # 取决策节点的名称 即特征的名称
    featName = list(labeledTree.keys())[0]
    # print("\n当前节点：" + featName)
    # 取特征的列
    featCol = np.argwhere(names==featName)[0][0]
    names = np.delete(names, [featCol])
    # print("当前节点划分的数据维度：" + str(names))
    # print("当前节点划分的数据：" )
    # print(dataTest)
    # print(labelTest)
    # 该特征下所有值的字典
    newTree[featName] = labeledTree[featName].copy()
    featValueDict = newTree[featName]
    featPreLabel = featValueDict.pop("_vpdl")
    # print("当前节点预划分标签：" + featPreLabel)
    # 是否为子树的标记
    subTreeFlag = 0
    # 分割测试数据 如果有数据 则进行测试或递归调用  np的array我不知道怎么判断是否None, 用is None是错的
    dataFlag = 1 if sum(dataTest.shape) > 0 else 0
    if dataFlag == 1:
        # print("当前节点有划分数据！")
        dataTestSet, labelTestSet = splitFeatureData(dataTest, labelTest, featCol)
    for featValue in featValueDict.keys():
        # print("当前节点属性 {0} 的子节点：{1}".format(featValue ,str(featValueDict[featValue])))
        if dataFlag == 1 and type(featValueDict[featValue]) == dict:
            subTreeFlag = 1 
            # 如果是子树则递归
            newTree[featName][featValue] = treePostPruning(featValueDict[featValue], dataTestSet.get(featValue), labelTestSet.get(featValue), names)
            # 如果递归后为叶子 则后续进行评估
            if type(featValueDict[featValue]) != dict:
                subTreeFlag = 0 
            
        # 如果没有数据  则转换子树
        if dataFlag == 0 and type(featValueDict[featValue]) == dict: 
            subTreeFlag = 1 
            # print("当前节点无划分数据！直接转换树："+str(featValueDict[featValue]))
            newTree[featName][featValue] = convertTree(featValueDict[featValue])
            # print("转换结果：" + str(convertTree(featValueDict[featValue])))
    # 如果全为叶子节点， 评估需要划分前的标签，这里思考两种方法，
    #     一是，不改变原来的训练函数，评估时使用训练数据对划分前的节点标签重新打标
    #     二是，改进训练函数，在训练的同时为每个节点增加划分前的标签，这样可以保证评估时只使用测试数据，避免再次使用大量的训练数据
    #     这里考虑第二种方法 写新的函数 createTreeWithLabel，当然也可以修改createTree来添加参数实现
    if subTreeFlag == 0:
        ratioPreDivision = equalNums(labelTest, featPreLabel) / labelTest.size
        equalNum = 0
        for val in labelTestSet.keys():
            equalNum += equalNums(labelTestSet[val], featValueDict[val])
        ratioAfterDivision = equalNum / labelTest.size 
        # print("当前节点预划分标签的准确率：" + str(ratioPreDivision))
        # print("当前节点划分后的准确率：" + str(ratioAfterDivision))
        # 如果划分后的测试数据准确率低于划分前的，则划分无效，进行剪枝，即使节点等于预划分标签
        # 注意这里取的是小于，如果有需要 也可以取 小于等于
        if ratioAfterDivision < ratioPreDivision:
            newTree = featPreLabel 
    return newTree

2.连续值处理

在现实学习任务中会遇到连续属性的情况，这种情况下需如何处理呢？最简单的策略是采用二分法对连续属性进行处理。这也是C4.5决策树算法中采用的机制。

2.1连续属性离散化（二分法）

离散化 ( 二分法 )

– 第一步 ：将连续属性 a 在样本集 D 上出现 n 个不同的

取值从小到大排列，记为 a^1 , a^2 , ..., a^n 。基于划分点 t ，

可将 D 分为子集 D t + 和 D t - ，其中 D t - 包含那些在属性 a 上取

值不大于 t 的样本， D t + 包含那些在属性 a 上取值大于 t 的

样本。考虑包含 n -1 个元素的候选划分点集合

即把区间 [ a i , a i- 1 ) 的中位点 ( a i + a i- 1 )/2 作为候选划分点

第二步：采用离散属性值方法，计算这些划分点的增

益，选取最优的划分点进行样本集合的划分：

其中 Gain( D , a , t ) 是样本集 D 基于划分点 t 二分后的信息

增益，于是，就可选择使 Gain( D , a , t ) 最大化的划分点

我的数据集中的数据都是离散型，故不展示该步骤

机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
一刷Day7|454.四数相加II 15. 三数之和 18. 四数之和 Alisa-AY 哈希算法 c语言
文章目录454.四数相加II识别核心/易错难点/亮点算法设计思路代码实现代码实现分析15.三数之和（排序数组后左右双指针法，abc均去重）##识别核心/易错难点/亮点算法设计思路代码实现代码注释18.四数之和（在三数之和的基础上套了一层for循环numsk，剪枝&去重）识别核心/易错难点/亮点算法设计思路代码实现代码注释383.赎金信454.四数相加II识别本题有4个数组，较四数之和（一个数组），
梯度提升机 (Gradient Boosting Machines, GBM) ALGORITHM LOL boosting 集成学习机器学习
梯度提升机(GradientBoostingMachines,GBM)通俗易懂算法梯度提升机（GradientBoostingMachines，GBM）是一种集成学习算法，主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型（通常是决策树），然后将这些模型组合起来，从而提高整体预测性能。基本步骤初始模型：首先，我们用一个简单的模型（如一个常数值）作为预测模型，记为F0(x)F_0(x)F
分类算法可视化方法 dundunmm 数据挖掘分类数据挖掘人工智能可视化
可视化方法可以用于帮助理解分类算法的决策边界、性能和在不同数据集上的行为。下面列举几个常见的可视化方法。1.决策边界可视化这种方法用于可视化不同分类算法在二维特征空间中如何分隔不同类别。对于理解决策树、支持向量机（SVM）、逻辑回归和k近邻（k-NN）等模型的行为非常有用。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasets
LLM大模型学习：LLM大模型推理加速七七Seven～学习人工智能 transformer 深度学习 llama
文Mia/叶娇娇推理优化部署、推理加速技术是现在，尤其在大模型时代背景之下，消费级GPU和边端设备仍为主流的状况下。推理加速是实际工程落地的首要考虑因素之一，今天笔者来聊聊涉及到的可以实现大模型推理加速的技术。目录一、模型优化技术二、模型压缩技术三、硬件加速四、GPU加速五、模型并行化和分布式计算技术一、模型优化学习常见的模型优化技术，如模型剪枝、量化、分片、蒸馏等，掌握相应的实现方法。1.1剪枝
十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
决策树基础概论 Hello.Reader 算法算法决策树
1.概述在机器学习领域，决策树（DecisionTree）是一种高度直观且广泛应用的算法。它通过一系列简单的是/否问题，将复杂的决策过程分解为一棵树状结构，使得分类或回归问题的解决过程直观明了。决策树的最大特点在于可解释性强，每个决策节点都代表对特定特征的判断，最终根据这些判断得出结论。决策树适用于多种任务，例如：垃圾邮件分类、病症诊断、股票价格预测等。不仅如此，它还可以处理连续变量和离散变量，并
人工智能与机器学习原理精解【18】叶绿先锋基础数学与应用数学人工智能机器学习
文章目录决策树基础决策树的定义决策树的计算决策树的例子决策树的例题决策树算法一、决策树的算法过程二、决策树的性质Julia中实现框架使用`DecisionTree.jl`使用`MLJ.jl`Julia包的教程一、了解Julia包生态系统二、安装Julia包1.打开JuliaREPL2.使用Pkg包管理器三、使用Julia包四、查找和了解Julia包1.Julia官方文档2.JuliaHub3.Gi
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
机器学习案例-决策树实现鸢尾花分类 Ausgelebt 机器学习相关 python 分类
机器学习案例-决策树实现鸢尾花分类目录机器学习案例-决策树实现鸢尾花分类1.选题目的和意义2.主要研究内容2.1决策树算法分类（区别于树的结构和构造算法）2.2决策树算法详解2.3决策树的应用3.算法设计3.1数据分析3.1.1Iris数据集基本介绍3.1.2样本标签值分布3.1.3样本特征值分布3.1.4相关性热力图3.2建立决策树3.3模型调优3.3.1决策树深度（预剪枝）3.3.2选取部分特
【人工智能】大话什么是神经网络路上阳光
什么是人工智能？通俗来讲，就是让机器能像人一样思考。这个无需解释太多，因为通过各种科幻电影我们已经对人工智能很熟悉了。大家现在感兴趣的应该是——如何实现人工智能？从1956年夏季首次提出“人工智能”这一术语开始，科学家们尝试了各种方法来实现它。这些方法包括专家系统，决策树、归纳逻辑、聚类等等，但这些都是假智能。直到人工神经网络技术的出现，才让机器拥有了“真智能”。为什么说之前的方法都是假智能呢？因
python 连续比较_python实现连续变量最优分箱详解--CART算法 weixin_39834788 python 连续比较
关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基于CART算法对连续变量进行最优分箱由于CART是决策树分类算法，所以相当于是单变量决策树分类。简单介绍下理论：CART是二叉树，每次仅进
模型剪枝综述发狂的小花人工智能 #模型部署深度学习人工智能模型部署模型剪枝性能优化
目录1深度神经网络的稀疏性：2剪枝算法分类：3具体的剪枝方法包括：4剪枝算法流程：5几种常见的剪枝算法：6结构化剪枝和非结构化剪枝各有其优缺点：7剪枝算法对模型精度的影响8影响剪枝算法对模型精度的因素模型压缩中的剪枝算法是一种应用广泛的模型压缩方法，其通过剔除模型中“不重要”的权重，来减少模型的参数量和计算量，同时尽量保证模型的精度不受影响。模型剪枝的核心是模型中的权重、激活、梯度等是稀疏的，减少
每天一个数据分析题（五百一十四）- 决策树算法跟着紫枫学姐学CDA 数据分析题库算法数据分析决策树
决策树由节点和边两种元素组成的结构，决策树中不包含一下哪种结点？A.根结点（rootnode)B.内部结点（internalnode）C.外部结点（externalnode）D.叶结点（leafnode）数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练
力扣-N皇后问题坚持拒绝熬夜 leetcode 算法职场和发展
.-力扣（LeetCode）开始的思路由于n=4情况太多我们先画一下n=3的决策树可以知道皇后不能在同一行,因为我的思路是每一行每一行的填写皇后,所以不考虑行的皇后会重叠,主要考虑列的皇后会不会重叠,还有斜线的列皇后可以直接用一个数组col来标记一列中有皇后标记为true而斜线的需要一点数学功底如图可以转化成截距相等,当斜线斜率为1时,可能会有负数的情况,两边同时加上n,因为我想使用下标来标记截距
AI模型：追求全能还是专精？ Lill_bin 杂谈人工智能分布式 zookeeper 机器学习游戏
AI模型简介人工智能（AI）模型是人工智能系统的核心，它们是经过训练的算法，能够执行特定的任务，如图像识别、自然语言处理、游戏玩法、预测分析等。AI模型的类型很多，可以根据其功能和应用场景进行分类。常见的AI模型类型包括：监督学习模型：这些模型通过训练数据集学习，数据集中包含了输入和对应的输出标签。例子包括决策树、支持向量机（SVM）、神经网络等。无监督学习模型：这些模型处理没有标签的数据，目的是
Python知识点：如何使用Python进行时间序列预测杰哥在此 Python系列 python 开发语言编程面试
使用Python进行时间序列预测是一个非常常见的任务，可以应用于各种领域，如金融市场预测、销售量预测、天气预报等。时间序列预测的方法有很多，包括统计方法（如ARIMA模型）、机器学习方法（如支持向量机、决策树）、以及深度学习方法（如LSTM网络）。下面是一个简单的时间序列预测流程示例，使用Python和pandas、numpy、以及statsmodels库来实现ARIMA模型的时间序列预测。1.导
加州房价--决策树与随机森林一把年纪学编程五决策树随机森林机器学习
需要新装包'''decisionTree写在前面要安装http://www.graphviz.org/download/测试是否安装成功dot-version修改环境变量pipinstallgraphviz提示：Successfullyinstalledgraphviz-0.20pipinstallpydotplus'''#===================================im
CART算法 ziworeborn
CART算法就是分类回归树，它只支持二叉树，既可以作分类树，又可以作回归树。那什么是分类树，什么是回归树呢？假如有个数据集，分别给出了，不同年龄、职业、性别的不同学习时间。如果我构造了一棵决策树，想要基于数据判断这个人的职业身份，这个就属于分类树，因为是从几个分类中来做选择。如果是给定了数据，想要预测这个人的年龄，那就属于回归树。分类树可以处理离散数据，也就是数据种类有限的数据，它输出的是样本的类
[论文笔记] LLM模型剪枝心心喵论文笔记论文阅读剪枝算法
AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～
回溯算法入门小泽爱刷题算法
回溯算法三要素抽象地说，解决一个回溯问题，实际上就是遍历一棵决策树的过程，树的每个叶子节点存放着一个合法答案。你把整棵树遍历一遍，把叶子节点上的答案都收集起来，就能得到所有的合法答案。站在回溯树的一个节点上，你只需要思考3个问题：1、路径：也就是已经做出的选择。#记录下已经走过的路2、选择列表：也就是你当前可以做的选择。3、结束条件：也就是到达决策树底层，无法再做选择的条件例如**[2]就是「路径
梅雪情《二》云逸1108
雪重梅清瘦，风狂树折腰。天寒衣冻透，花香人亦娇。剪枝瓶中秀，春光映高楼。挥毫需纵酒，梅雪映千秋！
Spark MLlib模型训练—回归算法 Random forest regression 不二人生 Spark ML 实战 spark-ml 回归随机森林
SparkMLlib模型训练—回归算法Randomforestregression随机森林回归(RandomForestRegression)是一种集成学习方法，通过结合多个决策树的预测结果来提升模型的准确性和稳健性。相较于单一的决策树模型，随机森林通过随机采样和多棵树的集成，减少了模型的方差，从而在处理复杂数据集时展现出更好的性能。本文将详细介绍随机森林回归的原理、实现方法、应用场景，并通过Sc
R语言使用rpart包构建决策树模型实战、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树 statistics.insight r语言决策树数据挖掘机器学习
R语言使用rpart包构建决策树模型实战、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树、type参数、extra参数、fallen.leaves参数控制决策树精细化显示目录R语言使用rpart包构建决策树模型、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树、type
周工作计划2019-03-25 MikeShine
很久没有写工作计划了。之前一个星期生了病，很难受。上个星期基本上什么都没有干。但是好的一点是，西瓜书基本都看完了。本周工作计划：机器学习分享活动（关于决策树的分享）回看一下西瓜书的东西，每一章把开头总结写一下。老师没有给具体的任务，留了再说吧。
[E二叉树] lc110. 平衡二叉树(dfs+自底向上) Ypuyu LeetCode 深度优先算法
文章目录1.题目来源2.题目解析1.题目来源链接：110.平衡二叉树题单：链表、二叉树与一般树（前后指针/快慢指针/DFS/BFS/直径/LCA）§2.3自底向上DFS2.题目解析思路：记录每个节点的左右子树的高度，并判断高度差是否大于1即可。二叉树计算高度，可看[E二叉树]lc104.二叉树的最大深度(dfs+自顶向下)注意本题可以剪枝优化。如果有任意两个节点的高度差大于1了，那么说明整个树都不
决策树(decision tree) a15957199647 机器学习数据
决策树就是像树结构一样的分类下去，最后来预测输入样本的属于那类标签。本文是本人的学习笔记，所以有些地方也不是很清楚。大概流程就是1.查看子类是否属于同一个类2.如果是，返回类标签，如果不是，找到最佳的分类子集的特征3.划分数据集4.创建分支节点5.对每一个节点重复上述步骤6.返回树首先我们要像一个办法，怎么来确定最佳的分类特征就是为什么要这么划分子集。一般有三种方法：1.Gini不纯度2.信息熵3
深度学习100问13:什么是二分类问题不断持续学习ing 人工智能机器学习自然语言处理
嘿，你知道二分类问题不？这就像是一个“超级裁判”，要把东西分成两大类。一、定义及举例想象一下，生活中有很多时候我们得决定一个东西到底属于哪一边。就像判断一封邮件，是“垃圾邮件”呢，还是“正常邮件”；或者看看一个病人，是“得了某种病”呢，还是“没得病”。二、解决方法要解决二分类问题呀，我们可以找来一些“魔法工具”，也就是机器学习算法。像逻辑回归啦、支持向量机啦、决策树啦等等。这些算法就像聪明的小助手
每天一个数据分析题（五百一十二）- 数据标准化跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
在完整的机器学习流程中，数据标准化（DataStandardization）一直是一项重要的处理流程。不同模型对于数据是否标准化的敏感程度不同，以下哪个模型对变量是否标准化不敏感？A.决策树B.KNNC.K-MeansD.SVM数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，S
英伟达如何通过剪枝和蒸馏技术让Llama 3.1模型“瘦身“? 蒜鸭人工智能算法机器学习
英伟达如何通过剪枝和蒸馏技术让Llama3.1模型"瘦身"?大家好，我是蒜鸭。今天我们来聊聊英伟达最近在大语言模型优化方面的一项有趣研究。随着Meta发布Llama3.1系列模型，如何在保持模型性能的同时缩小其体积成为了业界关注的焦点。英伟达研究团队通过结构化权重剪枝和知识蒸馏技术，成功将Llama3.18B模型压缩为4B参数的小型语言模型，并取得了不俗的效果。让我们一起来深入探讨这项技术的原理和
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少