weixin_54881329

决策树——剪枝处理

剪枝处理

1：剪枝处理的原因

“剪枝”是决策树学习算法对付“过拟合”的主要手段，因此，可通过“剪枝”来一定程度避免因决策分支过多，以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致的过拟合

2：剪枝的基本策略

预剪枝、后剪枝

3：剪枝后效果如何判断

判断决策树泛化性能是否提升的方法采用留出法，即预留一部分数据用作“验证集”以进行性能评估

4：例子

5：预剪枝（通过提前停止树的构建而对树剪枝）

（1）预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛华性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。

（2）主要方法：

1.当决策树达到预设的高度时就停止决策树的生长

2.达到某个节点的实例具有相同的特征向量，即使这些实例不属于同一类，也可以停止决策树的生长。

3.定义一个阈值，当达到某个节点的实例个数小于阈值时就可以停止决策树的生长。

4.通过计算每次扩张对系统性能的增益，决定是否停止决策树的生长。

（3）例子：

这个数据集根据信息增益可以构造出一颗未剪枝的决策树：

前面博客讲过用信息增益怎么构造决策树，这边还是用信息增益构造决策树，先来计算出所有特征的信息增益值，通过计算因为色泽和脐部的信息增益值最大，所以从这两个中随机挑选一个，这里选择脐部来对数据集进行划分，这会产生三个分支，如下图所示：

下面来看看是否要用脐部进行划分，划分前：所有样本都在根节点，把该结点标记为叶结点，其类别标记为训练集中样本数量最多的类别，因此标记为好瓜，然后用验证集对其性能评估，可以看出样本{4，5，8}被正确分类，其他被错误分类，因此精度为43.9%。划分后：划分后的的决策树为：

则验证集在这颗决策树上的精度为：5/7 = 71.4% > 42.9%。因此，用脐部进行划分。
接下来，决策树算法对结点 (2) 进行划分，再次使用信息增益挑选出值最大的那个特征，这里我就不算了，计算方法和上面类似，信息增益值最大的那个特征是“色泽”，则使用“色泽”划分后决策树为：

但到底该不该划分这个结点，还是要用验证集进行计算，可以看到划分后，精度为：5/7=0.571<0.714，因此，预剪枝策略将禁止划分结点 (2) 。对于结点 (3) 最优的属性为“根蒂”，划分后验证集精度仍为71.4%，因此这个划分不能提升验证集精度，所以预剪枝将禁止结点 (3) 划分。对于结点 (4) ，其所含训练样本已属于同一类，所以不再进行划分。
所以基于预剪枝策略生成的最终的决策树为：

（4）预剪枝的优缺点

优点：降低过拟合风险，显著减少训练时间和测试时间开销。

缺点：欠拟合风险，有些分支的当前划分虽然不能提升泛化性能，但在其基础上进行的后续划分却有可能显著提高性能。预剪枝基于 “贪心”本质禁止这些分支展开，带来了欠拟合风险。

6：后剪枝

（1）后剪枝就是先构造一颗完整的决策树，然后自底向上的对非叶结点进行考察，若将该结点对应的子树换为叶结点能够带来泛华性能的提升，则把该子树替换为叶结点。前面已经说过了，使用前面给出的训练集会生成一颗（未剪枝）决策树：

后剪枝算法首先考察上图中的结点 (6)，若将以其为根节点的子树删除，即相当于把结点 (6) 替换为叶结点，替换后的叶结点包括编号为{7,15}的训练样本，因此把该叶结点标记为“好瓜”（因为这里正负样本数量相等，所以随便标记一个类别），因此此时的决策树在验证集上的精度为57.1%（为剪枝的决策树为42.9%），所以后剪枝策略决定剪枝，剪枝后的决策树如下图所示：

接着考察结点 5，同样的操作，把以其为根节点的子树替换为叶结点，替换后的叶结点包含编号为{6,7,15}的训练样本，根据“多数原则”把该叶结点标记为“好瓜”，测试的决策树精度认仍为57.1%，所以不进行剪枝。
考察结点 2 ，和上述操作一样，不多说了，叶结点包含编号为{1,2,3,14}的训练样本，标记为“好瓜”，此时决策树在验证集上的精度为71.4%，因此，后剪枝策略决定剪枝。剪枝后的决策树为：

接着考察结点 3 ，同样的操作，剪枝后的决策树在验证集上的精度为71.4%，没有提升，因此不剪枝；对于结点 1 ，剪枝后的决策树的精度为42.9%，精度下降，因此也不剪枝。
因此，基于后剪枝策略生成的最终的决策树如上图所示，其在验证集上的精度为71.4%。

（2）后剪枝的优缺点

优点：后剪枝比预剪枝保留了更多的分支，欠拟合风险小，泛化性能往往优于预剪枝决策树

缺点：训练时间开销大，后剪枝过程是在生成完全决策树之后进行的，需要自底向上对所有非叶结点逐一计算

7：代码实现:

D_keys = {
    '色泽': ['青绿', '乌黑', '浅白'],
    '根蒂': ['蜷缩', '硬挺', '稍蜷'],
    '敲声': ['清脆', '沉闷', '浊响'],
    '纹理': ['稍糊', '模糊', '清晰'],
    '脐部': ['凹陷', '稍凹', '平坦'],
    '触感': ['软粘', '硬滑'],
}
keys = ['是', '否']
#划分训练集&测试集，留出法，比例为7：3，分层抽样
def traintest(dataSet):
    dataSet0 = dataSet[dataSet['好瓜'] == '是']
    dataSet1 = dataSet[dataSet['好瓜'] == '否']
    list0 = dataSet0.sample(frac=0.7)
    list0 = list0.append(dataSet1.sample(frac=0.7))
    rowlist = []
    for indexs in list0.index:
        rowlist.append(indexs)
    list1 = dataSet.drop(rowlist, axis=0)
    return list0,list1
# 叶节点选择其类别为D中样本最多的类
def choose_largest_example(D):
    count = D['好瓜'].value_counts()
    return '是' if count['是'] > count['否'] else '否'

# 测试决策树的准确率
def test_Tree(Tree, data_test):
    accuracy = 0
    for index, row in data_test.iterrows():
        result = dfs_Tree(Tree, row)
        if result == row['好瓜']:
            # print(row.values, Tree)
            accuracy += 1


    return accuracy / data_test.shape[0]

# 判断D中的样本在A上的取值是否相同
def same_value(D, A):
    for key in A:
        if key in D_keys and len(D[key].value_counts()) > 1:
            return False

    return True


# 计算给定数据集的熵
def calc_Ent(dataSet):
    numEntries = dataSet['power'].sum()
    Count = dataSet.groupby('好瓜')['power'].sum()
    Ent = 0.0

    for key in keys:
        # print(Count[key])
        if key not in Count:
            Ent -= 0.0
        else:
            prob = Count[key] / numEntries
            Ent -= prob * math.log(prob, 2)

    return Ent


# 计算按key划分的信息增益值
def calc_Gain_D(D, D_no_nan, key, Ent_D):
    Ent = 0.0
    D_size = D['power'].sum()
    D_nan_size = D_no_nan['power'].sum()
    for value in D_keys[key]:
        Dv = D.loc[D[key] == value]
        Dv_size = Dv['power'].sum()
        Ent_Dv = calc_Ent(Dv)
        Ent += Dv_size / D_nan_size * Ent_Dv

    return D_nan_size / D_size * (Ent_D - Ent)


# 生成连续值属性的候选划分点集合T
def candidate_T(D, key, n):
    L = set(D[key])
    T = []
    a, Sum = 0, 0
    for value in L:
        Sum += value
        a += 1
        if a == n:
            T.append(Sum / n)
            a, Sum = 0, 0

    if a > 0:
        T.append(Sum / a)

    return T


# 计算样本D基于划分点t二分后的连续值属性信息增益
def calc_Gain_t(D, D_no_nan, key, t, Ent_D):
    Ent = 0.0
    D_size = D['power'].sum()
    D_nan_size = D_no_nan['power'].sum()

    Dv = D.loc[D[key] <= t]
    Dv_size = Dv['power'].sum()
    Ent_Dv = calc_Ent(Dv)
    Ent += Dv_size / D_nan_size * Ent_Dv

    Dv = D.loc[D[key] > t]
    Dv_size = Dv['power'].sum()
    Ent_Dv = calc_Ent(Dv)
    Ent += Dv_size / D_nan_size * Ent_Dv

    return D_nan_size / D_size * (Ent_D - Ent)


# 计算样本D基于不同划分点t二分后的连续值属性信息增益，找出最大增益划分点
def calc_Gain_C(D, D_no_nan, key, Ent_D):
    n = 2
    T = candidate_T(D, key, n)
    max_Gain, max_partition = -1, -1
    for t in T:
        Gain = calc_Gain_t(D, D_no_nan, key, t, Ent_D)
        if max_Gain < Gain:
            max_Gain = Gain
            max_partition = t

    return max_Gain, max_partition


# 从A中选择最优的划分属性值，若为连续值，返回划分点
def choose_best_attribute(D, A):
    max_Gain, max_partition, partition, best_attr = -1, -1, -1, ''
    for key in A:
        # 划分属性为离散属性时
        if key in D_keys:
            D_no_nan = D.loc[pd.notna(D[key])]
            Ent_D = calc_Ent(D_no_nan)
            Gain = calc_Gain_D(D, D_no_nan, key, Ent_D)
        # 划分属性为连续属性时
        else:
            D_no_nan = D.loc[pd.notna(D[key])]
            Ent_D = calc_Ent(D_no_nan)
            Gain, partition = calc_Gain_C(D, D_no_nan, key, Ent_D)

        if max_Gain < Gain:
            best_attr = key
            max_Gain = Gain
            max_partition = partition

    return best_attr, max_partition

# 函数TreeGenerate 递归生成决策树，以下情形导致递归返回
# 1. 当前结点包含的样本全属于一个类别
# 2. 当前属性值为空， 或是所有样本在所有属性值上取值相同，无法划分
# 3. 当前结点包含的样本集合为空，不可划分
def TreeGenerate(D, A):
    Count = D['好瓜'].value_counts()
    if len(Count) == 1:
        return D['好瓜'].values[0]

    if len(A) == 0 or same_value(D, A):
        return choose_largest_example(D)

    node = {}
    best_attr, partition = choose_best_attribute(D, A)
    D_size = D.shape[0]
    # 最优划分属性为离散属性时
    if best_attr in D_keys:
        for value in D_keys[best_attr]:
            Dv = D.loc[D[best_attr] == value].copy()
            Dv_size = Dv.shape[0]
            Dv.loc[pd.isna(Dv[best_attr]), 'power'] = Dv_size / D_size
            temp1 = test_Tree(choose_largest_example(D),data_test)
            if Dv.shape[0] == 0:
                node[value] = choose_largest_example(D)
            else:
                new_A = [key for key in A if key != best_attr]
                node[value] = TreeGenerate(Dv, new_A)
                temp0 = test_Tree(node[value],data_test)
                if temp1 > temp0:
                    node[value] = choose_largest_example(D)


    # 最优划分属性为连续属性时
    else:
        # print(best_attr, partition)
        # print(D.values)
        left = D.loc[D[best_attr] <= partition].copy()
        Dv_size = left.shape[0]
        left.loc[pd.isna(left[best_attr]), 'power'] = Dv_size / D_size
        left_key = '<= ' + str(partition)

        if left.shape[0] == 0:
            node[left_key] = choose_largest_example(D)
        else:
            node[left_key] = TreeGenerate(left, A)

        right = D.loc[D[best_attr] > partition].copy()
        Dv_size = right.shape[0]
        right.loc[pd.isna(right[best_attr]), 'power'] = Dv_size / D_size

        right_key = '> ' + str(partition)
        temp1 = test_Tree(choose_largest_example(D), data_test)
        if right.shape[0] == 0:
            node[right_key] = choose_largest_example(D)
        else:
            node[right_key] = TreeGenerate(right, A)
            temp0 = test_Tree(node[right_key], data_test)
            if temp1 > temp0:
                node[right_key] = choose_largest_example(D)

    # plotTree.plotTree(Tree)
    return {best_attr: node}


# 获得下一层子树分支
def get_next_Tree(Tree, key, value):
    if key not in D_keys:
        partition = float(list(Tree[key].keys())[0].split(' ')[1])
        if value <= partition:
            value = '<= ' + str(partition)
        else:
            value = '> ' + str(partition)

    return Tree[key][value]
# 深度优先遍历，判断预测值
def dfs_Tree(Tree, row):
    if type(Tree).__name__ == 'dict':
        key = list(Tree.keys())[0]
        value = row[key]
        if pd.isnull(value):
            result = {key: 0 for key in D_keys['好瓜']}
            for next_key in Tree[key]:
                next_Tree = Tree[key][next_key]
                temp = dfs_Tree(next_Tree, row)
                result[temp] += 1

            return '是' if count['是'] > count['否'] else '否'

        else:
            next_Tree = get_next_Tree(Tree, key, value)
            return dfs_Tree(next_Tree, row)
    else:
        return Tree

if __name__ == '__main__':
    # 读取数据
    filename = '/Users/haoranjiang/Documents/machine learning/111111111/tree.txt'
    dataSet = loadData(filename)

    dataSet.drop(columns=['编号'], inplace=True)
    # 考虑缺失值
    dataSet['power'] = 1.0

    data_train,data_test = traintest(dataSet)

    # 决策树训练
    A = [column for column in data_train.columns if column != '好瓜']
    Tree = TreeGenerate(data_train, A)

    # 决策树测试
    print('准确度：',test_Tree(Tree, data_test)*100,'%')

    print(Tree)

机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
一刷Day7|454.四数相加II 15. 三数之和 18. 四数之和 Alisa-AY 哈希算法 c语言
文章目录454.四数相加II识别核心/易错难点/亮点算法设计思路代码实现代码实现分析15.三数之和（排序数组后左右双指针法，abc均去重）##识别核心/易错难点/亮点算法设计思路代码实现代码注释18.四数之和（在三数之和的基础上套了一层for循环numsk，剪枝&去重）识别核心/易错难点/亮点算法设计思路代码实现代码注释383.赎金信454.四数相加II识别本题有4个数组，较四数之和（一个数组），
梯度提升机 (Gradient Boosting Machines, GBM) ALGORITHM LOL boosting 集成学习机器学习
梯度提升机(GradientBoostingMachines,GBM)通俗易懂算法梯度提升机（GradientBoostingMachines，GBM）是一种集成学习算法，主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型（通常是决策树），然后将这些模型组合起来，从而提高整体预测性能。基本步骤初始模型：首先，我们用一个简单的模型（如一个常数值）作为预测模型，记为F0(x)F_0(x)F
分类算法可视化方法 dundunmm 数据挖掘分类数据挖掘人工智能可视化
可视化方法可以用于帮助理解分类算法的决策边界、性能和在不同数据集上的行为。下面列举几个常见的可视化方法。1.决策边界可视化这种方法用于可视化不同分类算法在二维特征空间中如何分隔不同类别。对于理解决策树、支持向量机（SVM）、逻辑回归和k近邻（k-NN）等模型的行为非常有用。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasets
LLM大模型学习：LLM大模型推理加速七七Seven～学习人工智能 transformer 深度学习 llama
文Mia/叶娇娇推理优化部署、推理加速技术是现在，尤其在大模型时代背景之下，消费级GPU和边端设备仍为主流的状况下。推理加速是实际工程落地的首要考虑因素之一，今天笔者来聊聊涉及到的可以实现大模型推理加速的技术。目录一、模型优化技术二、模型压缩技术三、硬件加速四、GPU加速五、模型并行化和分布式计算技术一、模型优化学习常见的模型优化技术，如模型剪枝、量化、分片、蒸馏等，掌握相应的实现方法。1.1剪枝
十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
决策树基础概论 Hello.Reader 算法算法决策树
1.概述在机器学习领域，决策树（DecisionTree）是一种高度直观且广泛应用的算法。它通过一系列简单的是/否问题，将复杂的决策过程分解为一棵树状结构，使得分类或回归问题的解决过程直观明了。决策树的最大特点在于可解释性强，每个决策节点都代表对特定特征的判断，最终根据这些判断得出结论。决策树适用于多种任务，例如：垃圾邮件分类、病症诊断、股票价格预测等。不仅如此，它还可以处理连续变量和离散变量，并
人工智能与机器学习原理精解【18】叶绿先锋基础数学与应用数学人工智能机器学习
文章目录决策树基础决策树的定义决策树的计算决策树的例子决策树的例题决策树算法一、决策树的算法过程二、决策树的性质Julia中实现框架使用`DecisionTree.jl`使用`MLJ.jl`Julia包的教程一、了解Julia包生态系统二、安装Julia包1.打开JuliaREPL2.使用Pkg包管理器三、使用Julia包四、查找和了解Julia包1.Julia官方文档2.JuliaHub3.Gi
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
机器学习案例-决策树实现鸢尾花分类 Ausgelebt 机器学习相关 python 分类
机器学习案例-决策树实现鸢尾花分类目录机器学习案例-决策树实现鸢尾花分类1.选题目的和意义2.主要研究内容2.1决策树算法分类（区别于树的结构和构造算法）2.2决策树算法详解2.3决策树的应用3.算法设计3.1数据分析3.1.1Iris数据集基本介绍3.1.2样本标签值分布3.1.3样本特征值分布3.1.4相关性热力图3.2建立决策树3.3模型调优3.3.1决策树深度（预剪枝）3.3.2选取部分特
【人工智能】大话什么是神经网络路上阳光
什么是人工智能？通俗来讲，就是让机器能像人一样思考。这个无需解释太多，因为通过各种科幻电影我们已经对人工智能很熟悉了。大家现在感兴趣的应该是——如何实现人工智能？从1956年夏季首次提出“人工智能”这一术语开始，科学家们尝试了各种方法来实现它。这些方法包括专家系统，决策树、归纳逻辑、聚类等等，但这些都是假智能。直到人工神经网络技术的出现，才让机器拥有了“真智能”。为什么说之前的方法都是假智能呢？因
python 连续比较_python实现连续变量最优分箱详解--CART算法 weixin_39834788 python 连续比较
关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基于CART算法对连续变量进行最优分箱由于CART是决策树分类算法，所以相当于是单变量决策树分类。简单介绍下理论：CART是二叉树，每次仅进
模型剪枝综述发狂的小花人工智能 #模型部署深度学习人工智能模型部署模型剪枝性能优化
目录1深度神经网络的稀疏性：2剪枝算法分类：3具体的剪枝方法包括：4剪枝算法流程：5几种常见的剪枝算法：6结构化剪枝和非结构化剪枝各有其优缺点：7剪枝算法对模型精度的影响8影响剪枝算法对模型精度的因素模型压缩中的剪枝算法是一种应用广泛的模型压缩方法，其通过剔除模型中“不重要”的权重，来减少模型的参数量和计算量，同时尽量保证模型的精度不受影响。模型剪枝的核心是模型中的权重、激活、梯度等是稀疏的，减少
每天一个数据分析题（五百一十四）- 决策树算法跟着紫枫学姐学CDA 数据分析题库算法数据分析决策树
决策树由节点和边两种元素组成的结构，决策树中不包含一下哪种结点？A.根结点（rootnode)B.内部结点（internalnode）C.外部结点（externalnode）D.叶结点（leafnode）数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练
力扣-N皇后问题坚持拒绝熬夜 leetcode 算法职场和发展
.-力扣（LeetCode）开始的思路由于n=4情况太多我们先画一下n=3的决策树可以知道皇后不能在同一行,因为我的思路是每一行每一行的填写皇后,所以不考虑行的皇后会重叠,主要考虑列的皇后会不会重叠,还有斜线的列皇后可以直接用一个数组col来标记一列中有皇后标记为true而斜线的需要一点数学功底如图可以转化成截距相等,当斜线斜率为1时,可能会有负数的情况,两边同时加上n,因为我想使用下标来标记截距
AI模型：追求全能还是专精？ Lill_bin 杂谈人工智能分布式 zookeeper 机器学习游戏
AI模型简介人工智能（AI）模型是人工智能系统的核心，它们是经过训练的算法，能够执行特定的任务，如图像识别、自然语言处理、游戏玩法、预测分析等。AI模型的类型很多，可以根据其功能和应用场景进行分类。常见的AI模型类型包括：监督学习模型：这些模型通过训练数据集学习，数据集中包含了输入和对应的输出标签。例子包括决策树、支持向量机（SVM）、神经网络等。无监督学习模型：这些模型处理没有标签的数据，目的是
Python知识点：如何使用Python进行时间序列预测杰哥在此 Python系列 python 开发语言编程面试
使用Python进行时间序列预测是一个非常常见的任务，可以应用于各种领域，如金融市场预测、销售量预测、天气预报等。时间序列预测的方法有很多，包括统计方法（如ARIMA模型）、机器学习方法（如支持向量机、决策树）、以及深度学习方法（如LSTM网络）。下面是一个简单的时间序列预测流程示例，使用Python和pandas、numpy、以及statsmodels库来实现ARIMA模型的时间序列预测。1.导
加州房价--决策树与随机森林一把年纪学编程五决策树随机森林机器学习
需要新装包'''decisionTree写在前面要安装http://www.graphviz.org/download/测试是否安装成功dot-version修改环境变量pipinstallgraphviz提示：Successfullyinstalledgraphviz-0.20pipinstallpydotplus'''#===================================im
CART算法 ziworeborn
CART算法就是分类回归树，它只支持二叉树，既可以作分类树，又可以作回归树。那什么是分类树，什么是回归树呢？假如有个数据集，分别给出了，不同年龄、职业、性别的不同学习时间。如果我构造了一棵决策树，想要基于数据判断这个人的职业身份，这个就属于分类树，因为是从几个分类中来做选择。如果是给定了数据，想要预测这个人的年龄，那就属于回归树。分类树可以处理离散数据，也就是数据种类有限的数据，它输出的是样本的类
[论文笔记] LLM模型剪枝心心喵论文笔记论文阅读剪枝算法
AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～
回溯算法入门小泽爱刷题算法
回溯算法三要素抽象地说，解决一个回溯问题，实际上就是遍历一棵决策树的过程，树的每个叶子节点存放着一个合法答案。你把整棵树遍历一遍，把叶子节点上的答案都收集起来，就能得到所有的合法答案。站在回溯树的一个节点上，你只需要思考3个问题：1、路径：也就是已经做出的选择。#记录下已经走过的路2、选择列表：也就是你当前可以做的选择。3、结束条件：也就是到达决策树底层，无法再做选择的条件例如**[2]就是「路径
梅雪情《二》云逸1108
雪重梅清瘦，风狂树折腰。天寒衣冻透，花香人亦娇。剪枝瓶中秀，春光映高楼。挥毫需纵酒，梅雪映千秋！
Spark MLlib模型训练—回归算法 Random forest regression 不二人生 Spark ML 实战 spark-ml 回归随机森林
SparkMLlib模型训练—回归算法Randomforestregression随机森林回归(RandomForestRegression)是一种集成学习方法，通过结合多个决策树的预测结果来提升模型的准确性和稳健性。相较于单一的决策树模型，随机森林通过随机采样和多棵树的集成，减少了模型的方差，从而在处理复杂数据集时展现出更好的性能。本文将详细介绍随机森林回归的原理、实现方法、应用场景，并通过Sc
R语言使用rpart包构建决策树模型实战、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树 statistics.insight r语言决策树数据挖掘机器学习
R语言使用rpart包构建决策树模型实战、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树、type参数、extra参数、fallen.leaves参数控制决策树精细化显示目录R语言使用rpart包构建决策树模型、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树、type
周工作计划2019-03-25 MikeShine
很久没有写工作计划了。之前一个星期生了病，很难受。上个星期基本上什么都没有干。但是好的一点是，西瓜书基本都看完了。本周工作计划：机器学习分享活动（关于决策树的分享）回看一下西瓜书的东西，每一章把开头总结写一下。老师没有给具体的任务，留了再说吧。
[E二叉树] lc110. 平衡二叉树(dfs+自底向上) Ypuyu LeetCode 深度优先算法
文章目录1.题目来源2.题目解析1.题目来源链接：110.平衡二叉树题单：链表、二叉树与一般树（前后指针/快慢指针/DFS/BFS/直径/LCA）§2.3自底向上DFS2.题目解析思路：记录每个节点的左右子树的高度，并判断高度差是否大于1即可。二叉树计算高度，可看[E二叉树]lc104.二叉树的最大深度(dfs+自顶向下)注意本题可以剪枝优化。如果有任意两个节点的高度差大于1了，那么说明整个树都不
决策树(decision tree) a15957199647 机器学习数据
决策树就是像树结构一样的分类下去，最后来预测输入样本的属于那类标签。本文是本人的学习笔记，所以有些地方也不是很清楚。大概流程就是1.查看子类是否属于同一个类2.如果是，返回类标签，如果不是，找到最佳的分类子集的特征3.划分数据集4.创建分支节点5.对每一个节点重复上述步骤6.返回树首先我们要像一个办法，怎么来确定最佳的分类特征就是为什么要这么划分子集。一般有三种方法：1.Gini不纯度2.信息熵3
深度学习100问13:什么是二分类问题不断持续学习ing 人工智能机器学习自然语言处理
嘿，你知道二分类问题不？这就像是一个“超级裁判”，要把东西分成两大类。一、定义及举例想象一下，生活中有很多时候我们得决定一个东西到底属于哪一边。就像判断一封邮件，是“垃圾邮件”呢，还是“正常邮件”；或者看看一个病人，是“得了某种病”呢，还是“没得病”。二、解决方法要解决二分类问题呀，我们可以找来一些“魔法工具”，也就是机器学习算法。像逻辑回归啦、支持向量机啦、决策树啦等等。这些算法就像聪明的小助手
每天一个数据分析题（五百一十二）- 数据标准化跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
在完整的机器学习流程中，数据标准化（DataStandardization）一直是一项重要的处理流程。不同模型对于数据是否标准化的敏感程度不同，以下哪个模型对变量是否标准化不敏感？A.决策树B.KNNC.K-MeansD.SVM数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，S
英伟达如何通过剪枝和蒸馏技术让Llama 3.1模型“瘦身“? 蒜鸭人工智能算法机器学习
英伟达如何通过剪枝和蒸馏技术让Llama3.1模型"瘦身"?大家好，我是蒜鸭。今天我们来聊聊英伟达最近在大语言模型优化方面的一项有趣研究。随着Meta发布Llama3.1系列模型，如何在保持模型性能的同时缩小其体积成为了业界关注的焦点。英伟达研究团队通过结构化权重剪枝和知识蒸馏技术，成功将Llama3.18B模型压缩为4B参数的小型语言模型，并取得了不俗的效果。让我们一起来深入探讨这项技术的原理和
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

决策树——剪枝处理

你可能感兴趣的:(决策树,剪枝)