jcLee95

机器学习 - [源码实现决策树小专题]决策树中子数据集的划分（不允许调用sklearn等库的源代码实现）

决策树算法中子数据集的划分

推荐： 本文中的代码另外有采用了TypeScript/JavaScript进行实现的版本。作者关注到,谷歌TensorFlow团队近几年在JavaScript语言上动作频频,自推出同接口的JavaSccript版本TensorFlow.js后,在2020年先后右推出与Pandas同接口的JavaScript版本库"Danfo.js",同时配套推出了一个类似于Jupyter的笔记本"Dnotebook"(Danfo Dotebook,这个笔记本不好用,但动向很引发人们的关注)。紧接着改团队出版了JavaScript领域头一本以TensorFlow为主详细讲解深度学习的图书,并在不久后于2021年4月被翻译为中文版在人民邮电出版社发行,他就是斯坦利`比列斯奇等人所著的《JavaScript深度学习》。本文笔者认为,使用JavaScript家族的语言实现数据领域的相关算法在未来有助于实现分布式的云计算等潜在商业价值巨大的特点,同时相比于Python语言，JavaScript(含TypeScript等)更能绘制精致并且具有动态效果的图标,数据可视化能力更是远非Python可比。对于感兴趣的同学可以参考本文的TypeScript/JavaScript版本,链接:TypeScript机器学习:决策树算法中子数据集的划分

李俊才的 CSDN 博客

邮箱：[email protected]

CSDN 主页：https://blog.csdn.net/qq_28550263?spm=1001.2101.3001.5343

本文地址：https://blog.csdn.net/qq_28550263/article/details/123649691

阅读本文后推荐先阅读：信息增益与信息增益率计算的Python实现：https://blog.csdn.net/qq_28550263/article/details/114891368

目录

1. 经典决策树算法思想回顾

2.为什么需要划分数据集

3. 如何进行数据集的划分

3.1 划分步骤的详解
3.2 使用编程实现对数据集的划分

附：举个更简单的实例

导读： 本文我们将解决两个问题，一个是为什么我们要划分数据集，另一个是如何用代码实现数据集划分。

1. 经典决策树算法思想回顾

决策树算法包括建树（训练）和查树（决策/预测）两个环节。在决策树算法的训练过程中对于决定一个事件最终决策的多个特征（决策考虑因素），我们一般基于如信息增益率、基尼系数等指标先确定出一个能最大化获取信息的特征作为当前最佳特征。一个特征映射为在一颗决策树中的一个节点。

第一个“最佳特征”对应的·节点我们称之为根节点。每次到达一个节点处，我们依据节点处特征的不同取值，对节点进行分支以生长出其子节点，子节点处继续着它们各自父辈的故事。直到某个时候，不满足人为干预的一些条件了，或者完美地完成分类了，这时子节点不再继续分支而成为决策树的叶子节点。

2.为什么需要划分数据集

已经说过，在决策树训练过程中需要不断地进行分支操作。从一颗树的生长过程来看每次分支是为了去树的下一个节点，而对应成特征的角度说，分支的本质其实是使用了上一个一个特征仍然没能完成最终决策时，使用下一个特征进行继续决策。
在我们的标签集（labels）中，它在训练之初拥有多条数据，每条数据都对应了实际情况中每个特征的取值。一次分支使用到的时一个特征，实际上就是比对哪些数据条需要划分到该该特征分支值与这条数据在该特征下取值相等的一侧。
从上面我们看到，只有划分数据集才能让数据集中的每一条数据各有归属，这就是为什么我们需要划分数据集。

举一个小例子并用绘图来示意。

【引例】：李华是否打球的决策分析。

以下是李华在过去9天是否打球的历史数据（原始数据集）：

假设我们现在确定了"有课与否"作为是否打球的判断依据进行第一次划分，那么有两种分支情况：

3. 如何进行数据集的划分（Python代码的实现）

3.1 划分步骤的详解

依上所述，划分数据集以获取子数据集的过程就是一个数据过滤的过程。这个过程的实现需要我们做两件事：

一是过滤掉非节点特征当前之路取值的数据

而是要在当前特征值划分所有数据过滤完成之后，删除已经用过的特征。

在上例中，以验证"有课与否"取"Y"划分数据集为例：

第一步：过滤掉所有"有课与否"取"N"的数据，得到结果如下：
第二步：删除已经用过的特征"有课与否"，得到本次划分最终完成的数据集如下：

3.2 使用编程实现对数据集的划分

在理解了上述过程之后，我们趁热打铁，使用Python语言来编程实现该数据集划分的全部过程。
假设用x_train与y_train来表示训练集数据的特征列取值们与标签列，它们分别是多维和一维数组。

为了方便读者观察，以拥有10条数据、一共43个特征的数据集为例，其中x_train的样式形如：

array([[1, 4, 2, 0, 3, 1, 1, 0, 1, 4, 2, 4, 4, 2, 4, 2, 0, 2, 2, 0, 0, 0, 0, 0, 1, 0, 0, 2, 0, 3, 1, 3, 1, 3, 1, 1, 0, 1, 4, 3, 4, 4, 2],
       [0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 1, 2, 3, 0, 3, 1, 1, 0, 0, 4, 2, 2, 4, 1, 1, 0, -1, 0, 4, 0, -1, -1, 0, 0, 0, 0, 0, 0, 2],
       [4, 2, 2, 3, 1, 2, 1, 1, 0, 2, 1, 1, 1, 0, 3, 0, 3, 2, 2, 0, 0, 0, 0, 3, 1, 1, 2, 3, 4, 3, 1, 1, 3, 1, 2, 1, 1, 0, 1, 2, 2, 1, 0],
       [1, 4, 2, 2, 3, 1, 1, 0, 0, 2, 1, 1, 1, 0, 3, 4, 2, 2, 4, 1, 0, 1, 0, 3, 2, 2, 4, 3, 1, 2, -1, 2, 2, 1, 0, 1, -1, 0, 1, 1, 1, 0, 0],
       [1, 2, 2, 1, 3, 1, 1, 0, 0, 2, 2, 1, 1, 0, 0, 4, 1, 2, 1, 0, 0, 0, 0, 2, 1, 1, 2, 3, 3, 0, -1, 2, 1, 3, 1, 1, 0, 0, 2, 3, 2, 1, 0],
       [1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 3, 3, 2, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 3, 3, 2, 4, 2, 2, -1, 2, 2, 3, 0, 0, 0, 0, 2, 2, 2, 2, 0],
       [1, 1, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 2, 0, 3, 2, 1, 1, 0, 2, 2, 1, 0, 3, 3, 2, 1, 1, 3, 0, -2, -1, -1, 0, 1, 0, 2, 2, 1],
       [0, 0, 3, 3, 2, 0, 0, 0, 0, 3, 3, 3, 0, 2, 1, 3, 3, 3, 2, 1, 1, 0, 0, 3, 4, 4, 1, 2, 1, 0, 1, 2, 2, 1, -1, -1, 0, 0, 2, 1, 2, 1, 2],
       [2, 4, 2, 0, 2, 1, 0, 1, 0, 2, 2, 3, 4, 2, 2, 3, 0, 2, 0, 1, 1, 0, 0, 0, 3, 3, 0, 4, 2, 2, 1, 3, 1, 4, 0, -1, 1, 0, 3, 1, 2, 4, 0],
       [1, 4, 1, 0, 1, 0, 0, 0, 0, 3, 2, 3, 3, 4, 4, 1, 0, 1, 0, 1, 0, 1, 0, 0, 2, 1, 4, 2, 0, 4, 1, 3, 1, 3, -1, 0, -1, 0, 3, 2, 3, 2, 3]],
      dtype=object)

其中y_train的样式形如：

array([1, 0, 0, 1, 0, 0, 1, 0, 0, 1], dtype=int64)

接下来到了激动人心的数据集划分函数dividing_data_set()的编程环节。
为了方便在数据集中索引到各个特征，我们先将数据集转换为方便索引的数据字典。以下采用jupyter调试。

import numpy as np

# 定义模拟数据
x_train = ... # 采用上面的x_train，这里省略
y_train = ... # 采用上面的y_train，这里省略
features = ["feature_"+str(i) for i in range(43)]  # 产生43个不同的特征名字
node_feature = "feature_13"   # 定义当前节点的特征名
node_feature_value = 2        # 定义对于当前节点的特征取值为2，之后就是求 node_feature 在 node_feature取2下的划分

# 转换为数据集字典
date_set = dict(zip(features,x_train.T))   # 注意x_train需要转置
date_set.update({"labels":y_train})        # 将标签集（labels，也就是输出y们）也加入数据集

date_set   # 查看一下整理的数据样式

Out[i]:

{'feature_0': array([1, 0, 4, 1, 1, 1, 1, 0, 2, 1]),
 'feature_1': array([4, 0, 2, 4, 2, 0, 1, 0, 4, 4]),
 'feature_2': array([2, 0, 2, 2, 2, 0, 0, 3, 2, 1]),
 'feature_3': array([0, 3, 3, 2, 1, 0, 2, 3, 0, 0]),
 'feature_4': array([3, 0, 1, 3, 3, 1, 0, 2, 2, 1]),
 'feature_5': array([1, 0, 2, 1, 1, 0, 0, 0, 1, 0]),
 'feature_6': array([1, 0, 1, 1, 1, 0, 0, 0, 0, 0]),
 'feature_7': array([0, 0, 1, 0, 0, 0, 0, 0, 1, 0]),
 'feature_8': array([1, 0, 0, 0, 0, 0, 0, 0, 0, 0]),
 'feature_9': array([4, 0, 2, 2, 2, 1, 0, 3, 2, 3]),
 'feature_10': array([2, 0, 1, 1, 2, 3, 0, 3, 2, 2]),
 'feature_11': array([4, 0, 1, 1, 1, 3, 0, 3, 3, 3]),
 'feature_12': array([4, 1, 1, 1, 1, 2, 0, 0, 4, 3]),
 'feature_13': array([2, 2, 0, 0, 0, 0, 2, 2, 2, 4]),
 'feature_14': array([4, 1, 3, 3, 0, 1, 0, 1, 2, 4]),
 'feature_15': array([2, 2, 0, 4, 4, 0, 0, 3, 3, 1]),
 'feature_16': array([0, 3, 3, 2, 1, 0, 2, 3, 0, 0]),
 'feature_17': array([2, 0, 2, 2, 2, 0, 0, 3, 2, 1]),
 'feature_18': array([2, 3, 2, 4, 1, 0, 3, 2, 0, 0]),
 'feature_19': array([0, 1, 0, 1, 0, 0, 2, 1, 1, 1]),
 'feature_20': array([0, 1, 0, 0, 0, 0, 1, 1, 1, 0]),
 'feature_21': array([0, 0, 0, 1, 0, 0, 1, 0, 0, 1]),
 'feature_22': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0]),
 'feature_23': array([0, 4, 3, 3, 2, 1, 2, 3, 0, 0]),
 'feature_24': array([1, 2, 1, 2, 1, 3, 2, 4, 3, 2]),
 'feature_25': array([0, 2, 1, 2, 1, 3, 1, 4, 3, 1]),
 'feature_26': array([0, 4, 2, 4, 2, 2, 0, 1, 0, 4]),
 'feature_27': array([2, 1, 3, 3, 3, 4, 3, 2, 4, 2]),
 'feature_28': array([0, 1, 4, 1, 3, 2, 3, 1, 2, 0]),
 'feature_29': array([3, 0, 3, 2, 0, 2, 2, 0, 2, 4]),
 'feature_30': array([ 1, -1,  1, -1, -1, -1,  1,  1,  1,  1]),
 'feature_31': array([3, 0, 1, 2, 2, 2, 1, 2, 3, 3]),
 'feature_32': array([1, 4, 3, 2, 1, 2, 3, 2, 1, 1]),
 'feature_33': array([3, 0, 1, 1, 3, 3, 0, 1, 4, 3]),
 'feature_34': array([ 1, -1,  2,  0,  1,  0, -2, -1,  0, -1]),
 'feature_35': array([ 1, -1,  1,  1,  1,  0, -1, -1, -1,  0]),
 'feature_36': array([ 0,  0,  1, -1,  0,  0, -1,  0,  1, -1]),
 'feature_37': array([1, 0, 0, 0, 0, 0, 0, 0, 0, 0]),
 'feature_38': array([4, 0, 1, 1, 2, 2, 1, 2, 3, 3]),
 'feature_39': array([3, 0, 2, 1, 3, 2, 0, 1, 1, 2]),
 'feature_40': array([4, 0, 2, 1, 2, 2, 2, 2, 2, 3]),
 'feature_41': array([4, 0, 1, 0, 1, 2, 2, 1, 4, 2]),
 'feature_42': array([2, 2, 0, 0, 0, 0, 1, 2, 0, 3]),
 'labels': array([1, 0, 0, 1, 0, 0, 1, 0, 0, 1])}

def dividing_data_set(date_set,node_feature,node_feature_value):
    """
    划分数据集
    整个划分方法的思想是"记录索引-重索引"。简而言之就是先记住特征取值为指定取值的索引号，然
    后依据记录索引号保对其它特征下同索引号的元素进行保留。最终实现留下当前划分数据条的目的。

    Parameters
    ----------
    date_set： "dict"结构的数据集，其中键为”labels“的键值对对应为标签集（源于x_train），其余
               的对应为特征取值键值对（源于y_train）。
    
    node_feature：可以是num、str等类型，但是必须和date_set中的键的类型保持一致。表示需要划分
               数据集的节点处对应的特征名。

    node_feature_value：是对应与 node_feature 的一个特定取值。
    
    Returns
    -------
    result : dict
        返回子数据集字典，其形式与date_set保持一致。其中键`labels`对应的值类似是子标签集数组。
    """
    # 先获取对应特征 node_feature 在数据集中所有条数据的有序取值数组
    feature_in_sets = date_set[node_feature]
    # 记录所有取值为 node_feature_value 数据编号
    reserved_group = [i for i in range(len(feature_in_sets)) if feature_in_sets[i]==node_feature_value]
    
    # 接着依据 reserved_group 中的组号保留属于当前分支的数据
    sub_date_set = {}
    for the_key in date_set:
        sub_date_set[the_key] = np.array([date_set[the_key][i] for i in reserved_group])
    
    # 最后，删除用过的特征列
    del(sub_date_set[node_feature])
    return sub_date_set
    
# 调用函数，执行子数据集划分
dividing_data_set(date_set,node_feature,node_feature_value)

Out[i]:

{'feature_0': array([1, 0, 1, 0, 2]),
 'feature_1': array([4, 0, 1, 0, 4]),
 'feature_2': array([2, 0, 0, 3, 2]),
 'feature_3': array([0, 3, 2, 3, 0]),
 'feature_4': array([3, 0, 0, 2, 2]),
 'feature_5': array([1, 0, 0, 0, 1]),
 'feature_6': array([1, 0, 0, 0, 0]),
 'feature_7': array([0, 0, 0, 0, 1]),
 'feature_8': array([1, 0, 0, 0, 0]),
 'feature_9': array([4, 0, 0, 3, 2]),
 'feature_10': array([2, 0, 0, 3, 2]),
 'feature_11': array([4, 0, 0, 3, 3]),
 'feature_12': array([4, 1, 0, 0, 4]),
 'feature_14': array([4, 1, 0, 1, 2]),
 'feature_15': array([2, 2, 0, 3, 3]),
 'feature_16': array([0, 3, 2, 3, 0]),
 'feature_17': array([2, 0, 0, 3, 2]),
 'feature_18': array([2, 3, 3, 2, 0]),
 'feature_19': array([0, 1, 2, 1, 1]),
 'feature_20': array([0, 1, 1, 1, 1]),
 'feature_21': array([0, 0, 1, 0, 0]),
 'feature_22': array([0, 0, 0, 0, 0]),
 'feature_23': array([0, 4, 2, 3, 0]),
 'feature_24': array([1, 2, 2, 4, 3]),
 'feature_25': array([0, 2, 1, 4, 3]),
 'feature_26': array([0, 4, 0, 1, 0]),
 'feature_27': array([2, 1, 3, 2, 4]),
 'feature_28': array([0, 1, 3, 1, 2]),
 'feature_29': array([3, 0, 2, 0, 2]),
 'feature_30': array([ 1, -1,  1,  1,  1]),
 'feature_31': array([3, 0, 1, 2, 3]),
 'feature_32': array([1, 4, 3, 2, 1]),
 'feature_33': array([3, 0, 0, 1, 4]),
 'feature_34': array([ 1, -1, -2, -1,  0]),
 'feature_35': array([ 1, -1, -1, -1, -1]),
 'feature_36': array([ 0,  0, -1,  0,  1]),
 'feature_37': array([1, 0, 0, 0, 0]),
 'feature_38': array([4, 0, 1, 2, 3]),
 'feature_39': array([3, 0, 0, 1, 1]),
 'feature_40': array([4, 0, 2, 2, 2]),
 'feature_41': array([4, 0, 2, 1, 4]),
 'feature_42': array([2, 2, 1, 2, 0]),
 'labels': array([1, 0, 1, 0, 0])}

可以看到，划分数据集后在子数据集中，所有特征中对应划分前"feature_13"取值为2的数据被保留了下来，同时由于特征"feature_13"已经使用过了，子数据集中不再有"feature_13"。符合数据集划分要求。

附：举个更简单的实例

Q：上面例子数据太复杂了，我没看明白。能否用文章开头的引例给我们来一次？

A：必须安排！

import numpy as np

# 定义数据
x_train = np.array([["Y","晴天","好"],
                    ["Y","雨天","差"],
                    ["N","太阳","好"],
                    ["N","雨天","差"],
                    ["N","晴天","差"],
                    ["Y","雨天","一般"],
                    ["N","雨天","好"],
                    ["N","晴天","好"],
                    ["Y","晴天","好"],
                   ])
y_train = np.array(["N", "N", "Y", "Y", "Y", "N", "Y", "Y", "Y"])
features = ["有课与否","天气","心情"]      # 产生43个不同的特征名字
node_feature = "有课与否"        # 定义当前节点的特征名
node_feature_value = "Y"        # 定义对于当前节点的特征取值为2，之后就是求 node_feature 在 node_feature取2下的划分

# 转换为数据集字典
date_set = dict(zip(features,x_train.T)) # 注意需要转置
date_set.update({"labels":y_train})      # 将标签集（labels，也就是输出y们）也加入数据集

date_set

Out[i]:

{'有课与否': array(['Y', 'Y', 'N', 'N', 'N', 'Y', 'N', 'N', 'Y'], dtype='

 
       def dividing_data_set(date_set,node_feature,node_feature_value):
    """划分数据集"""
    # 先获取对应特征 node_feature 在数据集中所有条数据的有序取值数组
    feature_in_sets = date_set[node_feature]
    # 记录所有取值为 node_feature_value 数据编号
    reserved_group = [i for i in range(len(feature_in_sets)) if feature_in_sets[i]==node_feature_value]
    
    # 接着依据 reserved_group 中的组号保留属于当前分支的数据
    sub_date_set = {}
    for the_key in date_set:
        sub_date_set[the_key] = np.array([date_set[the_key][i] for i in reserved_group])
    
    # 最后，删除用过的特征列
    del(sub_date_set[node_feature])
    return sub_date_set
dividing_data_set(date_set,node_feature,node_feature_value)
 
       Out[i]: 
       {'天气': array(['晴天', '雨天', '雨天', '晴天'], dtype='
 
       这不就是在文章开头的引例中，我们手动划分当特征'有课与否'取"Y"下的子数据集的么：
 
 觉得写的不错或者对你有帮助的话，记得来个三连加关注噢！

自学力扣：最长连续序列
给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例1：输入：nums=[100,4,200,1,3,2]输出：4解释：最长数字连续序列是[1,2,3,4]。它的长度为4。示例2：输入：nums=[0,3,7,2,5,8,4,6,0,1]输出：9示例3：输入：nums=[1,0,1,2]输出：3方法
Java实现端到端加密终极指南：密钥管理与分发的深度解析墨夶 Java学习资料4 java python 开发语言
一、为什么选择Java实现端到端加密？企业级可靠性：Java生态提供BouncyCastle等成熟加密库，支持国密SM2/SM4及国际标准算法。全栈可控：从密钥生成到存储、分发、销毁，全程代码可审计，符合GDPR等安全规范。扩展性强：可集成HSM硬件安全模块，支持密钥轮换策略与前向安全性设计。二、核心代码实战：密钥管理与分发全流程2.1密钥生成与存储（国密SM2算法）importorg.bounc
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)学习python网络爬虫的完整路径：（第一章即此篇文章）（第二章）python网络爬虫(第二章/共三章：安装浏览器驱动，驱动浏览器加载网页、批量下载资源)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149431071?
力扣 hot100 Day48 qq_51397044 Hot100 算法数据结构
35.搜索插入位置给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。//自己写的classSolution{public:intsearchInsert(vector&nums,inttarget){intleft=0;intright=nums.size()-1;while(left
mac mlx大模型框架的安装和使用 liliangcsdn python java 前端人工智能 macos
mlx是apple平台的大模型推理框架，对macm1系列处理器支持较好。这里记录mlx安装和运行示例。1安装mlx框架condacreate-nmlxpython=3.12condaactivatemlxpipinstallmlx-lm2运行mlx测试例以下是测试程序，使用方法和hf、vllm等推理框架基本一致。importosos.environ['HF_ENDPOINT']="https://
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

机器学习 - [源码实现决策树小专题]决策树中子数据集的划分（不允许调用sklearn等库的源代码实现）

李俊才 的 CSDN 博客

邮箱 ：[email protected]

CSDN 主页：https://blog.csdn.net/qq_28550263?spm=1001.2101.3001.5343

本文地址：https://blog.csdn.net/qq_28550263/article/details/123649691

1. 经典决策树算法思想回顾

2.为什么需要划分数据集

3. 如何进行数据集的划分（Python代码的实现）

3.1 划分步骤的详解

3.2 使用编程实现对数据集的划分

附： 举个更简单的实例

你可能感兴趣的:(Python语言专题,数据分析与机器学习,决策树,python,机器学习,算法,人工智能)

李俊才的 CSDN 博客

邮箱：[email protected]

附：举个更简单的实例