江野_c

使用python实现C4.5决策树并使用treelib输出

实验目的

本实验的主要目的是采用C4.5算法建立决策树模型，通过计算每个特征的信息增益率来评估其对于分类的重要性，进而构建一个能够对数据进行分类的决策树模型，并将最终的决策树模型以结构图的形式展示出来，以便更好地理解和分析模型的分类决策过程。

实验原理

C4.5算法是一种决策树分类算法，它是基于ID3算法改进而来的。C4.5算法相较于ID3算法具有更好的鲁棒性和更高的分类准确度，它主要有以下特点：

决策树生成：C4.5算法采用自顶向下的贪心策略生成决策树，首先将全部训练数据看作一个根节点，然后将训练数据分成多个子集，每个子集对应一个子节点，这个分裂过程一直进行到叶子节点。
特征选择：C4.5算法采用信息增益率来选择最优特征。信息增益率是信息增益与分裂信息之比，它可以消除信息增益对特征取值较多的偏好。
剪枝：C4.5算法采用后剪枝策略，即将生成的决策树进行剪枝，以消除过度拟合的影响，提高决策树的泛化能力。

C4.5算法的具体步骤如下：

根据训练数据集，计算每个特征的信息增益率，并选择信息增益率最大的特征作为当前节点的分裂特征。
根据分裂特征的取值，将训练数据集分成多个子集，并为每个子集创建一个子节点。
对于每个子节点，如果它所包含的样本都属于同一类别，或者它所包含的样本的特征已经处理完毕，则将其设置为叶子节点，否则重复步骤1。
对生成的决策树进行后剪枝，直到决策树无法再剪枝为止。

C4.5算法相较于ID3算法在处理连续特征时更加简单，同时可以处理缺失值问题，但是在处理大量特征时会面临过拟合的风险

实验内容

定义计算整体的信息熵
```
def getAllE(x):
    count = []
    res = []
    cate = set(x)
    for item in cate:
        temp = 0
        for j in range(len(x)):
            if x[j] == item:
                temp += 1
        temp = temp / len(x)
        res.append(-temp * math.log(temp, 2))
        count.append(temp / len(x))
    return sum(res)
```
- 通过 set(x) 获取特征取值的不重复集合，即特征的所有可能取值。
- 遍历不重复集合中的每个取值 item，在列表 x 中统计 item 出现的次数，计算 item 在 x 中的出现频率 temp。
- 计算该特征取值的信息熵，即对所有不同取值 item 的 -p(item)*log2(p(item)) 进行求和，其中 p(item) 表示 item 在 x 中的出现频率。
- 返回所有特征取值的信息熵之和。

定义计算属性条件熵

def getEntropy(x, fin, choice=1):
    cate = set(x)
    fincate = set(fin)  # 结果的类别
    count = []  # 每个类别的数量
    catepro = []  # 每个类别所占的比例
    finpro = []  # 每个类别对应结果的比例
    # 计算
    for item in cate:
        temp = 0
        cateFin = []  # 存取每个类别对应的结果
        for i in range(len(x)):
            if x[i] == item:
                temp += 1
                cateFin.append(fin[i])
        # 每个类别对应的结果类数
        cateFinSet = set(cateFin)
        finArr = []

        for item in cateFinSet:
            # 如果该类别的结果与外层循环相等
            lis = [j for j in cateFin if j == item]
            finArr.append(len(lis) / len(cateFin))
        # 可以得到该类别下不同结果所占的比例
        finpro.append(finArr)
        # 类别数量
        count.append(temp)
        pro = temp / len(x)
        # 类别占的比例
        catepro.append(pro)
    res = []
    for i in range(len(catepro)):
        temp = 0
        for j in range(len(finpro[i])):
            temp += -(finpro[i][j]) * math.log(finpro[i][j], 2)
        res.append(catepro[i] * temp)
    return sum(res)

函数的输入参数包括x（样本的特征值）和fin（样本的标签），以及可选参数choice。函数首先用set(x)来得到样本的特征类别集合，然后用set(fin)得到标签类别集合。接着，它循环遍历每个特征类别，计算每个类别的样本数量，以及该类别中不同标签所占的比例（即样本属于该特征类别并且标签为某个标签的样本数量除以该特征类别的样本数量），并将这些比例存储在finpro列表中。然后，函数计算每个特征类别所占样本的比例，以及每个特征类别的信息熵。最后，将每个特征类别的信息熵与该类别所占样本的比例相乘，并对所有特征类别的结果求和，得到该特征的信息熵。该函数计算的是特征的信息熵，也称为条件熵，表示特征给定的条件下，样本的不确定性。

定义计算纯度
```
def getFineness(x, fin):
    cate = set(x)
    res = []
    for item in cate:
        temp = []
        for j in range(len(fin)):
            if item == x[j]:
                temp.append(fin[j])
        temp = set(temp)
        temp = list(temp)
        if len(temp) == 1:
            res.append([int(item), True, int(temp[0])])
        else:
            res.append([int(item), False])
    print(res)
    return res
```
该代码实现了对数据集特征x的精细化处理，即对于每一个不同的x值，查找其在结果集fin中的所有出现，将这些结果去重后存入一个列表中，如果列表中只有一个元素，则说明这个x值对应的结果是确定的；否则，说明这个x值对应的结果不唯一，需要继续对其进行分类处理。具体来说，该函数接收两个参数，一个是特征集合x，另一个是对应的结果集合fin，它的输出是一个列表，其中每个元素表示一个x值对应的信息。对于每个元素，第一个元素是x值本身，第二个元素是一个布尔类型的值，表示这个x值是否是唯一的结果；如果是唯一的结果，则还有第三个元素，表示这个结果的具体取值。最终输出这个列表。

定义决策树代码

def DecisionTree(data, fatherNode, notcul=[], nodeNname=''):
    # 需要做决策树分类的列数
    cols = data.shape[1] - 1
    # 整体信息熵
    ED = getAllE(data[:, -1])
    # 属性条件熵
    E = []
    # 分裂信息度量
    H = []
    # 信息增益
    Gain = []
    # 信息增益率
    GainRatio = []
    for i in range(cols):
        E.append(getEntropy(data[:, i], data[:, -1]))
        H.append(getAllE(data[:, i]))
        Gain.append(ED - E[i])
        if H[i] != 0:
            GainRatio.append(Gain[i] / H[i])
        else:
            GainRatio.append(0)
    num = len(notcul)
    if fatherNode != -1:
        print(tree.level(fatherNode))
        num = tree.level(fatherNode)
        print(notcul)
        print(notcul[:num + 2])
    # 选择信息增益率最大的作为节点
    for item in notcul[:num + 2]:
        print("gainRatio赋零")
        GainRatio[item] = 0
    print(GainRatio)
    maxIndex = GainRatio.index(max(GainRatio))
    notcul.append(maxIndex)
    print("maxIndex:", maxIndex)
    if fatherNode == -1:
        tree.create_node(col_name[maxIndex], maxIndex)
        fatherNode = maxIndex
    else:
        if tree.get_node(maxIndex):
            tree.create_node(str(col_name[maxIndex]) + '-' + str(nodeNname), taglis[-1], parent=fatherNode)
            fatherNode = taglis[-1]
            taglis.pop()
        else:
            tree.create_node(str(col_name[maxIndex]) + '-' + str(nodeNname), taglis[-1], parent=fatherNode)
            fatherNode = taglis[-1]
            taglis.pop()
    child = getFineness(data[:, maxIndex], data[:, -1])
    isover = True
    for i in range(len(child)):
        # 叶节点
        if child[i][1] == True:
            tree.create_node(str(res_col_name[child[i][2] - 1]) + '-' + str(child[i][0]), taglis[-1], parent=fatherNode,
                             data=child[i][2])
            taglis.pop()
        # 树节点
        else:
            data1 = copy.deepcopy(data)
            data2 = data1[data1[:, maxIndex] == child[i][0]]
            DecisionTree(data2, fatherNode=fatherNode, notcul=notcul, nodeNname=str(child[i][0]))
            isover = False
    if isover:
        return
    tree.show()

参数：

data：待分类的数据集，格式为一个二维数组，每行表示一个样本，每列表示一个特征。
fatherNode：当前节点的父节点编号。
notcul：已经被选择过的特征的编号。
nodeNname：当前节点的名称。

功能：

计算每个特征的信息熵、条件熵、分裂信息度量、信息增益和信息增益率。
选择信息增益率最大的特征作为当前节点，并在决策树上创建该节点。
递归处理当前节点的子节点，直到所有叶子节点都被处理完。

具体解释：

cols = data.shape[1] - 1：获取数据集的列数，因为最后一列是标签列，不是特征列。
ED = getAllE(data[:, -1])：计算数据集的整体信息熵。
E、H、Gain、GainRatio：分别为属性条件熵、分裂信息度量、信息增益和信息增益率的列表。
for i in range(cols):：循环遍历每个特征，计算它们的信息熵、分裂信息度量、信息增益和信息增益率。
num = len(notcul)：获取已经被选择过的特征数。
if fatherNode != -1:：如果当前节点有父节点，则打印出父节点的层数、已经被选择过的特征和当前需要选择的特征。
for item in notcul[:num + 2]:：将已经被选择过的特征的信息增益率设置为0。
maxIndex = GainRatio.index(max(GainRatio))：选择信息增益率最大的特征的编号。
notcul.append(maxIndex)：将选择的特征编号添加到已经被选择过的特征列表中。
if fatherNode == -1:：如果当前节点没有父节点，则在树的根节点创建新节点。
else:：如果当前节点有父节点，则在树上创建新节点。
child = getFineness(data[:, maxIndex], data[:, -1])：根据选择的特征将数据集分成若干个子集。
for i in range(len(child)):：循环遍历每个子集。
if child[i][1] == True:：如果当前子集是叶节点，则在树上创建新叶子节点。
else:：如果当前子集不是叶节点，则递归处理该子集，将其作为当前节点的子节点。
tree.show()：在控制台上输出完整的决策树。

节点后的值表示，当父节点取该值时，会进入到该子节点

完整代码

import copy

import numpy as np
import math
from treelib import Tree

tree = Tree()
col_name = ['age of the patient', "spectacle prescription", "astigmatic", "tear production rate"]
res_col_name = ['hard', 'soft', 'no lense']
leaf = 100
taglis = [i for i in range(200)]


def getAllE(x):
    count = []
    res = []
    cate = set(x)
    for item in cate:
        temp = 0
        for j in range(len(x)):
            if x[j] == item:
                temp += 1
        temp = temp / len(x)
        res.append(-temp * math.log(temp, 2))
        count.append(temp / len(x))
    return sum(res)


def getEntropy(x, fin, choice=1):
    cate = set(x)
    fincate = set(fin)  # 结果的类别
    count = []  # 每个类别的数量
    catepro = []  # 每个类别所占的比例
    finpro = []  # 每个类别对应结果的比例
    # 计算
    for item in cate:
        temp = 0
        cateFin = []  # 存取每个类别对应的结果
        for i in range(len(x)):
            if x[i] == item:
                temp += 1
                cateFin.append(fin[i])
        # 每个类别对应的结果类数
        cateFinSet = set(cateFin)
        finArr = []

        for item in cateFinSet:
            # 如果该类别的结果与外层循环相等
            lis = [j for j in cateFin if j == item]
            finArr.append(len(lis) / len(cateFin))
        # 可以得到该类别下不同结果所占的比例
        finpro.append(finArr)
        # 类别数量
        count.append(temp)
        pro = temp / len(x)
        # 类别占的比例
        catepro.append(pro)
    res = []
    for i in range(len(catepro)):
        temp = 0
        for j in range(len(finpro[i])):
            temp += -(finpro[i][j]) * math.log(finpro[i][j], 2)
        res.append(catepro[i] * temp)
    return sum(res)


def getFineness(x, fin):
    cate = set(x)
    res = []
    for item in cate:
        temp = []
        for j in range(len(fin)):
            if item == x[j]:
                temp.append(fin[j])
        temp = set(temp)
        temp = list(temp)
        if len(temp) == 1:
            res.append([int(item), True, int(temp[0])])
        else:
            res.append([int(item), False])
    return res


def DecisionTree(data, fatherNode, notcul=[], nodeNname=''):
    # 需要做决策树分类的列数
    cols = data.shape[1] - 1
    # 整体信息熵
    ED = getAllE(data[:, -1])
    # 属性条件熵
    E = []
    # 分裂信息度量
    H = []
    # 信息增益
    Gain = []
    # 信息增益率
    GainRatio = []
    for i in range(cols):
        E.append(getEntropy(data[:, i], data[:, -1]))
        H.append(getAllE(data[:, i]))
        Gain.append(ED - E[i])
        if H[i] != 0:
            GainRatio.append(Gain[i] / H[i])
        else:
            GainRatio.append(0)
    num = len(notcul)
    if fatherNode != -1:
        num = tree.level(fatherNode)
    # 选择信息增益率最大的作为节点
    for item in notcul[:num + 2]:
        GainRatio[item] = 0
    print(GainRatio)
    maxIndex = GainRatio.index(max(GainRatio))
    notcul.append(maxIndex)
    if fatherNode == -1:
        tree.create_node(col_name[maxIndex], maxIndex)
        fatherNode = maxIndex
    else:
        if tree.get_node(maxIndex):
            tree.create_node(str(col_name[maxIndex]) + '-' + str(nodeNname), taglis[-1], parent=fatherNode)
            fatherNode = taglis[-1]
            taglis.pop()
        else:
            tree.create_node(str(col_name[maxIndex]) + '-' + str(nodeNname), taglis[-1], parent=fatherNode)
            fatherNode = taglis[-1]
            taglis.pop()
    child = getFineness(data[:, maxIndex], data[:, -1])
    isover = True
    for i in range(len(child)):
        # 叶节点
        if child[i][1] == True:
            tree.create_node(str(res_col_name[child[i][2] - 1]) + '-' + str(child[i][0]), taglis[-1], parent=fatherNode,
                             data=child[i][2])
            taglis.pop()
        # 树节点
        else:
            data1 = copy.deepcopy(data)
            data2 = data1[data1[:, maxIndex] == child[i][0]]
            DecisionTree(data2, fatherNode=fatherNode, notcul=notcul, nodeNname=str(child[i][0]))
            isover = False
    if isover:
        return
    tree.show()


if __name__ == '__main__':
    data = np.loadtxt('./source/lenses_data.txt')
    # 包括最后一列结果的数据
    data = data[:, 1:]
    DecisionTree(data, -1)
    # tree.create_node(

sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
python环境部署工具 uv Honnnnnn uv
以原先使用的pipenv工具为例子，通过pipfile.lock生成requirements文件，再将requirements转成pyproject.toml文件，最后生成uv.lock基于当前虚拟环境导出requirements.txt--pipfreeze>requirements.txt（如果原先不是env而是基础的通过requirements.txt文件，省去转化requirements的
leetcode-hot100-python-专题三：滑动窗口 ༺ Dorothy ༻ leetcode hot100 leetcode python 算法
1、无重复字符的最长子串中等给定一个字符串s，请你找出其中不含有重复字符的最长子串的长度。示例1:输入:s=“abcabcbb”输出:3解释:因为无重复字符的最长子串是“abc”，所以其长度为3示例2:输入:s=“bbbbb”输出:1解释:因为无重复字符的最长子串是“b”，所以其长度为1。示例3:输入:s=“pwwkew”输出:3解释:因为无重复字符的最长子串是“wke”，所以其长度为3。请注意，
Python UV - 安装、升级、卸载云客Coder python uv 开发语言
文章目录安装检查升级设置自动补全卸载UV命令官方文档详见：https://docs.astral.sh/uv/getting-started/installation/安装pipinstalluv检查安装后可运行下面命令，查看是否安装成功uv--version%uv--versionuv0.6.3(a0b9f22a22025-02-24)升级uvselfupdate将重新运行安装程序并可能修改您的
使用Python构建去中心化预测市场：从概念到实现 Echo_Wish Python！实战！python 去中心化开发语言
使用Python构建去中心化预测市场：从概念到实现大家好，我是Echo_Wish。今天，我们将深入探讨一个前沿的区块链应用——去中心化预测市场，并学习如何使用Python来构建一个简易的预测市场平台。预测市场是基于市场参与者对未来事件的预测来产生结果的地方，通常被用来预测政治事件、金融市场走向、体育比赛结果等。传统的预测市场如Augur、Polymarket等，基于去中心化平台，利用区块链技术确保
Python自动登陆、登出南京理工大学NJUST校园网程序 JimesMz python 开发语言
本文程序针对南京理工大学NJUST和NJUST-FREE校园网开发，其他学校无法使用。文章目录开发目的使用说明参考资料开发目的今天突然想要用代码实现一下自动登陆校园网，上网搜寻了一下。知乎有一些教程，CSDN也有一些完整的代码，但是我跟随教程或者直接运行现有代码都没有能够成功登陆，且NJUST校园网付费，我想要一个“登出”功能，借助Kimi自己写了一下。本人技术不精，以实现功能为主。使用说明请确保
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Python调用fofa API接口并写入csv文件中 YOHO !GIRL 网络测绘 python 网络安全
前言一.功能目的二.功能调研三.编写代码1.引入库2.读取数据3.写入csv文件中总结前言上一篇我们讲述了目前较为主流的几款网络探测系统，简单介绍了页面的使用方法。链接如下，点击跳转：网络空间测绘引擎集合：Zoomeye、fofa、360、shodan、censys、鹰图然而当我们需要针对单个引擎进行二次开发时，页面就不能满足我们的需求了，这就需要参考API文档进行简单的数据处理，接下来，给大家介
SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
Python实现微信自动发送消息热心市民小汪 python 微信开发语言
实现需求：Python定时发送微信消息importpyautoguiaspgimportpyperclipaspcfromapscheduler.schedulers.blockingimportBlockingScheduler"""实现定时自动发送消息"""#操作间隔为1秒pg.PAUSE=1name='Hello~'msg='是时候点餐啦！！'defmain():#打开微信pg.hotkey
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
程序代码篇---Pyqt的密码界面 Ronin-Lotus 程序代码篇上位机知识篇 pyqt 数据库 python ubuntu
文章目录前言一、代码二、代码解释2.1用户数据库定义2.2窗口初始化2.3认证逻辑2.5角色处理2.6错误处理优化2.7功能扩展说明2.7.1用户类型区分管理员普通用户其他用户2.7.2安全增强建议三、运行效果四、运行命令五、界面改进建议5.1密码显示5.2用户头像显示5.3输入框动画效果5.4加载进度显示5.5键盘快捷键前言本文简单介绍了在Ubuntu系统上使用Python的Pyqt创建密码登录
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
Python读取.nc文件的方法与技术详解傻啦嘿哟关于python那些事儿人工智能前端服务器
目录一、引言二、使用netCDF4库读取.nc文件安装netCDF4库导入netCDF4库打开.nc文件获取变量读取变量数据案例与代码三、使用xarray库读取.nc文件安装xarray库导入xarray库打开.nc文件访问变量数据案例与代码四、性能与优化分块读取使用Dask进行并行计算减少不必要的变量加载五、其他注意事项文件路径变量命名数据类型文件关闭六、总结一、引言.nc文件，即NetCDF（
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
Python画词云图，Python画圆形词云图，API详解请一直在路上 python 开发语言
在Python中，词云图的常用库是wordcloud。以下是核心API参数的详细讲解，以及一个完整的使用示例。一、参数类型默认值说明参数类型默认值说明widthint400词云图的宽度（像素）heightint200词云图的高度（像素）background_colorstr“black”背景颜色，可以是颜色名称（如“white”）或十六进制值（如“#FFFFFF”）colormapstr/matp
23、nc文件快速切片与索引爱转呼啦圈的小兔子气象数据处理与可视化 python 气象气象可视化气候变化
1前言在气象、海洋学和环境科学等领域，.nc（NetCDF）格式文件是存储和共享多维科学数据的常用格式。这些数据文件通常包含大量的经度、纬度、时间和垂直层次数据。在处理这些数据时，研究人员常常需要根据特定的地理和时间范围提取数据，以便进行深入分析。为此，我们开发了一个名为nc_slice的Python函数，用于从一个或多个.nc格式文件中高效地筛选和提取数据。nc_slice函数提供了一种简洁而灵
【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址江上_酒开发环境及工具配置 TensorFlow CUDA cuDNN
TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu-2.9.03.7-3.10MSVC2019Bazel5.0.08.111.2tensorflow_gpu-2.8.03.7-3.10MSVC2019Bazel4.2.18.111.
Python读取nc文件的几种方式请一直在路上 python
在Python中，有多种方式可以读取NetCDF(.nc)文件。常见的方法包括使用以下库：1.netCDF4这是最常用的库之一，提供了直接读取、写入和处理NetCDF文件的功能。它支持版本3和版本4的NetCDF文件格式。安装：pipinstallnetCDF4用法：importnetCDF4asnc#打开文件dataset=nc.Dataset('example.nc')#查看文件的维度prin
UV - Python 包管理丽英y Python uv python 开发语言
文章目录创建uv项目已有项目已有uv项目创建uv项目#创建项目uvinitm3#创建环境cdm3uvvenv--python3.11#激活环境source.venv/bin/activate#添加库uvaddflask如果创建项目后，给库取别的名字，add的时候，会自动创建.venv文件夹>uvvenv--python3.12e312[0]UsingCPython3.12.8interpreter
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
开发语言漫谈-脚本语言大道不孤,众行致远技术杂谈开发语言
前面讲的都称之为编程语言，就是做系统用的。还有一大类称之为脚本语言的语言，这类语言数量极多，大部分程序员用不上，也不关心，这是系统维护人员专用的邻域。这个定义其实也很不准确，不必较真。更准确的来讲，能直接运行的文本都可以称之为脚本语言，按这个标准，python也是。但是python同样用于做系统。我们今天讲的脚本语言纯粹用于系统维护邻域。我们重点将编程语言，对这些脚本语言就打包一起介绍了bash：
Python环境管理新利器：UV工具详解云水木石 python uv 开发语言
Python包和环境管理最好的工具无疑是Anaconda，但我在之前的一篇文章《注意，使用这款Python软件可能会带来麻烦》写过，个人使用完全没有问题。如果在公司内使用，就需要格外小心，可能会招来官司。在我们公司，Anaconda（包括Miniconda）就是禁止安装的软件之一。但是在工作中，确实又存在需要切换不同Python版本的需求，比如编译Chromium需要Python3.8以上的版本，
Python新手入门 python流程控制基础1——条件语句if~~else；if~elif~else；不爱纸片人 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、条件语句是什么？二、语句使用方法1.if.....2.if.......elif......3.if.......elif......else.......总结一、条件语句是什么？在Python中，条件语句用于根据不同的条件执行不同的代码块二、语句使用方法一共有三种if…if’…elif…if…elif…else…1.if
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

使用python实现C4.5决策树并使用treelib输出

实验目的

实验原理

实验内容

完整代码

你可能感兴趣的:(机器学习,决策树,python,机器学习)