Little_mosquito_

机器学习：决策树

一、决策树定义

1、决策树构成

根节点、内部节点、叶节点（终节点）；

2、学习算法

决策树学习算法包含特征选择、决策树的生成与决策树的剪枝。

树的学习算法是 "贪⼼算法"，从包含全部训练数据的根开始，每⼀步都选择最佳划分。依赖于所选择的属性是数值属性还是离散属性，每次将数据划分为两个或多个⼦集，然后使⽤对应的⼦集递归地进⾏划分，直到所有训练数据⼦集被基本正确分类，或者没有合适的特征为⽌，此时，创建⼀个树叶结点并标记它，这就⽣成了⼀颗决策树。

决策树的⽣成只考虑局部最优，决策树的剪枝则考虑全局最优。

3、特征选择

在分类树中，划分的优劣⽤不纯度度量定量分析。

度量不纯性的函数：熵函数（p为概率）

基尼系数：

二、手写代码

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

import numpy as np
import pandas as pd

1、模型数据集

data = pd.DataFrame(
    {'年龄':['青年'] * 5 + ['中年'] * 5 + ['老年'] * 5,
     '有工作': ['否', '否', '是', '是', '否','否','否','是','否','否','否','否','是','是','否'],
     '有自己的房子':['否','否','否','是','否','否','否','是', '是','是', '是','是','否','否','否'],
     '信贷情况':['一般','好','好','一般','一般','一般','好','好','非常好','非常好','非常好','好','好','非常好','一般'],
     '类别':['否', '否', '是', '是', '否','否','否','是', '是','是','是', '是','是','是','否']
    }
)

2、计算信息增益

# 定义墒函数：输入带标签的数据集，返回墒
def calEnt(data):   
    prob = data.iloc[:,-1].value_counts()/data.shape[0]     
    return -(prob * np.log2(prob)).sum()

# 计算信息增益
# 根据特征分裂（有自己的房子）
d1 = data[data["有自己的房子"] == "是"]
d2 = data[data["有自己的房子"] != "是"]
# 计算父节点、子节点信息熵
Ent_d = calEnt(data)
Ent_d1 = calEnt(d1)
Ent_d2 = calEnt(d2)
# 计算信息增益
calEnt(data)-(d1.shape[0]/data.shape[0]*calEnt(d1)+d2.shape[0]/data.shape[0]*calEnt(d2))

3、最优特征的选择

# 上述计算分裂出节点的信息熵的代码，用groupby简化
data.groupby("有工作").apply(lambda x:x.shape[0]/data.shape[0]*calEnt(x)).sum()

# 封装函数：输入一个列数据，按数据集这一列进行划分，返回划分出子节点的信息墒
feature = "有工作"
def f(feature, data):
    return data.groupby(feature).apply(lambda x:x.shape[0]/data.shape[0]*calEnt(x)).sum()

# 循环计算信息增益，选出信息增益最大的特征
all_info = []
for i in range(0, data.shape[1]-1):
    feature = data.columns[i]
    all_info.append(calEnt(data) - f(feature, data))
data.columns[all_info.index(max(all_info))]

# 封装函数：输入一个数据集，返回信息增益最大的特征
def bestSplit(data):
    info = calEnt(data)- data.iloc[:,:-1].apply(lambda feature: f(feature, data))
    return info.idxmax()

4、树的生成

def createTree(dataSet):
    # 终止条件
    classlist = dataSet.iloc[:,-1].value_counts()           
    if classlist.values[0]==dataSet.shape[0] or dataSet.shape[1] == 1:
        return classlist.idxmax()                        
    # 确定出当前最佳切分列的索引
    bestfeat = bestSplit(dataSet)   
    # 采用字典嵌套的方式存储树信息                        
    myTree = {bestfeat:{}}                                  
    # 使用groupby.groups自动的来进行分组
    df_groupby_dict = dataSet.groupby(bestfeat).groups      
    
    for best_col_values in df_groupby_dict:                
        sub_df = dataSet.loc[df_groupby_dict[best_col_values], :]  
        sub_df = sub_df.drop([bestfeat], axis = 1)                 
        myTree[best_col_values] = createTree(sub_df)               
    return myTree

三、sklearn算法实现

1、ID3算法

ID3算法的核⼼是在决策树各个结点应⽤信息增益准则选择特征，递归地构建决策树。

具体方法是：

从根结点开始，对结点计算所有可能的特征的信息增益；
选择信息增益最⼤的特征作为结点的特征，由该特征的不同取值建⽴⼦结点；
再对⼦结点调⽤以上⽅法，构建决策树；
直到所有特征的信息增益均很⼩或没有特征可以选择为⽌，最后得到⼀个决策树；

缺点：

分⽀度越⾼（分类越多）的离散变量⼦结点的总信息熵更⼩，按照此列切分，可能结果不是很好，如身份证号，这样的分类⽅式是没有效益的；
不能处理连续型变量，需要对连续变量进⾏离散化；
对缺失值较为敏感，需要提前对缺失值进⾏处理；
没有剪枝的设置，容易导致过拟合；

2、C4.5

修改局部最优化条件：

⽤信息增益⽐准则来选择特征。

连续变量处理：

输⼊特征字段是连续型变量，则算法⾸先会对这⼀列数进⾏从⼩到⼤的排序，然后选取相邻的两个数的中间数作为切分数据集的备选点，若⼀个连续变量有N个值，则在C4.5的处理过程中将产⽣N-1个备选切分点，并且每个切分点都代表着⼀种⼆叉树的切分⽅案；

剪枝：

过拟合：模型的复杂度往往会⽐真模型更⾼，导致泛化性能下降；
⽋拟合：模型学习能⼒低下，对训练样本的⼀般性质尚未学好；

剪枝：指在去除部分叶结点，⽤来防⽌过拟合；

剪枝策略有：”预剪枝“、”后剪枝“；

预剪枝：在决策树⽣成的过程中，对每个结点在划分前先进⾏估计，如果当前的结点划分不能带来决策树泛化性能（预测性能）的提升，则停⽌划分并且将当前结点标记为叶结点。
后剪枝：先训练⽣成⼀颗完整的树，⾃底向上对⾮叶结点进⾏考察，如果将该结点对应的⼦树替换为叶结点能带来决策树泛化能⼒的提升，则将该⼦树替换为叶结点。

3、CART算法

分类回归树：

⼆叉递归划分：条件成⽴向左，反之向右；
连续变量：条件是最优分裂点；
分类变量：条件是若⼲类；
预测变量x的类型既可以是连续型变量也可以是分类型变量；
分类树：Gini准则；
回归树：标准偏差减少；
⽤于数值型预测时，并没有使⽤回归，⽽是基于到达叶结点的案例的平均值做出预测；

剪枝：

判断每个叶节点在验证集上的错误率，计算⼦节点总加权平均错误率并和⽗节点进⾏⽐较，若⼦节点总加权平均错误率高于父节点，考虑剪枝；

4、Sklearn下的决策树

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
# 导入数据集：乳腺癌数据集
from sklearn.datasets import load_breast_cancer

# 提取乳腺癌数据集
lbc = load_breast_cancer()
X = lbc["data"]
Y = lbc["target"]
# 拆分训练集、测试集
Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,Y,test_size=0.3,random_state=420)
# 训练模型
model = DecisionTreeClassifier()
model = model.fit(Xtrain, Ytrain)
# score评价模型很不严谨，很可能过拟合
model.score(Xtrain, Ytrain) , model.score(Xtest, Ytest)       

# 使用训练好的模型，对训练集做交叉验证
# 取平均值从而展示模型在上面这些设置好的参数下，在未知数据集上的综合能力
cross_val_score(model, Xtrain, Ytrain, cv = 5).mean()

重要参数：最优参数一般通过交叉验证来寻找；

splitter：默认是best：按信息增益最大的变量进行分裂；也可以设置成random：随机分裂；
错误认知：随机选择变量进行分裂；
正确认知：每个变量中随机选择一个分割点，再计算信息增益比；
min_samples_split：若样本量小于等于此值则不进行分裂；
min_samples_leaf：设置叶节点最小样本量；
min_impurity_decrease：不纯度的降低小于此值则不分裂；
max_depth：树的深度；

# 预剪枝参数设置
model = DecisionTreeClassifier(max_depth = 4,
                               min_samples_split = 4,
                               min_impurity_decrease= 0.01)
# 几个变量分裂的信息增益完全相等，会随机选一个变量进行分裂
# 生成树的时候加个种子进去，树的结果就不会随机变化了
model=DecisionTreeClassifier(splitter='best',random_state=0).fit(Xtrain,Ytrain)

参数调优：

# 单个参数调优
# 对max_depth调优
tree_score = []
for i in range(1, 9):
    model = DecisionTreeClassifier(max_depth = i)
    model = model.fit(Xtrain, Ytrain)   
    tree_score.append(cross_val_score(model, Xtrain, Ytrain, cv = 5).mean())
# 汇总学习曲线
plt.plot(range(1, 9), tree_score)


# 网格搜索
from sklearn.model_selection import GridSearchCV
# 做网格：字典的形式，key为决策树的参数，值为一个范围，需要是数组的形式
d = {
    "max_depth": list(range(1, 9)),
    "min_samples_leaf": [*range(1, 15)],
    "min_samples_split": list(range(2, 6)),
    "class_weight": [None, "balanced"]
}
# 实例化：不用设定任何参数，网格搜索包会自动将字典中可能的组自动传入
model = DecisionTreeClassifier()
# 够造一个GS对象，只需要定义好的模型，参数字典，cv，模型评价标准
GS = GridSearchCV(model, d , cv = 5, scoring="accuracy")   
# 可以直接把GS看成一个可以自动通过交叉验证的方式搜索最优参数一个决策树
GS = GS.fit(Xtrain, Ytrain)

# best_params_查看调整出来的最佳参数
GS.best_params_
# best_score_查看在最好的参数下，交叉验证中在测试集上最高的一个表现
GS.best_score_
# 最好的参数已经存到这个GS，这个已经是最好的一个决策树，直接可以用来做预测
GS.predict(Xtest)

决策树的可视化：

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['Simhei']
plt.rcParams['axes.unicode_minus']=False
import graphviz
dot_data = tree.export_graphviz(model,
                                out_file = None
                                ,feature_names= feature_name 
                                ,class_names=["琴酒","雪莉","贝尔摩德"] 
                                ,filled=True
                                ,rounded=True)
graph = graphviz.Source(dot_data)
graph

重要方法与接口:

# predict：做预测
model.predict(Xtest)
# apply：显示叶节点的索引
model.apply(Xtest)
# predict_prob：输出每一个样本在各个标签类别下的概率值
model.predict_proba(Xtest)
# feature_importance：特征重要性
pd.DataFrame(model.feature_importances_, index = feature_name).sort_values(0)

四、分类模型的评估指标

1、样本不平衡问题

分类模型倾向让多数类更容易被判断正确，少数类被牺牲掉。对模型⽽⾔，样本量越⼤的标签可以学习的信息越多，会更依赖从多数类中学到信息进⾏判断；

当模型什么也不做，把所有结果都预测为多数类，准确率也⾮常⾼，则模型评估指标准确率将失去意义。如果我们希望捕获少数类，模型也会失败；

决策树中，调节样本均衡的参数：class_weight & 接⼝fit中的sample_weight；

class_weight：默认None，表示假设数据标签是均衡的，即⾃动认为标签的⽐例是1：1；

这时候剪枝，需要搭配min_ weight_fraction_leaf这个基于权重的剪枝参数来使⽤。基于权重的剪枝参数（min_weight_ fraction_leaf）将⽐不知道样本权重的标准（min_samples_leaf）更少偏向主导类；

代码：

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# 模型数据集
class_1 = 1000         #类别1：1000个样本
class_2 = 100          #类别2：100个样本
centers = [[0,0], [2.0, 2.0]]     # 两个类别的中心
clusters_std = [1.5, 0.5]         # 两个类别的标准差
X, y = make_blobs(n_samples= [class_1, class_2],
                  centers= centers,
                  cluster_std= clusters_std,
                  random_state= 0, shuffle= False)
plt.scatter(X[:, 0], X[:, 1], c = y, cmap = "rainbow",s = 10)   # 画图看数据集

# 原始的决策树：不做平衡
model = DecisionTreeClassifier(max_depth= 4)
model = model.fit(X, y)
model.score(X,y)

# 新的决策树：做平衡
model = DecisionTreeClassifier(max_depth = 4, class_weight= "balanced")
model = model.fit(X, y)
model.score(X, y)

2、混淆矩阵

现实中，单纯地追求捕捉出少数类，将会成本太⾼，⽽不顾及少数类，则⽆法达成模型的效果。实际中将在寻找捕获少数类的能⼒和将多数类判错后需要付出的成本做平衡。

模型评估指标：混淆矩阵，用来评估即能尽量捕获少数类，还能尽量对多数类判断正确的能⼒；

准确率：所有预测正确的所有样本除以总样本；

精确度（查准率）：表示在所有预测结果为1的样例数中，实际为1的样例数所占⽐重。精确度越低，则代表我们误伤了过多的多数类。精确度是”将多数类判错后所需付出成本“的衡量；

做了样本平衡，精确度是下降的，有更多的多数类被误伤；

召回率（敏感度、真正率、查全率）： 表示所有真实为1的样本中，被预测正确的样本所占的⽐例。召回率越⾼，代表我们尽量捕捉出了越多的少数类；

召回率和精确度的分⼦是相同的（都是11），只是分⺟不同。⽽召回率和精确度是此消彼⻓的，两者之间的平衡代表了捕捉少数类的需求和尽量不要误伤多数类的需求的平衡。究竟要偏向于哪⼀⽅，取决于我们的业务需求：究竟是误伤多数类的成本更⾼，还是⽆法捕捉少数类的代价更⾼；

F1 measure：精确度和召回率的调和平均数，考量两者平衡的综合性指标，F1 measure在[0,1]之间分布，越接近1越好。

# 借助sklearn包直接画出混淆矩阵
from sklearn.metrics import confusion_matrix as CM
CM(y, model.predict(X))

# 借助sklearn包计算召回率与查准率
from sklearn.metrics import recall_score,precision_score,f1_score

# 不做平衡，计算召回率与查准率
model = DecisionTreeClassifier(max_depth= 4)
model = model.fit(X, y)
Ypred = model.predict(X)
recall_score(y, Ypred),precision_score(y, Ypred)

# 做平衡，计算召回率与查准率
model = DecisionTreeClassifier(max_depth= 4,class_weight= "balanced")
model = model.fit(X, y)
Ypred = model.predict(X)
recall_score(y, Ypred),precision_score(y, Ypred)

# 加上了weight之后，召回率上升了，但是这个过程中也误伤很多多数类，所以发现查准率下降
# 业务中，如果非常注重少数类，就需要选择recall分数高的模型
# 如果需要综合的判定，多数和少数类都不能误伤太多的话，选择f1-score最高的分数

f1_score(y, Ypred)

# sklearn.metrics.precision_recall_curve：精确度-召回率平衡曲线

群体智能优化算法-GOOSE优化算法（含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要GOOSE（GooseOptimizationAlgorithm）是一种基于大雁（Goose）在自然界中觅食与捕猎行为所启发的元启发式算法。它借助大雁的飞行速度、加速度、随机跳跃等策略，以实现对搜索空间进行全局探索和局部开发。通过设置自由落体速度（FreeFallSpeed）、声音传播距离（SoundDistance）与时间平均（TimeAverage）等多种机制，GOOSE在处理复杂的高维非
LeetCode 3280 将日期转换为二进制表示雾月55 leetcode 算法职场和发展数据结构 java
【算法实战】日期转二进制：两种解法的思路与优化（附代码解析）一、问题描述给定一个yyyy-mm-dd格式的日期字符串，要求将年、月、日分别转为无前导零的二进制，并保持year-month-day格式。示例：输入2025-03-15，输出11111101001-11-1111（2025→11111101001，3→11，15→1111）。二、解法一：直接分割转换（新手友好）思路分析分割日期：按-拆分
群体智能优化算法-澳洲野狗优化算法（含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
DingoOptimizationAlgorithm(DOA)sourcecodeDevelopedinMATLAB9.4.0.813654(R2018a)Author:Dr.HernanPeraza-VazquezMTA.GustavoEchavarria-Castilloe-mail:[email protected]@alumno.ipn.mxProgrammer:
Python在生物信息学中的应用：基因组学与蛋白质组学 PyTechShare Python教程-基础 python
摘要：本文主要介绍了Python在生物信息学中的应用，特别是在基因组学和蛋白质组学领域。文章详细讲述了各个原理，并以代码实例展示了实际应用。我们将探讨如何利用Python分析基因组数据，解析蛋白质序列，以及进行比对分析等。文章目录1.引言2.分析基因组数据2.1读取和解析FASTA文件2.2基因频率分析2.3代码实例3.蛋白质组学3.1解析蛋白质序列3.2蛋白质序列比对3.3代码实例4.总结1.引
队列在计算机系统中的应用 AredRabbit 队列
队列在计算机系统中有广泛的应用，主要用于管理任务和处理数据流。以下是队列的一些常见应用场景：1.任务调度操作系统：操作系统使用队列管理进程调度，如先来先服务（FCFS）调度算法。线程池：线程池通过队列管理待执行任务，确保任务按顺序处理。2.数据缓冲I/O操作：队列用于缓冲输入输出数据，平衡生产者和消费者速度。网络通信：网络数据包通过队列缓冲，确保按顺序处理。3.消息传递消息队列：在分布式系统中，消
40岁重启人生学python，今天搞明白了，啥是循环结构？飞哥知行录中年人 python 经验分享开发语言
今天学习了循环结构，其实说心里话，不是太明白，尤其是老师讲了那些高深的理论之后，就更加糊涂了。后来还是借助deepseek，它说：循环结构就是让计算机重复执行某段代码，直到满足特定条件（比如吃饱了就停止吃饭）。吃饱了就停止吃饭，多么简单的一句话，我一下就明白了，忽然觉得那些讲课喜欢高深理论的人，他们真的好可悲。总是抱着概念和教条的东西，不知道你们是怎么听明白的。循环结构的三种常见类型是`for循环
python基于django/flask网上书城系统Django-SpringBoot-php-Node.js-flask QQ_1963288475 python django flask spring boot php laravel node.js
目录技术栈介绍具体实现截图![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7b88ca45e7124106a000075acaf2f4e8.png)系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研
群体智能优化算法-旗鱼优化算法 (Sailfish Optimizer, SFO，含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要旗鱼优化算法（SailfishOptimizer,SFO）是一种模拟旗鱼（Sailfish）和沙丁鱼（Sardine）之间捕食关系的新型元启发式算法。通过在搜索过程中模拟旗鱼对沙丁鱼的捕食行为，以及沙丁鱼群的逃逸与防御机制，SFO平衡了全局探索与局部开发，在处理复杂优化问题时具有良好的收敛性能。本文提供了SFO的核心思路并提供了完整MATLAB代码及详细中文注释，以帮助读者快速理解并应用该算法
使用python反射，实现pytest读取yaml并发送请求南部余额 python python pytest
pytest+yamlyaml-feature:用户模块story:登录title:添加用户request:method:POSTurl:/system/user/listheaders:nullparams:nullvalidate:nullread_yaml_alldefread_yaml_all(path):withopen(path,'r',encoding='utf-8')asf:val
Github2025-03-10 开源项目周报 Top13 老孙正经胡说开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本周(2025-03-10统计)共有13个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7TypeScript项目2JavaScript项目2C++项目1JupyterNotebook项目1Vue项目1文档项目1Rust项目1Svelte项目1从零开始构建你喜爱的技术创建周期：2156天Star数量：253338个For
Python的Numpy数组np.array()基本用法详解（二）苏雨流丰 Python30Days python 开发语言 numpy array
本节主要讲授array获取元素、转置、重塑等方法"""@Date:2022-01-21@Author:苏雨流丰@lang:Python@summary:访问、获取np.array的元素"""导入numpy包importnumpyasnp初始化工作np_34_list=[[1,3,5,7],[2,4,6,8],[1,2,5,6]]np_44_list=[[1,3,5,7],[2,4,6,8],[1,
python-git- GitHub 45度看我 github
python之git-GitHub一：github原文链接二：WhatisGitHub1>创建仓库2>创建分支3>提交修改4>发起PullRequest三：理解GitHub流四：创建你的GitHub主页1>setting-->“Commitchanges”按钮五：典型的项目1>社区（TheCommunity）2>文档（TheDocs）3>Issue创建一个问题单4>PullRequest六：Git
Python基础语法（二）：条件、循环与运算符算法工程师y python 开发语言
本篇Python基础语法（二）将深入讲解编程中至关重要的条件判断、循环结构和运算符，它们是实现复杂逻辑的基石。一、条件语句（if-elif-else）条件语句用于根据不同的条件执行不同的代码块。Python中用if、elif（elseif的缩写）和else实现。1.基本语法age=18ifage（大于）、大于10>5→True=大于等于5>=5→True3)and(2<4)→Trueor任一条件为
小米音频理解技术重大突破：7B模型借助DeepSeek-R1算法引领行业新篇章耶耶Norsea 网络杂烩人工智能深度学习
摘要小米公司通过采用DeepSeek-R1算法的迁移技术，在音频理解领域实现了重大突破。其7B模型在MMAU音频评测基准中表现出色，成功登顶排行榜。MMAU评测基准包含10000条音频样本，涵盖语音、环境声和音乐等多种类型，难度极高。即便如此，该模型的表现已超越人类专家的82.2%识别准确率，展现出卓越的音频理解能力。关键词小米音频突破,DeepSeek-R1算法,7B模型进展,MMAU评测基准,
TRS收益互换系统开发为何敢称“无限拓展”？模块化架构+弹性集群揭秘！ Ashlee_code 架构 python java c++c语言
《【券商震惊】传统询价3小时→TRS黑科技10分钟！盈立证券交易量暴增150%背后秘密》开篇：询价耗时3小时？券商正在被低效“慢性杀死”电话询价、邮件比价、Excel汇总——传统场外交易中，一次询价流程动辄数小时，客户流失率高达40%！TRS收益互换平台，依托DeepSeek动态定价算法与多发行方实时比价引擎，将询价响应时间从3小时压缩至10分钟，助力盈立证券交易量飙升150%，彻底改写行业游戏规
24小时响应+零宕机！TRS收益互换系统售后如何成为券商“救命稻草”？ Ashlee_code 架构 java python c++c语言
《【券商震惊】传统询价3小时→TRS黑科技10分钟！盈立证券交易量暴增150%背后秘密》开篇：询价耗时3小时？券商正在被低效“慢性杀死”电话询价、邮件比价、Excel汇总——传统场外交易中，一次询价流程动辄数小时，客户流失率高达40%！令克软件TRS收益互换平台，依托DeepSeek动态定价算法与多发行方实时比价引擎，将询价响应时间从3小时压缩至10分钟，助力盈立证券交易量飙升150%，彻底改写行
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
学习Web3.0需要具备哪些基础知识？ alankuo 人工智能人工智能
学习Web3.0需要具备以下基础知识：一、计算机科学基础1.编程知识-了解至少一种编程语言，如Python、JavaScript等。这将有助于理解Web3.0应用程序的开发和智能合约的编写。-熟悉编程概念，如变量、数据类型、控制结构、函数等。2.数据结构和算法-掌握常见的数据结构，如数组、链表、栈、队列、树、图等，以及它们的操作和应用。-了解基本的算法，如排序、搜索、递归等，以及它们的时间和空间复
深入理解C++编程：从内存管理到多态与算法实现嵌入式Jerry C++c++算法开发语言
C++是一门功能强大的编程语言，广泛应用于系统编程、游戏开发和高性能计算等领域。本文将通过一系列经典问题，深入探讨C++的核心知识点，包括内存管理、多态（结合函数重载与覆盖）、多线程、TCP/IP模型、软链接与硬链接的区别，以及常见算法实现。每个知识点都配有详细的代码示例和解释，帮助你更好地理解和掌握。1.内存管理：内存泄露与检测什么是内存泄露？内存泄露是指程序在动态分配内存后，未能正确释放已不再
PyTorch中，将`DataLoader`加载的数据高效传输到GPU 大霸王龙 pytorch 人工智能 python
一、数据加载到GPU的核心步骤数据预处理与张量转换若原始数据为NumPy数组或Python列表，需先转换为PyTorch张量：X_tensor=torch.from_numpy(X).float()#转换为浮点张量y_tensor=torch.from_numpy(y).long()#分类任务常用长整型显式指定设备：通过.to(device)将数据移至GPU（需提前定义device对象）：devi
C/C++每日一练：实现选择排序風清掦 C/C++~每日一练 c语言 c++算法
选择排序选择排序是一种简单直观的排序算法，时间复杂度为，其中n是数组长度，不适合大数据集的排序，适合于元素较少且对性能要求不高的场景。选择排序的基本思想是：每次从未排序部分选择最小的元素，将其放到已排序部分的末尾。这样经过多轮操作后，整个数组会被逐步排好序。具体步骤如下：初始化：将第一个元素作为已排序区，剩余部分作为未排序区。遍历未排序区：从未排序区间找出最小的元素，记下其位置。交换位置：将找到的
C/C++每日一练：实现冒泡排序風清掦 C/C++~每日一练算法 c语言 c++排序算法
题目要求编写一个程序，实现冒泡排序算法。给定一个由n个整数组成的数组，要求通过冒泡排序对数组从小到大进行排序。输入：一个整数数组，长度为n，数组中的元素可能是正数或负数。输出：按照升序排序后的数组。做题思路冒泡排序是一种简单直观的排序算法。其基本思想是通过多次遍历数组，逐步将未排序部分中的最大或最小元素“冒泡”到数组的一端，直到整个数组有序。冒泡排序的步骤如下：从数组的第一个元素开始，依次比较相邻
cmd运行python脚本找不到包_命令行执行python模块时提示包找不到的问题 weixin_39788960
庄稼人不是专职python开发的道友，虽然与python相识已多年，可惜相识不相知，只是偶尔借助pydev写一些简单的小工具。多年来，一直困惑于这样一个问题：同样的工程，同样的代码，使用pydev可以运行任意一个python脚本，而使用命令行运行却不行？命令行下(或者双击执行)总是提示“ImportError:Nomodulenamedxxx”？pydev究竟做了什么魔术呢？长话短说，以上面工程为
Python报错：moduleNotFoundError:No module named ‘exceptions‘ 南浔Pyer 报错解决 Python编程
报错如下：使用pipinstalldocx安装模块docx后，发现不能正常使用，并报错：fromexceptionsimportPendingDeprecationWarningModuleNotFoundError:Nomodulenamed'exceptions'解决方法卸载原来安装的docxpipuninstalldocx安装python-docx模块即可pipinstallpython-d
Python如何设置工作目录飞起来fly呀 Python python 开发语言
在Python编程中，正确设置工作目录是文件系统操作的关键步骤之一。工作目录影响到相对路径的解析，确保程序能正确访问所需的文件和资源。为方便大家理解和使用，这里详细介绍如何在Python中利用os模块设置工作目录，并以此实现更灵活的文件操作。使用os模块设置工作目录Python的os模块提供了操作系统相关的功能，包括目录和文件操作。你可以用这个模块来更改当前的工作目录，以匹配你项目的需要。1.设置
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
Day65 | 灵神 | 二分查找：红蓝染色法为了前进而后退，为了走直路而走弯路刷题记录数据结构算法学习笔记二分查找 c++
Day65|灵神|二分查找：红蓝染色法灵神讲解的非常好建议大家去听听灵神的，二分查找就是常忘常学常新，我之前学过很多次二分，但这次还是有新的理解，我把可能比较难理解的点写到了下面，大家没看懂视频的地方可以看看我写的当然主要的其实是check函数，在本题中就是大于等于target这个条件，估计灵神下个视频会讲吧二分查找红蓝染色法【基础算法精讲04】_哔哩哔哩_bilibili文章目录Day65|灵神
算法每日一练 (13) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(13)全排列II题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(13)全排列II题目地址：全排列II题目描述给定一个可包含重复数字的序列nums，按任意顺序返回所有不重复的全排列。示例1：输入：nums
Python 3.14版本的彩蛋
使用3.14版本的Python创建一个虚拟环境，会看到在虚拟环境的bin目录中，不仅有python3、python3.14等常规文件，竟然还存在一个特殊的文件thon。/tmp/venv/bin$lltotal72...-rwxr-xr-x1useruser290BMar510:57pip3.14*lrwxr-xr-x1useruser10BMar510:57python@->python.exe
【常见的排序算法有哪些】 F_windy 排序算法算法
一、冒泡排序（BubbleSort）设计思想：像气泡上浮，两两比较相邻元素，顺序错误就交换，直到整个数组有序。Java代码：publicstaticvoidbubbleSort(int[]arr){for(inti=0;iarr[j+1]){inttemp=arr[j];arr[j]=arr[j+1];arr[j+1]=temp;}}}}复杂度：•时间：平均/最坏O(n²)，最好O(n)（已有序时
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR