W流沙W

sklearn Decision Trees决策树

决策树

引导

sklearn.enseable集成算法，包括两个算法随机森林 RandomForest和极限森林 Extra-Trees，这些都是基于决策树。decision trees 用于分类和回归

什么是决策树？

     决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：

女儿：多大年纪了？
母亲：26。
女儿：长的帅不帅？
母亲：挺帅的。
女儿：收入高不？
母亲：不算很高，中等情况。
女儿：是公务员不？
母亲：是，在税务局上班呢。
女儿：那好，我去见见

    上图完整表达了这个女孩决定是否见一个约会对象的策略，其中绿色节点表示判断条件，蓝色节点表示决策结果，箭头表示在一个判断条件在不同情况下的决策路径，图中绿色箭头表示了上面例子中女孩的决策过程。
    这幅图基本可以算是一颗决策树，说它“基本可以算”是因为图中的判定条件没有量化，如收入高中低等等，还不能算是严格意义上的决策树，如果将所有条件量化，则就变成真正的决策树了。
    决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

决策树的优势

K-近邻算法可以完成很多分类任务，但是它最大的缺点就是无法给出数据的内在含义，决策树的主要优势就在于数据形式非常容易理解。决策树算法能够读取数据集合，构建类似于上面的决策树。决策树很多任务都是为了数据中所蕴含的知识信息，因此决策树可以使用不熟悉的数据集合，并从中提取出一系列规则，机器学习算法最终将使用这些机器从数据集中创造的规则。

决策树原理

决策树用到的是信息论，划分原则是将无序的数据结构化变得更加有序。有序和无序的度量我们使用熵来度量。

构造决策树

不同于逻辑斯蒂回归(最大似然，就是概率)和贝叶斯算法(概率论)，决策树的构造过程不依赖领域知识，它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。

构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。

分裂属性分为三种不同的情况：
1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。
2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。
3、属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

构造决策树的关键性内容是进行属性选择度量，属性选择度量是一种选择分裂准则，它决定了拓扑结构及分裂点split_point的选择。
属性选择度量算法有很多，一般使用自顶向下递归分治法，并采用不回溯的贪心策略。这里介绍常用的ID3算法。
贪心算法（又称贪婪算法）是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，他所做出的是在某种意义上的局部最优解

ID3算法

    我们之前说到，有序和无序。那么有序和无序的度量我们使用熵来度量。熵这个概念最早起源于物理学，在物理学中是用来度量一个热力学系统的无序程度。
    而在信息学里面，熵是对不确定性的度量。
    在1948年，香农引入了信息熵，将其定义为离散随机事件出现的概率，一个系统越是有序，信息熵就越低，反之一个系统越是混乱，它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。
计算公式:
$H=-\sum^{n}_{i=1}p(x_{i})log_{2}p(x_{i})$
n是分类的数目，p(x)是概率,0~1之间，所以求对数是负数，熵是物理度量，是正数，所以前面得加个负号
ID3算法就是在每次需要分裂时，计算每个属性的增益率，然后选择增益率最大的属性进行分裂

信息增益

将数据进行排序后，熵变小了，原来的熵减去现在的熵就叫做，信息增益。
在划分数据集之前之后信息发生的变化称为信息增益，知道如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。信息增益即为两者的差值

ID3算法的发展

之后在ID3算法之上有C4.5算法(移除了必须是分类变量，现在它可以支持数字化的特征了)，C5.0对内存进行了优化准确率更高,都是继承自ID3算法。CART(Classification and Regression Trees)和C4.5很相似，不同在于它支持回归(目标值的数据是连续地，类别分的多久慢慢变成回归了)
scikit-learn算法使用CART算法，目前它不支持分类变量(说明事物类别的一个名称，其取值是分类数据。如“性别”就是一个分类变量，其变量值为“男”或“女”),但是可以使用方法转换成量化的数字。
分类标准有熵和基尼系数两种

小案例

在上图的基础上，再递归使用这个方法计算子节点的分裂属性，最终就可以得到整个决策树
$-\sum_{i = 1}^{n}{p(xi)*log_2p(xi)}$
$\sum_{i=1}^{n}p(xi)*log_2\frac{1}{p(xi)}$

import numpy as np

# 对最后一列账号是否真实进行划分：3no（0.3） 7yes（0.7）
# 不进行划分，信息熵
info_D = 0.3*np.log2(1/0.3) + 0.7*np.log2(1/0.7)
info_D
#0.8812908992306926

# 决策树，对目标值进行划分
# 三个属性：日志密度，好友密度，是否真实头像
# 使用日志密度进行树构建
# 3 s 0.3 -------> 2no 1yes
# 4 m 0.4 -------> 1no 3yes
# 3 l 0.3 -------> 3yes
info_L_D = 0.3*(2/3*np.log2(3/2) + 1/3*np.log2(3)) + 0.4 * (0.25*np.log2(4) + 0.75*np.log2(4/3)) + 0.3*(1*np.log2(1))
info_L_D
#0.5999999999999999

# 信息增益
info_D - info_L_D
#0.2812908992306927

另一个分支好友密度

# 好友密度
# 4 s 0.4 ---> 3no 1yes
# 4 m 0.4 ---> 4yes
# 2 l 0.2 ---> 2yes
info_F_D = 0.4*(0.75*np.log2(4/3) + 0.25*np.log2(4)) + 0 + 0
info_F_D
#0.32451124978365314

# 信息增益
info_D - info_F_D
#0.5567796494470394
#信息增益最大，所以决策树划分的时候把好友密度放在第一位

决策树的使用

import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn import tree
from sklearn.model_selection import train_test_split

iris = datasets.load_iris()
X = iris['data']
y = iris['target']
feature_names = iris.feature_names
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2,random_state  = 1024)#每次生成的随机数据都一样

# 数据清洗，花时间
# 特征工程
# 使用模型进行训练
# 模型参数调优
# sklearn所有算法，封装好了
# 直接用，使用规则如下
clf = DecisionTreeClassifier(criterion='entropy') #标准 默认是基尼系数'gini'我们改为'entropy'信息熵 splitter默认'best'信息增益最大 可选随机 max_depth最大深度 min_samples_split min_samples_leaf通过它对数进行减枝
clf.fit(X_train,y_train)
y_ = clf.predict(X_test)
from sklearn.metrics import accuracy_score
accuracy_score(y_test,y_)
#1.0

39/120*np.log2(120/39) + 42/120*np.log2(120/42) + 39/120*np.log2(120/39)
#1.5840680553754911

42/81*np.log2(81/42) + 39/81*np.log2(81/39)
#0.9990102708804813

#通过画图展现决策树
plt.figure(figsize=(18,12)) #调大小
_ = tree.plot_tree(clf,filled = True,feature_names=feature_names,max_depth=1)#填充颜色 深度为1
plt.savefig('./tree.jpg')

分支左边，颜色越深越纯,39个类别0,0个类别1和类别2
上面算法max_depth改为1的时候，准确率为0.67，为2的时候准确率为0.96,为None不指定，准确率为1。深度越深，运行时间约长。不一定最深的时候准确率最大，可能在之前就已经准确率最大了。所以需要找这个平衡点。

%%time
# 树的深度变浅了，树的裁剪
clf = DecisionTreeClassifier(criterion='entropy',max_depth=5)
clf.fit(X_train,y_train)
y_ = clf.predict(X_test)
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test,y_))
plt.figure(figsize=(18,12))
_ = tree.plot_tree(clf,filled=True,feature_names = feature_names)

#我们裂分的数据特征是连续的，上面例子里面的s m l不是
# 连续的，continuous 属性 阈值 threshold
X_train
#array([[5.4, 3. , 4.5, 1.5],
#       [6.1, 3. , 4.9, 1.8],
#       [6.4, 2.7, 5.3, 1.9],
#       [5.6, 2.8, 4.9, 2. ],...
#使用哪个特征变量都行 就看哪个的熵最小
#为什么选择petal length进行裂分？
# 波动程度，越大，离散，越容易分开
X_train.std(axis = 0)
#array([0.82300095, 0.42470578, 1.74587112, 0.75016619])
#第三个值最大 标准差越大 越波动 越能分开

np.sort(X_train[:,2])
#array([1. , 1.1, 1.2, 1.2, 1.3, 1.3, 1.3, 1.3, 1.3, 1.3, 1.4, 1.4, 1.4,1.4, 1.4, 1.4, 1.4, 1.4, 1.4, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5,1.5, 1.5, 1.5, 1.5, 1.5, 1.6, 1.6, 1.6, 1.7, 1.7, 1.7, 1.7, 1.9,第二类：3.3, 3.5, 3.5, 3.6, 3.7, 3.8, 3.9, 3.9, 3.9, 4. , 4. , 4. , 4. ,4.1, 4.1, 4.1, 4.2, 4.2, 4.2, 4.2, 4.3, 4.4, 4.4, 4.4, 4.5, 4.5,4.5, 4.5, 4.5, 4.5, 4.5, 4.6, 4.6, 4.6, 4.7, 4.7, 4.7, 4.7, 4.8,4.8, 4.8, 4.8, 4.9, 4.9, 4.9,第三类：5. , 5. , 5. , 5.1, 5.1, 5.1, 5.1,5.1, 5.1, 5.1, 5.2, 5.2, 5.3, 5.3, 5.4, 5.4, 5.5, 5.5, 5.5, 5.6,5.6, 5.6, 5.7, 5.8, 5.9, 5.9, 6. , 6. , 6.1, 6.1, 6.1, 6.3, 6.4,6.7, 6.7, 6.9])
#1.9 + 3.3 = 5.2
#5.2/2 = 2.6

#已经将第一类划分出去了，现在分第二类和第三类
X_train2 = X_train[y_train != 0]
X_train2
#array([[5.4, 3. , 4.5, 1.5],
#       [6.1, 3. , 4.9, 1.8],...
#petal width第四个属性 它不是波动性最大的 还会有其他因素
X_train[y_train!=0].std(axis=0)
#array([0.66470906,0.32769349,0.80409522,0.4143847])
y_train2 = y_train[y_train!=0]
y_train2
#array([1, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 1,2, 1, 2, 2, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 2,2, 2, 2, 2, 1, 2, 1, 2, 2, 1, 2, 1, 1, 2, 1, 2, 2, 2, 1, 1, 2, 1,1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 2, 1, 2])

#决策树在进行裂分的时候会先求熵，选择信息增益最大的那个

index = np.argsort(X_train2[:,0])
display(X_train2[:,0][index])
y_train2[index]

index = np.argsort(X_train2[:,1])
display(X_train2[:,1][index])
y_train2[index]
#使用它裂分 完全不好 你中有我 我中有你

index = np.argsort(X_train2[:,2])
display(X_train2[:,2][index])
y_train2[index]
#分的比较开 所以选择它

index = np.argsort(X_train2[:,3])
display(X_train2[:,3][index])
y_train2[index]
# 决策树模型，不需要对数据进行去量纲化，规划化，标准化 
# 决策树升级版：集成算法（随机森林，（extrem）极限森林，梯度提升树，adaboost提升树）

使用gini系数

%%time
# 树的深度变浅了，树的裁剪
clf = DecisionTreeClassifier(criterion='gini',max_depth=5)
clf.fit(X_train,y_train)
y_ = clf.predict(X_test)
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test,y_))
plt.figure(figsize=(18,12))
_ = tree.plot_tree(clf,filled=True,feature_names = feature_names)

$\sum_{i = 0}^{n}p(xi)*(1-p(xi))$

# 1.0 其余都是0
# 百分之百纯
gini = 1*(1-1)
gini
#0

# 39 42 39
#39/120*(1 - 39/120)*2 + 42/120*(1 - 42/120)
#0.66625

Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
python常用的第三方库下载方法 ZJ_star_1220 pycharm ide python
方法一：在windows系统中使用pip命令下载打开dos窗口输入命令“pipinstallselenium“后按回车键，看到successfully既安装成功。其他常用的命令：【pipinstallselenium==4.4.3】安装指定版本的库/包【pipinstallselenium】安装最新版本的库/包【pipshowselenium】查看库/包的安装路径、版本号【pipuninstall
解读Layout Method of Met Mast Based on Macro Zoning and Micro Quantitative Siting in a Wind Farm 赵孝正风资源与微观选址 paper
目录1.风电场气象塔布局方法流程图（简略）内容细化2.风电场气象塔布局方法详细流程图（详细）核心算法和公式详解2.2解读流程（深入浅出）第一阶段：把大风电场分成几个小区域1.看看风在哪里吹得不一样️2.看看风机的位置分布️3.测量风机之间有多"像"4.用智能方法分区第二阶段：在每个区域内找到最好的位置放测量杆5.画格子找可能的位置6.用电脑模拟风的吹动7.筛选出好位置8.找出最最好的位置9.检验我
PyWavelets（pywt）安装与使用指南贾雁冰
PyWavelets（pywt）安装与使用指南项目地址:https://gitcode.com/gh_mirrors/pyw/pywtPyWavelets是一个用于离散小波变换（DiscreteWaveletTransform,DWT）和连续小波变换（ContinuousWaveletTransform,CWT）的Python库。该库广泛应用于信号处理、图像分析以及数据压缩等领域。以下是基于提供的
python 开放的通讯系统高保密性张小秦命令模式算法 python
优点1.点对点（P2P）加密通信：•采用点对点通信模式，消息直接在客户端之间传输，无需通过中央服务器。•提高隐私性，避免中央服务器成为单点故障或攻击目标。•降低通信延迟，消息传输更高效。2.强大的加密机制：•使用AES（高级加密标准）对消息进行加密，确保通信内容的安全性。•每个会话生成唯一的加密密钥，确保密钥的安全性。•使用AES的EAX模式，支持加密和消息认证，防止消息被篡改。3.临时数据存储：
Python的pywt库的安装赵孝正 Python标准库使用 #python和pip安装 python 数据库开发语言
目录pywt库的全称是PyWavelets，https://pywavelets.readthedocs.io/en/latest/。安装pywt库：pipinstallPyWavelets而不是VS2017中默认的pipinstallpywt，真是坑啊。>>>importpywt>>>x=[3,7,1,1,-2,5,4,6]>>>cA,cD=pywt.dwt(x,‘db2′)>>>printcA
Python漂浮爱心代码 Want595 趣味编程 python 开发语言
目录系列文章前言小海龟漂浮爱心完整代码尾声系列文章序号直达链接表白系列1Python无法拒绝的表白界面（完整代码）_python玫瑰花雨编程-CSDN博客2Python满屏飘字表白代码（完整代码）_抖音同款满屏飘字表白代码(python版)-CSDN博客3Python无限弹窗满屏表白代码（完整代码）_python弹窗满屏幕-CSDN博客4Python李峋同款跳动的爱心（完整代码）_python绘制
VSCode 2025最新后端开发必备插件汇总（必备插件合集，Python、Java、Go等语言） Code_流苏实用软件与高效工具 vscode python java 后端开发必备插件合集
前言:作为微软推出的轻量级跨平台编辑器，VSCode凭借智能代码补全、远程开发、Git集成等核心功能，已成为后端开发者首选工具。其强大的插件生态更是覆盖了主流后端语言支持、代码质量优化、性能分析等全场景需求。名人说：博观而约取，厚积而薄发。——苏轼《稼说送张琥》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、语言支持类插件二、代码质量和格式化工具三、数据库工具四、AP
2025年Python后端开发指南：从基础到云原生实践 ctrl_cv工程师￥云原生 django flask pycharm
在2025年，Python后端开发已全面进入云原生与智能化时代。开发者不仅需要掌握传统后端技术栈，还需融合容器化、AI辅助编程等新兴技术。本文基于行业最新趋势与最佳实践，系统梳理Python后端开发的核心要点与进阶方向，涵盖开发环境、架构设计、性能优化等关键领域。一、开发环境与工具链1.环境配置标准化Python版本：推荐Python3.12+，支持模式匹配（PatternMatching）和更优
shell脚本重启python脚本 mzgong python
#!/bin/bashwhiletrue#循环检测脚本是否停止doprocnum=$(ps-ef|grep"run.py"|grep-vgrep|wc-l)#记录正在运行run.py的数量echo"ps-efgrepreturn:"${procnum}#信息输出if[[${procnum}==0]];then#如果run.py正在运行数量等于0，脚本中断，需要重启filename=$(date+%
DeepSeek面试——分词算法 mzgong 人工智能算法
DeepSeek-V3分词算法一、核心算法：字节级BPE（Byte-levelBPE，BBPE）DeepSeek-V3采用字节级BPE（BBPE）作为核心分词算法，这是对传统BPE（BytePairEncoding）算法的改进版本。其核心原理是将文本分解为字节（Byte）序列，通过统计高频相邻字节对的共现频率进行逐层合并，最终形成128K扩展词表。二、BBPE的核心优势1.多语言统一处理能力跨语言
使用Python的 multiprocessing 模块实现多进程并行计算（上完整代码）小码小李开发语言 python 数据库
使用Python的multiprocessing模块实现多进程并行计算的较为详细复杂的示例代码，用于计算一个较大范围内数字的平方，并将结果汇总。以下是一个更具体、复杂且详尽的多进程并行计算代码示例，用于分析多个大型文本文件中单词出现的频率：importmultiprocessingimporttimeimportrefromcollectionsimportCounter#函数用于读取单个文件内容
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
You are using pip version 10.0.1, however version 20.0.2 is available.的解决方案柒柒钏小知识点 python
在安装第三方库时出现以下提示：Youareusingpipversion10.0.1,howeverversion20.0.2isavailable.输入：python-mpipinstall--upgradepip结果：还是提示上述错误输入：python-mpipinstall--Upip结果：如下所示，更新完成之后继续安装第三库即可。
【Python】全局解释器锁（Global Interpreter Lock，GIL）彬彬侠 Python基础全局解释器锁 GIL CPython 多进程 C 扩展 python
全局解释器锁（GlobalInterpreterLock，简称GIL）是CPython（Python的标准实现）中的一个机制，它确保同一时刻只有一个线程在执行Python字节码。GIL的主要作用是保护Python内部的数据结构，避免多线程访问共享数据时发生竞争条件，导致数据损坏。GIL的工作原理在Python的多线程环境中，GIL会限制多个线程同时执行Python字节码。尽管操作系统可以调度多个线
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
C++调用Python程序方法超级大反派@_@ C++c++python 开发语言
前言：在之前做的一个项目中，要使用一段Python的代码。一般来讲可以将Python代码中的功能在C++项目中重构，但是如果Python项目太大，或者这部分是别人写的，自己不清楚整个项目的逻辑，这样重构起来就比较麻烦。这里给出了另外一种实现方法，即利用Python的API使得C++项目可以直接启动Python程序，快速在PC端验证代码功能。急性子可直接看：2.2C++调用python有参有返回值函
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
vscode中调试Python和C++的混合代码 destiny44123 vscode python c++
文章目录使用流程参考一些差异使用流程参考ExampledebuggingmixedPythonC++inVSCode一些差异这里假设的项目是通过python调用c++的相应共享库(so)文件。首先，新建文件夹.vscode，在其中添加文件配置launch.json.示例如下：{"version":"0.2.0","configurations":[{"name":"(gdb)附加","type":
Python一键搞定Word与PDF文档批量转换 Selina .a python教程 python word pdf
在日常工作中，我们经常需要将Word文档（.docx）转换为PDF格式，或者反过来操作。手动进行这种转换不仅费时费力，还容易出错。为此，我们可以利用Python编写一个批量转换工具，一键搞定Word与PDF文档的转换。本文将详细介绍如何实现这一目标，并提供源码和工具。所需库的安装首先，我们需要安装一些Python库来实现这个功能。推荐使用以下两个库：python-docx：用于处理Word文件内容
【Python】multiprocessing 模块：多进程并行计算彬彬侠 Python基础 multiprocessing 多进程 Process Pool Manager Lock python
Pythonmultiprocessing模块Python的multiprocessing模块用于多进程并行计算，可以充分利用多核CPU进行任务加速，突破PythonGIL（全局解释器锁）的限制，提高程序执行效率。1.为什么使用multiprocessing？Python默认的threading模块使用线程进行并发，但由于GIL（全局解释器锁）的存在，多线程无法真正实现CPU级别的并行计算，适用于
python语言写的一款pdf转word、word转pdf的免费工具典龙330 pdf word
Word与PDF文件转换工具这是一个简单的Web应用程序，允许用户将Word文档转换为PDF文件，或将PDF文件转换为Word文档。功能特点-Word(.docx)转换为PDF-PDF转换为Word(.docx)-简单易用的Web界面-即时转换和下载-详细的错误处理和日志记录安装要求-Python3.7或更高版本-依赖库（见requirements.txt）-对于Word到PDF的转换，建议安装L
算力网络技术创新驱动生态协同发展智能计算研究中心其他
内容概要算力网络作为数字经济发展的核心基础设施，正经历从单一性能提升向体系化技术协同的范式转变。当前技术创新主要聚焦三大维度：在架构层面，通过异构计算、量子计算与神经形态计算的融合，突破传统芯片制程限制；在调度层面，依托分布式计算与流批处理技术，实现跨边缘节点、工业互联网平台与超算中心的资源动态编排；在生态层面，围绕能效管理、安全标准与算法优化构建全链条能力，支撑金融风险评估、基因测序等高复杂度场
金融风控可解释性算法安全优化实践智能计算研究中心其他
内容概要在金融风险控制领域，算法的可解释性与安全性已成为技术落地的核心挑战。本文从实际业务场景出发，系统性梳理可解释性算法与联邦学习、特征工程的协同框架，通过超参数优化与动态模型评估机制，构建透明化决策链路。在技术实现层面，重点解析支持向量机与随机森林的改进方案，结合数据清洗与标注的标准化流程，强化风险预测模型在准确率、F1值等关键指标的表现，同时兼顾合规性与安全边界的设计要求。提示：金融机构在部
生成对抗网络优化医疗影像分析方法智能计算研究中心其他
内容概要生成对抗网络（GAN）在医疗影像分析中的应用正经历从理论验证到临床落地的关键转型。本研究通过整合联邦学习算法与动态数据增强技术，构建了跨机构医疗影像协同分析框架，在保证患者隐私的前提下实现了数据资源的有效扩展。值得注意的是，算法优化过程中采用的三阶段特征工程策略——包括基于注意力机制的特征选择、多尺度特征融合以及可解释性特征映射——使模型决策透明度提升约37.6%。临床实践表明，将联邦学习
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
OA协同办公软件为守护企业数据安全出的这套方案 oa协同软件即时通讯数据安全
在信息化时代，安全性是每个企业都绕不开的话题。企业酷信通过多重安全防护，让你在处理日常业务时无需为信息安全担忧。这里没有复杂的技术术语，只有实实在在的保护。登录安全：给每次登录加把“锁”企业酷信不仅提供传统的用户名和密码保护，还结合多因子认证和图形校验码，给每一次登录都加了几把“锁”。更重要的是，采用了先进的RSA和MD5算法加密，确保即使密码泄露，数据依然安全。业务安全：小细节，大保障日常的业务
python webdriver-manager 实现selenium 免下载安装webdriver 小马MT python selenium 爬虫
pythonwebdriver-manager实现selenium免下载安装webdriverselenium在自动化测试中，通常需要使用浏览器驱动来与浏览器进行交互。然而，手动下载、安装、以及管理这些驱动非常麻烦，尤其是当驱动版本频繁更新时。为此，webdriver-manager库提供了一个极简的方案，自动帮我们下载、更新和管理驱动，使Selenium代码更简洁优雅。webdriver-man
python tkinter控件位置_python tkinter组件摆放方式详解 weixin_39895995 python tkinter控件位置
1.最小界面组成#导入tkinter模块importtkinter#创建主窗口对象root=tkinter.Tk()#设置窗口大小(最小值：像素)root.minsize(300,300)#创建一个按钮组件btn=tkinter.Button(root,text='屠龙宝刀，点击送')btn.pack()#加入消息循环root.mainloop()设置初始化界面大小#设置初始化界面大小root.g
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found