制了个了个杖

Python学习笔记9——基于iris数据集的决策树分类算法实战

1. 数据集

本次采用sklearn自带的Iris数据集

Iris数据集是一个经典的机器学习数据集，常用于分类算法的评估和比较。数据集包含了3种不同种类的鸢尾花 (setosa、versicolor和virginica) 的4个特征 (花萼长度、花萼宽度、花瓣长度和花瓣宽度) ，每种鸢尾花有50个样本。
Iris数据集中的4个特征分别是：

花萼长度（sepal length）：鸢尾花的花萼长度，以厘米（cm）为单位。

花萼宽度（sepal width）：鸢尾花的花萼宽度，以厘米（cm）为单位。

花瓣长度（petal length）：鸢尾花的花瓣长度，以厘米（cm）为单位。

花瓣宽度（petal width）：鸢尾花的花瓣宽度，以厘米（cm）为单位。

Iris数据集中的类别标签为：

setosa：山鸢尾（target = 0）

versicolor：杂色鸢尾（target = 1）

virginica：维吉尼亚鸢尾（target = 2）

每个样本都包含4个特征和1个类别标签。Iris数据集的总体大小为150个样本，其中每个类别都有50个样本。

from sklearn import datasets

# 读取iris数据集
iris = datasets.load_iris()
x = iris.data
y = iris.target

这里得到的x、y为两个数组：

2. 数据预处理

由于iris数据集中没有明显的脏数据，这里可以跳过数据清洗过程

from sklearn.model_selection import train_test_split

# 划分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

train_test_split()参数说明

x 表示特征数据

y 表示目标变量

test_size 表示测试集的大小，如0.3表示30%的数据用于测试，在这个案例中，总样本150个，则其中有45个将用于测试

random_state 表示随机参数种子，用于控制数据集的随机划分过程，保证每次划分的结果都一样

train_test_split函数的返回值包括：训练集的特征数据x_train、测试集的特征数据x_test、训练集的目标变量y_train、测试集的目标变量y_test

为了便于理解随机数种子，这里拓展一下

# 同一个随机数种子生成的随机数，都是从同一个数列中按顺序取出的
# 在不重置随机数种子前，每一次获取的随机数都是紧接数列中上一次获取的最后一个值，并往后取出指定数量的随机数
# 示例代码如下：随机数种子都为0时，2次取出的共计10个随机数，是同一组数
import numpy as np

np.random.seed(0) # 设置随机数种子为0
a = np.random.rand(4) # 先取出4个
b = np.random.rand(6) # 再取出6个
print("a: ", a)
print("b: ", b)
print(np.concatenate((a, b)))
print('---------------------------------------------------------------------------')
np.random.seed(0)  # 再次设置随机数种子为0
c = np.random.rand(5) # 先取出5个
d = np.random.rand(5) # 再取出5个
print("c: ", c)
print("d: ", d)
print(np.concatenate((c, d)))

3. 构建模型

from sklearn.tree import DecisionTreeClassifier

# 构建模型
clf = DecisionTreeClassifier() # 决策树分类器实例化
clf.fit(x_train, y_train) # 训练数据，决策树分类器会根据训练数据的特征和目标变量来构建决策树模型，从而实现对新数据的分类

训练完成后，fit方法返回的是训练好的决策树分类器实例，也就是clf本身，因此输出的内容是“DecisionTreeClassifier()”

到这里，模型的初步训练就完成了，接下来进行测试以及分析模型的效果

4. 模型测试&效果评估

# 在测试集上进行预测
y_pred = clf.predict(x_test)

x_test是测试集的特征数据，y_pred是预测结果，我们可以利用准确率、精确率、召回率、F1值、混淆矩阵等指标来评估模型的效果

在使用指标之前，先熟悉以下几个变量的定义：

TP：表示真正例（True Positive），即被分类器正确预测为正例的样本数；

TN：表示真反例（True Negative），即被分类器正确预测为反例的样本数；

FP：表示假正例（False Positive），即被分类器错误地预测为正例的样本数；

FN：表示假反例（False Negative），即被分类器错误地预测为反例的样本数。

这几个变量会运用到下面指标的计算公式中

4.1 准确率、精确率、召回率、F1值、混淆矩阵

准确率（Accuracy） 表示正确分类的样本数占总样本数的比例，公式： $\frac{TP + TN}{TP + TN + FP + FN}$

# ------------ 1. 准确率 ------------ #
acc = clf.score(x_test, y_test)
print("Accuracy: ", acc)

此处计算得到的准确率为0.97777…，表示45条 (30%) 测试数据中，有44条预测正确

精确率（Precision） 表示被分类器预测为正类的样本中，真正为正类的样本所占的比例，公式： $\frac{TP}{TP + FP}$
召回率（Recall） 表示真正为正类的样本中，被分类器预测为正类的样本所占的比例，公式： $\frac{TP}{TP + FN}$
F1值（F1-score） 表示综合考虑精确率和召回率，是精确率和召回率的调和平均数，公式： $\frac{2 \times Precision \times Recall}{Precision + Recall}$

# ------------ 精确率、召回率、F1值 ------------ #
from sklearn.metrics import classification_report
report = classification_report(y_test, y_pred)
print(report)

从report结果中可以看到：

在预测setosa类别 (target = 0) 的16个样本时，精确率、召回率、F1值均为1；
在预测versicolor类别 (target = 1) 的18个样本时，精确率为1、召回率为0.94、F1值为0.97；
在预测virginica类别 (target = 2) 的11个样本时，精确率为0.92、召回率为1、F1值为0.96；
综合3个类别的宏平均 (macro avg) 也即算术平均，得到整体精确率0.97、召回率0.98、F1值0.98；
综合3个类别的加权平均 (weighted avg) ，得到整体精确率、召回率、F1值均为0.98；

从当前已有的指标结果来看，已经能够说明当前分类器在测试集上的性能很好了，不过我们还可以继续往下看其他的指标

混淆矩阵（Confusion Matrix）：用于描述分类器在不同类别上的分类情况，其中行表示真实标签，列表示预测标签

# ------------ 混淆矩阵 ------------ #
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred)
print(cm)

由于iris数据集是一个三分类问题，所以这里得到了一个3×3的混淆矩阵，表示iris数据集中3个类别的分类情况：

第一行表示真实标签为0的样本，共有16个。其中，预测标签也为0的样本有16个，预测正确。
第二行表示真实标签为1的样本，共有18个。其中，预测标签为1的样本有17个，预测正确；预测标签为2的样本有1个，预测错误。
第三行表示真实标签为2的样本，共有11个。其中，预测标签也为2的样本有11个，预测正确。

除以上指标外，还可以通过绘制学习曲线来观察模型的过拟合和欠拟合情况，以及绘制ROC曲线和计算AUC值来辅助判断模型性能

4.2 学习曲线

学习曲线（Learning Curve） 是一种用于评估机器学习算法性能的图表。学习曲线通常用于分析模型的训练误差和测试误差随着训练数据量的变化而变化的情况，以帮助我们判断模型是否存在过拟合或欠拟合等问题。
过拟合（Overfitting）：模型在训练集上表现很好，但在测试集上表现较差，可能是因为模型过于复杂，过拟合了训练数据。
欠拟合（Underfitting）：模型在训练集和测试集上表现都较差，可能是因为模型过于简单，欠拟合了训练数据。

# ------------ 学习曲线 ------------ #
from sklearn.model_selection import learning_curve

train_sizes, train_scores, test_scores = learning_curve( # learning_curve函数可以用于生成学习曲线，帮助评估模型在不同训练集大小下的性能
    clf, # 训练好的分类器
    iris.data, # 训练数据
    iris.target, # 训练标签
    cv = 5, # 交叉验证的折数，这里指将原始数据集划分为5个互不重叠的子集，其中一个子集作为验证集，其余的4个子集作为训练集
    n_jobs = -1, # 指定使用的CPU数量，-1表示使用所有可用的CPU
    train_sizes = np.linspace(0.1, 1.0, 10), # 指定训练集的大小，这里使用了10个不同的训练集大小，从10%到100%
    scoring = 'accuracy' # 指定评估指标，这里使用了准确率
    )

运行完这段代码后，会得到一个包含训练集大小、训练集准确率和交叉验证集准确率的元组 (train_sizes, train_scores, test_scores)

# 计算平均值和标准差
train_mean = np.mean(train_scores, axis=1) # 训练集准确率均值
train_std = np.std(train_scores, axis=1) # 训练集准确率标准差
test_mean = np.mean(test_scores, axis=1) # 测试集准确率均值
test_std = np.std(test_scores, axis=1) # 测试集准确率标准差

import matplotlib.pyplot as plt

# 绘制学习曲线图形
plt.plot(train_sizes, train_mean, label='Training score') # 绘制训练集准确率曲线
plt.plot(train_sizes, test_mean, label='Cross-validation score') # 绘制测试集准确率（交叉验证得分）曲线

# 绘制标准差区域
plt.fill_between(train_sizes, train_mean - train_std,
                 train_mean + train_std, alpha=0.1) # 绘制训练集准确率标准差区域
plt.fill_between(train_sizes, test_mean - test_std,
                 test_mean + test_std, alpha=0.1) # 绘制测试集准确率标准差区域

# 添加图例和标签
plt.legend() # 添加图例
plt.xlabel('Number of training samples') # 设置x轴标签
plt.ylabel('Accuracy') # 设置y轴标签
plt.show()

可以看到学习曲线已经绘制出来了，从这个学习曲线图中，可以得到以下信息：

训练集得分一直都是1，同时看不到训练集的标准差区间，说明模型在训练集上表现很好，可以完美拟合训练数据；
测试集交叉验证得分随样本量增加而阶梯式提升，说明模型的泛化能力随着训练样本量的增加而提高；
测试集交叉验证得分的前半段曲线中看不到标准差，是因为在样本数量较少的情况下，测试集的表现可能会受到随机因素的影响，导致测试集的准确率波动较大，难以准确地计算标准差；随着样本数量的增加，模型的泛化能力逐渐提高，测试集的表现变得更加稳定，标准差区间逐渐增大；当样本数量达到一定程度时，模型的泛化能力已经达到一定的水平，此时标准差区间达到最大值；随着样本数量的进一步增加，模型的泛化能力继续提高，测试集的表现变得更加稳定，标准差区间逐渐缩小并保持稳定；
整体来说模型没有过拟合或欠拟合的情况，不过本次总体样本量不大，结论的说服力有限。

4.3 ROC曲线、AUC值

ROC曲线：ROC曲线是描述分类器性能的一种常用方法，它是以假正例率（False Positive Rate，FPR）为横轴，真正例率（True Positive Rate，TPR）为纵轴，绘制出的曲线。ROC曲线越靠近左上角，表示分类器的性能越好。
AUC值：AUC（Area Under Curve）是ROC曲线下的面积，它可以用来衡量分类器的性能，AUC值越大，表示分类器的性能越好。

# ------------ ROC曲线&AUC值 ------------ #
from sklearn.metrics import roc_curve, auc

# 预测测试集中每个样本的概率分布
y_score = clf.predict_proba(x_test)

# 计算每个类别的ROC曲线和AUC值
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(3):
    fpr[i], tpr[i], _ = roc_curve(y_test, y_score[:, i], pos_label=i)
    roc_auc[i] = auc(fpr[i], tpr[i])

# 绘制每个类别的ROC曲线
plt.figure()
plt.plot(fpr[0], tpr[0], label='ROC curve (area = %0.2f)' % roc_auc[0])
plt.plot(fpr[1], tpr[1], label='ROC curve (area = %0.2f)' % roc_auc[1])
plt.plot(fpr[2], tpr[2], label='ROC curve (area = %0.2f)' % roc_auc[2])
plt.plot([0, 1], [0, 1], 'k--') # 绘制对角线
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curve')
plt.legend(loc = "lower right")
plt.show()

由于是多分类问题，这里是针对每个类别(0, 1, 2)分别绘制的一共3条ROC曲线，对应AUC值分别为：1、0.972、0.985；
这里也能看出来当前模型对0、1、2三个类别的分类性能都非常高了。

5. 总结

本文以iris数据集为例，利用Python的决策树分类算法对鸢尾花进行分类实战，主要环节是数据预处理、模型训练及效果评估。

预处理主要是对数据集进行拆分，得到训练数据和测试数据
模型训练是利用拆分得到的训练集来训练模型；
效果评估主要用到了准确率、精确率、召回率、F1值、混淆矩阵的指标，还用到了学习曲线进行过拟合、欠拟合评估，以及用到ROC曲线结合AUC值分析的方法。

为了便于新手入门，大部分过程都写得比较细，希望能够对读者在学习和应用机器学习算法时有所帮助，若有不对的地方也请评论指正~

6. 附录代码

由于文章是分步拆写，工具包都是在实际用到时才导入，这里写个汇总版

from sklearn import datasets
from sklearn.model_selection import train_test_split, learning_curve
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc
import matplotlib.pyplot as plt
import numpy as np

# 读取数据集
iris = datasets.load_iris()
x = iris.data
y = iris.target

# 划分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

# 构建模型
clf = DecisionTreeClassifier() # 决策树分类器实例化
clf.fit(x_train, y_train) # 训练数据，决策树分类器会根据训练数据的特征和目标变量来构建决策树模型，从而实现对新数据的分类

# 在测试集上进行预测
y_pred = clf.predict(x_test)

# 模型评估
# ------------ 准确率 ------------ #
acc = clf.score(x_test, y_test)
print("Accuracy: ", acc)
# ------------ 精确率、召回率、F1值 ------------ #
report = classification_report(y_test, y_pred)
print(report)
# ------------ 混淆矩阵 ------------ #
cm = confusion_matrix(y_test, y_pred)
print(cm)

train_sizes, train_scores, test_scores = learning_curve( # learning_curve函数可以用于生成学习曲线，帮助评估模型在不同训练集大小下的性能
    clf, # 训练好的分类器
    iris.data, # 训练数据
    iris.target, # 训练标签
    cv = 5, # 交叉验证的折数，这里指将原始数据集划分为5个互不重叠的子集，其中一个子集作为验证集，其余的4个子集作为训练集
    n_jobs = -1, # 指定使用的CPU数量，-1表示使用所有可用的CPU
    train_sizes = np.linspace(0.1, 1.0, 10), # 指定训练集的大小，这里使用了10个不同的训练集大小，从10%到100%
    scoring = 'accuracy' # 指定评估指标，这里使用了准确率
    )
# 运行完这段代码后，会得到一个包含训练集大小、训练集准确率和交叉验证集准确率的元组 (train_sizes, train_scores, test_scores)

# 计算平均值和标准差
train_mean = np.mean(train_scores, axis=1) # 训练集准确率均值
train_std = np.std(train_scores, axis=1) # 训练集准确率标准差
test_mean = np.mean(test_scores, axis=1) # 测试集准确率均值
test_std = np.std(test_scores, axis=1) # 测试集准确率标准差

# 绘制学习曲线图形
plt.plot(train_sizes, train_mean, label='Training score') # 绘制训练集准确率曲线
plt.plot(train_sizes, test_mean, label='Cross-validation score') # 绘制测试集集准确率曲线

# 绘制标准差区域
plt.fill_between(train_sizes, train_mean - train_std,
                 train_mean + train_std, alpha=0.1) # 绘制训练集准确率标准差区域
plt.fill_between(train_sizes, test_mean - test_std,
                 test_mean + test_std, alpha=0.1) # 绘制测试集准确率标准差区域

# 添加图例和标签
plt.legend() # 添加图例
plt.xlabel('Number of training samples') # 设置x轴标签
plt.ylabel('Accuracy') # 设置y轴标签
plt.show()

# 预测测试集中每个样本的概率分布
y_score = clf.predict_proba(x_test)

# 计算每个类别的ROC曲线和AUC值
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(3):
    fpr[i], tpr[i], _ = roc_curve(y_test, y_score[:, i], pos_label=i)
    roc_auc[i] = auc(fpr[i], tpr[i])

# 绘制每个类别的ROC曲线
plt.figure()
plt.plot(fpr[0], tpr[0], label='ROC curve (area = %0.2f)' % roc_auc[0])
plt.plot(fpr[1], tpr[1], label='ROC curve (area = %0.2f)' % roc_auc[1])
plt.plot(fpr[2], tpr[2], label='ROC curve (area = %0.2f)' % roc_auc[2])
plt.plot([0, 1], [0, 1], 'k--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curve')
plt.legend(loc="lower right")
plt.show()

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &