进击的西西弗斯

Python机器学习建模的标准流程（特征工程+建模调参+模型评估+全流程可视化）

作者CSDN：进击的西西弗斯
本文链接：https://blog.csdn.net/qq_42216093/article/details/116994199
版权声明：本文为作者原创文章，转载需征得作者同意

如今机器学习炙手可热，而对于数据分析师或是从事数据相关的工作者而言，Python是一种最常用的机器学习实现方式。本文将从实践的角度出发，以经典的泰坦尼克号幸存者数据集为例，以sklearn为主要工具，全面细致地讲解Python机器学习建模的标准化流程。

1. 特征工程

特征工程，就是将原始数据处理转化为能够更好地表达问题本质的特征，使得将这些特征运用到机器学习模型中能提高对新数据的预测精度。

为什么在机器学习建模之前要先做特征工程？业内有句有名的话：“样本数据和特征质量决定了机器学习能达到的上限，而模型和算法只不过是不断逼近这个上限而已”。因此，特征工程是机器学习算法建模之前的重要准备工作。

Python机器学习建模的标准流程（特征工程+建模调参+模型评估+全流程可视化）_第1张图片

1). 数据清洗

本文使用的数据取自Kaggle网站的泰坦尼克号幸存者数据集，如下图。样本数量共891个，算上类别标签列总共有12个维度，包括姓名、性别、年龄、登船港口、票价等特征属性，其中Survived列是结果类别列（0代表死亡，1代表幸存）。

可以看出，原始数据未经清洗，噪音很大。我们接下来的工作主要集中在：

(1). 通过直观分析，先删除对于幸存没有影响的特征，包括：乘客编号、姓名、船票号。再删除船舱列，因为该列的缺失值太多。

(2). 将性别、登录港口这两列的字符值替换为数值型，因为后面要调用sklearn建模，它对于输入数据有格式要求。

(3). 对有缺失值的列进行处理，将缺失值替换为该列的众数。其中对于年龄列单独处理：直接删除有年龄缺失值的样本（行），因为年龄是个关键属性，我们不允太大误差。

(4). 对年龄特征重新构建：连续型变量离散化处理。但是这一点要结合具体要用到的算法，比如本文使用了随机森林算法，它可以处理连续型变量，故可以省略该步骤。

代码如下，附详细注释

# 先载入该项目要用到的所有库
import pandas as pd		# 数据分析必备
import numpy as np		# 数据分析必备
import matplotlib.pyplot as plt		# 可视化作图
from sklearn.feature_selection import SelectKBest,f_classif,chi2	# 特征分析与特征选择
from sklearn.model_selection import train_test_split, cross_val_score, learning_curve		# 训练集测试集划分、十折交叉验证、学习曲线
from sklearn.decomposition import PCA		# 主成分分析
from sklearn.preprocessing import scale		# 数据标准化
from sklearn.ensemble import RandomForestClassifier		# 随机森林分类器
from sklearn.metrics import roc_curve,auc,precision_recall_curve,average_precision_score	# ROC曲线、PR曲线



# 读取文件
df = pd.read_csv('Titanic.csv')

# 删除乘客编号、姓名、船票号这几列，因为主观判断它们对幸存与否没有影响；删除船舱列，因为缺失值太多
df = df.drop(['PassengerId','Name','Ticket','Cabin'], axis=1)

# 将性别、登录港口这两列的字符值替换为数值型，为了后面适配sklearn数据格式要求
df.loc[df['Sex'] == 'male','Sex'] = 1
df.loc[df['Sex'] == 'female','Sex'] = 0
df.loc[df['Embarked'] == 'C', 'Embarked'] = 0
df.loc[df['Embarked'] == 'S', 'Embarked'] = 1
df.loc[df['Embarked'] == 'Q', 'Embarked'] = 2

# 对有缺失值的列进行处理，将缺失值替换为该列的众数。其中对于年龄列单独处理：直接删除有年龄空值的样本（行），因为年龄是个关键属性，我们不允太大误差
df = df.dropna(axis=0, subset=['Age'])
df = df.reset_index(drop=True)
df['SibSp'] = df['SibSp'].fillna(df['SibSp'].mode()[0])     # 众数结果是Series类型，不同于上面均值，故索引
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

# # 对年龄特征重新构建：连续型变量离散化处理。本文的随机森林算法可以省略该步骤
# for i in range(df.shape[0]):
#     if df.loc[i, 'Age']<=10 and df.loc[i, 'Age']>=0:
#         df.loc[i, 'Age'] = 0
#     elif df.loc[i, 'Age']<=20 and df.loc[i, 'Age']>10:
#         df.loc[i, 'Age'] = 1
#     elif df.loc[i, 'Age']<=30 and df.loc[i, 'Age']>20:
#         df.loc[i, 'Age'] = 2
#     elif df.loc[i, 'Age']<=40 and df.loc[i, 'Age']>30:
#         df.loc[i, 'Age'] = 3
#     elif df.loc[i, 'Age']<=50 and df.loc[i, 'Age']>40:
#         df.loc[i, 'Age'] = 4
#     elif df.loc[i, 'Age']<=60 and df.loc[i, 'Age']>50:
#         df.loc[i, 'Age'] = 5
#     elif df.loc[i, 'Age']<=70 and df.loc[i, 'Age']>60:
#         df.loc[i, 'Age'] = 6
#     elif df.loc[i, 'Age']<=80 and df.loc[i, 'Age']>70:
#         df.loc[i, 'Age'] = 7

df.to_csv('cleaned.csv')

清洗后的数据如下：

2). 特征分析

特征分析就是评估每个特征的质量，也就是特征与因变量（类别标签）的相关性程度，常用的方法有方差分析、卡方统计等。这里我们调用sklearn.feature_selection.SelectKBest模块，构建特征选择模型，使用F值方差分析来分析各个特征，并最终将结果可视化为条形图。

代码如下（接上部分），附详细注释

x = df.drop(['Survived'], axis=1)		# 自变量集
y = df['Survived']		# 因变量
# 把y列转化成颜色列表，绘图使用
colors = list()
for i in y:
    if i == 0:
        colors.append('c')
    elif i == 1:
        colors.append('y')

# 构建特征选择模型，参数score_func：特征得分计算方式，这里使用F值方差分析；k：选取得分最高的前k个特征
skb = SelectKBest(score_func=f_classif,k='all')
# 使用数据集拟合模型
skb.fit(x,y)
# 每个特征的得分
F_scores = skb.scores_
# 前k个特征选择之后的新数据集
x_new = skb.transform(x)
features = x.columns
# 将每个特征精确到小数点后一位
for i in range(len(F_scores)):
    F_scores[i] = round(F_scores[i],1)
# 使用卡方统计重新构建特征选择模型并打分
skb = SelectKBest(score_func=chi2, k='all')
skb.fit(x, y)
Chi_scores = skb.scores_
for i in range(len(Chi_scores)):
    Chi_scores[i] = round(Chi_scores[i], 1)

# 将两个特征得分结果分别可视化为条形图
fig = plt.figure(dpi=200, figsize=(10,5))
ax1 = fig.add_subplot(121)
ax1.bar(features, F_scores, alpha=0.8, color='dodgerblue')
for i in zip(features, F_scores, F_scores):
    ax1.text(i[0],i[1],i[2], horizontalalignment = 'center')
ax1.set_title('F-scores of the features')
ax2 = fig.add_subplot(122)
ax2.bar(features, Chi_scores, alpha=0.8, color='dodgerblue')
for i in zip(features, Chi_scores, Chi_scores):
    ax2.text(i[0],i[1],i[2], horizontalalignment = 'center')
ax2.set_title('Chi-scores of the features')
plt.savefig('Features analysis.jpg')
plt.show()

结果：

从方差分析（左图）和卡方统计分析（右图）结果可以看出，特征SibSp的得分非常低，接近1，也就是说，该特征和分类预测结果的相关性程度非常低，几乎无关，故在构建模型的时候可以考虑删除该特征，但由于我们要构建的是随机森林模型，它对无关特征有着极强的鲁棒性，因此该特征也可以保留。

3). 降维可视化

在构建分类器之前，我们通常想要直观地从图像上来看一下我们的数据集长什么样，也就是不同类别的数据集之间的差异性情况，一般来讲，类别差异性越大，构建的分类模型效果越好。这个时候我们就要用到降维可视化了，接下来我们分别使用PCA（主成分分析）和Andrews curve来对数据集降维并绘制图像。

代码如下（接上部分），附详细注释

# 使用PCA对数据集降维并可视化
standard_x = scale(x, axis=0, with_mean=True, with_std=True)   # with_mean：均值标准化；with_std：方差标准化；axis=0：标准化每个特征，如果取1则标准化每个观测样本
pca = PCA(n_components = 2)
res_x = pca.fit_transform(standard_x)
fig = plt.figure(dpi=200, figsize=(10,5))
ax1 = fig.add_subplot(121)
ax1.scatter(res_x[:,0], res_x[:,1], c=colors)
ax1.set_title('PCA')
ax1.legend()

# 使用Andrews Curve对数据集降维可视化
ax2 = fig.add_subplot(122)
pd.plotting.andrews_curves(df, 'Survived', color=['g','m'], ax = ax2)     # 参数ax可以把绘图结果传递给matplotlib的axes
ax2.grid(True)
ax2.set_title('Andrews curve')

plt.savefig('Feature_analyze.jpg')
plt.show()

结果：

从PCA降维可视化结果（左图）可以看出，两种类别数据集之间有一定的差异性，但不是很显著，分开的不明显，这说明样本数据集的质量不够高。分析其原因，可能是因为样本集存在一定的偏差；也可能由于特征的纯度还不够，某些与分类预测强相关的特征还没有收集到数据集中。Andrews曲线（右图）结果和PCA结果相似，两类样本之间有差异性，但不够显著。

2. 建模调参

做完特征分析，接下来就可以构建模型了。本文我们使用的是随机森林，是一种性能强大的分类算法，属于集成学习（bagging）中的一种。关于随机森林算法的介绍，感兴趣可以参阅我的另一篇博文：随机森林算法介绍

首先，对数据集进行划分，训练集80%测试集20%，然后通过调用sklearn.ensemble.RandomForestClassifier模块来构建随机森林模型，再调整参数。调参的常用方法是网格搜索法，但是这里不推荐，因为太耗费时间和计算机资源。这里我们直接基于原始模型对每个参数分别调整，并分别可视化作图来观察最优参数。

注意：最终的调参的目标要以验证集得分高为主，训练集得分为辅，否则会出现过拟合。

代码如下（接上部分），附详细注释

# 自变量集
x = df.drop(['Survived'], axis=1)
# 因变量集
y = df['Survived']

# 数据集划分：训练集80%，测试集20%
x_train, x_test, y_train, y_test = train_test_split(
    x,      # 自变量集
    y,      # 因变量集
    stratify = y,   # 按照y列的比例来分层抽样
    random_state = 0,     # 指定随机状态
    train_size = 0.8)     # 训练集比例

# 调整参数：n_estimators（森林中的决策树数量），构建模型，绘制交叉验证得分图像
trees = list()
cross_val_scores = list()
train_set_scores = list()
for i in range(1,51):
    rf = RandomForestClassifier(n_estimators=i)
    rf.fit(x_train, y_train)
    scores = cross_val_score(rf, x_train, y_train)
    cross_val_scores.append(scores.mean())
    train_set_scores.append(rf.score(x_train, y_train))
    trees.append(i)
fig = plt.figure(figsize=(12,10), dpi=200)
ax1 = fig.add_subplot(221)      # 接下来总共要绘制4个子图合在一起
ax1.plot(trees, train_set_scores, color='dodgerblue', alpha=0.8)
ax1.plot(trees, cross_val_scores, color='g', alpha=0.8)
ax1.set_title('Scores for the number of trees')
ax1.legend(labels=['train_set_scores', 'cross_val_scores'])

# 调整参数：max_depth（树的最大深度），构建模型，绘制交叉验证得分图像
trees = list()
cross_val_scores = list()
train_set_scores = list()
for i in range(1,21):
    rf = RandomForestClassifier(max_depth=i)
    rf.fit(x_train, y_train)
    scores = cross_val_score(rf, x_train, y_train)
    cross_val_scores.append(scores.mean())
    train_set_scores.append(rf.score(x_train, y_train))
    trees.append(i)
ax2 = fig.add_subplot(222)
ax2.plot(trees, train_set_scores, color='dodgerblue', alpha=0.8)
ax2.plot(trees, cross_val_scores, color='g', alpha=0.8)
ax2.set_title('Scores for the maximum depth of tree')
ax2.legend(labels=['train_set_scores', 'cross_val_scores'])

# 调整参数：min_samples_leaf（叶子的最小样本数量），构建模型，绘制交叉验证得分图像
trees = list()
cross_val_scores = list()
train_set_scores = list()
for i in range(1,21):
    rf = RandomForestClassifier(min_samples_leaf=i)
    rf.fit(x_train, y_train)
    scores = cross_val_score(rf, x_train, y_train)
    cross_val_scores.append(scores.mean())
    train_set_scores.append(rf.score(x_train, y_train))
    trees.append(i)
ax1 = fig.add_subplot(223)
ax1.plot(trees, train_set_scores, color='dodgerblue', alpha=0.8)
ax1.plot(trees, cross_val_scores, color='g', alpha=0.8)
ax1.set_title('Scores for the minimum samples of leaf')
ax1.legend(labels=['train_set_scores', 'cross_val_scores'])

# 调整参数：min_samples_split（分裂内部节点需要的最少样例数），构建模型，绘制交叉验证得分图像
trees = list()
cross_val_scores = list()
train_set_scores = list()
for i in range(1,21):
    rf = RandomForestClassifier(min_samples_leaf=i)
    rf.fit(x_train, y_train)
    scores = cross_val_score(rf, x_train, y_train)
    cross_val_scores.append(scores.mean())
    train_set_scores.append(rf.score(x_train, y_train))
    trees.append(i)
ax1 = fig.add_subplot(224)
ax1.plot(trees, train_set_scores, color='dodgerblue', alpha=0.8)
ax1.plot(trees, cross_val_scores, color='g', alpha=0.8)
ax1.set_title('Scores for the minimum samples of split')
ax1.legend(labels=['train_set_scores', 'cross_val_scores'])

plt.savefig('Parameter adjustment.jpg')
plt.show()

结果：

这里总共调整了4个参数。

第一个参数是n_estimators（左上图），代表随机森林中的决策树数量。在集成学习分类器中，一般情况下该参数越大，分类器效果越好，但同时运算速度会大大下降，故应该权衡来考虑。从图中可以看出，选择20以上都是可以的。

第二个参数是max_depth（右上图），代表单棵树的最大深度。深度越大，模型复杂度越高，偏差会下降但方差可能会升高（过拟合），从图中可以看出选择5~7都是没问题的。

第三个参数是min_samples_leaf（左下图），代表叶子的最小样本数量。这个参数调整的得分图像基本呈下降趋势，故使用默认值1就好。

第四个参数是min_samples_split，代表分裂内部节点需要的最少样例数。从图像看得分影响不大，可以选择11左右也可以不调整。

3. 模型评估

构建好了模型，接下来要对模型的效果进行评估。常用的评估方法有学习曲线、ROC曲线、PR曲线等。关于模型评估的详细介绍，感兴趣可以参阅我的另一篇博文：机器学习模型常用评估方法和指标

学习曲线是一种用来检测机器学习算法运行是否正常，或者改进算法模型的有效工具。可以通过调用sklearn.model_selection。learning_curve模块实现。ROC曲线和PR曲线也是评估模型质量的常用工具，通过调用sklearn.metrics.roc_curve和sklearn.metrics.precision_recall_curve来实现。最终，再用模型在测试集上进行测试并打分。

代码如下（接上部分），附详细注释

# 用调整好的参数构建模型，绘制学习曲线
rf = RandomForestClassifier(n_estimators=40, max_depth=6)
train_sizes, train_scores, cv_scores = learning_curve(
    rf,
    x_train,
    y_train,
    cv=5,
    train_sizes=np.linspace(0.01,1,100)   # 训练样本数量的递增比例情况，默认为np.linspace(0.1,1,5)
)           # 调用学习曲线函数，返回三个值：训练样本数递增的一维数组、交叉验证中训练集得分的二维表（包括每次cv）、交叉验证中验证集得分的二维表（包括每次cv）
train_scores_mean = np.mean(train_scores, axis=1)   # 求每次训练样本数量对应的训练集得分关于多次cv的均值
train_scores_std = np.std(train_scores, axis=1)     # 求每次训练样本数量对应的验证集得分关于多次cv的方差
cv_scores_mean = np.mean(cv_scores, axis=1)     # 求每次训练样本数量对应的验证集得分关于多次cv的均值
cv_scores_std = np.std(cv_scores, axis=1)       # 求每次训练样本数量对应的验证集得分关于多次cv的方差
# 可视化
fig = plt.figure(figsize=(8,6), dpi=200)
ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
ax.plot(train_sizes, train_scores_mean, color='dodgerblue', alpha=0.8)
ax.plot(train_sizes, cv_scores_mean, color='g', alpha=0.8)
ax.fill_between(train_sizes, train_scores_mean - train_scores_std, train_scores_mean + train_scores_std, alpha=0.1, color="dodgerblue")
ax.fill_between(train_sizes, cv_scores_mean - cv_scores_std, cv_scores_mean + cv_scores_std, alpha=0.1, color="g")
ax.legend(labels=['train_set_scores', 'cross_val_scores'], loc='best')
ax.set_title('Learning curve of the random forests')
ax.grid(True)
ax.set_xlabel('The number of training samples')
ax.set_ylabel('Model score')
plt.savefig('Learning curve of the random forests.jpg')
plt.show()

# 用构建好的模型，改变阈值梯度，用测试集数据绘制ROC曲线和PR曲线
rf.fit(x_train, y_train)
scores = rf.predict_proba(x_test)      # 得到数组(n_samples, n_features)，每个样本预测为0和1分别的概率
y_score = scores[:,1]
fpr, tpr, shresholds = roc_curve(y_test, y_score, pos_label=1)   # 得到假阳性率数组、真阳性率数组、y_score排序后的数组（作为阈值）
aucval = auc(fpr, tpr)      # 计算AUC（ROC曲线下面积）
precision, recall, shresholds = precision_recall_curve(y_test, y_score, pos_label=1)   # 得到精确率数组、召回率率数组、y_score排序后的数组（作为阈值）
apval = average_precision_score(y_test, y_score)       # 计算AP（PR曲线下面积，平均精确率）
# 可视化
fig = plt.figure(dpi=200, figsize=(10,5))
ax1 = fig.add_subplot(121)
ax1.plot([0,1], [0,1], linestyle='--', color='dodgerblue')
ax1.plot(fpr, tpr, color='orange', linewidth = 3)
ax1.text(0, 0.9, 'AUC = '+str(round(aucval, 2)), color='orange', fontsize=15)
ax1.set_title('ROC curve')
ax1.set_xlabel('FPR')
ax1.set_ylabel('TPR')
ax2 = fig.add_subplot(122)
ax2.plot([0,1], [1,0], linestyle='--', color='dodgerblue')
ax2.plot(recall, precision, color='orange', linewidth=3)
ax2.text(0.7, 0.9, 'AP = '+str(round(apval, 2)), color='orange', fontsize=15)
ax2.set_title('PR curve')
ax2.set_xlabel('Recall')
ax2.set_ylabel('Precision')
plt.savefig('ROC curve and PR curve of the model')
plt.show()

# 最终用测试集测试模型，打分
test_score = rf.score(x_test, y_test)
print("最终模型的测试集的得分是：{}".format(test_score))

学习曲线结果：

从图像可以看出，随着样本数的递增，训练集得分下降，验证集得分上升，模型训练过程正常，没什么大问题。但是进一步分析，该模型的学习曲线存在两个问题，一是到中间部分曲线的变化比较平缓，这说明特征的质量还不够高，无法让模型快速学习到分类的关键因素；另一个问题是最终训练集得分和验证集得分的距离相差不够小，这说明此时模型还没有达到最佳拟合状态，继续增加样本量可以改善这一问题（前提是还有样本的话）。

ROC曲线和PR曲线结果：

ROC曲线和PR曲线主要用来对比不同分类器之间的性能，其中ROC曲线对正负样本类别不平衡的数据集有很强的鲁棒性。

这里主要看AUC和AP的数值大小，也就是曲线下面积。AUC=0.88，AP=0.87，这个分数已经是比较高了，说明最终模型的性能良好。

有问题欢迎留言交流。
最后，如果你对Python数据分析、数据挖掘、机器学习等内容感兴趣，欢迎关注我！

Python单例模式中的问题后端python
一、装饰器形式的单例模式首先先给出Python中装饰器的单例模式：python代码解读复制代码importthreadingdefsingleton(cls):_instances={}_lock=threading.Lock()defget_instance(*args,**kwargs):ifclsnotin_instances:with_lock:ifclsnotin_instances:_
《CPython Internals》阅读笔记：p118-p150 python
《CPythonInternals》学习第8天，p118-p150总结，总计33页。一、技术总结补充一些本人整理的关于Context-FreeGrammar(CFG)的知识。1.symbol(符号)Amathematicalsymbolisafigureoracombinationoffiguresthatisusedtorepresentamathematicalobject（符号是一个数字或数
巧夺天工：VSCode Python 终端环境隔离的背后原理
每个写Python的小伙伴都会感慨，VSCode对Python环境的支持太好了！当你切换Python解释器后，新开的终端会自动激活对应的环境，不同项目互不干扰，用起来简直不要太舒服。但是，你知道这背后的实现原理吗？终端环境隔离的本质：环境变量首先，我们要理解终端中环境激活的本质。当我们在终端中执行sourcevenv/bin/activate或condaactivateenv_name时，这些命令
为什么在 Python 中 hash(-1) == hash(-2)? python
英文：https://omairmajid.com/posts/2021-07-16-why-is-hash-in-python作者：OmairMajid译者：豌豆花下猫&Claude-3.5-Sonnet时间：原文发布于2021.07.16，翻译于2025.01.11收录于：Python为什么系列https://github.com/chinesehuazhou/python-whydo当我在等
深入探讨聚合函数（COUNT, SUM, AVG, MAX, MIN）：分析和总结数据的新视野
title:深入探讨聚合函数（COUNT,SUM,AVG,MAX,MIN）：分析和总结数据的新视野date:2025/1/13updated:2025/1/13author:cmdragonexcerpt:在数据分析和数据库管理领域，聚合函数（AggregateFunctions）是获取数据总结和统计信息的关键工具。聚合函数如COUNT、SUM、AVG、MAX和MIN能够有效地分析大量数据，帮助用
《CPython Internals》阅读笔记：p97-p117 python
《CPythonInternals》学习第7天，p97-p117总结，总计21页。一、技术总结1.词法分析(lexicalanalysis)根据《Compilers-Principles,Techniques,andTools》(《编译原理》第2版)第5页：Thefirstphaseofacompileriscalledlexicalanalysisorscanning.Thelexcicalan
《CPython Internals》阅读笔记：p96-p96 python
《CPythonInternals》学习第6天，p96-p96总结，总计1页。一、技术总结1.parser-tokenizerp92,Creatingaconcretesyntaxtreeusingaparser-tokenizer,orlexer.p96,CPythonhasaparser-tokenizermodule,writteninC.当做这在92页提到parser-tokenizer的
Python列表方法 L_lemo004 Python python
目录添加元素Pythonappend()方法添加元素Pythonextend()方法添加元素Pythoninsert()方法插入元素删除元素del：根据索引值删除元素pop()：根据索引值删除元素remove()：根据元素值进行删除clear()：删除列表所有元素修改元素修改单个元素修改一组元素查找元素index()方法count()方法添加元素实际开发中，经常需要对Python列表进行更新，包括
requests库的安装和使用指南
Requests库安装与使用指南Requests是一个功能强大且易于使用的PythonHTTP库，广泛应用于发送各种HTTP请求，如GET、POST等。以下内容将详细介绍Requests库的安装和使用方法，帮助您高效地在Python中进行HTTP操作。️安装Requests库要使用Requests库，首先需要确保已安装pip工具。然后，在终端或命令行中运行以下命令进行安装：pipinstallre
用Python在Excel工作表中创建数据透视图
数据透视图是基于数据透视表创建的Excel图标，它能够帮助我们从复杂的数据集中提炼出有价值的信息，提供直观且易于理解的数据视图。对于需要频繁更新或处理大量数据集的人员以及任何依赖数据做出决策的人来说，用Python在Excel中创建数据透视图能够根据最新的数据快速调整和生成新的分析图表，从而提高工作效率并增强数据分析的灵活性。本文将介绍如何使用Python在Excel工作表中创建数据透视图。用Py
深入探讨外联接（OUTER JOIN）：丰富数据查询的利器
title:深入探讨外联接（OUTERJOIN）：丰富数据查询的利器date:2025/1/10updated:2025/1/10author:cmdragonexcerpt:外联接（OUTERJOIN）是数据库查询中极为重要的一种操作，它允许从两个或多个表中获取完整的记录，即使某些表中没有匹配的记录。通过外联接，用户可以获取更多的信息，特别是在数据分析和报表生成的过程中。categories:前
数据分析系统：驱动企业决策的智能引擎 qingyunliushuiyu 数据分析数据分析数据分析系统数据分析系统体系数据分析体系数据仓库ETL
数据作为当今企业重要的资产，已经受到企业的重视。随着企业的不断发展壮大，传统的数据分析已经跟不上现代商业环境。所以高效的数据分析系统是企业在竞争环境当中脱颖而出的重要屏障。数聚就从多年的实施角度来为企业畅想构建数据分析系统应用，为企业发展壮大提供数据服务。一、数据分析系统的定义数据分析系统是指通过一系列工具和技术，对收集到的数据进行整理、分析和解释，以支持决策的过程。这些系统不仅能够处理大量的结构
pip工具安装第三方库 nfenghklibra pip python
使用pip+cmd引入第三方库pip是Python包管理工具，提供了对Python包的查找、下载、安装、卸载的功能。注意：pip已内置于Python3.4和2.7及以上版本，其他版本需另行安装常规命令：pipinstall安装第三方库的库名（以json为例）pipinstalljson指定版本号：pipinstall库名==库的版本号pipinstalljieba==0.42.1卸载库：pipun
python 词云示例布道天下 python
python词云示例以2021年中央1号文件和政府工作报告文件为例，输出50个关键词。#testPython.pyimportjiebaimportwordclouddefoutputWordCloud(text,outPngName):#配置词云对象参数temp=wordcloud.WordCloud(width=1000,height=1000,font_path="msyh.ttc",max
requests库的安装和使用指南
Requests库安装与使用指南Requests是一个简洁且功能强大的Python库，用于发送HTTP请求。它广泛应用于数据采集、API调用等场景。本文将详细介绍Requests库的安装与基本使用方法，并通过实例和图表帮助您快速掌握其核心功能。目录安装Requests库导入Requests库发送GET请求发送POST请求添加Headers处理响应处理JSON响应异常处理附加参数会话管理文件下载工作
【Python基础字典】汽车限行学Python的小趴菜 python
最近在准备期末机考，看实验课的代码，发现有提升效率的空间，就改了改测评过了。这个效率提升是砍掉了循环结构判断车牌号末尾数字的奇偶，改用纯数学方法（提取数字判断奇偶）任务描述为缓解城市交通压力，武汉市交管局对于长江一桥及江汉一桥实行限行，规定如下：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭
Python小项目：利用U-net完成细胞图像分割
利用U-Net完成细胞图像分割的详细指南在生物医学领域，细胞图像分割是一个关键步骤，能够帮助研究人员分析细胞结构和功能。U-Net作为一种强大的卷积神经网络结构，广泛应用于医学图像分割任务。本文将详细介绍如何利用U-Net完成细胞图像分割项目，涵盖从数据准备到模型部署的各个步骤。项目步骤概览数据准备数据预处理构建U-Net模型训练模型模型评估图像分割结果可视化调优和优化部署和应用1.数据准备收集数
json相关内容(python) 大哥喝阔落 json python 开发语言
JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。Python提供了json模块来处理JSON数据。以下是关于Python中JSON的详细内容：1.导入json模块importjson2.将Python对象转换为JSON字符串使用json.dumps()函数可以将Python对象（如字典、列表、字符串、数字等）转换为JS
PyEcharts 基本图表之词云图开不开心少年头哥题目 python 开发语言
第1关：WordCloud：词云图任务描述本关任务：利用所学知识，按要求自行绘制一个词云图。相关知识为了完成本关任务，你需要掌握：1.Python的基本语法，2.PyEcharts词云图的相关内容。编程要求根据以上介绍，在右侧编辑器补充代码，使用给定数据绘制一个词云图，要求：系列名称设置为空，数据项为data，单词字体大小范围设置为20到100，词云图轮廓设置为全局变量中的SymbolType.D
Nginx Proxy Manager 反代本地服务502错误——基于 1panel 部署遇到的问题解决方案 nginx后端python
参考：NginxProxyManager反代本地服务502错误我的需求如下：我有一个需求：我有一台云服务器，ip地址为114.55.xxx.xxx然后在这个机器上部署了一个python服务http://114.55.xxx.xxx:8086我需要实现一个功能：部署一个nginx当我访问云服务器的80端口的时候，可以帮我反向代理访问python服务，我应该如何设置nginx呢？给我对应的配置文件配置
基于Tkinter和Canvas实现PCB产品的Map分布展示卤蛋叔叔 Tkinter Canvas Map python
本文是基于SEMI的G85文件（文件格式类型为XML），和Python的Tkinter和Canvas模块实现PCB/SUB（芯片基板）类型的产品的检测缺陷的Map分布展示，第一部分主要对程序的页面进行展示1、Lot_Map叠合的页面主要分为两个页面图，通过点击获取文件按钮（获取的文件格式为固定的G85文件，示例如图2），获取指定格式路径下的文件后，左边页面：点击获取MergeMap明细，可获取到所
Python小工具：利用ffmpy3库3秒钟将视频转换为音频 Python知识圈 python
作者|pk哥来源公众号|Python知识圈（ID：PythonCircle）最近，有读者微信上私聊我，想让我写一篇视频批量转换成音频的文章，我答应了，周末宅家里把这个小工具做出来了。这样，对于有些视频学习文件，我们可以批量转换成音频文件，学习方式更多样化了。之前也用过ffmpeg处理视频文件。ffmpeg这个程序处理视频是好用，但是有没有更轻便的呢？可以不下载这个程序吗？还真有，Python里有f
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
【列表复制】详解python中list列表复制的几种方法（赋值、切片、copy()，deepcopy()）有梦想的程序星空 Python开发教程 python 开发语言
在Python编程领域，列表是一种极为常用的数据结构，用于存储多个元素的有序集合。当涉及到对列表进行复制操作时，浅拷贝和深拷贝是两种重要的概念与技术手段，它们在处理列表数据的过程中有着截然不同的行为和影响，深刻理解二者的差异与应用场景对于编写高效、准确且健壮的Python代码至关重要。1、浅拷贝和深拷贝浅拷贝复制指向某个对象的地址（指针），而不复制对象本身，新对象和原对象共享同一内存。深拷贝会额外
2024年大数据最全【ES专题】ElasticSearch集群架构剖析_es集群 kenzsoft 程序员大数据 elasticsearch 架构
IngestNode：数据前置处理转换节点，支持pipeline管道设置，可以使用ingest对数据进行过滤、转换等操作MachineLearningNode：负责跑机器学习的Job，用来做异常检测TribeNode：TribeNode连接到不同的Elasticsearch集群，并且支持将这些集群当成一个单独的集群处理以下是一个多集群业务架构图：1.2.1.1MasterNode主节点的功能Mas
python3安装clickhouse_sqlalchemy(greenlet) 失败
安装clickhouse_sqlalchemy时，可能会遇到依赖问题，特别是greenlet模块的安装问题。以下是详细的解决方案，帮助您顺利完成安装过程。常见问题与解决方案1.升级pip确保您的pip版本是最新的，这有助于避免由于旧版本导致的兼容性问题。pipinstall--upgradepip解释：使用pipinstall--upgradepip命令将pip升级到最新版本，以确保能够安装最新的
pandas判断某列是否已按从小到大排序
在使用Pandas进行数据分析时，判断某一列是否已按从小到大排序是一个常见的操作。本文将详细介绍如何使用Pandas判断某列是否按升序排列，并提供多种解决方案和详细解释，确保您能够在实际应用中轻松实现这一功能。判断列是否按升序排序的方法使用is_monotonic_increasing方法Pandas提供了一个便捷的方法is_monotonic_increasing，用于判断某一列是否按从小到大排
python（类和对象之类函数和静态函数） huo_1214
类函数和静态函数#-*-coding:utf-8-*-#类函数和静态函数classPeople(object):#类变量total=0def__init__(self,name,age):#调用父类的初始化函数super(People,self).__init__()#初始化当前类对象的一些属性self.name=nameself.age=age#对象函数，只能由对象调用defeat(self):
python程序设计期末大作业,python大作业代码100行 chatgpt001 人工智能
大家好，小编来为大家解答以下问题，python期末大作业代码200行带批注，python程序设计期末大作业，今天让我们一起来看看吧！#题目：利用Python实现一个计算器，可以计算小数复数等importredefcalculator(string):#去除括号函数defget_grouping(string):flag=Falseret=re.findall('$([^()]+)$',stri
华为OD机试E卷 - 单词接龙（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c++C
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述单词接龙的规则是：可用于接龙的单词首字母必须要前一个单词的尾字母相同；当存在多个首字母相同的单词时，取长度最长的单词，如果长度也相等，则取字典序最小的单词；已经参与接龙的单词不能重复使用。现给定一组全部由小写字母组成单词数组，并指定其中的一个单词作为起始单词，进行单词接龙，请输出最长的单词串，单词串是单词拼接而成，中间
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

Python机器学习建模的标准流程（特征工程+建模调参+模型评估+全流程可视化）

1. 特征工程

1). 数据清洗

2). 特征分析

3). 降维可视化

2. 建模调参

3. 模型评估

你可能感兴趣的:(知识总结,sklearn,机器学习,python,数据分析,数据挖掘)