weison（cv）

动手学数据分析-Task05：数据建模及模型评估

本学习笔记为Datewhale-7月组队学习-动手学数据分析的学习内容，学习链接为：https://github.com/datawhalechina/hands-on-data-analysis

数据建模及模型评估

前言
一、学习知识点概要
二、学习内容
- （一）数据建模
- - 1. 使用Sklearn完成模型的搭建
  - - （1）Sklearn简介
    - （2）Sklearn的算法选择路径
  - 2. 数据集划分
  - 3. 模型创建
  - 4. 输出模型预测结果
- （二）模型评估
- - 1. 交叉验证
  - 2. 混淆矩阵
  - 3. ROC曲线
三、学习问题与解答
四、学习思考与总结
五、参考文章

前言

在前一篇博文【动手学数据分析-Task04：数据可视化】里，我们一起学习了数据可视化，数据可视化可以让我们更加直观得观察数据的构成，方便我们从数据中获取更多的信息，为选取优化方向提供思路。做数据分析的目的，是结合业务运用数据来得到需求结果。那么分析的第一步就是建模，搭建一个预测模型或者其他模型；从这个模型得到结果后，要分析模型是不是足够的可靠，就需要评估模型。那么，在这篇博文中我们将会一起学习数据建模和模型评估，这也是本期《动手学数据分析》系列学习的最后一篇博文。

一、学习知识点概要

Task05：数据建模及模型评估

知识点： Sklearn简介、数据集划分、模型创建、交叉验证、混淆矩阵和ROC曲线等

二、学习内容

导入库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

使图床能显示

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

载入我们提供清洗之后的数据(clear_data.csv)，大家也将原始数据载入（train.csv），说说他们有什么不同

读取原数据数集

train = pd.read_csv('train.csv')
train.shape

train.head()

读取清洗过的数据集

data = pd.read_csv('clear_data.csv')
data.shape

data.head()

（一）数据建模

处理完前面的数据我们就得到建模数据，下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
模型的选择一方面是通过我们的任务来决定的。
除了根据我们任务来选择模型外，还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型

1. 使用Sklearn完成模型的搭建

（1）Sklearn简介

Scikit-learn(sklearn)是机器学习中常用的第三方模块，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时，便可根据下图来选择相应的方法。Sklearn具有以下特点：

简单高效的数据挖掘和数据分析工具
让每个人能够在复杂环境中重复使用
建立NumPy、Scipy、MatPlotLib之上

（2）Sklearn的算法选择路径

结构：

由图中，可以看到库的算法主要有四类：分类，回归，聚类，降维。其中：

常用的回归： 线性、决策树、SVM、KNN ；
集成回归： 随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用的分类： 线性、决策树、SVM、KNN，朴素贝叶斯；
集成分类： 随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用聚类： k均值（K-means）、层次聚类（Hierarchical clustering）、DBSCAN
常用降维： LinearDiscriminantAnalysis、PCA

图片中隐含的操作流程：

这个流程图代表：蓝色圆圈内是判断条件，绿色方框内是可以选择的算法。你可以根据自己的数据特征和任务目标去找到一条自己的操作路线，一步步做就好了。

2. 数据集划分

这里使用留出法划分数据集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现

提示

切割数据集是为了后续能评估模型泛化能力
sklearn中切割数据集的方法为train_test_split
查看函数文档可以在jupyter noteboo里面使用train_test_split?后回车即可看到
分层和随机种子在参数里寻找

from sklearn.model_selection import train_test_split

一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用,x是清洗好的数据，y是我们要预测的存活数据’Survived’

X = data
y = train['Survived']

对数据集进行切割

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

查看数据形状

X_train.shape, X_test.shape

思考： 划分数据集的方法有哪些？
回答： 常用划分数据集方法：

方法	介绍	缺点
留出法	直接将数据集划分为两个互斥的集合，分别作为训练集和测试集，其中训练集一般是2/3 ~ 4/5	样本的不同划分方式会导致模型评估的相应结果也会有差别
交叉验证法	将数据集划D分为k个大小相似的互斥子集，每个子集尽量保证数据分布的一致性（用分层采样）；每次用k-1个子集的并集作为训练集，余下的那一个作为测试集，从而进行k次训练和测试，最终返回的是k个测试结果的均值。	训练成本较大
留一法（交叉验证法特例）	假设数据集D包含m个样本，令k=m，显然留一法不再受随机样本划分方式的影响，因为留一法的训练数据集只比D少一个样本，训练出的模型与用D训练出的模型很相似，且评估结果也是测试了数据集D中所有的样本取得平均值，因此留一法的评估结果往往比较准确。	计算量太大
自助法	我们每次从数据集D中取一个样本作为训练集中的元素，然后把该样本放回，重复该行为 m 次，这样我们就可以得到大小为m的训练集，在这里面有的样本重复出现，有的样本则没有出现过，我们把那些没有出现过的样本作为测试集。	自助法改变了初始数据的分布，会引入估计偏差

思考： 为什么使用分层抽样，这样的好处有什么？
解答： 因为划分的时候要尽可能保证数据分布的一致性，即避免因数据划分过程引入额外的偏差而对最终结果产生影响，所以通常我们采用分层采样的方式来对数据进行采样。

思考： 什么情况下切割数据集的时候不用进行随机选取
回答： 可以不用随机选取的情况是数据集本身就足够随机，这种情况一般是随机处理后的。或者使用交叉验证法中的留一法处理数据。

3. 模型创建

创建基于线性模型的分类模型（逻辑回归）
创建基于树的分类模型（决策树、随机森林）
分别使用这些模型进行训练，分别的到训练集和测试集的得分
查看模型的参数，并更改参数值，观察模型变化

提示

逻辑回归不是回归模型而是分类模型，不要与LinearRegression混淆
随机森林其实是决策树集成为了降低决策树过拟合的情况
线性模型所在的模块为sklearn.linear_model
树模型所在的模块为sklearn.ensemble

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

默认参数逻辑回归模型

lr = LogisticRegression()
lr.fit(X_train, y_train)

查看训练集和测试集score值

print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(lr.score(X_test, y_test)))

调整参数后的逻辑回归模型

lr2 = LogisticRegression(C=100)
lr2.fit(X_train, y_train)

查看训练集和测试集score值

print("Training set score: {:.2f}".format(lr2.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(lr2.score(X_test, y_test)))

默认参数的随机森林分类模型

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

查看训练集和测试集score值

print("Training set score: {:.2f}".format(rfc.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(rfc.score(X_test, y_test)))

调整参数后的随机森林分类模型

rfc2 = RandomForestClassifier(n_estimators=100, max_depth=5)
rfc2.fit(X_train, y_train)

查看训练集和测试集score值

print("Training set score: {:.2f}".format(rfc2.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(rfc2.score(X_test, y_test)))

思考： 为什么线性模型可以进行分类任务，背后是怎么的数学关系
回答： f(x)=wTx+b；如果函数值小于0，我们就预测类别-1，如果函数值大于0，我们就预测类别+1。对于所有用于分类的线性模型，这个预测规则都是通用的。对于用于分类的线性模型，决策边界是输入的线性函数。换句话说，（二元）线性分类器是利用直线、平面或超平面来分开两个类别的分类器。

思考： 对于多分类问题，线性模型是怎么进行分类的
回答： 多分类的问题常常是使用差分策略，通过二分类学习来解决多分类问题，即将多分类问题拆解为多个二分类训练二分类学习器最后通过继承得到结果，最经典拆分策略有三种：“一对一”（OvO）、“一对其余”（OvR）和“多对多”（MvM）。

4. 输出模型预测结果

输出模型预测分类标签
输出不同分类标签的预测概率

提示

一般监督模型在sklearn里面有个predict能输出预测标签，predict_proba则可以输出标签概率

预测标签

pred = lr.predict(X_train)

此时我们可以看到0和1的数组

pred[:10]

预测标签概率

pred_proba = lr.predict_proba(X_train)

pred_proba[:10]

思考： 预测标签的概率对我们有什么帮助
回答： 告诉我们可以多大程度上信任预测结果，来决定如何采取下一步行动。

（二）模型评估

模型评估是为了知道模型的泛化能力。
交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。
在交叉验证中，数据被多次划分，并且需要训练多个模型。
最常用的交叉验证是 k 折交叉验证（k-fold cross-validation），其中 k 是由用户指定的数字，通常取 5 或 10。
准确率（precision）度量的是被预测为正例的样本中有多少是真正的正例
召回率（recall）度量的是正类样本中有多少被预测为正类
f-分数是准确率与召回率的调和平均

1. 交叉验证

用10折交叉验证来评估逻辑回归模型
计算交叉验证精度的平均值
交叉验证在sklearn中的模块为sklearn.model_selection

from sklearn.model_selection import cross_val_score

lr = LogisticRegression(C=100)
scores = cross_val_score(lr, X_train, y_train, cv=10)

k折交叉验证分数

scores

平均交叉验证分数

print("Average cross-validation score: {:.2f}".format(scores.mean()))

思考： k折越多的情况下会带来什么样的影响？
回答： 一般而言，k折越多，评估结果的稳定性和保真性越高，不过整个计算复杂度越高。一种特殊的情况是k=m，m为数据集样本个数，这种特例称为留一法，结果往往比较准确。

2. 混淆矩阵

计算二分类问题的混淆矩阵
计算精确率、召回率以及f-分数

提示
混淆矩阵的方法在sklearn中的sklearn.metrics模块
混淆矩阵需要输入真实标签和预测标签

from sklearn.metrics import confusion_matrix

训练模型

lr = LogisticRegression(C=100)
lr.fit(X_train, y_train)

模型预测结果

pred = lr.predict(X_train)

混淆矩阵

confusion_matrix(y_train, pred)

from sklearn.metrics import classification_report

精确率、召回率以及f1-score

print(classification_report(y_train, pred))

思考： 如果自己实现混淆矩阵的时候该注意什么问题
回答： 一定要弄清楚定义，具体定义参考下面链接。https://blog.csdn.net/u011587322/article/details/80660978

3. ROC曲线

绘制ROC曲线

提示

ROC曲线在sklearn中的模块为sklearn.metrics
ROC曲线下面所包围的面积越大越好

from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_test, lr.decision_function(X_test))
plt.plot(fpr, tpr, label="ROC Curve")
plt.xlabel("FPR")
plt.ylabel("TPR (recall)")
# 找到最接近于0的阈值
close_zero = np.argmin(np.abs(thresholds))
plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label="threshold zero", fillstyle="none", c='k', mew=2)
plt.legend(loc=4)

三、学习问题与解答

问题一： 划分数据集的方法有哪些？
解答：
常用划分数据集方法：

方法	介绍	缺点
留出法	直接将数据集划分为两个互斥的集合，分别作为训练集和测试集，其中训练集一般是2/3 ~ 4/5	样本的不同划分方式会导致模型评估的相应结果也会有差别
交叉验证法	将数据集划D分为k个大小相似的互斥子集，每个子集尽量保证数据分布的一致性（用分层采样）；每次用k-1个子集的并集作为训练集，余下的那一个作为测试集，从而进行k次训练和测试，最终返回的是k个测试结果的均值。	训练成本较大
留一法（交叉验证法特例）	假设数据集D包含m个样本，令k=m，显然留一法不再受随机样本划分方式的影响，因为留一法的训练数据集只比D少一个样本，训练出的模型与用D训练出的模型很相似，且评估结果也是测试了数据集D中所有的样本取得平均值，因此留一法的评估结果往往比较准确。	计算量太大
自助法	我们每次从数据集D中取一个样本作为训练集中的元素，然后把该样本放回，重复该行为 m 次，这样我们就可以得到大小为m的训练集，在这里面有的样本重复出现，有的样本则没有出现过，我们把那些没有出现过的样本作为测试集。	自助法改变了初始数据的分布，会引入估计偏差

问题二： 为什么使用分层抽样，这样的好处有什么？
解答： 因为划分的时候要尽可能保证数据分布的一致性，即避免因数据划分过程引入额外的偏差而对最终结果产生影响，所以通常我们采用分层采样的方式来对数据进行采样。

问题三： 什么情况下切割数据集的时候不用进行随机选取
解答： 可以不用随机选取的情况是数据集本身就足够随机，这种情况一般是随机处理后的。或者使用交叉验证法中的留一法处理数据。

问题四： 为什么线性模型可以进行分类任务，背后是怎么的数学关系
解答： f(x)=wTx+b；如果函数值小于0，我们就预测类别-1，如果函数值大于0，我们就预测类别+1。对于所有用于分类的线性模型，这个预测规则都是通用的。对于用于分类的线性模型，决策边界是输入的线性函数。换句话说，（二元）线性分类器是利用直线、平面或超平面来分开两个类别的分类器。

问题五： 对于多分类问题，线性模型是怎么进行分类的
解答： 多分类的问题常常是使用差分策略，通过二分类学习来解决多分类问题，即将多分类问题拆解为多个二分类训练二分类学习器最后通过继承得到结果，最经典拆分策略有三种：“一对一”（OvO）、“一对其余”（OvR）和“多对多”（MvM）。

问题六： 预测标签的概率对我们有什么帮助
解答： 告诉我们可以多大程度上信任预测结果，来决定如何采取下一步行动。

问题七： k折越多的情况下会带来什么样的影响？
解答： 一般而言，k折越多，评估结果的稳定性和保真性越高，不过整个计算复杂度越高。一种特殊的情况是k=m，m为数据集样本个数，这种特例称为留一法，结果往往比较准确。

问题八： 如果自己实现混淆矩阵的时候该注意什么问题
解答： 一定要弄清楚定义，具体定义参考下面链接。https://blog.csdn.net/u011587322/article/details/80660978

问题九： 对于多分类问题如何绘制ROC曲线
解答： 经典的ROC曲线适用于对二分类问题进行模型评估，通常将它推广到多分类问题的方式有两种：

对于每种类别，分别计算其将所有样本点的预测概率作为阈值所得到的T P R 和F P R值(是这种类别为正，其他类别为负)，最后将每个取定的阈值下，对应所有类别的T P R 值和F P R值分别求平均，得到最终对应这个阈值的T P R 和F P R 值
首先，对于一个测试样本：1）标签只由0和1组成，1的位置表明了它的类别（可对应二分类问题中的‘’正’’），0就表示其他类别（‘’负‘’）；2）要是分类器对该测试样本分类正确，则该样本标签中1对应的位置在概率矩阵P中的值是大于0对应的位置的概率值的。

上面的两个方法得到的ROC曲线是不同的，当然曲线下的面积AUC也是不一样的。在python中，方法1和方法2分别对应sklearn.metrics.roc_auc_score函数中参数average值为’macro’和’micro’的情况。

详细参考链接：https://blog.csdn.net/qq_30992103/article/details/99730059

四、学习思考与总结

本次学习，学会了如何进行数据建模及模型评估，包括Sklearn简介、数据集划分、模型创建、交叉验证、混淆矩阵和ROC曲线等内容。

做数据分析的目的，是结合业务运用数据来得到需求结果。那么分析的第一步就是建模，搭建一个预测模型或者其他模型；从这个模型得到结果后，要分析模型是不是足够的可靠，就需要评估模型。

在学习过程中遇到了许多参考答案上没有给出的疑惑，通过自己的查找和理解在上面第三部分学习问题与解答给出了参考。

经过本期《动手学数据分析》系列教程的学习，初步了解并实践了基本的数据分析过程，对以后的学习奠定了良好的基础。

希望大家可以互相交流、共同学习，如果发现博文中有错的或不解的，欢迎留言或私聊交流~
————————————————

五、参考文章

[1]https://github.com/datawhalechina/hands-on-data-analysis
[2]https://blog.csdn.net/XiaoYi_Eric/article/details/79952325
[3]https://blog.csdn.net/weixin_57878519/article/details/118158381
[4]https://blog.csdn.net/u014248127/article/details/78885180
[5]https://blog.csdn.net/qq_30992103/article/details/99730059

你可能感兴趣的:(数据分析,python,大数据,数据分析,pandas,机器学习)

python颜色参数_python matplotlib:plt.scatter() 大小和颜色参数详解 weixin_39926311 python颜色参数
语法plt.scatter(x,y,s=20,c='b')大小s默认为20，s=0时点不显示；颜色c默认为蓝色。为每一个点指定大小和颜色有时我们需要为每一个点指定大小和方向，以区分不同的点。这时，可以向s和c传入列表。如：importmatplotlib.pyplotaspltimportnumpyasnpx=list(range(1,7))plt.scatter(x,x,s=10*np.arra
Python中scatter()函数--转载 1361976860 python
原博地址：http://blog.csdn.net/anneqiqi/article/details/64125186最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python]viewplaincopy#导入必要的模块i
python中的scatter()函数用法品易HTTP python javascript css js 人工智能
若是现在已经对数据化有了解的话，那就一定要来参与看看本章要学习的函数，在样式以及排版上效果还是很好的，经常被用于测试数据上的大小更改以及设置不同颜色，还有时候，对于线条的宽度的更改也都需要利用到这个函数，以上基本就是本章函数的基本用法了，下面进行详细讲述。制作如图所示图片：需要准备：X、Y轴包括数值以及大小和颜色调用语法：plt.scatter()实现代码：importmatplotlibasmp
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
C语言：哈希表 %KT% C/C++算法数据结构 c语言散列表开发语言
1、文章声明：本文是基于链地址法建立的哈希表。文章中若存在错误，欢迎各路大佬指正。本文涉及二级指针，链表等内容。该方面的知识点，可以参考文章：数据结构：单链表的相关操作-CSDN博客C语言：利用二级指针动态创建二维矩阵-CSDN博客2、哈希表的介绍：哈希表其实可以理解成一种映射，通过映射关系来存储数据，有点类似于Python中的字典。常见的如数组，链表等存储结构，他们查询数据都有一个特点，往往需要
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
大模型工程师学习日记（五）：基于LangServe的AI服务架构深度解析 MMMMMMMay Love Code 学习架构语言模型深度学习人工智能 git
1.概述LangServe️帮助开发者将LangChain可运行和链部署为RESTAPI。该库集成了FastAPI并使用pydantic进行数据验证。Pydantic是一个在Python中用于数据验证和解析的第三方库，现在是Python中使用广泛的数据验证库。它利用声明式的方式定义数据模型和Python类型提示的强大功能来执行数据验证和序列化，使您的代码更可靠、更可读、更简洁且更易于调试。。它还可
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
electron 源码下载与编译构五一编程学习交流 electron javascript 前端 webrtc c语言 c++
electron源码下载与编译构建预先安装安装nodejs下载eletron构建工具：安装python构建Electron基本要求环境依赖交叉编译构建故障排查高级提示使用clang之外的其它编译器electron的depot_tools工具下载构建源码。这个工具是用nodejs写的，封装了chromium自身的depot_tools工具。非常方便易用。主要是electron在下载完chromium
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
一份Python面试宝典小夕Coding Python大学作业汇总 python 面试开发语言
Python面试宝典文章目录Python面试宝典题目001:在Python中如何实现单例模式。题目002：不使用中间变量，交换两个变量`a`和`b`的值。题目003：写一个删除列表中重复元素的函数，要求去重后元素相对位置保持不变。题目004：假设你使用的是官方的CPython，说出下面代码的运行结果。题目005：Lambda函数是什么，举例说明的它的应用场景。题目006：说说Python中的浅拷贝
python中的下划线用法总结白色机械键盘 python实践 python 开发语言
在Python中，下划线（underscore）有多种用法。它在不同的上下文中可以扮演不同的角色，下面是其常见用法的总结：1.单下划线"_"1.1作为临时变量或无用变量在循环或解包操作中，表示一个临时的或不关心的变量。for_inrange(5):print("Hello,World!")a,_,b=(1,2,3)print(a,b)#输出:131.2在交互式解释器中在交互式解释器中，"_"用于保
西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？程序员yt python 华为od 考研
今天给大家分享的是一位粉丝的提问，西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：本科就读于西安交通大学建筑学，今年21岁，秋天毕业，不想在建筑行业，想转码，现在在学Python以及计算机408课程，在Boss上投了很多的岗位好像都是华为OD社招，我毕业应该去试试
python技巧之下划线老虎也淘气 Python编程掌握指南 python django 开发语言
‍♂️个人主页@老虎也淘气个人主页✍作者简介：Python学习者希望大家多多支持我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注python技巧之下划线1、python的moudles文件中__all__作用2、__slots__用于限定类属性，如：3、下面的小技巧可以获取私有变量：4、下划线种类单个下划线（_）单下划线前缀的名称（例如_shahriar）双下划线前缀的名称（例如__s
【华为OD-E卷 -123 判断一组不等式是否满足约束并输出最大差 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java javascript c++
【华为OD-E卷-判断一组不等式是否满足约束并输出最大差100分（python、java、c++、js、c）】题目给定一组不等式，判断是否成立并输出不等式的最大差(输出浮点数的整数部分)要求:不等式系数为double类型，是一个二维数组不等式的变量为int类型，是一维数组;不等式的目标值为double类型，是一维数组不等式约束为字符串数组，只能是:“>”,“>=”,“<”,“<=”,“=”，例如，
【华为OD-E卷 -122 字符统计及重排 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-字符统计及重排100分（python、java、c++、js、c）】题目给出一个仅包含字母的字符串，不包含空格，统计字符串中各个字母（区分大小写）出现的次数，并按照字母出现次数从大到小的顺序。输出各个字母及其出现次数。如果次数相同，按照自然顺序进行排序，且小写字母在大写字母之前输入描述输入一行，为一个仅包含字母的字符串输出描述按照字母出现次数从大到小的顺序输出各个字母和字母次数，
【华为OD-E卷-02 最多提取子串数目100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-最多提取子串数目100分（python、java、c++、js、c）】题目给定[a-z]，26个英文字母小写字符串组成的字符串A和B，其中A可能存在重复字母，B不会存在重复字母，现从字符串A中按规则挑选一些字母，可以组成字符串B。挑选规则如下：同一个位置的字母只能挑选一次被挑选字母的相对先后顺序不能被改变求最多可以同时从A中挑选多少组能组成B的字符串。输入描述输入为2行，第1行输
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
【华为OD-E卷 - 高频题目全览（关注、收藏）通过率100%以上题目可达95%（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享纯小白编程入门教程（新手必看）计算机相关操作技巧（新手必看）华为od c++c语言 java python js javascript
注意：如果发现代码有用例覆盖不到的情况，欢迎反馈！会在第一时间修正，更新。解题不易，如对您有帮助，欢迎点赞/收藏E卷题目全览一键跳转详情题目详情跳转01补种未成活胡杨点此跳转详情02最多提取子串数目点此跳转详情03ai面板识别点此跳转详情04流浪地球
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
python的try和except_Python 异常处理(Try...Except) weixin_40001309
版权所有，未经许可，禁止转载try块让你可以检测代码块中的错误。except块让你可以处理错误。finally块让你可以执行最终代码，不管try与except块的结果如何，finally块的代码都将执行。异常处理当错误(或者异常)发生时，Python通常会停止执行，并报错。这些异常可以使用try/except语句处理：示例下面try块会产生异常，因为x没有定义:try:print(x)except
美容院如何通过数据分析降低顾客流失率 shboka920702 信息可视化
美容行业的竞争日益激烈，顾客流失率居高不下已成为许多美容院面临的共同难题。根据《美容行业经营分析报告》的数据，美容行业的平均顾客流失率高达40%，这意味着每10位顾客中就有4位在一年内不再光顾。如何通过数据分析降低顾客流失率，成为美容院经营者亟需解决的问题。顾客流失的原因多种多样，主要包括服务质量、价格、环境、竞争对手等。根据《消费者行为研究》期刊的调查，超过50%的顾客流失是由于服务质量不达标，
一文掌握python异常处理（try...except...）程序员neil python python 开发语言
目录1、基础结构2、try块3、except块4、else块5、finally块6、自定义异常7、抛出异常8、常用的内置异常类型1）、Exception：捕捉所有异常。2）、BaseException：所有异常的基类。通常不应该直接捕获这个类的实例，除非你确实打算捕获所有异常。3）、SyntaxError：Python语法错误，比如拼写错误或不正确的语句结构。4）、ImportError：尝试导入
利用Python进行数据可视化（Plotly与Dash的应用）步入烟尘 Python超入门指南全册信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
python中 except与 except Exception as e的区别东木月 python python性能提升 python 开发语言
python中except与exceptExceptionase的区别1、捕获所有异常使用except#-*-coding:utf-8-*-"""@contact:微信1257309054@file:except与exceptExceptionase的区别.py@time:2024/4/1313:26@author:LDC"""importsysdeffun1():try:sys<
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
编程提示异常就不用挨个度娘了——Python初识必备爱码小士 Python 网络爬虫机器学习 web开发人工智能
相信对于很多小白，新手对一些异常提示，都不一定明白其含义，所以给大家整理了这样一份中英对照表，对大家一定有所帮助，当然最好都能熟记于心，这样就不用再去一个个度娘了，觉得这个表不错就点个赞加转发吧，文末更多福利异常名称描述BaseException所有异常的基类SystemExit解释器请求退出KeyboardInterrupt用户中断执行(通常是输入^C)Exception常规错误的基类StopI
Python实现自动提取目标文档的大纲（13）写python的鑫哥 Python办公自动化 python 自动提取 Word 文档大纲编号
前言本文是该专栏的第13篇，后面会持续分享Python办公自动化干货知识，记得关注。大纲是一种用于组织和呈现内容结构的工具，它通过层次化的形式展示信息的框架和重点。其通常用于规划、整理和总结文档、报告、演讲、论文或其他任何形式的写作和表达。它可以帮助作者或演讲者清晰地梳理思路，确保内容的逻辑性和连贯性，同时也便于读者或听众快速了解整体结构和重点内容。而本文，笔者也重点来讲述通过Python，如何来
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分