୧⍤⃝ Nakupenda

Python数据分析之特征处理笔记六——特征预处理（案例分析）

摘要：阅读了前面文章的小伙伴们有没有对特征预处理有了一定的了解呢？接下来这篇文章将通过一个分析实践项目进一步了解特征预处理的过程。

1. 特征预处理

1.1 获取数据，数据清洗

1.2 确定标注

1.3 特征变换

1.3.1 Z-score标准化与最大最小标准化

1.3.2 标签法和独热法

1.4 特征降维

2. 模型建立

数据来源：本文的数据及代码来源于B站up主，Python数据分析-数据挖掘教程_哔哩哔哩_bilibili

需要本文数据或者有疑问的伙伴也可私信我，我们一起交流。

项目思路：

获取数据，确定标注
数据清洗，主要就是处理空值及异常值
特征选择，若数据特征不多建议不用特征选择
特征变换，常用标准化、归一化、数值化方法
特征降维，使用较为高效的主成分分析法

需要注意的是如果我们先确定标注在进行数据清洗的话会导致标注的维度与特征的维度会出现不一致的情况，所以我们可以找到标注，先让电脑进行数据清洗统一工作，然后再让电脑提取标注，保证标注与特征的维度一样。

1. 特征预处理

1.1 获取数据，数据清洗

import pandas as pd 
df=pd.read_csv('D:/数据分析/HR.csv')
print(df)

提供数据的up主为了让大家方便学习，就制造了这样一个数据集，并将异常值和空值放在数据集的最后面，在此感谢up主。观察数据集，满意度水平（satisfaction_level）有空值出现，最近评价（last_evalution）和工资（salary）有异常值出现，接下来就需要处理这些数据。

#1.清洗数据 
df=df.dropna(subset=['satisfaction_level','last_evaluation'])
df=df[df['satisfaction_level']<=1][df['last_evaluation']<=1][df['salary']!='nme']
print(df)

这样就得到了经过简单处理的数据，在数据较多的情况下，我们还可以利用前面文章说过的分位数来得到分析数据，也可以通过特殊值填充等方法来处理。

1.2 确定标注

将是否离职（left）视为标注，并将其从数据集中提取出来

#2.得到标注
label=df['left']
df=df.drop('left',axis=1)
# 先清洗数据再取标注，可以使最后数据和标注行数一样，如果先取标注再清洗的话，最后结果的行数就不一样

#3.特征选择：在此暂不用特征选择，因为获取的数据较少

1.3 特征变换

观察经过清洗的数据集，发现除了工资（salary）和部门（department）是非数值型数据外，其他的数据均为数值型数据，那么特征变换就需要分为两部分来进行。首先进行数值型数据的特征变换，采用Z-score标准化和最大最小标准化两种方法。

思路是：为每个特征设定一个参数值，参数值可以指定该特征是进行Z-score标准化还是最大最小标准化处理。

1.3.1 Z-score标准化与最大最小标准化

我们设定的参数如下：

以sl为例，如果参数是False的话，那么特征satisfaction_level就用最大最小标准化，如果是True的话就用z-score标准化。其他特征也是如此。

sl:satisfaction_level--False:MinMaxScaler;True:StandardScaler
le:last_evalution--False:MinMaxScaler;True:StandardScaler
npr:number_project--False:MinMaxScaler;True:StandardScaler
amh:average_monthly_hours--False:MinMaxScaler;True:StandardScaler
tsc:time_spend_company--False:MinMaxScaler;True:StandardScaler
wa:work_accident--False:MinMaxScaler;True:StandardScaler
pl5:promotion_last_5years--False:MinMaxScaler;True:StandardScaler

回忆前面所学的内容：

最大最小标准化又称为离差标准化，使结果映射到[0,1]之间，比较适用在数值比较集中的情况。

Z-score标准化要求原始数据的分布可以近似为正态分布，否则归一化的效果会变得很糟糕。

我们直接用直方图来看一下不同特征的数据情况，首先工作事故（work_accident）和近5年升职情况（promotion_last_5years）只有0和1两个值，可以进行最大最小标准化，逐个运行plt函数。

import matplotlib.pyplot as plt
plt.hist(df['satisfaction_level'],bins=100)
#plt.hist(df['last_evaluation'],bins=100)
#plt.hist(df['number_project'],bins=100)
#plt.hist(df['average_monthly_hours'],bins=100)
#plt.hist(df['time_spend_company'],bins=100)
#plt.hist(df['Work_accident'],bins=2)
#plt.hist(df['promotion_last_5years'],bins=2)

from sklearn.preprocessing import MinMaxScaler,StandardScaler
def Z_minmax(sl=False,le=False,npr=True,amh=False,tsc=False,wa=False,pl5=False):
    scaler_lst=[sl,le,npr,amh,tsc,wa,pl5]
    column_lst=['satisfaction_level','last_evaluation','number_project','average_monthly_hours','time_spend_company','Work_accident','promotion_last_5years']
    for i in range(len(scaler_lst)):
        if scaler_lst[i]:
            df[column_lst[i]]=StandardScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(-1,1)
        else:
            df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(-1,1)
    return df,label
Z_minmax()

1.3.2 标签法和独热法

与上面过程一样，我们设定的参数如下：

False时表示采用标签法，True时表示采用独热法，根据经验，我们对salary用标签法，对department用独热法。

dp:department--False:LabelEncoding;True:OneHotEncoding
slr:salary--False:LabelEncoding;True:OneHotEncoding

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
def label_onehot(slr=True,dp=False):
    df1,lable=Z_minmax()
    scaler_lst=[slr,dp]
    column_lst=['salary','department']
    for i in range(len(scaler_lst)):
        if scaler_lst[i]:
            if column_lst[i]=="salary":
                df1[column_lst[i]]=[map_salary(s) for s in df1['salary'].values]
                #salary为定序数据，可以通过标签法赋值，但会根据首字母排序赋值，通过下面的map_salary函数给它赋值
            else:
                df1[column_lst[i]]=LabelEncoder().fit_transform(df1[column_lst[i]])
            df1[column_lst[i]]=MinMaxScaler().fit_transform(df1[column_lst[i]].values.reshape(-1,1)).reshape(-1,1)
            #数值化定类数据和定序数据以后，可通过归一法规范数据
        else:
            df1=pd.get_dummies(df1,columns=[column_lst[i]])
            #也可选择用OneHot处理，但用OneHot比较费力，需要把所有的类别提取来进行标签化后再进行独热。可用比较方便的get_dummies方法处理
    return df1,lable
d=dict([('low',0),('medium',1),('high',2)])
def map_salary(s):
    return d.get(s,0)
    #给上面函数中的salary赋值，没有找到时默认为0，即低收入人群
label_onehot()

1.4 特征降维

前面提到：PCA方法比较简单，只需要计算方差以衡量信息量，不会受外部因素的影响。同时主成分之间相互正交，可消除原始数据集之间相互影响的因素。但PCA方法对于主成分的解释具有模糊性，且有会删除一些方差虽然小但比较重要的数据，可能会造成模型的过拟合。

若我们想要直接得到降维后的数据，用几个主成分表示我们得到的大部分信息，直接使用主成分（PCA）法就可以，代码如下：

from sklearn.decomposition import PCA
def PCA_method(lower_d=True,ld_n=3):
    df2,label2=label_onehot()
    if lower_d:
        return PCA(n_components=ld_n).fit_transform(df2.values)
    # return LinearDiscriminantAnalysis(n_components=ld_n)
    # 注意，n_components的值不能大于类的个数，因选择的标注只有0和1两类，不管n_components填多少，降维以后都是1维，则
    # 不考虑用LDA进行降维,用PCA降维,PCA降维可以不使用标注
PCA_method()

好啦，以上就是一个简单的特征处理过程，接下来我们可以用数据来建立一个监督学习的模型。

2. 模型建立

下面我们建立一个KNN模型，该算法的思想是：每个数据集都有标注，如果一个点的k个最近的邻居，邻居中的一种标注的数量大于另一种标注的，那么该点倾向于与标注更多的邻居是一致的。

def get_model():
    features,label2=label_onehot()
    from sklearn.model_selection import train_test_split
    f_v=features.values
    l_v=label.values
    X_tt,X_validation,Y_tt,Y_validation=train_test_split(f_v,l_v,test_size=0.2)
    X_train,X_test,Y_train,Y_test=train_test_split(X_tt,Y_tt,test_size=0.25)
    print(len(X_train),len(X_validation),len(X_test))
    #利用N折交叉验证法进行模型验证
    from sklearn.neighbors import NearestNeighbors,KNeighborsClassifier
    #NearestNeighbors可直接得到一个点附近最近的几个点
    
    knn_clf=KNeighborsClassifier(n_neighbors=3)
    #n_neighbors=5时是否是一个有效的值呢，可以改变它的值进行运算，观察最后的三个值是否升高，得出等于3时三个值较大
    knn_clf_n5=KNeighborsClassifier(n_neighbors=5)
    #为了更有说服力，建立第二个模型判断哪个值更有效
    
    knn_clf.fit(X_train,Y_train)
    knn_clf_n5.fit(X_train,Y_train)
    Y_pred=knn_clf.predict(X_validation)
    Y_pred_n5=knn_clf_n5.predict(X_validation)
    #得到X验证集在K近邻法下的标注预测数据，接下来进行衡量
    
    
    from sklearn.metrics import accuracy_score,recall_score,f1_score
    #用以上三个指标进行预测值和实际值之间的衡量
    
    #验证集验证
    print('验证集：')
    print('ACC:',accuracy_score(Y_validation,Y_pred))
    print("REC:",recall_score(Y_validation,Y_pred)) #召回率
    print("F_score:",f1_score(Y_validation,Y_pred)) #F值
    
#     print('ACC:',accuracy_score(Y_validation,Y_pred_n5))
#     print("REC:",recall_score(Y_validation,Y_pred_n5)) #召回率
#     print("F_score:",f1_score(Y_validation,Y_pred_n5)) #F值
#     通过比较，显示3更有效
   Y_pred_add=knn_clf.predict(X_train)
    #进一步对训练集进行预测，相应的Y_validatio改为Y_train,Y_pred改为Y_pred_add
    #训练集验证
    print('训练集：')
    print('ACC:',accuracy_score(Y_train,Y_pred_add))
    print("REC:",recall_score(Y_train,Y_pred_add)) #召回率
    print("F_score:",f1_score(Y_train,Y_pred_add)) #F值
    
    Y_pred=knn_clf.predict(X_test)
    #测试集验证
    print('测试集')
    print('ACC:',accuracy_score(Y_test,Y_pred))
    print("REC:",recall_score(Y_test,Y_pred)) #召回率
    print("F_score:",f1_score(Y_test,Y_pred)) #F值
    #验证完毕后可修改hr_preprocessing函数里的参数值训练模型，得到更加令人满意的结果
    
    #训练出一个模型不容易，需要对其进行存储
    from sklearn.externals import joblib
    joblib.dump(knn_clf,"knn_clf")
    #存储模型
    knn_clf=joblib.load('knn_clf')
    #使用模型
    Y_pred=knn_clf.predict(X_test)
    print('测试集2')
    print('ACC:',accuracy_score(Y_test,Y_pred))
    print("REC:",recall_score(Y_test,Y_pred)) #召回率
    print("F_score:",f1_score(Y_test,Y_pred)) #F值
get_model()

观察最后得出的结果，可以看到有一点过拟合的情况，过拟合主要是有两个原因造成的：数据太少+模型太复杂。所以，我们可以通过使用合适复杂度的模型来防止过拟合问题，让其足够拟合真正的规则，同时又不至于拟合太多抽样误差。要解决过拟合的问题有几种方法：

增加数据量，我们可以进行特征衍生增加适量的特征
简化模型，减少复杂度
还有贝叶斯法、多种模型结合等方法

在以后的文章中会尽量提到，今天就到此为止吧。

蓝桥杯Python赛道备赛——Day6：算术（二）（数学问题） SKY YEAM 蓝桥杯备赛蓝桥杯 python 职场和发展
本期博客是蓝桥杯备赛中算术（数学问题）的第二期，包括：快速幂算法、逆元（模意义下的倒数）、组合数计算和排列数计算。每一种数学问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法算术（二）（数学问题）一、快速幂算法二、逆元（模意义下的倒数）三、组合数计算四、排列数计算一、快速幂算法1.定义：快速计算大指数幂的算法。2.算法原理：二进
蓝桥杯Python赛道备赛——Day1：基础算法 SKY YEAM 蓝桥杯备赛蓝桥杯 python 算法
本博客就蓝桥杯中的基础算法（这一部分说是算法，但更是一些简单的操作）进行罗列，包括：枚举、模拟、前缀和、差分、二分查找、进制转换、贪心、位运算和双指针。每一个算法都在给出概念解释的同时，给出了示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法（2）PythonOOP（面向对象编程）基础算法（操作）一、枚举二、模拟三、前缀和四、差分五、二分查找六、进制转换七、贪心八、位运
如何用python做一个小程序进行炒股？大懒猫软件 python 小程序开发语言
使用Python分析股票的完整程序以下是一个完整的Python程序，展示如何获取股票数据、进行数据清洗、计算技术指标、并进行简单的价格走势分析。1.安装必要的库首先，确保安装了必要的库：bash复制pipinstallrequestspandasmatplotlibyfinance2.获取股票数据使用yfinance库获取股票数据。yfinance是一个流行的库，可以方便地从雅虎财经获取股票数据。
蓝桥杯Python赛道备赛——Day7：动态规划（基础） SKY YEAM 蓝桥杯备赛蓝桥杯 python 动态规划
本博客就蓝桥杯中所涉及的动态规划基础问题进行讲解，包括：递推、记忆化搜索、最长公共子序列（LCS）和最长上升子序列（LIS）。每一种动态规划问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法动态规划（基础）一、递推（迭代法）二、记忆化搜索（递归+缓存）三、最长公共子序列（LCS）四、最长上升子序列（LIS）一、递推（迭代法）定义
链上赋能：智能合约重塑供应链管理 Echo_Wish 前沿技术人工智能智能合约 linux 运维
链上赋能：智能合约重塑供应链管理供应链是现代经济活动的核心，而复杂的供应链环节常常面临诸多挑战：数据孤岛、信息不透明、操作低效甚至信任危机。这些问题不仅增加了运营成本，还导致资源浪费。随着区块链技术的兴起，供应链管理迎来了新的解决方案，其中智能合约（SmartContract）作为区块链的重要组成部分，正在颠覆传统的供应链管理模式。在本文中，我将结合Python开发与智能合约，探讨智能合约在供应链
批量将将xlsx转为csv，将csv转为csv utf-8 Znnjcidmslz 数据 python pandas
csv转换为csvutf-8将csv格式文件批量转换为csvutf-8格式文件，以下为使用Python处理的代码：importosimportpandasaspd#存有文件的路径current_path=os.getcwd()#current_path=os.path.dirname('G:/weather_output2')#转换之后存放的路径为“UTF8”，会检查当前路径是否有，没有就创建ut
1.4使用pandas读取和写入Excel文件的基本操作林伽一 python处理excel pandas excel python
读取和写入Excel文件是使用Python处理Excel的基本操作。在Python中，可以使用不同的库来实现这些操作，例如pandas、openpyxl等。以下是读取和写入Excel文件的基本操作示例：读取Excel文件使用pandas库读取Excel文件非常方便。下面的示例演示了如何使用pandas读取Excel文件：importpandasaspd#读取Excel文件df=pd.read_ex
Python与C ++开发匿名捐赠1对1管理APP Geeker-2025 python c++
开发一款用于**匿名捐赠1对1管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的捐赠监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：W
python颜色参数_python matplotlib:plt.scatter() 大小和颜色参数详解 weixin_39926311 python颜色参数
语法plt.scatter(x,y,s=20,c='b')大小s默认为20，s=0时点不显示；颜色c默认为蓝色。为每一个点指定大小和颜色有时我们需要为每一个点指定大小和方向，以区分不同的点。这时，可以向s和c传入列表。如：importmatplotlib.pyplotaspltimportnumpyasnpx=list(range(1,7))plt.scatter(x,x,s=10*np.arra
Python中scatter()函数--转载 1361976860 python
原博地址：http://blog.csdn.net/anneqiqi/article/details/64125186最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python]viewplaincopy#导入必要的模块i
python中的scatter()函数用法品易HTTP python javascript css js 人工智能
若是现在已经对数据化有了解的话，那就一定要来参与看看本章要学习的函数，在样式以及排版上效果还是很好的，经常被用于测试数据上的大小更改以及设置不同颜色，还有时候，对于线条的宽度的更改也都需要利用到这个函数，以上基本就是本章函数的基本用法了，下面进行详细讲述。制作如图所示图片：需要准备：X、Y轴包括数值以及大小和颜色调用语法：plt.scatter()实现代码：importmatplotlibasmp
C语言：哈希表 %KT% C/C++算法数据结构 c语言散列表开发语言
1、文章声明：本文是基于链地址法建立的哈希表。文章中若存在错误，欢迎各路大佬指正。本文涉及二级指针，链表等内容。该方面的知识点，可以参考文章：数据结构：单链表的相关操作-CSDN博客C语言：利用二级指针动态创建二维矩阵-CSDN博客2、哈希表的介绍：哈希表其实可以理解成一种映射，通过映射关系来存储数据，有点类似于Python中的字典。常见的如数组，链表等存储结构，他们查询数据都有一个特点，往往需要
大模型工程师学习日记（五）：基于LangServe的AI服务架构深度解析 MMMMMMMay Love Code 学习架构语言模型深度学习人工智能 git
1.概述LangServe️帮助开发者将LangChain可运行和链部署为RESTAPI。该库集成了FastAPI并使用pydantic进行数据验证。Pydantic是一个在Python中用于数据验证和解析的第三方库，现在是Python中使用广泛的数据验证库。它利用声明式的方式定义数据模型和Python类型提示的强大功能来执行数据验证和序列化，使您的代码更可靠、更可读、更简洁且更易于调试。。它还可
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
electron 源码下载与编译构五一编程学习交流 electron javascript 前端 webrtc c语言 c++
electron源码下载与编译构建预先安装安装nodejs下载eletron构建工具：安装python构建Electron基本要求环境依赖交叉编译构建故障排查高级提示使用clang之外的其它编译器electron的depot_tools工具下载构建源码。这个工具是用nodejs写的，封装了chromium自身的depot_tools工具。非常方便易用。主要是electron在下载完chromium
一份Python面试宝典小夕Coding Python大学作业汇总 python 面试开发语言
Python面试宝典文章目录Python面试宝典题目001:在Python中如何实现单例模式。题目002：不使用中间变量，交换两个变量`a`和`b`的值。题目003：写一个删除列表中重复元素的函数，要求去重后元素相对位置保持不变。题目004：假设你使用的是官方的CPython，说出下面代码的运行结果。题目005：Lambda函数是什么，举例说明的它的应用场景。题目006：说说Python中的浅拷贝
python中的下划线用法总结白色机械键盘 python实践 python 开发语言
在Python中，下划线（underscore）有多种用法。它在不同的上下文中可以扮演不同的角色，下面是其常见用法的总结：1.单下划线"_"1.1作为临时变量或无用变量在循环或解包操作中，表示一个临时的或不关心的变量。for_inrange(5):print("Hello,World!")a,_,b=(1,2,3)print(a,b)#输出:131.2在交互式解释器中在交互式解释器中，"_"用于保
西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？程序员yt python 华为od 考研
今天给大家分享的是一位粉丝的提问，西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：本科就读于西安交通大学建筑学，今年21岁，秋天毕业，不想在建筑行业，想转码，现在在学Python以及计算机408课程，在Boss上投了很多的岗位好像都是华为OD社招，我毕业应该去试试
python技巧之下划线老虎也淘气 Python编程掌握指南 python django 开发语言
‍♂️个人主页@老虎也淘气个人主页✍作者简介：Python学习者希望大家多多支持我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注python技巧之下划线1、python的moudles文件中__all__作用2、__slots__用于限定类属性，如：3、下面的小技巧可以获取私有变量：4、下划线种类单个下划线（_）单下划线前缀的名称（例如_shahriar）双下划线前缀的名称（例如__s
【华为OD-E卷 -123 判断一组不等式是否满足约束并输出最大差 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java javascript c++
【华为OD-E卷-判断一组不等式是否满足约束并输出最大差100分（python、java、c++、js、c）】题目给定一组不等式，判断是否成立并输出不等式的最大差(输出浮点数的整数部分)要求:不等式系数为double类型，是一个二维数组不等式的变量为int类型，是一维数组;不等式的目标值为double类型，是一维数组不等式约束为字符串数组，只能是:“>”,“>=”,“<”,“<=”,“=”，例如，
【华为OD-E卷 -122 字符统计及重排 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-字符统计及重排100分（python、java、c++、js、c）】题目给出一个仅包含字母的字符串，不包含空格，统计字符串中各个字母（区分大小写）出现的次数，并按照字母出现次数从大到小的顺序。输出各个字母及其出现次数。如果次数相同，按照自然顺序进行排序，且小写字母在大写字母之前输入描述输入一行，为一个仅包含字母的字符串输出描述按照字母出现次数从大到小的顺序输出各个字母和字母次数，
【华为OD-E卷-02 最多提取子串数目100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-最多提取子串数目100分（python、java、c++、js、c）】题目给定[a-z]，26个英文字母小写字符串组成的字符串A和B，其中A可能存在重复字母，B不会存在重复字母，现从字符串A中按规则挑选一些字母，可以组成字符串B。挑选规则如下：同一个位置的字母只能挑选一次被挑选字母的相对先后顺序不能被改变求最多可以同时从A中挑选多少组能组成B的字符串。输入描述输入为2行，第1行输
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
【华为OD-E卷 - 高频题目全览（关注、收藏）通过率100%以上题目可达95%（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享纯小白编程入门教程（新手必看）计算机相关操作技巧（新手必看）华为od c++c语言 java python js javascript
注意：如果发现代码有用例覆盖不到的情况，欢迎反馈！会在第一时间修正，更新。解题不易，如对您有帮助，欢迎点赞/收藏E卷题目全览一键跳转详情题目详情跳转01补种未成活胡杨点此跳转详情02最多提取子串数目点此跳转详情03ai面板识别点此跳转详情04流浪地球
python的try和except_Python 异常处理(Try...Except) weixin_40001309
版权所有，未经许可，禁止转载try块让你可以检测代码块中的错误。except块让你可以处理错误。finally块让你可以执行最终代码，不管try与except块的结果如何，finally块的代码都将执行。异常处理当错误(或者异常)发生时，Python通常会停止执行，并报错。这些异常可以使用try/except语句处理：示例下面try块会产生异常，因为x没有定义:try:print(x)except
美容院如何通过数据分析降低顾客流失率 shboka920702 信息可视化
美容行业的竞争日益激烈，顾客流失率居高不下已成为许多美容院面临的共同难题。根据《美容行业经营分析报告》的数据，美容行业的平均顾客流失率高达40%，这意味着每10位顾客中就有4位在一年内不再光顾。如何通过数据分析降低顾客流失率，成为美容院经营者亟需解决的问题。顾客流失的原因多种多样，主要包括服务质量、价格、环境、竞争对手等。根据《消费者行为研究》期刊的调查，超过50%的顾客流失是由于服务质量不达标，
一文掌握python异常处理（try...except...）程序员neil python python 开发语言
目录1、基础结构2、try块3、except块4、else块5、finally块6、自定义异常7、抛出异常8、常用的内置异常类型1）、Exception：捕捉所有异常。2）、BaseException：所有异常的基类。通常不应该直接捕获这个类的实例，除非你确实打算捕获所有异常。3）、SyntaxError：Python语法错误，比如拼写错误或不正确的语句结构。4）、ImportError：尝试导入
利用Python进行数据可视化（Plotly与Dash的应用）步入烟尘 Python超入门指南全册信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
python中 except与 except Exception as e的区别东木月 python python性能提升 python 开发语言
python中except与exceptExceptionase的区别1、捕获所有异常使用except#-*-coding:utf-8-*-"""@contact:微信1257309054@file:except与exceptExceptionase的区别.py@time:2024/4/1313:26@author:LDC"""importsysdeffun1():try:sys<
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

Python数据分析之特征处理笔记六——特征预处理（案例分析）

1. 特征预处理

1.1 获取数据，数据清洗

1.2 确定标注

1.3 特征变换

1.3.1 Z-score标准化与最大最小标准化

1.3.2 标签法和独热法

1.4 特征降维

2. 模型建立

你可能感兴趣的:(KNN,python,数据分析,数据挖掘)