亿是守候 & 亿是承诺

python统计分析--2.预分析：异常值、缺失值处理

文章目录

1.缺失值处理
- 1.1 导入数据
- 1.2 观察数据
- 1.3 缺失值处理方法
2. 异常值处理
- 2.1 异常值---强异常值的处理
- 2.2 特征筛选(Filter过滤法)
- 2.3 共线性
- 2.4 logistics、对数、指数、逆、幂、曲线的绘制
3.编码
3.1 异常值---多变量异常值处理
- 3.2 特征筛选

1.缺失值处理

1.1 导入数据

先导入各种需要的包，导入数据

#导入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
from sklearn import linear_model
import seaborn as sns
%matplotlib inline
plt.rcParams["font.sans-serif"]=["SimHei"]
plt.rcParams["axes.unicode_minus"]=False
#使用pandas读取数据支持xls和xlsx
data=pd.read_excel(r"残耗.xlsx")
data.head(2)
data.info()

1.2 观察数据

观察并记录分布异常的变量

# 第1，2，3步，确定需求、y、x都是根据理论确定

#------------第4步--------------，
#描述数据——获取每个变量的分布形态、均值、中位数、最大值、最小值等常用指标。
#分布形态——记录分布异常的变量
data.iloc[:,1:].hist(figsize=(20,16))
#统计量
data.iloc[:,1:].describe()

对图片中一些分布在3：1以上的数据进行适当的调整，属于异常值处理

1.3 缺失值处理方法

大数据分析缺失值处理方法
缺失值在3%以内一般用中位数来填写
缺失值在3%~20%以内一般用模型添补来填写（KNN 或者随机森林）
缺失值在20%~80%以内一般用缺失值分类法来填写
缺失值在80%以上一般用业务人员分析（一般删除这组数据）

这里采用随机森林方法去填充缺失值

#----------第5步--------------
#5.1 缺失值---60%以上的缺失，分类法处理或删除，其他中位数填补;
data.isnull().sum()/data.shape[0]  #缺失值比例
#data51=data.fillna(value=data.median())#中位数填补（中位数模型77.5%，随机森林79.2%）

# import sklearn.neighbors._base
# import sys
# sys.modules['sklearn.neighbors.base'] = sklearn.neighbors._base

#-----------或使用模型填补----------
# 随机森林添补异常值
#MissForest和RandForestregressor两个都是随机森林
#MissForest是集成的包不需要设置参数
#RandForestregressor需要自己手动设置参数，所以一般采用MissForest
from missingpy import KNNImputer,MissForest

imput=MissForest(n_estimators=2,min_samples_leaf=9000,n_jobs=-1,copy=False)
data5=imput.fit_transform(data.iloc[:,1:])

data51=pd.DataFrame(data5,columns=data.iloc[:,1:].columns)
# data51.info()
x,y=data51.iloc[:,1:],data51['v残耗']
reg=linear_model.LinearRegression()
reg.fit(x,y)
reg.score(x,y)

用随机森林得到的正确率为：0.7907806712612082

2. 异常值处理

2.1 异常值—强异常值的处理

当data51中的第i列大于j时，data51[i]=j
当data51中的第i列小于t时，data51[i]=t
具体解释看注释

# 5.2异常值---强异常值的处理（模型83%）
var=[(-0.01,'lHH',140000),(-0.01,'偏离位',10000),(0,'助燃',100),(-0.01,'助燃反应',2000),
     (-0.01,'助燃柠檬',10000),(20,'助燃添加',29.7),(0,'助燃点',1000),(-0.01,'吸阻',1000),
     (10,'吸阻过滤',129),(0,'噪声',100),(-10000,'圆周点位',29.7),(-0.01,'撤回点位',1000),
     (0,'收紧度',1000),(0,'标注',129),(0,'检查点位',100),(-0.01,'气体综合',10000),
     (0,'消耗烟脂',500),(-200,'温控',200),(-0.01,'烟碱HW',2000),(-0.01,'烟碱量',10000),
     (0,'焦油量',200),(-0.01,'起点位',1000),(-0.01,'过滤时效',1500),(30,'通路',40),
     (-10000,'钠元素',500),(20,'钾元素',100)
    ]
# 当data51中的第i列大于j时，data51[i]=j
# 当data51中的第i列小于t时，data51[i]=t
for (t,i,j) in var:
    data51[i+str("01")]=np.where(data51[i]>=j,j,
                                               np.where(data51[i]<=t,t,data51[i].copy()))
#     print(data51[i+str("01")].describe())
data52=data51.iloc[:,[*range(0,6),*range(32,58)]]
# data52.info()
x,y=data52.iloc[:,2:],data52['v残耗']
reg=linear_model.LinearRegression().fit(x,y)
reg.score(x,y)

2.2 特征筛选(Filter过滤法)

#5.3 特征筛选(Filter过滤法)--业务上不重要的
# SelectKBest表示选择的数量
# SelectPercentile表示选择的百分比
#f_regression表示回归算法
from sklearn.feature_selection import SelectKBest,SelectPercentile,f_regression
# 选取数据中所有行和第二列开始到最后一列作为x
# 选取残差作为y（因变量）
x,y=data52.iloc[:,2:],data52['v残耗']
#选取f_regression算法，选择百分比为60%
fit=SelectPercentile(score_func=f_regression,percentile=60)

fitt=fit.fit_transform(x,y)
# fit.get_support(indices=True)是选择出指定的列,指定的列array([ 0,  1,  2,  5,  6,  8, 10, 11, 12, 13, 15, 17, 19, 22, 23, 25, 26,28], dtype=int64)
# pd.concat表示合并数据集
data53=pd.concat([data52['v残耗'],x.iloc[:,fit.get_support(indices=True)]],axis=1)
data53

2.3 共线性

具体见注释

#5.4 共线性--严重共线性0.9以上，合并或删除，共线性指的是x与x之间，不是指x与y之间
#corr（）表示相关分析,不把小于0.9的替换成0.01的话会分不清楚那些是高相关还是低相关
# d=data53.corr();d[d<=0.9]=0.01#赋值显示高相关的变量，提取出高相关的变量
# # 绘制热力图
# sns.heatmap(d)
# print([data53['气体综合01'].corr(data53['烟碱量01']),data53['过滤时效01'].corr(data53['v3燃料类型'])])
# plt.scatter(data53['v3燃料类型'],data53['过滤时效01'])#删除过滤时效01，在业务上不重要
# plt.scatter(data53['气体综合01'],data53['烟碱量01'])

# #拟合线性形式的模型
from scipy.optimize import curve_fit

def f(x,b0,b1):
    return b0+b1*x  #调整x和y的任意函数关系,如b0*np.exp(b1*dt['x'])
popt,pcov=curve_fit(f,data53["烟碱量01"],data53["气体综合01"])
b0=popt[0]
b1=popt[1]

# data53["成分烟碱"]=b0+b1*data53["烟碱量01"]#整合新字段并计算r方
print("r**2:",(data53["成分烟碱"].corr(data53['v残耗'])))#如果与y的相关高于单个x与y的相关则保留；

# #drop弹出指标。"气体综合01",'过滤时效01',"成分烟碱"这些都是弱相关或者强相关合并后需要删除的变量
data54=data53.drop(["气体综合01",'过滤时效01',"成分烟碱"],axis=1)#最终决定删除"气体综合01"和'过滤时效01'
data54.shape

#--------------函数及图形---------------------------
plt.subplots(2,3,figsize=(16,8));b0=1;b1=2;
plt.subplot(231);x=np.random.randint(-5,5,100);y=1/(1+np.exp((-b0-b1*x)))
plt.scatter(x,y,label='logistic');plt.legend()
plt.subplot(232);b0=5;b1=2;x=np.random.randint(0,100,100);y=b0 + (b1 * np.log(x))
plt.scatter(x,y,label='对数');plt.legend()
plt.subplot(233);b0=5;b1=2;x=np.random.randint(0,10,100);y=b0 * (np.exp((b1 * x))) 
plt.scatter(x,y,label='指数');plt.legend()
plt.subplot(234);b0=5;b1=2;x=np.random.randint(0,10,100);y=b0 + (b1 / x) 
plt.scatter(x,y,label='逆');plt.legend()
plt.subplot(235);b0=5;b1=2;x=np.random.randint(0,10,100);y=b0 * (x**b1)
plt.scatter(x,y,label='幂');plt.legend()
plt.subplot(236);b0=5;b1=2;x=np.random.randint(-100,100,100);y=np.exp(b0 + (b1/x))
plt.scatter(x,y,label='S 曲线');plt.legend()

共线性–严重共线性0.9以上，合并或删除，共线性指的是x与x之间，不是指x与y之间

绘制热力图观察自变量之间的相关性
从图中可以看出自变量之间那些是强相关性的，不用与残耗相关

V3燃料类型与过滤时效01之间的相关性，一般不采用散点图，效果不是很明显

气体综合01和烟碱量01之间的相关性

2.4 logistics、对数、指数、逆、幂、曲线的绘制

#--------------函数及图形---------------------------
plt.subplots(2,3,figsize=(16,8));b0=1;b1=2;
plt.subplot(231);x=np.random.randint(-5,5,100);y=1/(1+np.exp((-b0-b1*x)))
plt.scatter(x,y,label='logistic');plt.legend()
plt.subplot(232);b0=5;b1=2;x=np.random.randint(0,100,100);y=b0 + (b1 * np.log(x))
plt.scatter(x,y,label='对数');plt.legend()
plt.subplot(233);b0=5;b1=2;x=np.random.randint(0,10,100);y=b0 * (np.exp((b1 * x))) 
plt.scatter(x,y,label='指数');plt.legend()
plt.subplot(234);b0=5;b1=2;x=np.random.randint(0,10,100);y=b0 + (b1 / x) 
plt.scatter(x,y,label='逆');plt.legend()
plt.subplot(235);b0=5;b1=2;x=np.random.randint(0,10,100);y=b0 * (x**b1)
plt.scatter(x,y,label='幂');plt.legend()
plt.subplot(236);b0=5;b1=2;x=np.random.randint(-100,100,100);y=np.exp(b0 + (b1/x))
plt.scatter(x,y,label='S 曲线');plt.legend()

图形如下

3.编码

#5.5 变量变换-----关注y是否需要变换
# data54['v残耗log']=np.log(data54['v残耗'])#本案例中无需变换

#5.6 编码-----消除异常值、分组（标签化）
# data53['烟碱量02']=pd.qcut(data53['烟碱量01'],q=4)#本案例中无需变换
data54.shape

总的结果

x,y=data54.iloc[:,1:],data54['v残耗']
reg=linear_model.LinearRegression()# 用于大数据回归
reg.fit(x,y)
reg.score(x,y)

plt.subplots(1,2,figsize=(12,8))
plt.subplot(121)
r2=reg.score(x,y);plt.plot(y,reg.predict(x),'o',label=r2)#r方评分和图示
plt.legend()
plt.subplot(122)
resid=y-reg.predict(x)
std_resid=(resid-np.mean(resid))/np.std(resid)
plt.plot(reg.predict(x),std_resid,'o',label="残差图")#r方评分和图示
plt.legend()

3.1 异常值—多变量异常值处理

# 5.2+ 异常值---多变量异常值处理
data54["标准化残差"]=std_resid#复制保存
data54_99=data54[np.abs(data54["标准化残差"])<=6]#设置异常条件
data54_2=data54_99.drop(["标准化残差"],axis=1)
print(data54_2.shape)

x,y=data54_2.iloc[:,1:],data54_2['v残耗']
reg=linear_model.LinearRegression()
reg.fit(x,y)
print(reg.score(x,y))
resid=y-reg.predict(x)
plt.plot(reg.predict(x),(resid-np.mean(resid))/np.std(resid),'o',label="残差图")#r方评分和图示
plt.legend()

3.2 特征筛选

#5.3+ 特征筛选(Wrapper包装法RFE;Embedded嵌入法SelectFromModel)
from sklearn.feature_selection import RFE,SelectFromModel
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import LinearSVR

x54_1,y54_1=data54_2.iloc[:,1:],data54_2['v残耗']
# rfr=RandomForestRegressor(n_estimators=10,min_samples_leaf=10000)
# selector=RFE(rfr,n_features_to_select=5).fit(x54_1,y54_1)
data54_3=pd.concat([data54_2['v残耗'],data54_2[data54_2.columns[selector.get_support(indices=True)]]],axis=1)

x,y=data54_3.iloc[:,2:],data54_3['v残耗']
reg=linear_model.LinearRegression().fit(x,y)
print(reg.score(x,y))
data54_3.head(6)

你可能感兴趣的:(大数据,python,sklearn,机器学习)

【新人系列】Python 入门（二十七）：Python 库 Pandaconda #Python 新人系列 python 开发语言后端笔记面试 python库库
✍个人博客：https://blog.csdn.net/Newin2020?type=blog专栏地址：https://blog.csdn.net/newin2020/category_12801353.html专栏定位：为0基础刚入门Python的小伙伴提供详细的讲解，也欢迎大佬们一起交流~专栏简介：在这个专栏，我将带着大家从0开始入门Python的学习。在这个Python的新人系列专栏下，将会
python爬取高德地图道路交通状态数据代码 weixin_17839606517 可视化 python 开发语言
"""author:17839606517"""importdatetimeimportdatetimeimportosimportcsvfromcodecsimportStreamReaderWriterimportnumpyasnpimportrequestsimportpandasaspdimportjsonimportcodecsimporttimedefaaa():#初始API的URL#
python雪人_python实现滑雪者小游戏 weixin_39692761 python雪人
引言这是一个用pygame写的滑雪者的游戏。skier从上向下滑，途中会遇到树和旗子，捡起一个旗子得10分，碰到一颗树扣100分，可以用左右箭头控制skier方向。安装pygamepipinstallpygame用pip或设置界面安装，可自行百度以下是主界面代码，每一个类都是一个py文件，需要导包importpygameimportrandomfromsettingsimportSettingsf
华为云开天 aPaaS 平台的流使用体验
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
Python小游戏28——水果忍者虞书欣的C 游戏 pycharm 人工智能小程序开发语言
首先，你需要安装Pygame库。如果你还没有安装，可以使用以下命令进行安装：【bash】pipinstallpygame《水果忍者》游戏代码：【python】importpygameimportrandomimportsys#初始化Pygamepygame.init()#设置屏幕尺寸screen_width=800screen_height=600screen=pygame.display.set
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
如何用Python爬取网站数据：基础教程与实战大梦百万秋知识学爆 python 开发语言
数据爬取（WebScraping）是从网站中自动获取信息的过程。借助Python强大的库和工具，数据爬取变得非常简单且高效。本文将介绍Python爬取网站数据的基础知识、常用工具，以及一个简单的实战示例，帮助你快速上手网站数据爬取。1.什么是网站数据爬取？网站数据爬取是通过编写程序自动抓取网页内容的技术，通常用于从公开网站中提取特定数据。数据爬取的应用场景非常广泛，包括：收集商品价格和评论数据新闻
python实现滑雪游戏是叶子耶 pygame python 开发语言
游戏逻辑说明初始化：设置游戏窗口、颜色、滑雪者和障碍物的基本属性。绘制窗口：在每一帧中绘制滑雪者、障碍物和当前得分。用户输入：通过键盘的左右箭头控制滑雪者的移动。障碍物生成和移动：随机生成障碍物，并使其向下移动。碰撞检测：检查滑雪者是否与任何障碍物碰撞，若碰撞则结束游戏。得分系统：每一帧增加得分。importpygameimportrandom#初始化pygamepygame.init()#游戏窗
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
Python爬虫教程：抓取区块链交易信息及加密货币市场数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫区块链开发语言人工智能网络爬虫
前言随着区块链技术和加密货币的迅猛发展，区块链交易和加密货币市场的数据逐渐成为金融、技术、经济研究等领域的热点。对于开发者和研究者而言，实时获取区块链交易数据和加密货币市场行情，对于投资分析、市场预测、技术研究等具有重要的参考价值。本文将通过Python爬虫技术，介绍如何抓取区块链交易信息及加密货币市场数据，详细阐述数据获取的原理、技术方案、实现方法以及抓取到的数据的存储与分析。我们将依托最新的爬
Python 爬虫：商品价格监控与波动分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 ide 网络爬虫
随着电子商务的迅猛发展，商品价格的监控和波动分析在各类应用中具有重要价值。通过爬取电商平台的商品价格数据，我们不仅可以分析商品的价格趋势，还可以预测未来的价格波动，并为定价、促销策略提供数据支持。本文将详细介绍如何利用Python编写爬虫，抓取商品价格数据，并进行价格波动分析。目录1.爬虫概述与技术选型2.环境配置与依赖库安装3.目标平台与数据抓取3.1获取商品价格示例：抓取京东商品价格3.2抓取
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
Python 常用基础模块（三）：os.path模块 Amo Xiang Python3高级核心技术 python 开发语言
目录一、os.path模块介绍二、常用方法2.1exists()方法——判断路径是否存在(准确)2.2isdir()方法——判断是否为目录2.3isabs()方法——判断是否为绝对路径2.4isf ile()方法——判断是否为普通文件2.5join()方法——拼接路径2.6abspath()方法——获取绝对路径2.7basename()方法——从一个路径中提取文件名2.8dirname()方法——
Python字典实战：打造高效学生成绩管理系统清水白石008 python Python题库 python 开发语言
Python字典实战：打造高效学生成绩管理系统在日常学习和工作中，我们经常需要管理和查询数据。Python的字典（Dictionary）是一种非常强大的数据结构，它以键值对（key-valuepairs）的形式存储数据，能够实现高效的数据检索。本文将以创建一个学生成绩管理系统为例，深入讲解如何使用Python字典存储学生姓名和成绩信息，并实现根据姓名查找成绩的功能。本文旨在提供实用性强、内容丰富、
python系列：Python删除文件夹以及文件夹下所有文件坦笑&&life #python python java linux
Python删除文件夹以及文件夹下所有文件Python删除文件夹下所有文件python删除文件夹下的文件Python删除文件夹下的文件方法一：使用os模块方法二：使用shutil模块总结Python删除文件夹下所有文件在Python中，您可以使用os模块来删除文件夹下的所有文件，但保留文件夹本身。以下是一个简单的例子：importosdefdelete_files_in_folder(folder
python使用Flask框架创建一个简单的动态日历镜花照无眠 #Python python flask 开发语言
0.运行效果运行代码，然后在浏览器中访问http://127.0.0.1:5000/，将看到一个动态日历，能够通过点击按钮切换月份。1.安装Flask首先，确保你已经安装了Flask。如果没有，可以使用以下命令安装：pipinstallFlask测试：fromflaskimportFlask#fromflaskimportFlask,render_template,requestapp=Flask
材料力学仿真软件：MSC Nastran_（15）.案例研究与实践 kkchenjj 材料力学仿真服务器运维开发语言材料力学仿真模拟性能优化
案例研究与实践在这一节中，我们将通过具体的案例研究和实践来深入理解如何在材料力学仿真软件中进行二次开发。我们将探讨如何使用Python脚本与MSCNastran进行交互，如何优化仿真模型，以及如何处理仿真结果。每个案例都将提供详细的操作步骤和代码示例，以帮助读者更好地掌握这些技术。1.使用Python脚本自动化模型生成1.1.案例背景在实际工程中，往往需要生成大量的仿真模型。手动创建这些模型不仅耗
python 将doc转换docx 代码李姝瑶 python 开发语言
使用Python将.doc文件转换为.docx文件，可以使用python-docx库。代码如下：#安装python-docx库!pipinstallpython-docx#导入库importosimportdocx#获取文件路径file_path="/path/to/file.doc"#打开.doc文件doc=docx.opendocx(file_path)#将.doc文件保存为.docx文件do
pythonsvm模型优化_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39878698 pythonsvm模型优化
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。(用遗传算法也可以，下面会给出效果比较)首先简单回顾一下Python高性能实用型遗传和进化算
python 删除文件-python实现删除文件与目录的方法 weixin_39876282
本文实例讲述了python实现删除文件与目录的方法。分享给大家供大家参考。具体实现方法如下：os.remove(path)删除文件path.如果path是一个目录，抛出OSError错误。如果要删除目录，请使用rmdir().remove()同unlink()的功能是一样的在Windows系统中，删除一个正在使用的文件，将抛出异常。在Unix中，目录表中的记录被删除，但文件的存储还在。os.rem
python 删除文件、目录_python删除文件和删除目录的方法 weixin_39778214 python 删除文件目录
下面来看一下python里面是如何删除一个文件及文件夹的~~首先引入OS模块importos删除文件：os.remove()删除空目录：os.rmdir()递归删除空目录：os.removedirs()递归删除目录和文件（类似DOS命令DeleteTree）：方法1：#Deleteeverythingreachablefromthedirectorynamedin'top',#assumingth
差分进化算法_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39747075 差分进化算法
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。（用遗传算法也可以，下面会给出效果比较）首先简单回顾一下Python高性能实用型遗传和进化算
高可用架构-CAP理论 weixin_33939843
2019独角兽企业重金招聘Python工程师标准>>>整理自:《从零开始学架构》李运华著转载于:https://my.oschina.net/grace233/blog/2236736
minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
如何使用 Python 和 Selenium WebDriver 获取 localStorage 潮易 python selenium 开发语言
如何使用Python和SeleniumWebDriver获取localStorage要使用Python和SeleniumWebDriver获取localStorage，您可以遵循以下步骤：###1.安装必要的库首先，您需要安装selenium库。可以通过pip进行安装：```bashpipinstallselenium```###2.下载WebDriver根据您的浏览器类型（如Chrome、Fir
如何在BlogSpot中一次上传多篇博客文章？潮易 python
如何在BlogSpot中一次上传多篇博客文章？在BlogSpot中一次性上传多篇博客文章的方法是使用API来批量上传文章。以下是详细的步骤和代码示例：1.首先，你需要从GoogleDevelopersConsole创建一个项目并启用BloggerAPI。2.然后，你需要在你的项目中添加BloggerAPI的客户端库，例如使用Python的`google-api-python-client`库。3.
使用迭代工具返回连续负数的最长列表。groupby 潮易 python
使用迭代工具返回连续负数的最长列表。groupby要使用Python编程解决这个问题，我们可以采用迭代和条件判断的方法。以下是一个简单的实现方法：```pythondeflongest_negatives(nums):max_length=0current_length=0start=-1foriinrange(len(nums)):ifnums[i]<0:ifcurrent_length==0:
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他