东流-beyond the label

sklearn预测pima糖尿病

文章目录

- 数据集描述
- - 准备工作
  - 实验环境和工具
- 预测分析
- - 探索性数据分析
  - - 数据描述
    - 可视化分析
  - 构建baseline
  - 数据预处理
  - - 离群值处理
    - 缺失值处理
    - 特征工程
    - 数据标准化
  - 模型构建与调参优化
  - 完整代码

数据集描述

本数据集内含十个属性列
Pergnancies: 怀孕次数
Glucose：血糖浓度
BloodPressure：舒张压(毫米汞柱)
SkinThickness：肱三头肌皮肤褶皱厚度(毫米)
Insulin：两个小时血清胰岛素(μU/毫升)
BMI：身体质量指数，体重除以身高的平方
Diabets Pedigree Function: 疾病血统指数
是否和遗传相关，Height：身高(厘米)
Age：年龄
Outcome：0表示不患病，1表示患病。

任务：建立机器学习模型以准确预测数据集中的患者是否患有糖尿病

准备工作

查阅资料得知各属性的数据值要求，方面后期对于数据的分析与处理过程。
属性列名称数据值要求
Pergnancies(怀孕次数) 符合常理即可（可为0）
Glucose(血糖浓度) 正常值为：80~120
BloodPressure(舒张压(毫米汞柱)) 正常值为：60~80
SkinThickness(肱三头肌皮肤褶皱厚度(毫米)) 不为0
Insulin(两个小时血清胰岛素(/毫升)) 正常值为：35~145
BMI(身体质量指数:体重除以身高的平方) 正常值为：18.5~24.9
Diabets Pedigree Function:(疾病血统指数:是否和遗传相关) 无特殊值要求
Height(身高(厘米)) 不为0 符合常理即可
Age(年龄) 符合常理即可
Outcome(0表示不患病，1表示患病) 标签值

实验环境和工具

python3.5.6 + jupyter
数据处理 pandas、numpy
可视化 matplotlib、seaborn
模型构建 sklearn

预测分析

探索性数据分析

数据描述

首先观察基本的数据类型，以及数据是否存在缺失情况，简要统计信息

all_data.shape
all_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Height                    766 non-null    object 
 9   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7), object(1)
memory usage: 60.1+ KB

数据总量时比较少的只有768个例子，可以看到除Height外的属性都为数值型属性。在后续数据预处理过程需要对Height属性进行类型转换操作。目前没有缺失值的出现。

# height 数值类型 为object 需要转化为 数值型
all_data = all_data.astype({
     'Height':'float64'})

all_data.describe()

发现两个问题：

缺失值
从其中的min值可以很直观地观察到，Glucose, BloodPressure, SkinTinckness, Insulin, BMI等特征存在0值的情况（当然Pregnancies根据常识判断是可以为0的）。而根据常规范围明显可以判定这些0值是不合理的，所以也是一种缺失值缺失值，后续数据预处理需要对这些缺失值进行填充处理。
离群值/异常值
Glucose，BloodPressure，SkinTinckness，Insulin等特征的max值和75%分位点值或者min值和25%分位点值之间的差距比较大，初步判断可能存在离群值/异常值。尤其是SkinThickness和Insulin特征（具体见图4红色框部分），后续可以通过可视化进一步直观地观察判断。
为了方便后序对缺失值的统一处理，将异常值统一替换为np.nan。

import numpy as np
#缺失值替换 经分析，除怀孕次数，其他特征的0值表示缺失值 替换为np.nan
replace_list = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'Height']
all_data.loc[:,replace_list] = all_data.loc[:,replace_list].replace({
     0:np.nan})

#各特征缺失数量统计
null_count = all_data.isnull().sum().values
# 缺失值情况
plt.figure()
sns.barplot(x = null_count, y = all_data.columns)
for x, y in enumerate(null_count):
    plt.text(y, x, "%s" %y, horizontalalignment='center', verticalalignment='center')
plt.show()

可以观察到Glucose，Insulin，SkinThickness，BMI，Height等特征都存在缺失值。并且 Insulin，SkinThickness缺失值比较多，分别占到了48%，30%的比例。所以后期数据预处理也是很关键的。

可视化分析

接下来通过更多针对性的可视化，来进一步探索特征值的分布以及特征和预测变量之间的关系

# 患病和不患病情况下 箱线图查看数据分散情况
for col in all_data.columns:
    plt.figure(figsize = (10,6))
    if all_data[col].unique().shape[0] > 2:
        sns.boxplot(x="Outcome", y=col, data=all_data.dropna())
    else:
        sns.countplot(col,hue = 'Outcome',data = all_data.dropna())
    plt.title(col)
    plt.show()

部分输出：

观察患病和不患病情况下 各特征值或者人数分布
label接近2:1 存在一定的分布不平衡 
像insulin之类的特征离群值是比较多的，由于离群值会对模型评估产生影响，所以后续可能要做处理，剔除偏离较大的离群值

# 患病和不患病情况下 各特征的分布情况
for col in all_data.drop('Outcome',1).columns:
    plt.figure()
    sns.displot(data = all_data, x = col,hue = 'Outcome',kind='kde')
    plt.show()

部分输出：

从数据样本本身出发研究数据分布特征，可以发现在患病和不患病两种情况下，部分特征的密度分布比较相近，特别是height的分布图，发现两曲线基本相近。感觉和label之间的相关性都不是很强。
同时，可以发现部分特征存在右偏的现象（skewness (偏度) 描述数据分布形态的统计量，其描述的是某总体取值分布的对称性），考虑到需要数据尽量服从正态分布，所以后续数据预处理需要对存在一定偏度的特征进行相关处理。

# 观察各特征分布和患病的关系
corr = all_data.corr()
plt.figure(figsize = (8,6))
sns.heatmap(corr,annot = True,cmap = 'Blues')
plt.show()

heatmap()函数可以直观地将数据值的大小以定义的颜色深浅表示出来。

可以发现颜色相对来说都比较浅，也就是说无论是特征和特征之间还是特征和outcome标签之间的相关性都没有很高。
发现其余各特征变量中与outcome的相关度中最高的是Glucose 属性值为0.49，最低的是Height属性值为0.059。
同时观察特征与特征之间的关系，发现Insulin与Glucose，BMI和SkinThickness之间的相关度分别为0.58，0.65属于比较高的相关性，由于Insulin是一个确实比较严重的特征，而相关性可以是一种协助填充缺失值的方法。

plt.figure()
sns.scatterplot(x = 'Insulin', y = 'Glucose', data = all_data)
plt.show()
sns.scatterplot(x = 'Insulin', y = 'BMI', data = all_data)
plt.show()
sns.scatterplot(x = 'Insulin', y = 'Age', data = all_data)
plt.show()

plt.figure()
sns.scatterplot(x = 'SkinThickness', y = 'BMI', data = all_data)
plt.show()
sns.scatterplot(x = 'SkinThickness', y = 'Glucose', data = all_data)
plt.show()
sns.scatterplot(x = 'SkinThickness', y = 'BloodPressure', data = all_data)
plt.show()

部分输出：

构建baseline

因为决策树几乎不需要数据预处理。其他方法经常需要数据标准化，创建虚拟变量和删除缺失值。

# 读取数据
all_data = pd.read_csv('data.csv')

# height 数值类型 为object 需要转化为 数值型
all_data = all_data.astype({
     'Height':'float64'})
# 
all_data.dropna(inplace = True)
# 特征
feature_data = all_data.drop('Outcome',1)
# 标签
label = all_data['Outcome']

base_model = DecisionTreeClassifier()
base_scores = cross_validate(base_model, feature_data, label,cv=5,return_train_score=True)
print(base_scores['test_score'].mean())

0.6954248366013072

数据预处理

综合前面分析，先做了以下处理

# 读取数据
all_data = pd.read_csv('data.csv')

# height 数值类型 为object 需要转化为 数值型
all_data = all_data.astype({
     'Height':'float64'})

# 理论缺失值0替换为np.nan
replace_list = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'Height']
all_data.loc[:,replace_list] = all_data.loc[:,replace_list].replace({
     0:np.nan})

# 删除相关性低的Height
all_data.drop('Height',1,inplace = True)

离群值处理

经过前面的分析发现数据是存在部分离群值的，虽然实验本身就是关于疾病预测，异常值的存在属于正常现象。但是对于一些可能超出人体接受范围的值，衡量对预测的影响之后，由于数据量比较小，这里选择删除极端异常点。
极端异常点：上限的计算公式为Q3+3(Q3-Q1) 下界的计算公式为Q1-3(Q3-Q1)）。

# remove the outliers
# 异常点 上须的计算公式为Q3+1.5(Q3-Q1)；下须的计算公式为Q1-1.5(Q3-Q1)
# 极端异常点 ：上限的计算公式为Q3+3(Q3-Q1) 下界的计算公式为Q1-3(Q3-Q1)
# 由于数据量比较少 所以选择删除极端异常值
def remove_outliers(feature,all_data):
    first_quartile = all_data[feature].describe()['25%']
    third_quartile = all_data[feature].describe()['75%']
    iqr = third_quartile - first_quartile
    # 异常值下标
    index = all_data[(all_data[feature] < (first_quartile - 3*iqr)) | (all_data[feature] > (first_quartile + 3*iqr))].index
    all_data = all_data.drop(index)
    return all_data
outlier_features = ['Insulin', 'Glucose', 'BloodPressure', 'SkinThickness', 'BMI', 'DiabetesPedigreeFunction']
for feat in outlier_features:
    all_data = remove_outliers(feat,all_data)

处理之后的数据基本的统计信息

缺失值处理

缺失值处理这里考虑

直接删除处理

def drop_method(all_data):
    median_fill = ['Glucose', 'BloodPressure','SkinThickness', 'BMI','Height']
    for column in median_fill:
        median_val = all_data[column].median()
        all_data[column].fillna(median_val, inplace=True)
    all_data.dropna(inplace = True)
    return all_data

中值填充

def median_method():
    for column in list(all_data.columns[all_data.isnull().sum() > 0]):
        median = all_data[column].median()
        all_data[column].fillna(median, inplace=True)

KNNImputer填充

def knn_method():
    # 先将缺失值比较少的特征用中值填充
    values = {
     'Glucose': all_data['Glucose'].median(),'BloodPressure':all_data['BloodPressure'].median(),'BMI':all_data['BMI'].median()}
    all_data.fillna(value=values,inplace=True)

    # 用KNNImputer 填充 Insulin SkinThickness
    corr_SkinThickness = ['BMI', 'Glucose','BloodPressure', 'SkinThickness']
    # 权重按距离的倒数表示。在这种情况下，查询点的近邻比远处的近邻具有更大的影响力
    SkinThickness_imputer = KNNImputer(n_neighbors = 16,weights = 'distance')
    all_data[corr_SkinThickness] = SkinThickness_imputer.fit_transform(all_data[corr_SkinThickness])

    corr_Insulin = ['Glucose', 'BMI','BloodPressure', 'Insulin']
    Insulin_imputer = KNNImputer(n_neighbors = 16,weights = 'distance')
    all_data[corr_Insulin] = Insulin_imputer.fit_transform(all_data[corr_Insulin])

随机森林填充

from sklearn.ensemble import RandomForestRegressor
from sklearn.impute import SimpleImputer  # 用来填补缺失值
def predict_method(feature):
    # 复制一份数据 避免对原数据做出不必要的修改
    copy_data = all_data.copy()
    # 缺失了的下标
    predict_index = copy_data[copy_data[feature].isnull()].index
    # 没缺失的下标
    train_index = copy_data[feature].dropna().index
    # 用作预测 的训练集标签
    train_label = copy_data.loc[train_index,feature]
    copy_data = copy_data.drop(feature,axis=1)
    # 对特征先用中值填充
    imp_median = SimpleImputer(strategy='median')
    # 用作预测的训练集特征
    train_feature = copy_data.loc[train_index]
    train_feature = imp_median.fit_transform(train_feature)
    # 需要进行预测填充处理的缺失值
    pre_feature = copy_data.loc[predict_index]
    pre_feature = imp_median.fit_transform(pre_feature)
    # 选取随机森林模型
    fill_model = RandomForestRegressor()
    fill_model = fill_model.fit(train_feature,train_label)
    # 预测 填充
    pre_value = fill_model.predict(pre_feature)
    all_data.loc[predict_index,feature] = pre_value

#用随机森林的方法填充缺失值较多的 SkinThickness 和 Insulin 缺失值
predict_method("Insulin")
predict_method("SkinThickness")
# 其余值中值填充
for column in list(all_data.columns[all_data.isnull().sum() > 0]):
    median = all_data[column].median()
    all_data[column].fillna(median, inplace=True)

特征工程

# 特征
feture_data = all_data.drop('Outcome',1)
# 标签
label = all_data['Outcome']

# 利用BMI和身高构造weight特征
# BMI = weight(kg) / height(m)**2
feture_data['weight'] = (0.01*feture_data['Height'])**2 * feture_data['BMI']

数据标准化

# 标准化
Std = StandardScaler()
feture_data = Std.fit_transform(feture_data)

模型构建与调参优化

用到的模型

from sklearn.svm import SVC,SVR
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier,StackingClassifier

调参方法

from sklearn.model_selection import GridSearchCV

def train(model, params):
    grid_search = GridSearchCV(estimator = model, param_grid = params, cv = kfold)
    grid_search.fit(feture_data,label)
    print(grid_search.best_params_)
    model_score = cross_validate(grid_search.best_estimator_,feture_data, label, cv=5)
    print(model_score['test_score'])
    print("mean test score :{}".format(model_score['test_score'].mean()))
    return grid_search

SVC

#调参时先尝试一个大范围，确定比较小的范围，然后在小范围里搜索
model = SVC()
params  =  {
     'C':np.linspace(0.1, 2, 100)}
SVC_grid_search = train(model,params)
plt.figure()
sns.lineplot(x=[x for x in range(100)],y=SVC_grid_search.cv_results_['mean_test_score'])
plt.show()

LogisticRegression

params = {
     "C":np.linspace(0.1,2,100)}
model = LogisticRegression()
LR_grid_search= train(model,params)
plt.figure()
sns.lineplot(x=[x for x in range(100)],y=LR_grid_search.cv_results_['mean_test_score'])
plt.show()

RandomForestClassifier

params = {
     "n_estimators":[x for x in range(30,50,4)],'min_samples_split':[x for x in range(2,12)]}
model = RandomForestClassifier()
RFC_grid_search = train(model,params)
plt.figure()
sns.lineplot(x=[x for x in range(len(grid_search.cv_results_['mean_test_score']))],
             y=RFC_grid_search.cv_results_['mean_test_score'])
plt.show()

StackingClassifier

estimators = [
    ('SVC',SVC_grid_search.best_estimator_),
    ('NB', LR_grid_search.best_estimator_),
    ('RFC', RFC_grid_search.best_estimator_)
]
model = StackingClassifier(estimators=estimators, final_estimator=SVC())
model_score = cross_validate(model,feture_data, label, cv=5)
print(model_score['test_score'])
print("mean test score :{}".format(model_score['test_score'].mean()))

缺失值直接删除预测结果：
{‘C’: 1.405050505050505}
[0.83333333 0.71830986 0.83098592 0.83098592 0.84507042]
mean test score :0.811737089201878

{‘C’: 0.17676767676767677}
[0.86111111 0.73239437 0.77464789 0.83098592 0.84507042]
mean test score :0.8088419405320814

{‘min_samples_split’: 7, ‘n_estimators’: 30}
[0.77777778 0.69014085 0.74647887 0.83098592 0.85915493]
mean test score :0.780907668231612

[0.84722222 0.73239437 0.81690141 0.84507042 0.85915493]
mean test score :0.8201486697965571
缺失值中值填充预测效果
{‘C’: 1.7888888888888888}
[0.79452055 0.75342466 0.78082192 0.82191781 0.79310345]
mean test score :0.7887576759565423

{‘C’: 0.1575757575757576}
[0.78082192 0.76712329 0.7739726 0.80821918 0.77931034]
mean test score :0.7818894662257911

{‘min_samples_split’: 4, ‘n_estimators’: 44}
[0.80136986 0.71232877 0.74657534 0.81506849 0.79310345]
mean test score :0.7736891828058574
其余略可以看出由于缺失值比较多，所以填充比直接删除的效果是要更差的

完整代码

https://github.com/wang-hui-shan/Pima_Diabetes_Predict

Python淘宝电脑销售数据爬虫可视化分析大屏全屏系统开题报告字节全栈_Jwy python 爬虫 flutter
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！如果需要联系我，可以在CSD
【Python】deepcopy的详细解释资源存储库 tensorflow 人工智能 python
目录【Python】deepcopy的详细解释1.浅拷贝与深拷贝的区别2.deepcopy的用法3.浅拷贝与深拷贝的对比4.为什么使用deepcopy？5.deepcopy的工作原理6.__deepcopy__方法7.使用deepcopy时的注意事项总结【Python】deepcopy的详细解释deepcopy是Python标准库中的copy模块提供的一个函数，它用于创建对象的深拷贝。深拷贝与浅拷
SQLModel入门野草说技术 Python高楼平地起数据库 SQLModel ORM
目录概述快速开始官方教程简单使用样例概述SQLModel是一个ORM框架，其基于SQLAlchemy和Pydantic，其中SQLALchemy提供底层ORM能力，Pydantic提供类型校验能力，SQLModel中，一个SQLModelmodel既是一个SQLAlchemymodel也是一个Pydanticmodel。SQLModel的优势在于解决了PythonWeb开发中最大的痛点之一，ORM
python numpy 生成矩阵_详解：python numpy矩阵的创建与数据类型！(含实例方法） weixin_39836751 python numpy 生成矩阵
前言：今天为大家带来的内容是，详解：pythonnumpy矩阵的创建与数据类型！(含案例方法）本文里面的案例和代码具有不错的参考意义，希望能够在此对各位有所帮助！喜欢的话不忘关注点赞加转发不迷路哦！！！一、构造矩阵矩阵的构造可以有多种方法：1.使用python中的方法构造矩阵-生成一维矩阵#使用python自带的range（）方法生成一个矩阵a=list(range(100))#range（）产生
Python安装netCDF4 什么时候能够成为程序猿 python 开发语言 linux
netCDF4离线安装包LinksfornetCDF4(tsinghua.edu.cn)pipinstall netCDF4-1.6.0-cp39-cp39-win_amd64除了netCDF4还要安装一个cftimecftime离线安装包pipinstall cftime-1.6.2-cp39-cp39-win_amd64以上需要根据自己的python版本来选择。安装numpy超过2.0报错
python操作sqlite3 reset2021 python基础理论 sqlite 数据库 python
01、sqlite数据库简介：SQLite，是一款轻型的数据库，它包含在一个相对小的C库中，很多嵌入式产品中使用了它，其中python就嵌入了它。所以在此就简单地讲述一下python中相关sqlite的操作。下面就数据库的常规操作，连接，增删改查几个操作进行讲述。2.1连接数据库#try-except:防止因连接失败导致程序崩溃try:#数据库文件路径db_file='saveinfo.db'#连
python netCDF4 ww大魔王丷 Python python
NetCDF简介NetCDF即networkCommonDataForm（网络通用数据格式），是一种面向数组型并适于网络共享的数据的描述和编码标准。文件的后缀是.nc。nc在气象领域应用很广，因为它可以存储不同波段的长时间观测结果。NetCDF文件中的数据以数组形式存储。例如，某个位置处随时间变化的温度以一维数组的形式存储。某个区域内在指定时间的温度以二维数组的形式存储。来源：【知乎Assimov
最小边际采样在分类任务中的应用 ningaiiii 机器学习与深度学习分类数据挖掘人工智能
最小边际采样在分类任务中的应用在机器学习的分类任务里，如何高效利用有限的标注数据，一直是研究的重点。最小边际采样（LeastMarginSampling）作为主动学习策略中的一种，为解决这一问题提供了独特的思路。本文将深入探讨最小边际采样在分类任务中的原理、应用以及优势与挑战。一、最小边际采样的原理最小边际采样的核心概念是基于模型预测概率来衡量样本的不确定性。在一个多分类问题中，模型会对每个样本预
python安装netCDF KeepStu python 数据分析 python 数据可视化
1.下载https://www.lfd.uci.edu/~gohlke/pythonlibs/#netcdf4找到netCDF4‑1.5.4‑cp37‑cp37m‑win_amd64.whl（建议使用稳定一点的版本）2.安装放入D:\Anaconda3pipinstallnetCDF4-1.5.4-cp37-cp37m-win_amd64.whl3.测试fromnetCDF4importDatas
python模块netCDF4安装最新教程 2401_85863780 python 开发语言 netCDF4 whl
netCDF4是一个Python库，用于读写netCDF4文件格式，这是一种广泛使用的存储多维科学数据的格式。通过预编译的whl文件安装netCDF4可以简化安装过程，特别是在编译时可能会遇到依赖问题的情况下。安装前准备：Python环境：确保已经安装了Python，并且Python版本与whl文件兼容。pip：确保已经安装了pip，这是Python的包管理器，用来安装外部库。下载whl文件：从可
线程间的数据高速公路：`queue.Queue` 的妙用清水白石008 python Python题库 java python 开发语言
线程间的数据高速公路：queue.Queue的妙用在多线程编程中，线程之间的数据交换和共享是不可避免的。Python提供了多种机制来实现线程间的数据传递，其中queue.Queue是一个简单而强大的工具。本文将深入探讨queue.Queue在线程间数据传递中的作用，并结合实例进行讲解，帮助读者更好地理解和应用它。什么是queue.Queue？queue.Queue是Python标准库中提供的一个线
代码审计学习路线白帽子技术分享 python 网络安全代码审计
学习代码审计分以下四部分一.编程语言1.前端语言html/javascript/dom元素使用，主要是为了挖掘xss漏洞，jquery主要写一些涉及到CSRF脚本使用的或者DOM型XSS，JSON劫持等2.后端语言基础语法要知道，例如变量类型,常量,数组(python是列表,元组,字典)，对象,类的调用,引用等，MVC设计模式要清楚,因为大部分目标程序都是基于MVC写的，包括不限于php，pyth
股票行情接口有哪些类型？如何获取可靠的股票行情接口？财云量化 python炒股自动化量化交易程序化交易股票行情接口类型可靠获取方法股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
头歌 Redis基本命令小陈cc_79 nosql redis redis nosql 数据库
头歌Redis基本命令第1关：字符串、列表与集合第2关：哈希与有序集合第3关：Redis基本事务与其他命令第1关：字符串、列表与集合#!/usr/bin/envpython#-*-coding:utf-8-*-importredisconn=redis.Redis()deftask_empty():#请在下面完成判断任务列表是否为空#*********Begin*********#returnin
安全见闻（3） Bulestar_xx 泷羽sec学习笔记安全网络 windows
摘要脚本程序主要讨论的是安全性问题。脚本语言因其源代码可见、可复制性高而具有脚本性质。常见的脚本语言包括：-Lua-PHP-Go-Python-JavaScript脚本语言可以编写病毒和木马，例如Python可以编写木马，PHP可以编写一句话木马。编写脚本病毒需要了解脚本语言基础和病毒构成。宏病毒（macro）可以通过工具如metasploit生成，并植入Office文件中，如Word和PPT。宏
用Python写一个ai agent采集，分析，预测工厂生产计划朗韶智光 python 人工智能
为了实现一个AI代理，我们需要使用Python的一些库，如pandas，numpy和scikit-learn。以下是一个简化的工厂生产计划采集、分析和预测的示例。首先，我们需要安装所需的库：```bashpipinstallpandasnumpyscikit-learn```然后，我们可以编写一个简单的AI代理，如下所示：```pythonimportpandasaspdimportnumpyas
python:遍历文件夹下的文件 OceanStar的学习笔记 python python
importosdeftest_findfile(directory,fileType,file_prefix):fileList=[]forroot,subDirs,filesinos.walk(directory):forfileNameinfiles:iffileName.endswith(fileType)andfileName.startswith(file_prefix):fileLi
Python3 连接MySQL8 在奋斗的大道 python 学习笔记
第一步：安装pymysql，记住（大于python3.X）的版本：pipinstallpymysql第二步：验证pymysql是否安装成功：importpymysql#打开数据库连接#localhost为本地连接#root为用户名#password为密码#test_data为数据库db=pymysql.connect("localhost","root","123456","blog")#使用cu
python3 mysql8_python3连接MySQL8.0的两种方式 weixin_39872123 python3 mysql8
python3连接MySQL8.0的两种方式发布时间：2020-09-1913:15:14来源：脚本之家阅读：111作者：兔猪合家欢1、下载MySQL官方的mysql-connector-python-8.0.17-py3.7-windows-x86-64bit.msi，直接点击安装；2、安装完毕后直接可以导入mysql.connnector模块连接方式一：importmysql.connecto
Python: 遍历给定目录下的pdf文档并进行重命名牵着蜗牛去爬山 python coding python
文章目录编程目的参考代码(一)代码(二)编程目的因需要大量重命名pdf文档为[0…n].pdf,就搜集了资料写了代码，并解决自己的问题。参考感谢各位分享的资源。python3.3遍历文件夹及文件小例python文件重命名一文看懂Python对文件和文件夹的操作:含os,shutil和glob模块详解代码(一)importglobimportos.path#找到给定的root_dir下的pdf文档并
简述Apache Airflow：分布式工作流调度与管理利器心上之秋 apache 分布式
目录什么是ApacheAirflow?核心概念与架构DAGOperatorsTasksExecutorsAirflow的安装与配置环境要求安装步骤Airflow示例项目简单任务调度使用PythonOperator实现数据处理任务集成外部工具：MySQL和S3Airflow的高级功能自定义Operators使用Sensors实现动态依赖分布式调度Airflow的优缺点总结什么是ApacheAirfl
使用支持向量机（SVM）进行股票市场预测 m0_57781768 支持向量机算法机器学习
使用支持向量机（SVM）进行股票市场预测引言股票市场预测是金融领域的一个热门话题，也是一个充满挑战的研究领域。通过准确的市场预测，投资者可以做出更明智的决策，从而获得更高的回报。支持向量机（SVM）作为一种强大的机器学习算法，已被广泛应用于各种分类和回归问题。本文将详细介绍如何使用C++和支持向量机进行股票市场预测，并提供完整的代码示例。支持向量机简介支持向量机（SVM）是一种监督学习算法，最初用
Nonebot2部署 QQ机器人成品一键部署影心_ windows python 机器人 virtualenv
前言想在服务器上搞个机器人玩玩，发现这个派蒙的还挺不错，算是一键部署级别的机器人了，内置的功能比较多也比较方便还可以去添加插件，就选择这个来部署，本文记录一下安装的过程，方便自己以后看的同时也尽可能的写的详细一点方便有相同想法但没什么基础的朋友们参考一下资源需求所需资源：python3.8.0安装包、vs_buildtools、git、ffmpeg.zip、go-cqhttp、qsign服务器、j
BUUCTF：[ISITDTU 2019]EasyPHP --- rce 超级异或，，，吐了，，，字符之间异或，成型的异或payload！！！ Zero_Adam BUUCTF刷题记录 RCE python
目录:一、自己做：二、学的的三、学习WP1.这里先来个不限制字符个数的关于这个%ff以及异或的事情，咱们好好唠唠1.生成异或中间值的python脚本2.看有字符限制的时候，：参考：末初一、自己做：0xd)die('youaresoclose,omg');eval($_);?>过滤了，不少，我一般碰到rce的题，就看自己的笔记，然后把payload一股脑的网上怼，，，二、学的的正则看不明白的时候，可
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【漏斗图】——4 花花 Show Python pyecharts—从0到精通信息可视化 python 数据分析
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
【Python】一文教你快速遍历文件夹下所有文件鸽芷咕 python 开发语言
鸽芷咕：个人主页个人专栏:《C++干货基地》《粉丝福利》⛺️生活的理想，就是为了理想的生活!博主简介博主致力于嵌入式、Python、人工智能、C/C++领域和各种前沿技术的优质博客分享，用最优质的内容带来最舒适的阅读体验！在博客领域获得C/C++领域优质、CSDN年度征文第一、掘金2023年人气作者、华为云享专家、支付宝开放社区优质博主等头衔。个人社区&个人社群加入点击即可介绍加入链接个人社群社群
Python 函数专题：深入探讨嵌套函数圣逸从入门到精通Python语言 python 开发语言 Python入门数据结构精通python 数据库
在Python编程中，函数是最基本的构建块之一。它们不仅能够帮助我们组织代码，还能提高代码的可读性和可复用性。与普通函数相比，嵌套函数（或称为内部函数）是一种更为灵活的构造，能够在某些情况下极大地增强函数的能力和作用。本文将深入探讨嵌套函数的概念、用法、优缺点以及实际应用，帮助读者全面理解这个重要的编程概念。什么是嵌套函数？嵌套函数是指在一个函数的内部定义另一个函数。在Python中，嵌套函数具有
Python 函数专题：深入探讨匿名函数圣逸从入门到精通Python语言 python 开发语言数据结构 Python入门精通python
在Python中，函数是一种重要的编程构造。函数不仅可以让我们的代码更具可读性和可重用性，还可以帮助我们更高效地组织和管理我们的代码。而在函数的世界里，匿名函数（也称为lambda函数）无疑是一个非常有趣的主题。本文将深入探讨Python中的匿名函数，包括其定义、用途、与普通函数的对比、应用场景等。1.什么是匿名函数匿名函数是指没有名称的函数，它能够接受任意数量的参数，但只能返回一个表达式的值。在
python字典是无序的吗_Python 有序字典 OrderedDict 和无序字典 Dict weixin_39667509 python字典是无序的吗
Python默认的字典是无序的，如果我们需要让他变成有序，很简单，使用有序字典即可，会按照添加顺序自动排序，先添加的在前面，后添加的在后面。Python中有一个OrderedDict，刚好就是实现这个功能的，下面进行介绍Python有序字典OrderedDict。一、Python普通字典Dictmy_dict=dict()my_dict["name"]="lowman"my_dict["age"]
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

sklearn预测pima糖尿病

文章目录

数据集描述

准备工作

实验环境和工具

预测分析

探索性数据分析

数据描述

可视化分析

构建baseline

数据预处理

离群值处理

缺失值处理

特征工程

数据标准化

模型构建与调参优化

完整代码

你可能感兴趣的:(python,python,数据分析,机器学习)