qw_6918966011

机器学习实战系列：工业蒸汽量预测

背景介绍

火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。

相关描述

经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别），根据锅炉的工况，预测产生的蒸汽量。

数据说明

数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。选手利用训练数据训练出模型，预测测试数据的目标变量，排名结果依据预测结果的MSE（mean square error）。

结果评估

预测结果以mean square error作为评判标准。

1.数据探索性分析

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats

import warnings
warnings.filterwarnings("ignore")
 
%matplotlib inline

# 下载需要用到的数据集
!wget http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_test.txt
!wget http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_train.txt

--2023-03-23 18:10:23--  http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_test.txt
正在解析主机 tianchi-media.oss-cn-beijing.aliyuncs.com (tianchi-media.oss-cn-beijing.aliyuncs.com)... 49.7.22.39
正在连接 tianchi-media.oss-cn-beijing.aliyuncs.com (tianchi-media.oss-cn-beijing.aliyuncs.com)|49.7.22.39|:80... 已连接。
已发出 HTTP 请求，正在等待回应... 200 OK
长度： 466959 (456K) [text/plain]
正在保存至: “zhengqi_test.txt.1”

zhengqi_test.txt.1  100%[===================>] 456.01K  --.-KB/s    in 0.04s   

2023-03-23 18:10:23 (10.0 MB/s) - 已保存 “zhengqi_test.txt.1” [466959/466959])

--2023-03-23 18:10:23--  http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_train.txt
正在解析主机 tianchi-media.oss-cn-beijing.aliyuncs.com (tianchi-media.oss-cn-beijing.aliyuncs.com)... 49.7.22.39
正在连接 tianchi-media.oss-cn-beijing.aliyuncs.com (tianchi-media.oss-cn-beijing.aliyuncs.com)|49.7.22.39|:80... 已连接。
已发出 HTTP 请求，正在等待回应... 200 OK
长度： 714370 (698K) [text/plain]
正在保存至: “zhengqi_train.txt.1”

zhengqi_train.txt.1 100%[===================>] 697.63K  --.-KB/s    in 0.04s   

2023-03-23 18:10:24 (17.9 MB/s) - 已保存 “zhengqi_train.txt.1” [714370/714370])

# **读取数据文件**
# 使用Pandas库`read_csv()`函数进行数据读取，分割符为‘\t’
train_data_file = "./zhengqi_train.txt"
test_data_file =  "./zhengqi_test.txt"

train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')

1.1 查看数据信息

#查看特征变量信息
train_data.info()


RangeIndex: 2888 entries, 0 to 2887
Data columns (total 39 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   V0      2888 non-null   float64
 1   V1      2888 non-null   float64
 2   V2      2888 non-null   float64
 3   V3      2888 non-null   float64
 4   V4      2888 non-null   float64
 5   V5      2888 non-null   float64
 6   V6      2888 non-null   float64
 7   V7      2888 non-null   float64
 8   V8      2888 non-null   float64
 9   V9      2888 non-null   float64
 10  V10     2888 non-null   float64
 11  V11     2888 non-null   float64
 12  V12     2888 non-null   float64
 13  V13     2888 non-null   float64
 14  V14     2888 non-null   float64
 15  V15     2888 non-null   float64
 16  V16     2888 non-null   float64
 17  V17     2888 non-null   float64
 18  V18     2888 non-null   float64
 19  V19     2888 non-null   float64
 20  V20     2888 non-null   float64
 21  V21     2888 non-null   float64
 22  V22     2888 non-null   float64
 23  V23     2888 non-null   float64
 24  V24     2888 non-null   float64
 25  V25     2888 non-null   float64
 26  V26     2888 non-null   float64
 27  V27     2888 non-null   float64
 28  V28     2888 non-null   float64
 29  V29     2888 non-null   float64
 30  V30     2888 non-null   float64
 31  V31     2888 non-null   float64
 32  V32     2888 non-null   float64
 33  V33     2888 non-null   float64
 34  V34     2888 non-null   float64
 35  V35     2888 non-null   float64
 36  V36     2888 non-null   float64
 37  V37     2888 non-null   float64
 38  target  2888 non-null   float64
dtypes: float64(39)
memory usage: 880.1 KB

此训练集数据共有2888个样本，数据中有V0-V37共计38个特征变量，变量类型都为数值类型，所有数据特征没有缺失值数据；
数据字段由于采用了脱敏处理，删除了特征数据的具体含义；target字段为标签变量

test_data.info()


RangeIndex: 1925 entries, 0 to 1924
Data columns (total 38 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   V0      1925 non-null   float64
 1   V1      1925 non-null   float64
 2   V2      1925 non-null   float64
 3   V3      1925 non-null   float64
 4   V4      1925 non-null   float64
 5   V5      1925 non-null   float64
 6   V6      1925 non-null   float64
 7   V7      1925 non-null   float64
 8   V8      1925 non-null   float64
 9   V9      1925 non-null   float64
 10  V10     1925 non-null   float64
 11  V11     1925 non-null   float64
 12  V12     1925 non-null   float64
 13  V13     1925 non-null   float64
 14  V14     1925 non-null   float64
 15  V15     1925 non-null   float64
 16  V16     1925 non-null   float64
 17  V17     1925 non-null   float64
 18  V18     1925 non-null   float64
 19  V19     1925 non-null   float64
 20  V20     1925 non-null   float64
 21  V21     1925 non-null   float64
 22  V22     1925 non-null   float64
 23  V23     1925 non-null   float64
 24  V24     1925 non-null   float64
 25  V25     1925 non-null   float64
 26  V26     1925 non-null   float64
 27  V27     1925 non-null   float64
 28  V28     1925 non-null   float64
 29  V29     1925 non-null   float64
 30  V30     1925 non-null   float64
 31  V31     1925 non-null   float64
 32  V32     1925 non-null   float64
 33  V33     1925 non-null   float64
 34  V34     1925 non-null   float64
 35  V35     1925 non-null   float64
 36  V36     1925 non-null   float64
 37  V37     1925 non-null   float64
dtypes: float64(38)
memory usage: 571.6 KB

测试集数据共有1925个样本，数据中有V0-V37共计38个特征变量，变量类型都为数值类型

# 查看数据统计信息
train_data.describe()

	V0	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V29	V30	V31	V32	V33	V34	V35	V36	V37	target
count	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	...	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000	2888.000000
mean	0.123048	0.056068	0.289720	-0.067790	0.012921	-0.558565	0.182892	0.116155	0.177856	-0.169452	...	0.097648	0.055477	0.127791	0.020806	0.007801	0.006715	0.197764	0.030658	-0.130330	0.126353
std	0.928031	0.941515	0.911236	0.970298	0.888377	0.517957	0.918054	0.955116	0.895444	0.953813	...	1.061200	0.901934	0.873028	0.902584	1.006995	1.003291	0.985675	0.970812	1.017196	0.983966
min	-4.335000	-5.122000	-3.420000	-3.956000	-4.742000	-2.182000	-4.576000	-5.048000	-4.692000	-12.891000	...	-2.912000	-4.507000	-5.859000	-4.053000	-4.627000	-4.789000	-5.695000	-2.608000	-3.630000	-3.044000
25%	-0.297000	-0.226250	-0.313000	-0.652250	-0.385000	-0.853000	-0.310000	-0.295000	-0.159000	-0.390000	...	-0.664000	-0.283000	-0.170250	-0.407250	-0.499000	-0.290000	-0.202500	-0.413000	-0.798250	-0.350250
50%	0.359000	0.272500	0.386000	-0.044500	0.110000	-0.466000	0.388000	0.344000	0.362000	0.042000	...	-0.023000	0.053500	0.299500	0.039000	-0.040000	0.160000	0.364000	0.137000	-0.185500	0.313000
75%	0.726000	0.599000	0.918250	0.624000	0.550250	-0.154000	0.831250	0.782250	0.726000	0.042000	...	0.745250	0.488000	0.635000	0.557000	0.462000	0.273000	0.602000	0.644250	0.495250	0.793250
max	2.121000	1.918000	2.828000	2.457000	2.689000	0.489000	1.895000	1.918000	2.245000	1.335000	...	4.580000	2.689000	2.013000	2.395000	5.465000	5.110000	2.324000	5.238000	3.000000	2.538000

8 rows × 39 columns

test_data.describe()

	V0	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V28	V29	V30	V31	V32	V33	V34	V35	V36	V37
count	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	...	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000	1925.000000
mean	-0.184404	-0.083912	-0.434762	0.101671	-0.019172	0.838049	-0.274092	-0.173971	-0.266709	0.255114	...	-0.206871	-0.146463	-0.083215	-0.191729	-0.030782	-0.011433	-0.009985	-0.296895	-0.046270	0.195735
std	1.073333	1.076670	0.969541	1.034925	1.147286	0.963043	1.054119	1.040101	1.085916	1.014394	...	1.064140	0.880593	1.126414	1.138454	1.130228	0.989732	0.995213	0.946896	1.040854	0.940599
min	-4.814000	-5.488000	-4.283000	-3.276000	-4.921000	-1.168000	-5.649000	-5.625000	-6.059000	-6.784000	...	-2.435000	-2.413000	-4.507000	-7.698000	-4.057000	-4.627000	-4.789000	-7.477000	-2.608000	-3.346000
25%	-0.664000	-0.451000	-0.978000	-0.644000	-0.497000	0.122000	-0.732000	-0.509000	-0.775000	-0.390000	...	-0.453000	-0.818000	-0.339000	-0.476000	-0.472000	-0.460000	-0.290000	-0.349000	-0.593000	-0.432000
50%	0.065000	0.195000	-0.267000	0.220000	0.118000	0.437000	-0.082000	0.018000	-0.004000	0.401000	...	-0.445000	-0.199000	0.010000	0.100000	0.155000	-0.040000	0.160000	-0.270000	0.083000	0.152000
75%	0.549000	0.589000	0.278000	0.793000	0.610000	1.928000	0.457000	0.515000	0.482000	0.904000	...	-0.434000	0.468000	0.447000	0.471000	0.627000	0.419000	0.273000	0.364000	0.651000	0.797000
max	2.100000	2.120000	1.946000	2.603000	4.475000	3.176000	1.528000	1.394000	2.408000	1.766000	...	4.656000	3.022000	3.139000	1.428000	2.299000	5.465000	5.110000	1.671000	2.861000	3.021000

8 rows × 38 columns

上面数据显示了数据的统计信息，例如样本数，数据的均值mean，标准差std，最小值，最大值等

# 查看数据字段信息
train_data.head()

	V0	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V29	V30	V31	V32	V33	V34	V35	V36	V37	target
0	0.566	0.016	-0.143	0.407	0.452	-0.901	-1.812	-2.360	-0.436	-2.114	...	0.136	0.109	-0.615	0.327	-4.627	-4.789	-5.101	-2.608	-3.508	0.175
1	0.968	0.437	0.066	0.566	0.194	-0.893	-1.566	-2.360	0.332	-2.114	...	-0.128	0.124	0.032	0.600	-0.843	0.160	0.364	-0.335	-0.730	0.676
2	1.013	0.568	0.235	0.370	0.112	-0.797	-1.367	-2.360	0.396	-2.114	...	-0.009	0.361	0.277	-0.116	-0.843	0.160	0.364	0.765	-0.589	0.633
3	0.733	0.368	0.283	0.165	0.599	-0.679	-1.200	-2.086	0.403	-2.114	...	0.015	0.417	0.279	0.603	-0.843	-0.065	0.364	0.333	-0.112	0.206
4	0.684	0.638	0.260	0.209	0.337	-0.454	-1.073	-2.086	0.314	-2.114	...	0.183	1.078	0.328	0.418	-0.843	-0.215	0.364	-0.280	-0.028	0.384

5 rows × 39 columns

上面显示训练集前5条数据的基本信息，可以看到数据都是浮点型数据，数据都是数值型连续型特征

test_data.head()

	V0	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V28	V29	V30	V31	V32	V33	V34	V35	V36	V37
0	0.368	0.380	-0.225	-0.049	0.379	0.092	0.550	0.551	0.244	0.904	...	-0.449	0.047	0.057	-0.042	0.847	0.534	-0.009	-0.190	-0.567	0.388
1	0.148	0.489	-0.247	-0.049	0.122	-0.201	0.487	0.493	-0.127	0.904	...	-0.443	0.047	0.560	0.176	0.551	0.046	-0.220	0.008	-0.294	0.104
2	-0.166	-0.062	-0.311	0.046	-0.055	0.063	0.485	0.493	-0.227	0.904	...	-0.458	-0.398	0.101	0.199	0.634	0.017	-0.234	0.008	0.373	0.569
3	0.102	0.294	-0.259	0.051	-0.183	0.148	0.474	0.504	0.010	0.904	...	-0.456	-0.398	1.007	0.137	1.042	-0.040	-0.290	0.008	-0.666	0.391
4	0.300	0.428	0.208	0.051	-0.033	0.116	0.408	0.497	0.155	0.904	...	-0.458	-0.776	0.291	0.370	0.181	-0.040	-0.290	0.008	-0.140	-0.497

5 rows × 38 columns

1.2 可视化探索数据

fig = plt.figure(figsize=(4, 6))  # 指定绘图对象宽度和高度
sns.boxplot(train_data['V0'],orient="v", width=0.5)

# 画箱式图
# column = train_data.columns.tolist()[:39]  # 列表头
# fig = plt.figure(figsize=(20, 40))  # 指定绘图对象宽度和高度
# for i in range(38):
#     plt.subplot(13, 3, i + 1)  # 13行3列子图
#     sns.boxplot(train_data[column[i]], orient="v", width=0.5)  # 箱式图
#     plt.ylabel(column[i], fontsize=8)
# plt.show()
#箱图自行打开

查看数据分布图

查看特征变量‘V0’的数据分布直方图，并绘制Q-Q图查看数据是否近似于正态分布

plt.figure(figsize=(10,5))

ax=plt.subplot(1,2,1)
sns.distplot(train_data['V0'],fit=stats.norm)
ax=plt.subplot(1,2,2)
res = stats.probplot(train_data['V0'], plot=plt)

查看查看所有数据的直方图和Q-Q图，查看训练集的数据是否近似于正态分布

# train_cols = 6
# train_rows = len(train_data.columns)
# plt.figure(figsize=(4*train_cols,4*train_rows))

# i=0
# for col in train_data.columns:
#     i+=1
#     ax=plt.subplot(train_rows,train_cols,i)
#     sns.distplot(train_data[col],fit=stats.norm)
    
#     i+=1
#     ax=plt.subplot(train_rows,train_cols,i)
#     res = stats.probplot(train_data[col], plot=plt)
# plt.show()
#QQ图自行打开

由上面的数据分布图信息可以看出，很多特征变量（如'V1','V9','V24','V28'等）的数据分布不是正态的，数据并不跟随对角线，后续可以使用数据变换对数据进行转换。

对比同一特征变量‘V0’下，训练集数据和测试集数据的分布情况，查看数据分布是否一致

ax = sns.kdeplot(train_data['V0'], color="Red", shade=True)
ax = sns.kdeplot(test_data['V0'], color="Blue", shade=True)
ax.set_xlabel('V0')
ax.set_ylabel("Frequency")
ax = ax.legend(["train","test"])

查看所有特征变量下，训练集数据和测试集数据的分布情况，分析并寻找出数据分布不一致的特征变量。

# dist_cols = 6
# dist_rows = len(test_data.columns)
# plt.figure(figsize=(4*dist_cols,4*dist_rows))

# i=1
# for col in test_data.columns:
#     ax=plt.subplot(dist_rows,dist_cols,i)
#     ax = sns.kdeplot(train_data[col], color="Red", shade=True)
#     ax = sns.kdeplot(test_data[col], color="Blue", shade=True)
#     ax.set_xlabel(col)
#     ax.set_ylabel("Frequency")
#     ax = ax.legend(["train","test"])
    
#     i+=1
# plt.show()
#自行打开

查看特征'V5', 'V17', 'V28', 'V22', 'V11', 'V9'数据的数据分布

drop_col = 6
drop_row = 1

plt.figure(figsize=(5*drop_col,5*drop_row))

i=1
for col in ["V5","V9","V11","V17","V22","V28"]:
    ax =plt.subplot(drop_row,drop_col,i)
    ax = sns.kdeplot(train_data[col], color="Red", shade=True)
    ax = sns.kdeplot(test_data[col], color="Blue", shade=True)
    ax.set_xlabel(col)
    ax.set_ylabel("Frequency")
    ax = ax.legend(["train","test"])
    
    i+=1
plt.show()

由上图的数据分布可以看到特征'V5','V9','V11','V17','V22','V28' 训练集数据与测试集数据分布不一致，会导致模型泛化能力差，采用删除此类特征方法。

drop_columns = ['V5','V9','V11','V17','V22','V28']
# 合并训练集和测试集数据，并可视化训练集和测试集数据特征分布图

可视化线性回归关系

查看特征变量‘V0’与'target'变量的线性回归关系

fcols = 2
frows = 1

plt.figure(figsize=(8,4))

ax=plt.subplot(1,2,1)
sns.regplot(x='V0', y='target', data=train_data, ax=ax, 
            scatter_kws={'marker':'.','s':3,'alpha':0.3},
            line_kws={'color':'k'});
plt.xlabel('V0')
plt.ylabel('target')

ax=plt.subplot(1,2,2)
sns.distplot(train_data['V0'].dropna())
plt.xlabel('V0')

plt.show()

1.2.2 查看变量间线性回归关系

# fcols = 6
# frows = len(test_data.columns)
# plt.figure(figsize=(5*fcols,4*frows))

# i=0
# for col in test_data.columns:
#     i+=1
#     ax=plt.subplot(frows,fcols,i)
#     sns.regplot(x=col, y='target', data=train_data, ax=ax, 
#                 scatter_kws={'marker':'.','s':3,'alpha':0.3},
#                 line_kws={'color':'k'});
#     plt.xlabel(col)
#     plt.ylabel('target')
    
#     i+=1
#     ax=plt.subplot(frows,fcols,i)
#     sns.distplot(train_data[col].dropna())
    # plt.xlabel(col)
    #已注释图片生成，自行打开

1.2.2 查看特征变量的相关性


data_train1 = train_data.drop(['V5','V9','V11','V17','V22','V28'],axis=1)
train_corr = data_train1.corr()
train_corr

	V0	V1	V2	V3	V4	V6	V7	V8	V10	V12	...	V29	V30	V31	V32	V33	V34	V35	V36	V37	target
V0	1.000000	0.908607	0.463643	0.409576	0.781212	0.189267	0.141294	0.794013	0.298443	0.751830	...	0.302145	0.156968	0.675003	0.050951	0.056439	-0.019342	0.138933	0.231417	-0.494076	0.873212
V1	0.908607	1.000000	0.506514	0.383924	0.657790	0.276805	0.205023	0.874650	0.310120	0.656186	...	0.147096	0.175997	0.769745	0.085604	0.035129	-0.029115	0.146329	0.235299	-0.494043	0.871846
V2	0.463643	0.506514	1.000000	0.410148	0.057697	0.615938	0.477114	0.703431	0.346006	0.059941	...	-0.275764	0.175943	0.653764	0.033942	0.050309	-0.025620	0.043648	0.316462	-0.734956	0.638878
V3	0.409576	0.383924	0.410148	1.000000	0.315046	0.233896	0.197836	0.411946	0.321262	0.306397	...	0.117610	0.043966	0.421954	-0.092423	-0.007159	-0.031898	0.080034	0.324475	-0.229613	0.512074
V4	0.781212	0.657790	0.057697	0.315046	1.000000	-0.117529	-0.052370	0.449542	0.141129	0.927685	...	0.659093	0.022807	0.447016	-0.026186	0.062367	0.028659	0.100010	0.113609	-0.031054	0.603984
V6	0.189267	0.276805	0.615938	0.233896	-0.117529	1.000000	0.917502	0.468233	0.415660	-0.087312	...	-0.467980	0.188907	0.546535	0.144550	0.054210	-0.002914	0.044992	0.433804	-0.404817	0.370037
V7	0.141294	0.205023	0.477114	0.197836	-0.052370	0.917502	1.000000	0.389987	0.310982	-0.036791	...	-0.311363	0.170113	0.475254	0.122707	0.034508	-0.019103	0.111166	0.340479	-0.292285	0.287815
V8	0.794013	0.874650	0.703431	0.411946	0.449542	0.468233	0.389987	1.000000	0.419703	0.420557	...	-0.011091	0.150258	0.878072	0.038430	0.026843	-0.036297	0.179167	0.326586	-0.553121	0.831904
V10	0.298443	0.310120	0.346006	0.321262	0.141129	0.415660	0.310982	0.419703	1.000000	0.140462	...	-0.105042	-0.036705	0.560213	-0.093213	0.016739	-0.026994	0.026846	0.922190	-0.045851	0.394767
V12	0.751830	0.656186	0.059941	0.306397	0.927685	-0.087312	-0.036791	0.420557	0.140462	1.000000	...	0.666775	0.028866	0.441963	-0.007658	0.046674	0.010122	0.081963	0.112150	-0.054827	0.594189
V13	0.185144	0.157518	0.204762	-0.003636	0.075993	0.138367	0.110973	0.153299	-0.059553	0.098771	...	0.008235	0.027328	0.113743	0.130598	0.157513	0.116944	0.219906	-0.024751	-0.379714	0.203373
V14	-0.004144	-0.006268	-0.106282	-0.232677	0.023853	0.072911	0.163931	0.008138	-0.077543	0.020069	...	0.056814	-0.004057	0.010989	0.106581	0.073535	0.043218	0.233523	-0.086217	0.010553	0.008424
V15	0.314520	0.164702	-0.224573	0.143457	0.615704	-0.431542	-0.291272	0.018366	-0.046737	0.642081	...	0.951314	-0.111311	0.011768	-0.104618	0.050254	0.048602	0.100817	-0.051861	0.245635	0.154020
V16	0.347357	0.435606	0.782474	0.394517	0.023818	0.847119	0.752683	0.680031	0.546975	0.025736	...	-0.342210	0.154794	0.778538	0.041474	0.028878	-0.054775	0.082293	0.551880	-0.420053	0.536748
V18	0.148622	0.123862	0.132105	0.022868	0.136022	0.110570	0.098691	0.093682	-0.024693	0.119833	...	0.053958	0.470341	0.079718	0.411967	0.512139	0.365410	0.152088	0.019603	-0.181937	0.170721
V19	-0.100294	-0.092673	-0.161802	-0.246008	-0.205729	0.215290	0.158371	-0.144693	0.074903	-0.148319	...	-0.205409	0.100133	-0.131542	0.144018	-0.021517	-0.079753	-0.220737	0.087605	0.012115	-0.114976
V20	0.462493	0.459795	0.298385	0.289594	0.291309	0.136091	0.089399	0.412868	0.207612	0.271559	...	0.016233	0.086165	0.326863	0.050699	0.009358	-0.000979	0.048981	0.161315	-0.322006	0.444965
V21	-0.029285	-0.012911	-0.030932	0.114373	0.174025	-0.051806	-0.065300	-0.047839	0.082288	0.144371	...	0.157097	-0.077945	0.053025	-0.159128	-0.087561	-0.053707	-0.199398	0.047340	0.315470	-0.010063
V23	0.231136	0.222574	0.065509	0.081374	0.196530	0.069901	0.125180	0.174124	-0.066537	0.180049	...	0.116122	0.363963	0.129783	0.367086	0.183666	0.196681	0.635252	-0.035949	-0.187582	0.226331
V24	-0.324959	-0.233556	0.010225	-0.237326	-0.529866	0.072418	-0.030292	-0.136898	-0.029420	-0.550881	...	-0.642370	0.033532	-0.202097	0.060608	-0.134320	-0.095588	-0.243738	-0.041325	-0.137614	-0.264815
V25	-0.200706	-0.070627	0.481785	-0.100569	-0.444375	0.438610	0.316744	0.173320	0.079805	-0.448877	...	-0.575154	0.088238	0.201243	0.065501	-0.013312	-0.030747	-0.093948	0.069302	-0.246742	-0.019373
V26	-0.125140	-0.043012	0.035370	-0.027685	-0.080487	0.106055	0.160566	0.015724	0.072366	-0.124111	...	-0.133694	-0.057247	0.062879	-0.004545	-0.034596	0.051294	0.085576	0.064963	0.010880	-0.046724
V27	0.733198	0.824198	0.726250	0.392006	0.412083	0.474441	0.424185	0.901100	0.246085	0.374380	...	-0.032772	0.208074	0.790239	0.095127	0.030135	-0.036123	0.159884	0.226713	-0.617771	0.812585
V29	0.302145	0.147096	-0.275764	0.117610	0.659093	-0.467980	-0.311363	-0.011091	-0.105042	0.666775	...	1.000000	-0.122817	-0.004364	-0.110699	0.035272	0.035392	0.078588	-0.099309	0.285581	0.123329
V30	0.156968	0.175997	0.175943	0.043966	0.022807	0.188907	0.170113	0.150258	-0.036705	0.028866	...	-0.122817	1.000000	0.114318	0.695725	0.083693	-0.028573	-0.027987	0.006961	-0.256814	0.187311
V31	0.675003	0.769745	0.653764	0.421954	0.447016	0.546535	0.475254	0.878072	0.560213	0.441963	...	-0.004364	0.114318	1.000000	0.016782	0.016733	-0.047273	0.152314	0.510851	-0.357785	0.750297
V32	0.050951	0.085604	0.033942	-0.092423	-0.026186	0.144550	0.122707	0.038430	-0.093213	-0.007658	...	-0.110699	0.695725	0.016782	1.000000	0.105255	0.069300	0.016901	-0.054411	-0.162417	0.066606
V33	0.056439	0.035129	0.050309	-0.007159	0.062367	0.054210	0.034508	0.026843	0.016739	0.046674	...	0.035272	0.083693	0.016733	0.105255	1.000000	0.719126	0.167597	0.031586	-0.062715	0.077273
V34	-0.019342	-0.029115	-0.025620	-0.031898	0.028659	-0.002914	-0.019103	-0.036297	-0.026994	0.010122	...	0.035392	-0.028573	-0.047273	0.069300	0.719126	1.000000	0.233616	-0.019032	-0.006854	-0.006034
V35	0.138933	0.146329	0.043648	0.080034	0.100010	0.044992	0.111166	0.179167	0.026846	0.081963	...	0.078588	-0.027987	0.152314	0.016901	0.167597	0.233616	1.000000	0.025401	-0.077991	0.140294
V36	0.231417	0.235299	0.316462	0.324475	0.113609	0.433804	0.340479	0.326586	0.922190	0.112150	...	-0.099309	0.006961	0.510851	-0.054411	0.031586	-0.019032	0.025401	1.000000	-0.039478	0.319309
V37	-0.494076	-0.494043	-0.734956	-0.229613	-0.031054	-0.404817	-0.292285	-0.553121	-0.045851	-0.054827	...	0.285581	-0.256814	-0.357785	-0.162417	-0.062715	-0.006854	-0.077991	-0.039478	1.000000	-0.565795
target	0.873212	0.871846	0.638878	0.512074	0.603984	0.370037	0.287815	0.831904	0.394767	0.594189	...	0.123329	0.187311	0.750297	0.066606	0.077273	-0.006034	0.140294	0.319309	-0.565795	1.000000

33 rows × 33 columns

# 画出相关性热力图
ax = plt.subplots(figsize=(20, 16))#调整画布大小

ax = sns.heatmap(train_corr, vmax=.8, square=True, annot=True)#画热力图   annot=True 显示系数

# 找出相关程度
data_train1 = train_data.drop(['V5','V9','V11','V17','V22','V28'],axis=1)

plt.figure(figsize=(20, 16))  # 指定绘图对象宽度和高度
colnm = data_train1.columns.tolist()  # 列表头
mcorr = data_train1[colnm].corr(method="spearman")  # 相关系数矩阵，即给出了任意两个变量之间的相关系数
mask = np.zeros_like(mcorr, dtype=np.bool)  # 构造与mcorr同维数矩阵 为bool型
mask[np.triu_indices_from(mask)] = True  # 角分线右侧为True
cmap = sns.diverging_palette(220, 10, as_cmap=True)  # 返回matplotlib colormap对象
g = sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')  # 热力图（看两两相似度）
plt.show()

上图为所有特征变量和target变量两两之间的相关系数，由此可以看出各个特征变量V0-V37之间的相关性以及特征变量V0-V37与target的相关性。

1.2.3 查找重要变量

查找出特征变量和target变量相关系数大于0.5的特征变量

#寻找K个最相关的特征信息
k = 10 # number of variables for heatmap
cols = train_corr.nlargest(k, 'target')['target'].index

cm = np.corrcoef(train_data[cols].values.T)
hm = plt.subplots(figsize=(10, 10))#调整画布大小
#hm = sns.heatmap(cm, cbar=True, annot=True, square=True)
#g = sns.heatmap(train_data[cols].corr(),annot=True,square=True,cmap="RdYlGn")
hm = sns.heatmap(train_data[cols].corr(),annot=True,square=True)

plt.show()

threshold = 0.5

corrmat = train_data.corr()
top_corr_features = corrmat.index[abs(corrmat["target"])>threshold]
plt.figure(figsize=(10,10))
g = sns.heatmap(train_data[top_corr_features].corr(),annot=True,cmap="RdYlGn")

drop_columns.clear()
drop_columns = ['V5','V9','V11','V17','V22','V28']

# Threshold for removing correlated variables
threshold = 0.5

# Absolute value correlation matrix
corr_matrix = data_train1.corr().abs()
drop_col=corr_matrix[corr_matrix["target"]

 
  由于'V14', 'V21', 'V25', 'V26', 'V32', 'V33', 'V34'特征的相关系数值小于0.5，故认为这些特征与最终的预测target值不相关，删除这些特征变量； 
  #merge train_set and test_set
train_x =  train_data.drop(['target'], axis=1)

#data_all=pd.concat([train_data,test_data],axis=0,ignore_index=True)
data_all = pd.concat([train_x,test_data]) 


data_all.drop(drop_columns,axis=1,inplace=True)
#View data
data_all.head()
 
   
    
     
      
     V0 
     V1 
     V2 
     V3 
     V4 
     V6 
     V7 
     V8 
     V10 
     V12 
     ... 
     V27 
     V29 
     V30 
     V31 
     V32 
     V33 
     V34 
     V35 
     V36 
     V37 
     
    
    
     
     0 
     0.566 
     0.016 
     -0.143 
     0.407 
     0.452 
     -1.812 
     -2.360 
     -0.436 
     -0.940 
     -0.073 
     ... 
     0.168 
     0.136 
     0.109 
     -0.615 
     0.327 
     -4.627 
     -4.789 
     -5.101 
     -2.608 
     -3.508 
     
     
     1 
     0.968 
     0.437 
     0.066 
     0.566 
     0.194 
     -1.566 
     -2.360 
     0.332 
     0.188 
     -0.134 
     ... 
     0.338 
     -0.128 
     0.124 
     0.032 
     0.600 
     -0.843 
     0.160 
     0.364 
     -0.335 
     -0.730 
     
     
     2 
     1.013 
     0.568 
     0.235 
     0.370 
     0.112 
     -1.367 
     -2.360 
     0.396 
     0.874 
     -0.072 
     ... 
     0.326 
     -0.009 
     0.361 
     0.277 
     -0.116 
     -0.843 
     0.160 
     0.364 
     0.765 
     -0.589 
     
     
     3 
     0.733 
     0.368 
     0.283 
     0.165 
     0.599 
     -1.200 
     -2.086 
     0.403 
     0.011 
     -0.014 
     ... 
     0.277 
     0.015 
     0.417 
     0.279 
     0.603 
     -0.843 
     -0.065 
     0.364 
     0.333 
     -0.112 
     
     
     4 
     0.684 
     0.638 
     0.260 
     0.209 
     0.337 
     -1.073 
     -2.086 
     0.314 
     -0.251 
     0.199 
     ... 
     0.332 
     0.183 
     1.078 
     0.328 
     0.418 
     -0.843 
     -0.215 
     0.364 
     -0.280 
     -0.028 
     
    
   
  5 rows × 32 columns 
  # normalise numeric columns
cols_numeric=list(data_all.columns)

def scale_minmax(col):
    return (col-col.min())/(col.max()-col.min())

data_all[cols_numeric] = data_all[cols_numeric].apply(scale_minmax,axis=0)
data_all[cols_numeric].describe()
 
   
    
     
      
     V0 
     V1 
     V2 
     V3 
     V4 
     V6 
     V7 
     V8 
     V10 
     V12 
     ... 
     V27 
     V29 
     V30 
     V31 
     V32 
     V33 
     V34 
     V35 
     V36 
     V37 
     
    
    
     
     count 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     ... 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     4813.000000 
     
     
     mean 
     0.694172 
     0.721357 
     0.602300 
     0.603139 
     0.523743 
     0.748823 
     0.745740 
     0.715607 
     0.348518 
     0.578507 
     ... 
     0.881401 
     0.388683 
     0.589459 
     0.792709 
     0.628824 
     0.458493 
     0.483790 
     0.762873 
     0.332385 
     0.545795 
     
     
     std 
     0.144198 
     0.131443 
     0.140628 
     0.152462 
     0.106430 
     0.132560 
     0.132577 
     0.118105 
     0.134882 
     0.105088 
     ... 
     0.128221 
     0.133475 
     0.130786 
     0.102976 
     0.155003 
     0.099095 
     0.101020 
     0.102037 
     0.127456 
     0.150356 
     
     
     min 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     ... 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     
     
     25% 
     0.626676 
     0.679416 
     0.514414 
     0.503888 
     0.478182 
     0.683324 
     0.696938 
     0.664934 
     0.284327 
     0.532892 
     ... 
     0.888575 
     0.292445 
     0.550092 
     0.761816 
     0.562461 
     0.409037 
     0.454490 
     0.727273 
     0.270584 
     0.445647 
     
     
     50% 
     0.729488 
     0.752497 
     0.617072 
     0.614270 
     0.535866 
     0.774125 
     0.771974 
     0.742884 
     0.366469 
     0.591635 
     ... 
     0.916015 
     0.375734 
     0.594428 
     0.815055 
     0.643056 
     0.454518 
     0.499949 
     0.800020 
     0.347056 
     0.539317 
     
     
     75% 
     0.790195 
     0.799553 
     0.700464 
     0.710474 
     0.585036 
     0.842259 
     0.836405 
     0.790835 
     0.432965 
     0.641971 
     ... 
     0.932555 
     0.471837 
     0.650798 
     0.852229 
     0.719777 
     0.500000 
     0.511365 
     0.800020 
     0.414861 
     0.643061 
     
     
     max 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     ... 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     
    
   
  8 rows × 32 columns 
  #col_data_process = cols_numeric.append('target')
train_data_process = train_data[cols_numeric]
train_data_process = train_data_process[cols_numeric].apply(scale_minmax,axis=0)

test_data_process = test_data[cols_numeric]
test_data_process = test_data_process[cols_numeric].apply(scale_minmax,axis=0)

 
  cols_numeric_left = cols_numeric[0:13]
cols_numeric_right = cols_numeric[13:]
 
  ## Check effect of Box-Cox transforms on distributions of continuous variables

train_data_process = pd.concat([train_data_process, train_data['target']], axis=1)

fcols = 6
frows = len(cols_numeric_left)
plt.figure(figsize=(4*fcols,4*frows))
i=0

for var in cols_numeric_left:
    dat = train_data_process[[var, 'target']].dropna()
        
    i+=1
    plt.subplot(frows,fcols,i)
    sns.distplot(dat[var] , fit=stats.norm);
    plt.title(var+' Original')
    plt.xlabel('')
        
    i+=1
    plt.subplot(frows,fcols,i)
    _=stats.probplot(dat[var], plot=plt)
    plt.title('skew='+'{:.4f}'.format(stats.skew(dat[var])))
    plt.xlabel('')
    plt.ylabel('')
        
    i+=1
    plt.subplot(frows,fcols,i)
    plt.plot(dat[var], dat['target'],'.',alpha=0.5)
    plt.title('corr='+'{:.2f}'.format(np.corrcoef(dat[var], dat['target'])[0][1]))
 
    i+=1
    plt.subplot(frows,fcols,i)
    trans_var, lambda_var = stats.boxcox(dat[var].dropna()+1)
    trans_var = scale_minmax(trans_var)      
    sns.distplot(trans_var , fit=stats.norm);
    plt.title(var+' Tramsformed')
    plt.xlabel('')
        
    i+=1
    plt.subplot(frows,fcols,i)
    _=stats.probplot(trans_var, plot=plt)
    plt.title('skew='+'{:.4f}'.format(stats.skew(trans_var)))
    plt.xlabel('')
    plt.ylabel('')
        
    i+=1
    plt.subplot(frows,fcols,i)
    plt.plot(trans_var, dat['target'],'.',alpha=0.5)
    plt.title('corr='+'{:.2f}'.format(np.corrcoef(trans_var,dat['target'])[0][1]))
 
  # ## Check effect of Box-Cox transforms on distributions of continuous variables

 #已注释图片生成，自行打开


# fcols = 6
# frows = len(cols_numeric_right)
# plt.figure(figsize=(4*fcols,4*frows))
# i=0

# for var in cols_numeric_right:
#     dat = train_data_process[[var, 'target']].dropna()
        
#     i+=1
#     plt.subplot(frows,fcols,i)
#     sns.distplot(dat[var] , fit=stats.norm);
#     plt.title(var+' Original')
#     plt.xlabel('')
        
#     i+=1
#     plt.subplot(frows,fcols,i)
#     _=stats.probplot(dat[var], plot=plt)
#     plt.title('skew='+'{:.4f}'.format(stats.skew(dat[var])))
#     plt.xlabel('')
#     plt.ylabel('')
        
#     i+=1
#     plt.subplot(frows,fcols,i)
#     plt.plot(dat[var], dat['target'],'.',alpha=0.5)
#     plt.title('corr='+'{:.2f}'.format(np.corrcoef(dat[var], dat['target'])[0][1]))
 
#     i+=1
#     plt.subplot(frows,fcols,i)
#     trans_var, lambda_var = stats.boxcox(dat[var].dropna()+1)
#     trans_var = scale_minmax(trans_var)      
#     sns.distplot(trans_var , fit=stats.norm);
#     plt.title(var+' Tramsformed')
#     plt.xlabel('')
        
#     i+=1
#     plt.subplot(frows,fcols,i)
#     _=stats.probplot(trans_var, plot=plt)
#     plt.title('skew='+'{:.4f}'.format(stats.skew(trans_var)))
#     plt.xlabel('')
#     plt.ylabel('')
        
#     i+=1
#     plt.subplot(frows,fcols,i)
#     plt.plot(trans_var, dat['target'],'.',alpha=0.5)
#     plt.title('corr='+'{:.2f}'.format(np.corrcoef(trans_var,dat['target'])[0][1]))
 
  2.数据特征工程 
  2.1数据预处理和特征处理 
  # 导入数据分析工具包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats

import warnings
warnings.filterwarnings("ignore")
 
%matplotlib inline

# 读取数据
train_data_file = "./zhengqi_train.txt"
test_data_file =  "./zhengqi_test.txt"

train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')
 
  train_data.describe()
#数据总览
 
   
    
     
      
     V0 
     V1 
     V2 
     V3 
     V4 
     V5 
     V6 
     V7 
     V8 
     V9 
     ... 
     V29 
     V30 
     V31 
     V32 
     V33 
     V34 
     V35 
     V36 
     V37 
     target 
     
    
    
     
     count 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     ... 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     2888.000000 
     
     
     mean 
     0.123048 
     0.056068 
     0.289720 
     -0.067790 
     0.012921 
     -0.558565 
     0.182892 
     0.116155 
     0.177856 
     -0.169452 
     ... 
     0.097648 
     0.055477 
     0.127791 
     0.020806 
     0.007801 
     0.006715 
     0.197764 
     0.030658 
     -0.130330 
     0.126353 
     
     
     std 
     0.928031 
     0.941515 
     0.911236 
     0.970298 
     0.888377 
     0.517957 
     0.918054 
     0.955116 
     0.895444 
     0.953813 
     ... 
     1.061200 
     0.901934 
     0.873028 
     0.902584 
     1.006995 
     1.003291 
     0.985675 
     0.970812 
     1.017196 
     0.983966 
     
     
     min 
     -4.335000 
     -5.122000 
     -3.420000 
     -3.956000 
     -4.742000 
     -2.182000 
     -4.576000 
     -5.048000 
     -4.692000 
     -12.891000 
     ... 
     -2.912000 
     -4.507000 
     -5.859000 
     -4.053000 
     -4.627000 
     -4.789000 
     -5.695000 
     -2.608000 
     -3.630000 
     -3.044000 
     
     
     25% 
     -0.297000 
     -0.226250 
     -0.313000 
     -0.652250 
     -0.385000 
     -0.853000 
     -0.310000 
     -0.295000 
     -0.159000 
     -0.390000 
     ... 
     -0.664000 
     -0.283000 
     -0.170250 
     -0.407250 
     -0.499000 
     -0.290000 
     -0.202500 
     -0.413000 
     -0.798250 
     -0.350250 
     
     
     50% 
     0.359000 
     0.272500 
     0.386000 
     -0.044500 
     0.110000 
     -0.466000 
     0.388000 
     0.344000 
     0.362000 
     0.042000 
     ... 
     -0.023000 
     0.053500 
     0.299500 
     0.039000 
     -0.040000 
     0.160000 
     0.364000 
     0.137000 
     -0.185500 
     0.313000 
     
     
     75% 
     0.726000 
     0.599000 
     0.918250 
     0.624000 
     0.550250 
     -0.154000 
     0.831250 
     0.782250 
     0.726000 
     0.042000 
     ... 
     0.745250 
     0.488000 
     0.635000 
     0.557000 
     0.462000 
     0.273000 
     0.602000 
     0.644250 
     0.495250 
     0.793250 
     
     
     max 
     2.121000 
     1.918000 
     2.828000 
     2.457000 
     2.689000 
     0.489000 
     1.895000 
     1.918000 
     2.245000 
     1.335000 
     ... 
     4.580000 
     2.689000 
     2.013000 
     2.395000 
     5.465000 
     5.110000 
     2.324000 
     5.238000 
     3.000000 
     2.538000 
     
    
   
  8 rows × 39 columns 
  2.1.1 异常值分析 
  #异常值分析
plt.figure(figsize=(18, 10))
plt.boxplot(x=train_data.values,labels=train_data.columns)
plt.hlines([-7.5, 7.5], 0, 40, colors='r')
plt.show()
 
   
   
  ## 删除异常值
train_data = train_data[train_data['V9']>-7.5]
train_data.describe()
 
   
    
     
      
     V0 
     V1 
     V2 
     V3 
     V4 
     V5 
     V6 
     V7 
     V8 
     V9 
     ... 
     V29 
     V30 
     V31 
     V32 
     V33 
     V34 
     V35 
     V36 
     V37 
     target 
     
    
    
     
     count 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.00000 
     ... 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     
     
     mean 
     0.123725 
     0.056856 
     0.290340 
     -0.068364 
     0.012254 
     -0.558971 
     0.183273 
     0.116274 
     0.178138 
     -0.16213 
     ... 
     0.097019 
     0.058619 
     0.127617 
     0.023626 
     0.008271 
     0.006959 
     0.198513 
     0.030099 
     -0.131957 
     0.127451 
     
     
     std 
     0.927984 
     0.941269 
     0.911231 
     0.970357 
     0.888037 
     0.517871 
     0.918211 
     0.955418 
     0.895552 
     0.91089 
     ... 
     1.060824 
     0.894311 
     0.873300 
     0.896509 
     1.007175 
     1.003411 
     0.985058 
     0.970258 
     1.015666 
     0.983144 
     
     
     min 
     -4.335000 
     -5.122000 
     -3.420000 
     -3.956000 
     -4.742000 
     -2.182000 
     -4.576000 
     -5.048000 
     -4.692000 
     -7.07100 
     ... 
     -2.912000 
     -4.507000 
     -5.859000 
     -4.053000 
     -4.627000 
     -4.789000 
     -5.695000 
     -2.608000 
     -3.630000 
     -3.044000 
     
     
     25% 
     -0.292000 
     -0.224250 
     -0.310000 
     -0.652750 
     -0.385000 
     -0.853000 
     -0.310000 
     -0.295000 
     -0.158750 
     -0.39000 
     ... 
     -0.664000 
     -0.282000 
     -0.170750 
     -0.405000 
     -0.499000 
     -0.290000 
     -0.199750 
     -0.412750 
     -0.798750 
     -0.347500 
     
     
     50% 
     0.359500 
     0.273000 
     0.386000 
     -0.045000 
     0.109500 
     -0.466000 
     0.388500 
     0.345000 
     0.362000 
     0.04200 
     ... 
     -0.023000 
     0.054500 
     0.299500 
     0.040000 
     -0.040000 
     0.160000 
     0.364000 
     0.137000 
     -0.186000 
     0.314000 
     
     
     75% 
     0.726000 
     0.599000 
     0.918750 
     0.623500 
     0.550000 
     -0.154000 
     0.831750 
     0.782750 
     0.726000 
     0.04200 
     ... 
     0.745000 
     0.488000 
     0.635000 
     0.557000 
     0.462000 
     0.273000 
     0.602000 
     0.643750 
     0.493000 
     0.793750 
     
     
     max 
     2.121000 
     1.918000 
     2.828000 
     2.457000 
     2.689000 
     0.489000 
     1.895000 
     1.918000 
     2.245000 
     1.33500 
     ... 
     4.580000 
     2.689000 
     2.013000 
     2.395000 
     5.465000 
     5.110000 
     2.324000 
     5.238000 
     3.000000 
     2.538000 
     
    
   
  8 rows × 39 columns 
  test_data.describe()
 
   
    
     
      
     V0 
     V1 
     V2 
     V3 
     V4 
     V5 
     V6 
     V7 
     V8 
     V9 
     ... 
     V28 
     V29 
     V30 
     V31 
     V32 
     V33 
     V34 
     V35 
     V36 
     V37 
     
    
    
     
     count 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     ... 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     
     
     mean 
     -0.184404 
     -0.083912 
     -0.434762 
     0.101671 
     -0.019172 
     0.838049 
     -0.274092 
     -0.173971 
     -0.266709 
     0.255114 
     ... 
     -0.206871 
     -0.146463 
     -0.083215 
     -0.191729 
     -0.030782 
     -0.011433 
     -0.009985 
     -0.296895 
     -0.046270 
     0.195735 
     
     
     std 
     1.073333 
     1.076670 
     0.969541 
     1.034925 
     1.147286 
     0.963043 
     1.054119 
     1.040101 
     1.085916 
     1.014394 
     ... 
     1.064140 
     0.880593 
     1.126414 
     1.138454 
     1.130228 
     0.989732 
     0.995213 
     0.946896 
     1.040854 
     0.940599 
     
     
     min 
     -4.814000 
     -5.488000 
     -4.283000 
     -3.276000 
     -4.921000 
     -1.168000 
     -5.649000 
     -5.625000 
     -6.059000 
     -6.784000 
     ... 
     -2.435000 
     -2.413000 
     -4.507000 
     -7.698000 
     -4.057000 
     -4.627000 
     -4.789000 
     -7.477000 
     -2.608000 
     -3.346000 
     
     
     25% 
     -0.664000 
     -0.451000 
     -0.978000 
     -0.644000 
     -0.497000 
     0.122000 
     -0.732000 
     -0.509000 
     -0.775000 
     -0.390000 
     ... 
     -0.453000 
     -0.818000 
     -0.339000 
     -0.476000 
     -0.472000 
     -0.460000 
     -0.290000 
     -0.349000 
     -0.593000 
     -0.432000 
     
     
     50% 
     0.065000 
     0.195000 
     -0.267000 
     0.220000 
     0.118000 
     0.437000 
     -0.082000 
     0.018000 
     -0.004000 
     0.401000 
     ... 
     -0.445000 
     -0.199000 
     0.010000 
     0.100000 
     0.155000 
     -0.040000 
     0.160000 
     -0.270000 
     0.083000 
     0.152000 
     
     
     75% 
     0.549000 
     0.589000 
     0.278000 
     0.793000 
     0.610000 
     1.928000 
     0.457000 
     0.515000 
     0.482000 
     0.904000 
     ... 
     -0.434000 
     0.468000 
     0.447000 
     0.471000 
     0.627000 
     0.419000 
     0.273000 
     0.364000 
     0.651000 
     0.797000 
     
     
     max 
     2.100000 
     2.120000 
     1.946000 
     2.603000 
     4.475000 
     3.176000 
     1.528000 
     1.394000 
     2.408000 
     1.766000 
     ... 
     4.656000 
     3.022000 
     3.139000 
     1.428000 
     2.299000 
     5.465000 
     5.110000 
     1.671000 
     2.861000 
     3.021000 
     
    
   
  8 rows × 38 columns 
  2.1.2 归一化处理 
  
from sklearn import preprocessing 

features_columns = [col for col in train_data.columns if col not in ['target']]

min_max_scaler = preprocessing.MinMaxScaler()

min_max_scaler = min_max_scaler.fit(train_data[features_columns])

train_data_scaler = min_max_scaler.transform(train_data[features_columns])
test_data_scaler = min_max_scaler.transform(test_data[features_columns])

train_data_scaler = pd.DataFrame(train_data_scaler)
train_data_scaler.columns = features_columns

test_data_scaler = pd.DataFrame(test_data_scaler)
test_data_scaler.columns = features_columns

train_data_scaler['target'] = train_data['target']
 
  train_data_scaler.describe()

test_data_scaler.describe()
 
   
    
     
      
     V0 
     V1 
     V2 
     V3 
     V4 
     V5 
     V6 
     V7 
     V8 
     V9 
     ... 
     V28 
     V29 
     V30 
     V31 
     V32 
     V33 
     V34 
     V35 
     V36 
     V37 
     
    
    
     
     count 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     ... 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     1925.000000 
     
     
     mean 
     0.642905 
     0.715637 
     0.477791 
     0.632726 
     0.635558 
     1.130681 
     0.664798 
     0.699688 
     0.637926 
     0.871534 
     ... 
     0.313556 
     0.369132 
     0.614756 
     0.719928 
     0.623793 
     0.457349 
     0.482778 
     0.673164 
     0.326501 
     0.577034 
     
     
     std 
     0.166253 
     0.152936 
     0.155176 
     0.161379 
     0.154392 
     0.360555 
     0.162899 
     0.149311 
     0.156540 
     0.120675 
     ... 
     0.149752 
     0.117538 
     0.156533 
     0.144621 
     0.175284 
     0.098071 
     0.100537 
     0.118082 
     0.132661 
     0.141870 
     
     
     min 
     -0.074195 
     -0.051989 
     -0.138124 
     0.106035 
     -0.024088 
     0.379633 
     -0.165817 
     -0.082831 
     -0.197059 
     0.034142 
     ... 
     0.000000 
     0.066604 
     0.000000 
     -0.233613 
     -0.000620 
     0.000000 
     0.000000 
     -0.222222 
     0.000000 
     0.042836 
     
     
     25% 
     0.568618 
     0.663494 
     0.390845 
     0.516451 
     0.571256 
     0.862598 
     0.594035 
     0.651593 
     0.564653 
     0.794789 
     ... 
     0.278919 
     0.279498 
     0.579211 
     0.683816 
     0.555366 
     0.412901 
     0.454490 
     0.666667 
     0.256819 
     0.482353 
     
     
     50% 
     0.681537 
     0.755256 
     0.504641 
     0.651177 
     0.654017 
     0.980532 
     0.694483 
     0.727247 
     0.675796 
     0.888889 
     ... 
     0.280045 
     0.362120 
     0.627710 
     0.756987 
     0.652605 
     0.454518 
     0.499949 
     0.676518 
     0.342977 
     0.570437 
     
     
     75% 
     0.756506 
     0.811222 
     0.591869 
     0.740527 
     0.720226 
     1.538750 
     0.777778 
     0.798593 
     0.745856 
     0.948727 
     ... 
     0.281593 
     0.451148 
     0.688438 
     0.804116 
     0.725806 
     0.500000 
     0.511365 
     0.755580 
     0.415371 
     0.667722 
     
     
     max 
     0.996747 
     1.028693 
     0.858835 
     1.022766 
     1.240345 
     2.005990 
     0.943285 
     0.924777 
     1.023497 
     1.051273 
     ... 
     0.997889 
     0.792045 
     1.062535 
     0.925686 
     0.985112 
     1.000000 
     1.000000 
     0.918568 
     0.697043 
     1.003167 
     
    
   
  8 rows × 38 columns 
  #查看数据集情况
dist_cols = 6
dist_rows = len(test_data_scaler.columns)

plt.figure(figsize=(4*dist_cols,4*dist_rows))


for i, col in enumerate(test_data_scaler.columns):
    ax=plt.subplot(dist_rows,dist_cols,i+1)
    ax = sns.kdeplot(train_data_scaler[col], color="Red", shade=True)
    ax = sns.kdeplot(test_data_scaler[col], color="Blue", shade=True)
    ax.set_xlabel(col)
    ax.set_ylabel("Frequency")
    ax = ax.legend(["train","test"])
 
# plt.show()
 #已注释图片生成，自行打开
 
  查看特征'V5', 'V17', 'V28', 'V22', 'V11', 'V9'数据的数据分布 
  drop_col = 6
drop_row = 1

plt.figure(figsize=(5*drop_col,5*drop_row))

for i, col in enumerate(["V5","V9","V11","V17","V22","V28"]):
    ax =plt.subplot(drop_row,drop_col,i+1)
    ax = sns.kdeplot(train_data_scaler[col], color="Red", shade=True)
    ax= sns.kdeplot(test_data_scaler[col], color="Blue", shade=True)
    ax.set_xlabel(col)
    ax.set_ylabel("Frequency")
    ax = ax.legend(["train","test"])
plt.show()
 
  这几个特征下，训练集的数据和测试集的数据分布不一致，会影响模型的泛化能力，故删除这些特征 
  3.1.3 特征相关性 
  plt.figure(figsize=(20, 16))  
column = train_data_scaler.columns.tolist()  
mcorr = train_data_scaler[column].corr(method="spearman")  
mask = np.zeros_like(mcorr, dtype=np.bool)  
mask[np.triu_indices_from(mask)] = True  
cmap = sns.diverging_palette(220, 10, as_cmap=True)  
g = sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')  
plt.show()
 
  2.2 特征降维 
  mcorr=mcorr.abs()
numerical_corr=mcorr[mcorr['target']>0.1]['target']
print(numerical_corr.sort_values(ascending=False))

index0 = numerical_corr.sort_values(ascending=False).index
print(train_data_scaler[index0].corr('spearman'))
 
  target    1.000000
V0        0.712403
V31       0.711636
V1        0.682909
V8        0.679469
V27       0.657398
V2        0.585850
V16       0.545793
V3        0.501622
V4        0.478683
V12       0.460300
V10       0.448682
V36       0.425991
V37       0.376443
V24       0.305526
V5        0.286076
V6        0.280195
V20       0.278381
V11       0.234551
V15       0.221290
V29       0.190109
V7        0.185321
V19       0.180111
V18       0.149741
V13       0.149199
V17       0.126262
V22       0.112743
V30       0.101378
Name: target, dtype: float64
          target        V0       V31        V1        V8       V27        V2  \
target  1.000000  0.712403  0.711636  0.682909  0.679469  0.657398  0.585850   
V0      0.712403  1.000000  0.739116  0.894116  0.832151  0.763128  0.516817   
V31     0.711636  0.739116  1.000000  0.807585  0.841469  0.765750  0.589890   
V1      0.682909  0.894116  0.807585  1.000000  0.849034  0.807102  0.490239   
V8      0.679469  0.832151  0.841469  0.849034  1.000000  0.887119  0.676417   
V27     0.657398  0.763128  0.765750  0.807102  0.887119  1.000000  0.709534   
V2      0.585850  0.516817  0.589890  0.490239  0.676417  0.709534  1.000000   
V16     0.545793  0.388852  0.642309  0.396122  0.642156  0.620981  0.783643   
V3      0.501622  0.401150  0.420134  0.363749  0.400915  0.402468  0.417190   
V4      0.478683  0.697430  0.521226  0.651615  0.455801  0.424260  0.062134   
V12     0.460300  0.640696  0.471528  0.596173  0.368572  0.336190  0.055734   
V10     0.448682  0.279350  0.445335  0.255763  0.351127  0.203066  0.292769   
V36     0.425991  0.214930  0.390250  0.192985  0.263291  0.186131  0.259475   
V37    -0.376443 -0.472200 -0.301906 -0.397080 -0.507057 -0.557098 -0.731786   
V24    -0.305526 -0.336325 -0.267968 -0.289742 -0.148323 -0.153834  0.018458   
V5     -0.286076 -0.356704 -0.162304 -0.242776 -0.188993 -0.222596 -0.324464   
V6      0.280195  0.131507  0.340145  0.147037  0.355064  0.356526  0.546921   
V20     0.278381  0.444939  0.349530  0.421987  0.408853  0.361040  0.293635   
V11    -0.234551 -0.333101 -0.131425 -0.221910 -0.161792 -0.190952 -0.271868   
V15     0.221290  0.334135  0.110674  0.230395  0.054701  0.007156 -0.206499   
V29     0.190109  0.334603  0.121833  0.240964  0.050211  0.006048 -0.255559   
V7      0.185321  0.075732  0.277283  0.082766  0.278231  0.290620  0.378984   
V19    -0.180111 -0.144295 -0.183185 -0.146559 -0.170237 -0.228613 -0.179416   
V18     0.149741  0.132143  0.094678  0.093688  0.079592  0.091660  0.114929   
V13     0.149199  0.173861  0.071517  0.134595  0.105380  0.126831  0.180477   
V17     0.126262  0.055024  0.115056  0.081446  0.102544  0.036520 -0.050935   
V22    -0.112743 -0.076698 -0.106450 -0.072848 -0.078333 -0.111196 -0.241206   
V30     0.101378  0.099242  0.131453  0.109216  0.165204  0.167073  0.176236   

             V16        V3        V4  ...       V11       V15       V29  \
target  0.545793  0.501622  0.478683  ... -0.234551  0.221290  0.190109   
V0      0.388852  0.401150  0.697430  ... -0.333101  0.334135  0.334603   
V31     0.642309  0.420134  0.521226  ... -0.131425  0.110674  0.121833   
V1      0.396122  0.363749  0.651615  ... -0.221910  0.230395  0.240964   
V8      0.642156  0.400915  0.455801  ... -0.161792  0.054701  0.050211   
V27     0.620981  0.402468  0.424260  ... -0.190952  0.007156  0.006048   
V2      0.783643  0.417190  0.062134  ... -0.271868 -0.206499 -0.255559   
V16     1.000000  0.388886  0.009749  ... -0.088716 -0.280952 -0.327558   
V3      0.388886  1.000000  0.294049  ... -0.126924  0.145291  0.128079   
V4      0.009749  0.294049  1.000000  ... -0.164113  0.641180  0.692626   
V12    -0.024541  0.286500  0.897807  ... -0.232228  0.703861  0.732617   
V10     0.473009  0.295181  0.123829  ...  0.049969 -0.014449 -0.060440   
V36     0.469130  0.299063  0.099359  ... -0.017805 -0.012844 -0.051097   
V37    -0.431507 -0.219751  0.040396  ...  0.455998  0.234751  0.273926   
V24     0.064523 -0.237022 -0.558334  ...  0.170969 -0.687353 -0.677833   
V5     -0.045495 -0.230466 -0.248061  ...  0.797583 -0.250027 -0.233233   
V6      0.760362  0.181135 -0.204780  ... -0.170545 -0.443436 -0.486682   
V20     0.239572  0.270647  0.257815  ... -0.138684  0.050867  0.035022   
V11    -0.088716 -0.126924 -0.164113  ...  1.000000 -0.123004 -0.120982   
V15    -0.280952  0.145291  0.641180  ... -0.123004  1.000000  0.947360   
V29    -0.327558  0.128079  0.692626  ... -0.120982  0.947360  1.000000   
V7      0.651907  0.132564 -0.150577  ... -0.097623 -0.335054 -0.360490   
V19    -0.019645 -0.265940 -0.237529  ... -0.094150 -0.215364 -0.212691   
V18     0.066147  0.014697  0.135792  ... -0.153625  0.109030  0.098474   
V13     0.074214 -0.019453  0.061801  ... -0.436341  0.047845  0.024514   
V17     0.172978  0.067720  0.060753  ...  0.192222 -0.004555 -0.006498   
V22    -0.091204 -0.305218  0.021174  ...  0.079577  0.069993  0.072070   
V30     0.217428  0.055660 -0.053976  ... -0.102750 -0.147541 -0.161966   

              V7       V19       V18       V13       V17       V22       V30  
target  0.185321 -0.180111  0.149741  0.149199  0.126262 -0.112743  0.101378  
V0      0.075732 -0.144295  0.132143  0.173861  0.055024 -0.076698  0.099242  
V31     0.277283 -0.183185  0.094678  0.071517  0.115056 -0.106450  0.131453  
V1      0.082766 -0.146559  0.093688  0.134595  0.081446 -0.072848  0.109216  
V8      0.278231 -0.170237  0.079592  0.105380  0.102544 -0.078333  0.165204  
V27     0.290620 -0.228613  0.091660  0.126831  0.036520 -0.111196  0.167073  
V2      0.378984 -0.179416  0.114929  0.180477 -0.050935 -0.241206  0.176236  
V16     0.651907 -0.019645  0.066147  0.074214  0.172978 -0.091204  0.217428  
V3      0.132564 -0.265940  0.014697 -0.019453  0.067720 -0.305218  0.055660  
V4     -0.150577 -0.237529  0.135792  0.061801  0.060753  0.021174 -0.053976  
V12    -0.157087 -0.174034  0.125965  0.102293  0.012429 -0.004863 -0.054432  
V10     0.242818  0.089046  0.038237 -0.100776  0.258885 -0.132951  0.027257  
V36     0.268044  0.099034  0.066478 -0.068582  0.298962 -0.136943  0.056802  
V37    -0.284305  0.025241 -0.097699 -0.344661  0.052673  0.110455 -0.176127  
V24     0.076407  0.287262 -0.221117 -0.073906  0.094367  0.081279  0.079363  
V5      0.118541  0.247903 -0.191786 -0.408978  0.342555  0.143785  0.020252  
V6      0.904614  0.292661  0.061109  0.088866  0.094702 -0.102842  0.201834  
V20     0.064205  0.029483  0.050529  0.004600  0.061369 -0.092706  0.035036  
V11    -0.097623 -0.094150 -0.153625 -0.436341  0.192222  0.079577 -0.102750  
V15    -0.335054 -0.215364  0.109030  0.047845 -0.004555  0.069993 -0.147541  
V29    -0.360490 -0.212691  0.098474  0.024514 -0.006498  0.072070 -0.161966  
V7      1.000000  0.269472  0.032519  0.059724  0.178034  0.058178  0.196347  
V19     0.269472  1.000000 -0.034215 -0.106162  0.250114  0.075582  0.120766  
V18     0.032519 -0.034215  1.000000  0.242008 -0.073678  0.016819  0.133708  
V13     0.059724 -0.106162  0.242008  1.000000 -0.108020  0.348432 -0.097178  
V17     0.178034  0.250114 -0.073678 -0.108020  1.000000  0.363785  0.057480  
V22     0.058178  0.075582  0.016819  0.348432  0.363785  1.000000 -0.054570  
V30     0.196347  0.120766  0.133708 -0.097178  0.057480 -0.054570  1.000000  

[28 rows x 28 columns]
 
  2.2.1 相关性初筛 
  features_corr = numerical_corr.sort_values(ascending=False).reset_index()
features_corr.columns = ['features_and_target', 'corr']
features_corr_select = features_corr[features_corr['corr']>0.3] # 筛选出大于相关性大于0.3的特征
print(features_corr_select)
select_features = [col for col in features_corr_select['features_and_target'] if col not in ['target']]
new_train_data_corr_select = train_data_scaler[select_features+['target']]
new_test_data_corr_select = test_data_scaler[select_features]
 
     features_and_target      corr
0               target  1.000000
1                   V0  0.712403
2                  V31  0.711636
3                   V1  0.682909
4                   V8  0.679469
5                  V27  0.657398
6                   V2  0.585850
7                  V16  0.545793
8                   V3  0.501622
9                   V4  0.478683
10                 V12  0.460300
11                 V10  0.448682
12                 V36  0.425991
13                 V37  0.376443
14                 V24  0.305526
 
  2.2.2 多重共线性分析 
  !pip install statsmodels -i https://pypi.tuna.tsinghua.edu.cn/simple
 
  Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Requirement already satisfied: statsmodels in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (0.13.5)
Requirement already satisfied: scipy>=1.3 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from statsmodels) (1.6.3)
Requirement already satisfied: pandas>=0.25 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from statsmodels) (1.1.5)
Requirement already satisfied: packaging>=21.3 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from statsmodels) (21.3)
Requirement already satisfied: numpy>=1.17 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from statsmodels) (1.19.5)
Requirement already satisfied: patsy>=0.5.2 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from statsmodels) (0.5.3)
Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from packaging>=21.3->statsmodels) (3.0.9)
Requirement already satisfied: pytz>=2017.2 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from pandas>=0.25->statsmodels) (2019.3)
Requirement already satisfied: python-dateutil>=2.7.3 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from pandas>=0.25->statsmodels) (2.8.2)
Requirement already satisfied: six in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from patsy>=0.5.2->statsmodels) (1.16.0)

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.1.2[0m[39;49m -> [0m[32;49m23.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
 
  from statsmodels.stats.outliers_influence import variance_inflation_factor #多重共线性方差膨胀因子

#多重共线性
new_numerical=['V0', 'V2', 'V3', 'V4', 'V5', 'V6', 'V10','V11', 
                         'V13', 'V15', 'V16', 'V18', 'V19', 'V20', 'V22','V24','V30', 'V31', 'V37']
X=np.matrix(train_data_scaler[new_numerical])
VIF_list=[variance_inflation_factor(X, i) for i in range(X.shape[1])]
VIF_list
 
  [216.73387180903222,
 114.38118723828812,
 27.863778129686356,
 201.96436579080174,
 78.93722825798903,
 151.06983667656212,
 14.519604941508451,
 82.69750284665385,
 28.479378440614585,
 27.759176471505945,
 526.6483470743831,
 23.50166642638334,
 19.920315849901424,
 24.640481765008683,
 11.816055964845381,
 4.958208708452915,
 37.09877416736591,
 298.26442986612767,
 47.854002539887034]
 
  2.2.3 PCA处理降维 
  from sklearn.decomposition import PCA   #主成分分析法

#PCA方法降维
#保持90%的信息
pca = PCA(n_components=0.9)
new_train_pca_90 = pca.fit_transform(train_data_scaler.iloc[:,0:-1])
new_test_pca_90 = pca.transform(test_data_scaler)
new_train_pca_90 = pd.DataFrame(new_train_pca_90)
new_test_pca_90 = pd.DataFrame(new_test_pca_90)
new_train_pca_90['target'] = train_data_scaler['target']
new_train_pca_90.describe()
 
   
    
     
      
     0 
     1 
     2 
     3 
     4 
     5 
     6 
     7 
     8 
     9 
     10 
     11 
     12 
     13 
     14 
     15 
     target 
     
    
    
     
     count 
     2.886000e+03 
     2886.000000 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2886.000000 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2884.000000 
     
     
     mean 
     2.954440e-17 
     0.000000 
     3.200643e-17 
     4.924066e-18 
     7.139896e-17 
     -2.585135e-17 
     7.878506e-17 
     -5.170269e-17 
     -9.848132e-17 
     1.218706e-16 
     -7.016794e-17 
     1.181776e-16 
     0.000000 
     -3.446846e-17 
     -3.446846e-17 
     8.863319e-17 
     0.127274 
     
     
     std 
     3.998976e-01 
     0.350024 
     2.938631e-01 
     2.728023e-01 
     2.077128e-01 
     1.951842e-01 
     1.877104e-01 
     1.607670e-01 
     1.512707e-01 
     1.443772e-01 
     1.368790e-01 
     1.286192e-01 
     0.119330 
     1.149758e-01 
     1.133507e-01 
     1.019259e-01 
     0.983462 
     
     
     min 
     -1.071795e+00 
     -0.942948 
     -9.948314e-01 
     -7.103087e-01 
     -7.703987e-01 
     -5.340294e-01 
     -5.993766e-01 
     -5.870755e-01 
     -6.282818e-01 
     -4.902583e-01 
     -6.341045e-01 
     -5.906753e-01 
     -0.417515 
     -4.310613e-01 
     -4.170535e-01 
     -3.601627e-01 
     -3.044000 
     
     
     25% 
     -2.804085e-01 
     -0.261373 
     -2.090797e-01 
     -1.945196e-01 
     -1.315620e-01 
     -1.264097e-01 
     -1.236360e-01 
     -1.016452e-01 
     -9.662098e-02 
     -9.297088e-02 
     -8.202809e-02 
     -7.721868e-02 
     -0.071400 
     -7.474073e-02 
     -7.709743e-02 
     -6.603914e-02 
     -0.348500 
     
     
     50% 
     -1.417104e-02 
     -0.012772 
     2.112166e-02 
     -2.337401e-02 
     -5.122797e-03 
     -1.355336e-02 
     -1.747870e-04 
     -4.656359e-03 
     2.572054e-03 
     -1.479172e-03 
     7.286444e-03 
     -5.745946e-03 
     -0.004141 
     1.054915e-03 
     -1.758387e-03 
     -7.533392e-04 
     0.313000 
     
     
     75% 
     2.287306e-01 
     0.231772 
     2.069571e-01 
     1.657590e-01 
     1.281660e-01 
     9.993122e-02 
     1.272081e-01 
     9.657222e-02 
     1.002626e-01 
     9.059634e-02 
     8.833765e-02 
     7.148033e-02 
     0.067862 
     7.574868e-02 
     7.116829e-02 
     6.357449e-02 
     0.794250 
     
     
     max 
     1.597730e+00 
     1.382802 
     1.010250e+00 
     1.448007e+00 
     1.034061e+00 
     1.358962e+00 
     6.191589e-01 
     7.370089e-01 
     6.449125e-01 
     5.839586e-01 
     6.405187e-01 
     6.780732e-01 
     0.515612 
     4.978126e-01 
     4.673189e-01 
     4.570870e-01 
     2.538000 
     
    
   
  train_data_scaler.describe()
 
   
    
     
      
     V0 
     V1 
     V2 
     V3 
     V4 
     V5 
     V6 
     V7 
     V8 
     V9 
     ... 
     V29 
     V30 
     V31 
     V32 
     V33 
     V34 
     V35 
     V36 
     V37 
     target 
     
    
    
     
     count 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     ... 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2886.000000 
     2884.000000 
     
     
     mean 
     0.690633 
     0.735633 
     0.593844 
     0.606212 
     0.639787 
     0.607649 
     0.735477 
     0.741354 
     0.702053 
     0.821897 
     ... 
     0.401631 
     0.634466 
     0.760495 
     0.632231 
     0.459302 
     0.484489 
     0.734944 
     0.336235 
     0.527608 
     0.127274 
     
     
     std 
     0.143740 
     0.133703 
     0.145844 
     0.151311 
     0.119504 
     0.193887 
     0.141896 
     0.137154 
     0.129098 
     0.108362 
     ... 
     0.141594 
     0.124279 
     0.110938 
     0.139037 
     0.099799 
     0.101365 
     0.122840 
     0.123663 
     0.153192 
     0.983462 
     
     
     min 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     ... 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     0.000000 
     -3.044000 
     
     
     25% 
     0.626239 
     0.695703 
     0.497759 
     0.515087 
     0.586328 
     0.497566 
     0.659249 
     0.682314 
     0.653489 
     0.794789 
     ... 
     0.300053 
     0.587132 
     0.722593 
     0.565757 
     0.409037 
     0.454490 
     0.685279 
     0.279792 
     0.427036 
     -0.348500 
     
     
     50% 
     0.727153 
     0.766335 
     0.609155 
     0.609855 
     0.652873 
     0.642456 
     0.767192 
     0.774189 
     0.728557 
     0.846181 
     ... 
     0.385611 
     0.633894 
     0.782330 
     0.634770 
     0.454518 
     0.499949 
     0.755580 
     0.349860 
     0.519457 
     0.313000 
     
     
     75% 
     0.783922 
     0.812642 
     0.694422 
     0.714096 
     0.712152 
     0.759266 
     0.835690 
     0.837030 
     0.781029 
     0.846181 
     ... 
     0.488121 
     0.694136 
     0.824949 
     0.714950 
     0.504261 
     0.511365 
     0.785260 
     0.414447 
     0.621870 
     0.794250 
     
     
     max 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     ... 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     1.000000 
     2.538000 
     
    
   
  8 rows × 39 columns 
  #PCA方法降维
#保留16个主成分
pca = PCA(n_components=0.95)
new_train_pca_16 = pca.fit_transform(train_data_scaler.iloc[:,0:-1])
new_test_pca_16 = pca.transform(test_data_scaler)
new_train_pca_16 = pd.DataFrame(new_train_pca_16)
new_test_pca_16 = pd.DataFrame(new_test_pca_16)
new_train_pca_16['target'] = train_data_scaler['target']
new_train_pca_16.describe()
 
   
    
     
      
     0 
     1 
     2 
     3 
     4 
     5 
     6 
     7 
     8 
     9 
     ... 
     12 
     13 
     14 
     15 
     16 
     17 
     18 
     19 
     20 
     target 
     
    
    
     
     count 
     2.886000e+03 
     2886.000000 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     ... 
     2886.000000 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2.886000e+03 
     2884.000000 
     
     
     mean 
     2.954440e-17 
     0.000000 
     3.200643e-17 
     4.924066e-18 
     7.139896e-17 
     -2.585135e-17 
     7.878506e-17 
     -5.170269e-17 
     -9.848132e-17 
     1.218706e-16 
     ... 
     0.000000 
     -3.446846e-17 
     -3.446846e-17 
     8.863319e-17 
     4.493210e-17 
     1.107915e-17 
     -1.908076e-17 
     7.293773e-17 
     -1.224861e-16 
     0.127274 
     
     
     std 
     3.998976e-01 
     0.350024 
     2.938631e-01 
     2.728023e-01 
     2.077128e-01 
     1.951842e-01 
     1.877104e-01 
     1.607670e-01 
     1.512707e-01 
     1.443772e-01 
     ... 
     0.119330 
     1.149758e-01 
     1.133507e-01 
     1.019259e-01 
     9.617307e-02 
     9.205940e-02 
     8.423171e-02 
     8.295263e-02 
     7.696785e-02 
     0.983462 
     
     
     min 
     -1.071795e+00 
     -0.942948 
     -9.948314e-01 
     -7.103087e-01 
     -7.703987e-01 
     -5.340294e-01 
     -5.993766e-01 
     -5.870755e-01 
     -6.282818e-01 
     -4.902583e-01 
     ... 
     -0.417515 
     -4.310613e-01 
     -4.170535e-01 
     -3.601627e-01 
     -3.432530e-01 
     -3.530609e-01 
     -3.908328e-01 
     -3.089560e-01 
     -2.867812e-01 
     -3.044000 
     
     
     25% 
     -2.804085e-01 
     -0.261373 
     -2.090797e-01 
     -1.945196e-01 
     -1.315620e-01 
     -1.264097e-01 
     -1.236360e-01 
     -1.016452e-01 
     -9.662098e-02 
     -9.297088e-02 
     ... 
     -0.071400 
     -7.474073e-02 
     -7.709743e-02 
     -6.603914e-02 
     -6.064846e-02 
     -6.247177e-02 
     -5.357475e-02 
     -5.279870e-02 
     -4.930849e-02 
     -0.348500 
     
     
     50% 
     -1.417104e-02 
     -0.012772 
     2.112166e-02 
     -2.337401e-02 
     -5.122797e-03 
     -1.355336e-02 
     -1.747870e-04 
     -4.656359e-03 
     2.572054e-03 
     -1.479172e-03 
     ... 
     -0.004141 
     1.054915e-03 
     -1.758387e-03 
     -7.533392e-04 
     -4.559279e-03 
     -2.317781e-03 
     -3.034317e-04 
     3.391130e-03 
     -1.703944e-03 
     0.313000 
     
     
     75% 
     2.287306e-01 
     0.231772 
     2.069571e-01 
     1.657590e-01 
     1.281660e-01 
     9.993122e-02 
     1.272081e-01 
     9.657222e-02 
     1.002626e-01 
     9.059634e-02 
     ... 
     0.067862 
     7.574868e-02 
     7.116829e-02 
     6.357449e-02 
     5.732624e-02 
     6.139602e-02 
     5.068802e-02 
     5.084688e-02 
     4.693391e-02 
     0.794250 
     
     
     max 
     1.597730e+00 
     1.382802 
     1.010250e+00 
     1.448007e+00 
     1.034061e+00 
     1.358962e+00 
     6.191589e-01 
     7.370089e-01 
     6.449125e-01 
     5.839586e-01 
     ... 
     0.515612 
     4.978126e-01 
     4.673189e-01 
     4.570870e-01 
     5.153325e-01 
     3.556862e-01 
     4.709891e-01 
     3.677911e-01 
     3.663361e-01 
     2.538000 
     
    
   
  8 rows × 22 columns 
  3.模型训练 
  3.1 回归及相关模型 
  ## 导入相关库
from sklearn.linear_model import LinearRegression  #线性回归
from sklearn.neighbors import KNeighborsRegressor  #K近邻回归
from sklearn.tree import DecisionTreeRegressor     #决策树回归
from sklearn.ensemble import RandomForestRegressor #随机森林回归
from sklearn.svm import SVR  #支持向量回归
import lightgbm as lgb #lightGbm模型
from sklearn.ensemble import GradientBoostingRegressor

from sklearn.model_selection import train_test_split # 切分数据
from sklearn.metrics import mean_squared_error #评价指标

from sklearn.model_selection import learning_curve
from sklearn.model_selection import ShuffleSplit

## 切分训练数据和线下验证数据

#采用 pca 保留16维特征的数据
new_train_pca_16 = new_train_pca_16.fillna(0)
train = new_train_pca_16[new_test_pca_16.columns]
target = new_train_pca_16['target']

# 切分数据 训练数据80% 验证数据20%
train_data,test_data,train_target,test_target=train_test_split(train,target,test_size=0.2,random_state=0)
 
  3.1.1 多元线性回归模型 
  clf = LinearRegression()
clf.fit(train_data, train_target)
score = mean_squared_error(test_target, clf.predict(test_data))
print("LinearRegression:   ", score)

train_score = []
test_score = []

# 给予不同的数据量，查看模型的学习效果
for i in range(10, len(train_data)+1, 10):
    lin_reg = LinearRegression()
    lin_reg.fit(train_data[:i], train_target[:i])
    # LinearRegression().fit(X_train[:i], y_train[:i])
    
    # 查看模型的预测情况：两种，模型基于训练数据集预测的情况(可以理解为模型拟合训练数据集的情况)，模型基于测试数据集预测的情况
    # 此处使用 lin_reg.predict(X_train[:i])，为训练模型的全部数据集
    y_train_predict = lin_reg.predict(train_data[:i])
    train_score.append(mean_squared_error(train_target[:i], y_train_predict))
    
    y_test_predict = lin_reg.predict(test_data)
    test_score.append(mean_squared_error(test_target, y_test_predict))
    
# np.sqrt(train_score)：将列表 train_score 中的数开平方
plt.plot([i for i in range(1, len(train_score)+1)], train_score, label='train')
plt.plot([i for i in range(1, len(test_score)+1)], test_score, label='test')

# plt.legend()：显示图例（如图形的 label）；
plt.legend()
plt.show()
 
  LinearRegression:    0.2642337917628173
 
   
   
  定义绘制模型学习曲线函数 
  def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None,
                        n_jobs=1, train_sizes=np.linspace(.1, 1.0, 5)):
    plt.figure()
    plt.title(title)
    if ylim is not None:
        plt.ylim(*ylim)
    plt.xlabel("Training examples")
    plt.ylabel("Score")
    train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    
    print(train_scores_mean)
    print(test_scores_mean)
    
    plt.grid()
 
    plt.fill_between(train_sizes, train_scores_mean - train_scores_std,
                     train_scores_mean + train_scores_std, alpha=0.1,
                     color="r")
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                     test_scores_mean + test_scores_std, alpha=0.1, color="g")
    plt.plot(train_sizes, train_scores_mean, 'o-', color="r",
             label="Training score")
    plt.plot(train_sizes, test_scores_mean, 'o-', color="g",
             label="Cross-validation score")
 
    plt.legend(loc="best")
    return plt
 
  def plot_learning_curve_old(algo, X_train, X_test, y_train, y_test):
    """绘制学习曲线：只需要传入算法(或实例对象)、X_train、X_test、y_train、y_test"""
    """当使用该函数时传入算法，该算法的变量要进行实例化，如：PolynomialRegression(degree=2)，变量 degree 要进行实例化"""
    train_score = []
    test_score = []
    for i in range(10, len(X_train)+1, 10):
        algo.fit(X_train[:i], y_train[:i])
        
        y_train_predict = algo.predict(X_train[:i])
        train_score.append(mean_squared_error(y_train[:i], y_train_predict))
    
        y_test_predict = algo.predict(X_test)
        test_score.append(mean_squared_error(y_test, y_test_predict))
    
    plt.plot([i for i in range(1, len(train_score)+1)],
            train_score, label="train")
    plt.plot([i for i in range(1, len(test_score)+1)],
            test_score, label="test")
    
    plt.legend()
    plt.show()
 
  # plot_learning_curve_old(LinearRegression(), train_data, test_data, train_target, test_target)
 
  # 线性回归模型学习曲线
X = train_data.values
y = train_target.values
 
# 图一
title = r"LinearRegression"
cv = ShuffleSplit(n_splits=100, test_size=0.2, random_state=0)
estimator = LinearRegression()    #建模
plot_learning_curve(estimator, title, X, y, ylim=(0.5, 0.8), cv=cv, n_jobs=1)

 
  [0.70183463 0.66761103 0.66101945 0.65732898 0.65360375]
[0.57364886 0.61882339 0.62809368 0.63012866 0.63158596]






 
   
   
  3.1.2 KNN近邻回归 
  for i in range(3,10):
    clf = KNeighborsRegressor(n_neighbors=i) # 最近三个
    clf.fit(train_data, train_target)
    score = mean_squared_error(test_target, clf.predict(test_data))
    print("KNeighborsRegressor:   ", score)

 
  KNeighborsRegressor:    0.27619208861976163
KNeighborsRegressor:    0.2597627823313149
KNeighborsRegressor:    0.2628212724567474
KNeighborsRegressor:    0.26670982271241833
KNeighborsRegressor:    0.2659603905091448
KNeighborsRegressor:    0.26353694644788067
KNeighborsRegressor:    0.2673470579477979
 
  # plot_learning_curve_old(KNeighborsRegressor(n_neighbors=5) , train_data, test_data, train_target, test_target)
 
  # 绘制K近邻回归学习曲线
X = train_data.values
y = train_target.values
 
# K近邻回归
title = r"KNeighborsRegressor"
cv = ShuffleSplit(n_splits=100, test_size=0.2, random_state=0)

estimator = KNeighborsRegressor(n_neighbors=8)    #建模
plot_learning_curve(estimator, title, X, y, ylim=(0.3, 0.9), cv=cv, n_jobs=1)
 
  [0.61581146 0.68763995 0.71414969 0.73084172 0.73976273]
[0.50369207 0.58753672 0.61969929 0.64062459 0.6560054 ]






 
   
   
  3.1.3决策树回归 
  clf = DecisionTreeRegressor() 
clf.fit(train_data, train_target)
score = mean_squared_error(test_target, clf.predict(test_data))
print("DecisionTreeRegressor:   ", score)
 
  DecisionTreeRegressor:    0.6405298823529413
 
  # plot_learning_curve_old(DecisionTreeRegressor(), train_data, test_data, train_target, test_target)
 
  X = train_data.values
y = train_target.values
 
# 决策树回归
title = r"DecisionTreeRegressor"
cv = ShuffleSplit(n_splits=100, test_size=0.2, random_state=0)

estimator = DecisionTreeRegressor()    #建模
plot_learning_curve(estimator, title, X, y, ylim=(0.1, 1.3), cv=cv, n_jobs=1)
 
  [1. 1. 1. 1. 1.]
[0.11833987 0.22982731 0.2797608  0.30950084 0.32628853]






 
   
   
  3.1.4 随机森林回归 
  clf = RandomForestRegressor(n_estimators=200) # 200棵树模型
clf.fit(train_data, train_target)
score = mean_squared_error(test_target, clf.predict(test_data))
print("RandomForestRegressor:   ", score)
# plot_learning_curve_old(RandomForestRegressor(n_estimators=200), train_data, test_data, train_target, test_target)
 
  RandomForestRegressor:    0.24087959640588236
 
  X = train_data.values
y = train_target.values
 
# 随机森林
title = r"RandomForestRegressor"
cv = ShuffleSplit(n_splits=100, test_size=0.2, random_state=0)

estimator = RandomForestRegressor(n_estimators=200)    #建模
plot_learning_curve(estimator, title, X, y, ylim=(0.4, 1.0), cv=cv, n_jobs=1)
 
  [0.93619796 0.94798334 0.95197393 0.95415054 0.95570763]
[0.53953995 0.61531165 0.64366926 0.65941678 0.67319725]






 
   
   
  3.1.5 Gradient Boosting 
  from sklearn.ensemble import GradientBoostingRegressor

myGBR = GradientBoostingRegressor(alpha=0.9, criterion='friedman_mse', init=None,
                                  learning_rate=0.03, loss='huber', max_depth=14,
                                  max_features='sqrt', max_leaf_nodes=None,
                                  min_impurity_decrease=0.0, min_impurity_split=None,
                                  min_samples_leaf=10, min_samples_split=40,
                                  min_weight_fraction_leaf=0.0, n_estimators=10,
                                  warm_start=False)
# 参数已删除 presort=True, random_state=10, subsample=0.8, verbose=0,

myGBR.fit(train_data, train_target)
score = mean_squared_error(test_target, clf.predict(test_data))
print("GradientBoostingRegressor:   ", score)


myGBR = GradientBoostingRegressor(alpha=0.9, criterion='friedman_mse', init=None,
                                  learning_rate=0.03, loss='huber', max_depth=14,
                                  max_features='sqrt', max_leaf_nodes=None,
                                  min_impurity_decrease=0.0, min_impurity_split=None,
                                  min_samples_leaf=10, min_samples_split=40,
                                  min_weight_fraction_leaf=0.0, n_estimators=10,
                                  warm_start=False)
#为了快速展示n_estimators设置较小，实战中请按需设置

# plot_learning_curve_old(myGBR, train_data, test_data, train_target, test_target)

 
  GradientBoostingRegressor:    0.906640574789251
 
  X = train_data.values
y = train_target.values
 
# GradientBoosting
title = r"GradientBoostingRegressor"
cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)

estimator = GradientBoostingRegressor(alpha=0.9, criterion='friedman_mse', init=None,
                                  learning_rate=0.03, loss='huber', max_depth=14,
                                  max_features='sqrt', max_leaf_nodes=None,
                                  min_impurity_decrease=0.0, min_impurity_split=None,
                                  min_samples_leaf=10, min_samples_split=40,
                                  min_weight_fraction_leaf=0.0, n_estimators=10,
                                  warm_start=False)  #建模

plot_learning_curve(estimator, title, X, y, ylim=(0.4, 1.0), cv=cv, n_jobs=1)

#为了快速展示n_estimators设置较小，实战中请按需设置
 
  3.1.6 lightgbm回归 
  # lgb回归模型
clf = lgb.LGBMRegressor(
        learning_rate=0.01,
        max_depth=-1,
        n_estimators=10,
        boosting_type='gbdt',
        random_state=2019,
        objective='regression',
    )
# #为了快速展示n_estimators设置较小，实战中请按需设置
# 训练模型
clf.fit(
        X=train_data, y=train_target,
        eval_metric='MSE',
        verbose=50
    )

score = mean_squared_error(test_target, clf.predict(test_data))
print("lightGbm:   ", score)
 
  lightGbm:    0.906640574789251
 
  X = train_data.values
y = train_target.values
 
# LGBM
title = r"LGBMRegressor"
cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)

estimator = lgb.LGBMRegressor(
    learning_rate=0.01,
    max_depth=-1,
    n_estimators=10,
    boosting_type='gbdt',
    random_state=2019,
    objective='regression'
    )    #建模

plot_learning_curve(estimator, title, X, y, ylim=(0.4, 1.0), cv=cv, n_jobs=1)

#为了快速展示n_estimators设置较小，实战中请按需设置
 
  4.篇中总结 
  在工业蒸汽量预测上篇中，主要讲解了数据探索性分析：查看变量间相关性以及找出关键变量；数据特征工程对数据精进：异常值处理、归一化处理以及特征降维；在进行归回模型训练涉及主流ML模型：决策树、随机森林，lightgbm等。下一篇中将着重讲解模型验证、特征优化、模型融合等。

	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	target
count	2.886000e+03	2886.000000	2.886000e+03	2.886000e+03	2.886000e+03	2.886000e+03	2.886000e+03	2.886000e+03	2.886000e+03	2.886000e+03	2.886000e+03	2.886000e+03	2886.000000	2.886000e+03	2.886000e+03	2.886000e+03	2884.000000
mean	2.954440e-17	0.000000	3.200643e-17	4.924066e-18	7.139896e-17	-2.585135e-17	7.878506e-17	-5.170269e-17	-9.848132e-17	1.218706e-16	-7.016794e-17	1.181776e-16	0.000000	-3.446846e-17	-3.446846e-17	8.863319e-17	0.127274
std	3.998976e-01	0.350024	2.938631e-01	2.728023e-01	2.077128e-01	1.951842e-01	1.877104e-01	1.607670e-01	1.512707e-01	1.443772e-01	1.368790e-01	1.286192e-01	0.119330	1.149758e-01	1.133507e-01	1.019259e-01	0.983462
min	-1.071795e+00	-0.942948	-9.948314e-01	-7.103087e-01	-7.703987e-01	-5.340294e-01	-5.993766e-01	-5.870755e-01	-6.282818e-01	-4.902583e-01	-6.341045e-01	-5.906753e-01	-0.417515	-4.310613e-01	-4.170535e-01	-3.601627e-01	-3.044000
25%	-2.804085e-01	-0.261373	-2.090797e-01	-1.945196e-01	-1.315620e-01	-1.264097e-01	-1.236360e-01	-1.016452e-01	-9.662098e-02	-9.297088e-02	-8.202809e-02	-7.721868e-02	-0.071400	-7.474073e-02	-7.709743e-02	-6.603914e-02	-0.348500
50%	-1.417104e-02	-0.012772	2.112166e-02	-2.337401e-02	-5.122797e-03	-1.355336e-02	-1.747870e-04	-4.656359e-03	2.572054e-03	-1.479172e-03	7.286444e-03	-5.745946e-03	-0.004141	1.054915e-03	-1.758387e-03	-7.533392e-04	0.313000
75%	2.287306e-01	0.231772	2.069571e-01	1.657590e-01	1.281660e-01	9.993122e-02	1.272081e-01	9.657222e-02	1.002626e-01	9.059634e-02	8.833765e-02	7.148033e-02	0.067862	7.574868e-02	7.116829e-02	6.357449e-02	0.794250
max	1.597730e+00	1.382802	1.010250e+00	1.448007e+00	1.034061e+00	1.358962e+00	6.191589e-01	7.370089e-01	6.449125e-01	5.839586e-01	6.405187e-01	6.780732e-01	0.515612	4.978126e-01	4.673189e-01	4.570870e-01	2.538000

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

	V0	V1	V2	V3	V4	V6	V7	V8	V10	V12	...	V27	V29	V30	V31	V32	V33	V34	V35	V36	V37
count	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	...	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000
mean	0.694172	0.721357	0.602300	0.603139	0.523743	0.748823	0.745740	0.715607	0.348518	0.578507	...	0.881401	0.388683	0.589459	0.792709	0.628824	0.458493	0.483790	0.762873	0.332385	0.545795
std	0.144198	0.131443	0.140628	0.152462	0.106430	0.132560	0.132577	0.118105	0.134882	0.105088	...	0.128221	0.133475	0.130786	0.102976	0.155003	0.099095	0.101020	0.102037	0.127456	0.150356
min	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	...	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000
25%	0.626676	0.679416	0.514414	0.503888	0.478182	0.683324	0.696938	0.664934	0.284327	0.532892	...	0.888575	0.292445	0.550092	0.761816	0.562461	0.409037	0.454490	0.727273	0.270584	0.445647
50%	0.729488	0.752497	0.617072	0.614270	0.535866	0.774125	0.771974	0.742884	0.366469	0.591635	...	0.916015	0.375734	0.594428	0.815055	0.643056	0.454518	0.499949	0.800020	0.347056	0.539317
75%	0.790195	0.799553	0.700464	0.710474	0.585036	0.842259	0.836405	0.790835	0.432965	0.641971	...	0.932555	0.471837	0.650798	0.852229	0.719777	0.500000	0.511365	0.800020	0.414861	0.643061
max	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	...	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000

机器学习实战系列：工业蒸汽量预测

背景介绍

1.数据探索性分析

1.1 查看数据信息

1.2 可视化探索数据

1.2.2 查看变量间线性回归关系

1.2.2 查看特征变量的相关性

1.2.3 查找重要变量

2.数据特征工程

2.1数据预处理和特征处理

2.1.1 异常值分析

2.1.2 归一化处理

3.1.3 特征相关性

2.2 特征降维

2.2.1 相关性初筛

2.2.2 多重共线性分析

2.2.3 PCA处理降维

3.模型训练

3.1 回归及相关模型

3.1.1 多元线性回归模型

定义绘制模型学习曲线函数

3.1.2 KNN近邻回归

3.1.3决策树回归

3.1.4 随机森林回归

3.1.5 Gradient Boosting

3.1.6 lightgbm回归

4.篇中总结

你可能感兴趣的:(机器学习,人工智能)