镰刀韭菜

【机器学习】阿里云天池竞赛——工业蒸汽量预测（1）

机器学习经典赛题：工业蒸汽量预测（1）

1. 赛题理解
- 1.1 背景
- 1.2 目标
- 1.3 数据概览
- - 1. 数据描述
  - 2. 数据说明
- 1.4 评估指标
- 1.5 赛题模型
- - 1. 回归预测模型
  - 2. 分类预测模型
  - 3. 解题思路
2. 数据探索
- 2.1 理论知识
- - 2.1.1 变量识别
  - - 1. 输入变量与输出变量
    - 2. 数据类型
    - 3. 连续型变量与类别型变量
  - 2.1.2 变量分析
  - - 1. 单变量分析
    - 2. 双变量分析
  - 2.1.3 缺失值处理
  - - 1. 缺失值的产生原因和分类
    - 2. 缺失值的处理方法
  - 2.1.4 异常值处理
  - - 1. 异常值的产生原因和影响
    - 2. 异常值的检测
    - 3. 异常值的处理方法
  - 2.1.5 变量转换
  - - 1. 变量转换的目的
    - 2. 变量转换的方法
  - 2.1.6 新变量生成
  - - 1. 变量生成的目的
    - 2. 变量生成的方法
- 2.2 数据探索
- - 2.2.1 导入工具包
  - 2.2.2 读取数据
  - 2.2.3 查看数据
  - 2.2.4 可视化数据分布
  - 2.2.5 查看特征变量的相关性
参考资料

1. 赛题理解

1.1 背景

火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。

1.2 目标

经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别），根据锅炉的工况，预测产生的蒸汽量。

1.3 数据概览

1. 数据描述

数据下载地址：工业蒸汽量预测

2. 数据说明

数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。

利用训练数据训练出模型，预测测试数据的目标变量，排名结果依据预测结果的MSE（mean square error）。

1.4 评估指标

预测结果以均方误差MSE（Mean Squared Error）作为评判标准。计算公式如下：
$MSE=\frac{SSE}{n}=\frac{1}{n}\sum_{i=1}^n w_i(y_i-\hat{y}_i)^2$
其中 $y_i$ 是真实值， $\hat{y}_i$ 是预测值。

MSE是衡量“平均误差”的一种较为方便的方法。MSE值越小，说明预测模型描述数据具有越高的准确度。在sklearn中可以直接调用mean_squared_error函数计算MSE。调用方法如下：

from sklearn.metrics import mean_squared_error
mean_squared_error(y_test,t_predict)

1.5 赛题模型

在赛题分析中，很重要的一点就是要根据赛题的特点和目标明确问题的类型，并选择合适的模型。在机器学习中，根据问题类型的不同，常用的模型包括回归预测模型和分类预测模型

1. 回归预测模型

回归预测模型的预测结果是一个连续值域上的任意值，回归可以具有实值或离散的输入变量。我们通常把多个输入变量的回归问题称为多元回归问题，输入变量按时间排序的回归问题称为时间序列预测问题。

2. 分类预测模型

分类预测模型的分类问题要求将实例分为两个或多个类中的一个，并具有实值或离散的输入变量。其中，两个类别的问题通常被称为二类分类问题或二元分类问题，多于两个类别的问题通常被称为多类别分类问题。

3. 解题思路

在本赛题中，需要用到V0-V37共38个特征变量来预测蒸汽量的数值，数值是一个连续值域上的任意值，故此问题用回归预测算法求解。

回归预测模型使用的算法包括线性回归（Linear Regression）、岭回归（Ridge Regression）、LASSO（Least Absolute Shrinkage and Selection Operator）回归、决策树回归（Decision Tree Regression）、梯度提升树回归（Gradient Boosting Decision Tree Regressor）。
在后面的模型训练中，我们将采用这些模型来预测目标值。

2. 数据探索

2.1 理论知识

2.1.1 变量识别

变量识别就是对数据从变量类型，数据类型等方面进行分析。可以从以下方面对其进行变量识别：

1. 输入变量与输出变量

输入变量（predictor或特征）：V0~V37
输出变量（target或标签）：target

2. 数据类型

字符型数据有：这里没有字符型数据
数据值数据有：V0~V37，target

3. 连续型变量与类别型变量

连续型变量（特征）：V0~V37, target
类别型变量（特征）：无

2.1.2 变量分析

1. 单变量分析

对于连续型变量，需要统计数据的中心分布趋势和变量的分布：

Central Tendency (中心分布趋势)	Measure of Description (离散程度)	Visualization Methods (可视化方法)
Mean (均值)	Range	Histogram (直方图)
Median(中位数)	Quartile(四分位数)	Box Plot(箱型图)
Mode (众数)	IQR四分位距
Min	Variance(方差)
Max	Standard Deviation (标准差)
	Slewness and Kurtosis (偏度和丰峰度)
对于类别型变量，一般使用频次或占比表示每一个变量分布情况，对应的衡量指标分别是类别变量的频次和频率，可以用柱形图来表示可视化分布情况。

2. 双变量分析

使用双变量分析可以发现变量之间的关系。根据变量类型的不同，可以分为连续型与连续型、类别型与类别型、类别型与连续型三种双变量分析组合。
（1）连续型与连续型
绘制散点图和计算相关性是分析连续型与连续型双变量的常用方法。

绘制散点图：散点图的形状可以反映变量之间的关系是线性（linear）还是非线性（non-linear）。
计算相关性：散点图只能直观的显示双变量（特征）之间的关系，但并不能说明关系的强弱，而相关性可以对变量之间的关系进行量化分析。相关性系数的公式如下：
$\frac{Covariance(X, Y)}{\sqrt{Var(X) * Var(Y)}}$
相关性系数的取值区间为[-1,1]。当相关性系数为-1时，表示强负线性相关；当相关性系数为1时，表示强正相关；当相关性系数为0时，表示不相关。

一般来说，在取绝对值后，0-0.09为没有相关性，0.1-0.3为弱相关，0.3-0.5为中相关，0.5-0.1为强相关。
（2）类别型与类别型
对于类别型与类别型双变量，一般采用双向表、堆叠柱状图和卡方检验进行分析。

双向表：这种方法是通过建立频次（次数）和频率（占比）的双向表来分析变量之间的关系，其中行和列分别表示一个变量。暂时还没找到可以用程序生成的库，但用python画表格是可以的。或者自己用excel做
- 堆叠柱状图：这种方法比双向表更加直观
卡方检验：主要用于两个和两个以上样本率（构成比）及两个二值型离散变量的关联性分析，即比较理论频次与实际频次的吻合程度或拟合程度。
以iris数据集为例，在sklearn库中使用卡方检验筛选与目标变量相关的特征。

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
iris = load_iris()
X,y = iris.data,iris.target
ChiValues = chi2(X,y)
X_new = SelectKBest(chi2,k=2).fit_transform(X,y)
X_new

（3）类别型与连续型。在分析类别型和连续型双变量时，可以绘制小提琴图（Violin Plot），这样可以分析类别变量在不同类别时，另一个连续变量的分布情况。

小提琴图结合了箱型图和密度图的相关特征信息，可以直观、清晰地显示数据的分布，常用于展示多组数据的分布及相关的概率密度。

分布信息
小提琴图中间的黑色粗条用来显示四分位数。黑色粗条中间的白点表示中位数，粗条的顶边和底边分别表示上四分位数和下四分位数，通过边的位置所对应的y轴的数值就可以看到四分位数的值。
由黑色粗条延伸出的黑细线表示95%的置信区间。
概率密度信息
从小提琴图的外形可以看到任意位置的数据密度，实际上就是旋转了90度的密度图。小提琴图越宽，表示密度越大。可以展示出数据的多个峰值。
建议使用Seaborn包中的violinplot()函数

2.1.3 缺失值处理

1. 缺失值的产生原因和分类

缺失值的产生原因多种多样，主要分为机械原因和人为原因。

机械原因是由机械导致的数据缺失，比如数据存储的失败，机械故障导致某段时间的数据未能收集（对于定时数据采集而言）。
认为原因是由人的主观失误，历史局限或者有意隐瞒造成的数据缺失。

从缺失的分布来看，缺失值主要分为以下四类：

完全随机丢失：即对于所有的观察结果，丢失的概率是相同的。
随机丢失：即变量的值随机丢失并且丢失的概率会因其他输入变量的值或级别不同而变化。
不可预测因子导致的缺失：即数据不是随机缺失，而是受一切潜在因子的影响。
取决于自身的缺失：即发生缺失的概率受缺失值本身的影响。

2. 缺失值的处理方法

（1）删除。删除缺失值有两种方法：成列删除（List Wise Deletion）和成对删除（Pair Wise Deletion），两者区别如下：

成列删除：某一个样本有一个或多个属性有缺失值则将此样本删除
成对删除：删除对应的缺失值，保留更多的样本，不同的变量使用大小不同的样本集

（2）平均值、众数、中值填充。其首先是利用从有效数据集中识别出的关系来评估缺失值，然后用计算的该变量所有已知值得平均值或中值（定量属性）或众数（定性属性）来替换给定属性得缺失值，此方法也是最常用的方法。具体操作为一般填充和相似样本填充。

一般填充：是用该变量下所有非缺失值的平均值或中值来补全缺失值。
相似样本填充：利用具有相似特征的样本的值或者近似值进行填充。

（3）预测模型填充：即通过建立预测模型来填充缺失值。在这种情况下，会把数据集分为两份：一份是没有缺失值的，用作训练集；另一份是有缺失值的，用作测试集。这样，缺失值的变量就是预测目标，此时可以使用回归、分类等方法来完成填充。
但是这种方法预测出来的值往往更加“规范”，并且，如果变量之间不存在关系，则得到的缺失值会不准确。

2.1.4 异常值处理

通常将远远偏离整个样本总体的观测值称为异常值。

1. 异常值的产生原因和影响

异常值可能是由数据输入误差、测量误差、实验误差、有意造成异常值、数据处理误差、采样误差等因素造成的。

数据输入误差：是指在数据收集、输入过程中、人为错误产生的误差。
测量误差：这是异常值最常见的来源。
实验误差：实验误差也会导致出现异常值。
有意造成异常值：这通常发生在一些涉及敏感数据的报告中。
数据处理误差：在操作或数据提取的过程中造成的误差。
采样误差

异常值对模型和预测分析的影响主要有增加错误方差、降低模型的拟合能力；异常值的非随机分布会降低正态性；与真实值可能存在偏差；影响回归、方差分析等统计模型的基本假设。

2. 异常值的检测

一般可以采用可视化方法进行异常值的检测，常用有箱线图、直方图、散点图。

其中IQR（Interquartile Range）四分位距指的是上下四分位数的差值。上限和下限各距离上下四分位数 $1.5 * I QR$ 。
利用箱线图检测异常值的原则如下：

不在 $- 1.5 * I QR$ 和 $1.5 * I QR$ 之间的样本点认为是异常值。

还有两种方法：

使用封顶方法可以认为在第5和第95百分位数范围之外的任何值都是异常值
距离平均值为三倍标准差或者更大的数据点可以被认为是异常值

说明：由于异常值只是对有影响的特殊数据点进行检测，因此它的选择也取决于对业务的理解。

3. 异常值的处理方法

对异常值一般采用删除、转换、填充、区别对待等方法进行处理。

删除：如果是由输入误差、数据处理误差引起的异常值，或者异常值很小，则可以直接将其删除。
转换：数据转换可以消除异常值，如对数据取对数会减轻由极值引起的变化。
填充：使用平均值、中值进行填充，如果异常值是人为造成的，可用预测值填充处理
区别对待：如果存在大量的异常值，应在统计模型中区别对待。其中一个方法是将数据分为两个不同的组，异常值归为一组，非异常值归为一组，两组分别建立模型，最终将两组的输出合并。

2.1.5 变量转换

1. 变量转换的目的

在使用直方图、核密度估计等工具对特征分布进行分析时，可能会发现一些变量的取值分布不均匀，这将会极大影响估计。为此，我们需要对变量的取值区间等进行转换，使其分布落在合理的区间内。

2. 变量转换的方法

变量转换的方法主要包括缩放比例或标准化、非线性关系转换成线性、使倾斜分布对称，变量分组等。

变量转换方法	说明
缩放比例或标准化	数据具有不同的缩放比例，其不会更改变量的分布
非线性关系转换成线性	将非线性变量的关系转换为线性关系更容易理解，其中对数转换是最常用的一种转换方式
使倾斜分布对称	对于向右倾斜的分布，对变量取平方根或立方根或对数；对于向左倾斜的分布，对变量取平方根或立方或指数
变量分组	根据不同的目标把变量按不同类别分组

下面是几种常用的转换方法：
（1）对数变换：对变量取对数，可以更改变量的分布形状。其通常应用于向右倾斜的分布，缺点是不能用于含有零或负值的变量。
（2）取平方根或立方根：变量的平方根和立方根对其分布有波形的影响。取平方根可用于包括零的正值，取立方根可用于取值中有负值（包括零）的情况。
（3）变量分组：对变量进行分类，如可以基于原始值、百分比或频率等对变量分类。例如，我们可以将收入分为高、中、低三类。其可以应用于连续型数据，超高维逻辑回归就是采用这种方式产生one-hot变量特征的。

2.1.6 新变量生成

1. 变量生成的目的

变量生成是基于现有变量生成新变量的过程。生成的新变量可能与目标变量有更好的相关性，有助于进行数据分析。例如，可以将日期20xx-xx-xx变量拆分成年、月、日，也可能会发现与目标变量相关性更强的新变量。

2. 变量生成的方法

有两种生成新变量的方法：
（1）创建派生变量：指使用一组函数或不同方法从现有变量创建新变量。例如，在某个数据集中需要预测缺失的年龄值，为了预测缺失项的价值，我们可以提取名称中的称呼（Master、Mr、Mrs、Miss）作为新变量。
（2）创建哑变量：将类别型变量转换为数值型变量。例如将性别变量转换为男性和女性，1为是，0为否。

2.2 数据探索

2.2.1 导入工具包

先导入一些常用的数据处理和可视化的包：numpy、pandas、matplotlib等；另外Seaborn是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充，而不是替代物。同时它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。
Scipy是一个用于数学、科学、工程领域的常用软件包，可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵，使Numpy和Scipy协同工作，高效解决问题。
Scipy是由针对特定任务的子模块组成:

模块名	应用领域
scipy.cluster	向量计算/Kmeans
scipy.constants	物理和数学常量
scipy.fftpack	傅立叶变换
scipy.integrate	积分程序
scipy.interpolate	插值
scipy.io	数据输入输出
scipy.linalg	线性代数程序
scipy.ndimage	n维图像包
scipy.odr	正交距离回归
scipy.optimize	优化
scipy.signal	信号处理
scipy.sparse	稀疏矩阵
scipy.spatial	空间数据结构和算法
scipy.special	一些特殊的数学函数
scipy.stats	统计

warnings.filterwarnings(“ignore”)可以帮助过滤掉一些不必要的异常.
%matplotlib inline 是一个魔法函数，加上之后不用plt.show()也可以显示图像

## 导入工具包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#%%
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

2.2.2 读取数据

使用Pandas的read_csv()函数进行数据读取，由于读取的是文本文件（.txt），因此需要设置分隔符’\t’。

train_data_file='../data/zhengqi_train.txt'
test_data_file='../data/zhengqi_test.txt'

train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')

2.2.3 查看数据

首先，使用data.info()函数查看数据集的基本信息。

# 查看数据
train_data.info()

发现：①训练数据集中有2888个样本，数据中有V0~V37共38个特征变量，变量类型都为数值型，所有数据特征没有缺失值。②数据字段采用了脱敏处理，删除了特征数据的具体含义。③target字段为标签变量。

①测试数据集共有1925个样本，特征数目和结构基本与训练数据集相同。②测试集中没有target字段（标签变量），这是需要进行预测的。

然后，查看训练集和测试集的统计信息：

上面的结果中显示了数据的统计信息，如样本数、数据的均值（mean）、标准差（std）、最小值、最大值等。

之后，查看训练集和测试集的字段信息：

使用data.head()查看了前5条数据，可以看到数据都是浮点型，变量为数值型和连续型。

2.2.4 可视化数据分布

这里主要用seaborn和matplotlib搭配使用来做数据可视化。

箱型图
这里画出了38个特征变量V0~V37的箱形图，上面异常值处理的箱线图是竖立摆放，这里是横放，但原理一致：

columns = train_data.columns.tolist()[:39]  # 列表头
fig = plt.figure(figsize=(80,60), dpi=75)
for i in range(38):
    plt.subplot(7,8,i+1) #7行8列的第i个子图
    sns.boxplot(train_data[columns[i]], orient="h", width=0.5)  # 箱式图
    plt.ylabel(columns[i], fontsize=36)

从图中发现数据存在许多偏离较大的异常，可以考虑移除。

获取异常数据并画图
此方法是采用模型预测的形式找出异常值，在完成模型训练和验证的理论讲解后，再介绍此部分
获取异常数据的函数：

from sklearn.metrics import mean_squared_error


# 获取异常数据的函数
def fine_outliers(model, X, y, sigma=3):
    # predict y values using model
    try:
        y_pred = pd.Series(model.predict(X), index=y.index)
    # if predicting fails, try fitting the model first
    except:
        model.fit(X, y)
        y_pred = pd.Series(model.predict(X), index=y.index)

    # calculate residuals between the model prediction and true y values
    resid = y - y_pred
    mean_resid = resid.mean()
    std_resid = resid.std()

    # calculate z statistic, define outliers to be where |z|>sigma
    z = (resid - mean_resid) / std_resid
    outliers = z[abs(z) > sigma].index

    # print and plot the results
    print('R2=', model.score(X, y))
    print('mse=', mean_squared_error(y, y_pred))
    print('------------------------------------------------')

    print('mean of residuals:', mean_resid)
    print('std of residuals:', std_resid)
    print('------------------------------------------------')

    print(len(outliers), 'outliers:')
    print(outliers.tolist())

    plt.figure(figsize=(15, 5))
    ax_131 = plt.subplot(1, 3, 1)
    plt.plot(y, y_pred, '.')
    plt.plot(y.loc[outliers], y_pred.loc[outliers], 'ro')
    plt.legend(['Accepted', 'Outlier'])
    plt.xlabel('y')
    plt.ylabel('y_pred');

    ax_132 = plt.subplot(1, 3, 2)
    plt.plot(y, y - y_pred, '.')
    plt.plot(y.loc[outliers], y.loc[outliers] - y_pred.loc[outliers], 'ro')
    plt.legend(['Accepted', 'Outliers'])
    plt.xlabel('y')
    plt.ylabel('y-y_pred');

    ax_133 = plt.subplot(1, 3, 3)
    z.plot.hist(bins=50, ax=ax_133)
    z.loc[outliers].plot.hist(color='r', bins=50, ax=ax_133)
    plt.legend(['Accepted', 'Outlier'])
    plt.xlabel('z')

    plt.savefig('../output/outliers.png')
    return outliers

这里通过岭回归模型找出异常值，并绘制其分布，代码如下：

from sklearn.linear_model import Ridge
X_train = train_data.iloc[:,0:-1]
y_train = train_data.iloc[:,-1]
outliers = fine_outliers(Ridge(), X_train, y_train)

直方图和Q-Q图
Q-Q图是指数据的分位数和正态分布的分位数对比参照的图，如果数据符合正态分布，则所有的点都会落在直线上。

首先，通过绘制特征变量V0的直方图查看其在训练集中的统计分布，并绘制Q-Q图查看V0的分布是否近似于正态分布。

from scipy import stats

plt.figure(figsize=(10, 5))

ax = plt.subplot(1, 2, 1)
sns.distplot(train_data.V0, fit=stats.norm)
ax = plt.subplot(1, 2, 2)
res = stats.probplot(train_data.V0, plot=plt)

可以看到，训练数据集中特征变量V0的分布不是正态分布。

然后，绘制训练数据集中所有变量的直方图和Q-Q图.

train_cols = 6
train_rows = len(train_data.columns)
plt.figure(figsize=(4 * train_cols, 4 * train_rows))

i = 0
for col in train_data.columns:
    i += 1
    ax = plt.subplot(train_rows, train_cols, i)
    sns.distplot(train_data[col], fit=stats.norm)

    i += 1
    ax = plt.subplot(train_rows, train_cols, i)
    res = stats.probplot(train_data[col], plot=plt)

plt.tight_layout()
plt.show()

从数据分布图中可以发现，很多特征变量（例如V1,V9,V24,V28等）的数据分布不是正态的，数据并不跟随对角线分布，后续可以使用数据变量对其进行处理。

KDF分布图
KDE（Kernel Density Estimation，核密度估计）可以理解为对直方图的加窗平滑。通过绘制KDE分布图，可以查看并对比训练集和测试集中特征变量的分布情况，发现两个数据集中分布不一致的特征变量。

首先对比同一特征变量V0在训练集和测试集中的分布情况，并查看数据分布是否一致。

plt.figure(figsize=(8, 4), dpi=150)
ax = sns.kdeplot(train_data['V0'], color='Red', shade=True)
ax = sns.kdeplot(test_data['V0'], color='Blue', shade=True)
ax.set_xlabel('V0')
ax.set_ylabel('Frequency')
ax = ax.legend(['train', 'test'])

可以看到，V0在两个数据集中的分布基本一致。

然后，对比所有变量在训练集和测试集中的KDE分布：

dist_cols = 6
dist_rows = len(test_data.columns)
plt.figure(figsize=(4 * dist_cols, 4 * dist_rows))

i=1
for col in test_data.columns:
    ax = plt.subplot(dist_rows, dist_cols, i)
    ax = sns.kdeplot(train_data[col], color='Red', shade=True)
    ax = sns.kdeplot(test_data[col], color='Blue', shade=True)
    ax.set_xlabel(col)
    ax.set_ylabel('Frequency')
    ax = ax.legend(['train', 'test'])
    i += 1

plt.show()

从图中发现，特征变量V5,V9,V11,V17,V22,V28在训练集和测试集中的分布不一致，这会导致模型的泛化能力变差，需要删除此类特征。

线性回归图
线性回归关系图主要用于分析变量之间的线性回归关系。首先查看特征变量V0与target变量的线性回归关系。

fcols = 2
frows = 1
plt.figure(figsize=(8, 4), dpi=150)

ax = plt.subplot(1, 2, 1)
sns.regplot(x='V0', y='target', data=train_data, ax=ax, scatter_kws={'marker':'.','s':3,'alpha':0.3}, line_kws={'color':'k'});
plt.xlabel('V0')
plt.ylabel('target')

ax = plt.subplot(1,2,2)
sns.distplot(train_data['V0'].dropna())
plt.xlabel('V0')

plt.show()

然后，查看所有特征变量与target变量的线性回归关系。

plt.show()
#%%
fcols=6
frows=len(test_data.columns)
plt.figure(figsize=(5*fcols, 4*frows))

i=0
for col in test_data.columns:
    i+=1
    ax = plt.subplot(frows, fcols, i)
    sns.regplot(x=col, y='target', data=train_data, ax=ax, scatter_kws={'marker':'.','s':3,'alpha':0.3}, line_kws={'color':'k'});
    plt.xlabel(col)
    plt.ylabel('target')
    i+=1

    ax = plt.subplot(frows, fcols, i)
    sns.distplot(train_data[col].dropna())
    plt.xlabel(col)

2.2.5 查看特征变量的相关性

对特征变量的相关性进行分析，可以发现特征变量和目标变量及特征变量之间的关系，为在特征工程中提取特征做准备。

计算相关性系数
在删除训练集和测试集中分布不一致的变量后，计算剩余变量与target之间的相关性系数。

pd.set_option('display.max_columns', 10)
pd.set_option('display.max_rows', 10)

data_train1 = train_data.drop(['V5','V9','V11','V17','V22','V28'], axis=1)
train_corr = data_train1.corr()
train_corr

画出相关性热力图
为了便于分析，将相关系数的结果以热力图的形式显示

ax = plt.subplots(figsize=(20, 16))  # 调整画布大小
ax = sns.heatmap(train_corr, vmax=.8, square=True, annot=True)  #画热力图   annot=True 显示系数

结果中可以看出各个特征变量（V0~V37）之间的相关性以及它们与target变量的相关性。

根据相关系数筛选特征变量
首先寻找K个与target变量最相关的特征变量（K=10）：

k = 10  # number of variables for heatmap
cols = train_corr.nlargest(k, 'target')['target'].index

cm = np.corrcoef(train_data[cols].values.T)
hm = plt.subplots(figsize=(10, 10))  # 调整画布大小
hm = sns.heatmap(train_data[cols].corr(), annot=True, square=True)
plt.show()

然后，找出与target变量的相关系数大于0.5的特征变量

threshold = 0.5

corrmat = train_data.corr()
top_corr_features = corrmat.index[abs(corrmat["target"]) > threshold]
plt.figure(figsize=(10, 10))
g = sns.heatmap(train_data[top_corr_features].corr(), annot=True, cmap="RdYlGn")

可以发现，与target变量的相关系数大于0.5的特征变量都被直观地筛选出来。该方法可以简单直观地判断哪些特征变量线性相关，相关系数越大，就认为这些变量对target变量的线性影响越大。

说明：相关性选择主要用于判别线性相关，对于target变量如果存在更复杂的函数形式的影响，则建议使用树模型的特征重要性去选择。

用相关系数阈值移除相关特征：

threshold = 0.5
# Absolute value correlation matrix
corr_matrix = data_train1.corr().abs()
drop_col = corr_matrix[corr_matrix["target"] < threshold].index
#data_all.drop(drop_col, axis=1, inplace=True) # 这里暂不删除，后续分析还会用到

Box-Cox变换
由于线性回归是基于正态分布的，因此在进行统计分析时，需要将数据转换使其符合正态分布。

Box-Cox变换是统计建模中常用的一种数据转换方法。在连续的响应变量不满足正态分布时，可以使用Box-Cox变换，这一变换可以使线性回归模型在满足线性、正态性、独立性以及方差齐性的同时，又不丢失信息。在对数据做Box-Cox变换之后，可以在一定程度上减少不可观测的误差和预测变量的相关性，这有利于线性模型的拟合及分析出特征的相关性。

在做Box-Cox变换之前，需要对数据做归一化预处理。在归一化时，对数据进行合并操作可以使训练数据和测试数据一致。这种方式可以在线下分析建模中使用，而线上部署只需采用训练数据的归一化即可。

drop_columns = ['V5','V9','V11','V17','V22','V28']

# 合并训练集和测试集的数据
train_x =  train_data.drop(['target'], axis=1)

#data_all=pd.concat([train_data,test_data],axis=0,ignore_index=True)
data_all = pd.concat([train_x,test_data])

data_all.drop(drop_columns, axis=1, inplace=True)
data_all.head()

对合并后的每列数据进行归一化：

cols_numeric = list(data_all.columns)


def scale_minmax(col):
    return (col - col.min()) / (col.max() - col.min())


data_all[cols_numeric] = data_all[cols_numeric].apply(scale_minmax, axis=0)
data_all[cols_numeric].describe()

也可以分开对训练数据和测试数据进行归一化处理，不过这种方式需要建立在训练数据和测试数据分布一致的前提下，建议在数据量大的情况下使用（数据量大，一般分布比较一致），能加快归一化的速度。而数据量较小会存在分布差异较大的情况，此时，在数据分析和线下建模中应该将数据统一归一化。

train_data_process = train_data[cols_numeric]
train_data_process = train_data_process[cols_numeric].apply(scale_minmax, axis=0)

test_data_process = test_data[cols_numeric]
test_data_process = test_data_process[cols_numeric].apply(scale_minmax, axis=0)

对特征变量做Box-Cox变换后，计算分位数并画图展示（基于正态分布），显示特征变量与target变量的线性关系。代码如下：

# 这里是将特征分为两部分，前13个为第一部分
cols_numeric_left = cols_numeric[0:13]
cols_numeric_right = cols_numeric[13:]

## Check effect of Box-Cox transforms on distributions of continuous variables
train_data_process = pd.concat([train_data_process, train_data['target']], axis=1)

fcols = 6
frows = len(cols_numeric_left)
plt.figure(figsize=(4 * fcols, 4 * frows))
i = 0

for var in cols_numeric_left:
    dat = train_data_process[[var, 'target']].dropna()

    i += 1
    plt.subplot(frows, fcols, i)
    sns.distplot(dat[var], fit=stats.norm);
    plt.title(var + ' Original')
    plt.xlabel('')

    i += 1
    plt.subplot(frows, fcols, i)
    _ = stats.probplot(dat[var], plot=plt)
    plt.title('skew=' + '{:.4f}'.format(stats.skew(dat[var])))  #计算数据集的偏度
    plt.xlabel('')
    plt.ylabel('')

    i += 1
    plt.subplot(frows, fcols, i)
    plt.plot(dat[var], dat['target'], '.', alpha=0.5)
    plt.title('corr=' + '{:.2f}'.format(np.corrcoef(dat[var], dat['target'])[0][1]))

    i += 1
    plt.subplot(frows, fcols, i)
    trans_var, lambda_var = stats.boxcox(dat[var].dropna() + 1)
    trans_var = scale_minmax(trans_var)  # 数据归一化
    sns.distplot(trans_var, fit=stats.norm);
    plt.title(var + ' Transformed')
    plt.xlabel('')

    i += 1
    plt.subplot(frows, fcols, i)
    _ = stats.probplot(trans_var, plot=plt)
    plt.title('skew=' + '{:.4f}'.format(stats.skew(trans_var)))  #归一化后，偏度明显变小，相关性变化不大
    plt.xlabel('')
    plt.ylabel('')

    i += 1
    plt.subplot(frows, fcols, i)
    plt.plot(trans_var, dat['target'], '.', alpha=0.5)
    plt.title('corr=' + '{:.2f}'.format(np.corrcoef(trans_var, dat['target'])[0][1]))

可以发现，经过变换后，变量分布更接近正态分布，而且从图中可以更加直观地看出特征变量与target变量的线性相关性。

参考资料

《阿里云天池大赛赛题解析——机器学习篇》
Python机器学习及分析工具:Scipy篇
数据归一化 minmax_scale()函数解析

你可能感兴趣的:(机器学习竞赛,机器学习,相关性计算,数据可视化,KDE分布图,Box-Cox变换)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
运城寻访重逢石头纪实【严建设老照片395 集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执... 严建设
运城寻访重逢石头纪实【严建设老照片395集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执拗。说什么变换的世情，泛起了过去的逝流，你就是真正的故友。踏破铁鞋的淡愁，已化为不废功夫的范畴，是就像远在天涯近在咫尺，就像是梦乡的邂逅，我紧紧地攥着你的手。你已长成了高高的个头，俊逸的容颜却很清瘦，你那样顽皮的童音，已变到老
398顺境，逆境戴骁勇
2018.11.27周二雾霾最近儿子进入了一段顺境期，今天表现尤其不错。今天的数学测试成绩喜人，没有出现以往的计算错误，整个卷面书写工整，附加题也在规定时间内完成且做对。为迎接体育测试的锻炼有了质的飞跃。坐位体前屈成绩突飞猛进，估测成绩能达到12cm，这和上次测试的零分来比，简直是逆袭。儿子还在不断锻炼和提升，唯恐到时候掉链子。跑步姿势在我的调教下，逐渐正规起来，速度随之也有了提升。今晚测试的50
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Shell、Bash、Zsh这都是啥啊小白码上飞 bash linux 开发语言
Zsh和Bash都是我们常用的Shell，那先搞明白啥是shell吧。Shell作为一个单词，他是“壳”的意思，蛋壳坚果壳。之所以叫壳，是为了和计算机的“核”来区分，用它表示“为使用者提供的操作界面”。所以这个命名其实很形象，翻译成中文，直译过来叫“壳层”。个人认为这个叫法很奇怪，意译貌似也没有什么好的词汇来匹配。就还是叫shell吧。维基百科给的定义是：Incomputing,ashellisa
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
4 大低成本娱乐方式: 小说, 音乐, 视频, 电子游戏穷人小水滴娱乐音视频低成本小说游戏
穷人如何获得快乐?小说,音乐,视频,游戏,本文简单盘点一下这4大低成本(安全)娱乐方式.这里是穷人小水滴,专注于穷人友好型低成本技术.(本文为58号作品.)目录1娱乐方式1.1小说(网络小说)1.2音乐1.3视频(b站)1.4游戏(电子游戏/计算机软件)2低成本:一只手机即可3总结与展望1娱乐方式这几种,也可以说是艺术的具体形式.更专业的说,(娱乐)是劳动力再生产的重要组成部分.使人放松,获得快乐
计算机网络八股总结 Petrichorzncu 八股总结计算机网络笔记
这里写目录标题网络模型划分（五层和七层）及每一层的功能五层网络模型七层网络模型（OSI模型）==三次握手和四次挥手具体过程及原因==三次握手四次挥手TCP/IP协议组成==UDP协议与TCP/IP协议的区别==Http协议相关知识网络地址，子网掩码等相关计算网络模型划分（五层和七层）及每一层的功能五层网络模型应用层：负责处理网络应用程序，如电子邮件、文件传输和网页浏览。主要协议包括HTTP、FTP
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理