qq_36227329

数据处理之特征选择知识

文章目录

前言
1.什么是特征工程？
2.数据预处理

2.1无量纲化（数据规范化）

2.1.1标准化（也叫Z-score standardization）
2.1.2区间缩放（对列向量处理）
2.1.3归一化（对行向量处理）

2.2对定量特征二值化
2.3对定性特征哑编码
2.4缺失值计算
2.5数据变换

2.5.1多项式变换
2.5.2自定义变换

总结

3.特征选择

3.1Filter

3.1.1方差选择法
3.1.2单变量特征选择

3.1.2.1卡方检验
3.1.2.2Pearson相关系数

3.1.3互信息与最大信息系数
3.1.4距离相关系数

3.2Wrappper

3.2.1递归特征消除发

3.3Embedded

3.3.1基于惩罚项的特征选择法
3.3.2基于树模型的特征选择法

总结

4.降维

4.1主成分分析法（PAC）
4.2线性判别分析法（LDA）
总结

前言

做特征工程是Kaggle比赛中很重要的一部分，而sklearn是做特征工程（做模型调算法）常用也是好用的工具没有之一

1.什么是特征工程？

有这么一句话在业界广泛流传，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是大限度地从原始数据中提取特征以供算法和模型使用。

特征工程主要分为三部分：

数据预处理对应的sklearn包：sklearn-Processing data
特征选择对应的sklearn包： sklearn-Feature selection
降维对应的sklearn包： sklearn-Dimensionality reduction

本文中使用sklearn中的IRIS（鸢尾花）数据集来对特征处理功能进行说明，首先导入IRIS数据集的代码如下：

1 from sklearn.datasets import load_iris 
2  
3 #导入IRIS数据集 
4 iris = load_iris() 
5  
6 #特征矩阵 
7 iris.data 
8  
9 #目标向量 
10 iris.target

2.数据预处理

通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：

不属于同一量纲：即特征的规格不一样，不能够放在一起比较。无量纲化可以解决这一问题。
信息冗余：对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。
定性特征不能直接使用：通常使用哑编码的方式将定性特征转换为定量特征，假设有N种定性值，则将这一个特征扩展为N种特征，当原始特征值为第i种定性值时，第i个扩展特征赋值为1，其他扩展特征赋值为0。哑编码的方式相比直接指定的方式，不用增加调参的工作，对于线性模型来说，使用哑编码后的特征可达到非线性的效果。
存在缺失值：填充缺失值。
信息利用率低：不同的机器学习算法和模型对数据中信息的利用是不同的，之前提到在线性模型中，使用对定性特征哑编码可以达到非线性的效果。类似地，对定量变量多项式化，或者进行其他的数据变换，都能达到非线性的效果。

2.1无量纲化（数据规范化）

无量纲化使不同规格的数据转换到同一规格

from sklearn.preprocessing import StandardScaler
#标准化，返回值为标准化后的数据 
StandardScaler().fit_transform(iris.data)

#array([[ -9.00681170e-01,   1.03205722e+00,  -1.34127240e+00, 
#         -1.31297673e+00], 
#       [ -1.14301691e+00,  -1.24957601e-01,  -1.34127240e+00, 
#         -1.31297673e+00], 
#   ...

# --- 例子就是如下，他是对列也就是同一特征下进行缩放，而不是对一个数据的不同特征之间(行)进行缩放 --
from sklearn.preprocessing import StandardScaler 
data = np.array([[1,2],[3,4],[5,6]]).reshape(3,2) 
print(data) 
# [[1 2] 
# [3 4] 
# [5 6]] 
print (np.mean(data,axis=0) ) 
# 计算每一列均值  [ 3.  4.] 
print ( np.std(data,axis=0))   # 计算每一列标准差  [ 1.63299316  1.63299316] 
print ((data[0][0]-np.mean(data,axis=0)[0])/np.std(data,axis=0)[0] ) # 计算第一个元素的标准化后的值   -1.22474487139

#区间缩放，返回值为缩放到[0, 1]区间的数据 
StandardScaler().fit_transform(data)

# array([[-1.22474487, -1.22474487], 
#       [ 0.        ,  0.        ], 
#       [ 1.22474487,  1.22474487]])

2.1.1标准化（也叫Z-score standardization）

将服从正态分布的特征值转换成标准正态分布，标准化需要计算特征的均值和标准差，公式表达为： $x'=\frac{x-\bar{X}}{S}$

使用preproccessing库的StandardScaler类对数据进行标准化的代码如下：

1 from sklearn.preprocessing import StandardScaler 
2 
3 #标准化，返回值为标准化后的数据 
4 StandardScaler().fit_transform(iris.data)

2.1.2区间缩放（对列向量处理）

区间缩放法的思路有多种，常见的一种为利用两个值进行缩放，公式表达为： $x'=\frac{x-Min}{Max-Min}$
使用preproccessing库的MinMaxScaler类对数据进行区间缩放的代码如下：

1 from sklearn.preprocessing import MinMaxScaler 
2 
3 #区间缩放，返回值为缩放到[0, 1]区间的数据 
4 MinMaxScaler().fit_transform(iris.data)

# --- 例子就是如下，他是对列也就是同一特征下进行缩放，而不是对一个数据的不同特征之间(行)进行缩放 --
from sklearn.preprocessing import MinMaxScaler 
data = np.array([[1,2],[3,4],[5,6]]).reshape(3,2) 
print (data) 
# [[1 2] 
# [3 4] 
# [5 6]]
# 区间缩放，返回值为缩放到[0, 1]区间的数据 
MinMaxScaler().fit_transform(data) 
#array([[ 0. ,  0. ], 
#       [ 0.5,  0.5], 
#       [ 1. ,  1. ]])

在什么时候使用标准化比较好，什么时候区间缩放比较好呢?

在后续的分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA、LDA这些需要用到协方差分析进行降维的时候，同时数据分布可以近似为正态分布，标准化方法(Z-score standardization)表现更好。（标准化好一点）
在不涉及距离度量、协方差计算、数据不符合正态分布的时候，可以使用区间缩放法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。（归一化好点）

2.1.3归一化（对行向量处理）

归一化目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。
规则为l2的归一化公式如下： $x'=\frac{x}{\sqrt{\sum_j^m}x[j]^{2}}$

使用preproccessing库的Normalizer类对数据进行归一化的代码如下：

1 from sklearn.preprocessing import Normalizer 
2 
3 #归一化，返回值为归一化后的数据 
4 Normalizer().fit_transform(iris.data)

# --- 例子就是如下，他是对一行数据的不同特征进行处理 --
from sklearn.preprocessing import Normalizer 
import math 
data = np.array([[1,2],[3,4],[5,6]]).reshape(3,2) 
print （data） 
# [[1 2] 
# [3 4] 
# [5 6]]
print (data[0][0]/math.sqrt((data[0][0])**2 + (data[0][1])**2))  
# 计算第一个元素L2正则化后的值   0.4472135955

# 规范化 
Normalizer().fit_transform(data)

array([[ 0.4472136 ,  0.89442719],
       [ 0.6       ,  0.8       ],
       [ 0.6401844 ,  0.76822128]])

这里比较搞混的一点是StandardScaler和Normalizer这个两个概念的问题(大家翻译上的误差导致信息非常混乱)，其实StandardScaler就是尺寸缩放问题，即使同一特征下的数值在一定范围内浮动，如将数值所放在0-1范围内 (MinMaxScaler), 或者将数据标准化成为均值为0，方差为1的数据(Z-score)；而另一个就是Normalizer，将同一行数据的不同特征进行规范化，这样一个数据的不同特征具有相同的量纲或者表现力，比如说一个特征是身高，1.7m，体重为150斤，那么两个特征之间差距太大，身高这个特征变化根本无法起到决定作用(在体重这个变化特征下)，毕竟大家怎么长都是一米多，但是体重差距一下子拉开20多是很正常的事

2.2对定量特征二值化

定性与定量区别
定性：博主很胖，博主很瘦
定量：博主有80kg，博主有60kg
一般定性都会有相关的描述词，定量的描述都是可以用数字来量化处理

定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0，公式表达如下：
$x'=\begin{cases}1 & x > threshold\\0 & x \leq threshold\end{cases}$

使用preproccessing库的Binarizer类对数据进行二值化的代码如下：

1 from sklearn.preprocessing import Binarizer
2
3 #二值化，阈值设置为3，返回值为二值化后的数据 
4 Binarizer(threshold=3).fit_transform(iris.data)

2.3对定性特征哑编码

因为有些特征是用文字分类表达的，或者说将这些类转化为数字，但是数字与数字之间是没有大小关系的，纯粹的分类标记，这时候就需要用哑编码对其进行编码。IRIS数据集的特征皆为定量特征，使用其目标值进行哑编码（实际上是不需要的）。
使用preproccessing库的OneHotEncoder类对数据进行哑编码的代码如下：

1 from sklearn.preprocessing import OneHotEncoder 
2 
3 #哑编码，对IRIS数据集的目标值，返回值为哑编码后的数据 
4 OneHotEncoder().fit_transform(iris.target.reshape((-1,1)))

补充：但是从以一个角度来看，如果标签需要被量化，这个就很有用了, 如下图所示，将target这个标签转化成为数值才能进行机器学习

2.4缺失值计算

由于IRIS数据集没有缺失值，故对数据集新增一个样本，4个特征均赋值为NaN，表示数据缺失。使用preproccessing库的Imputer类对数据进行缺失值计算的代码如下：

import numpy as np from sklearn.preprocessing 
import Imputer 
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)  
# 使用特征的均值进行填充，其余还有 使用众数填充等,只需要把mean改成median即可 
data = np.array([np.nan, 2, 6, np.nan, 7, 6]).reshape(3,2)

print (data) 
#   [[ nan   2.] 
#    [  6.  nan] 
#    [  7.   6.]]

print (imp.fit_transform(data)) 
#   [[ 6.5  2. ] 
#    [ 6.   4. ] 
#   [ 7.   6. ]]

2.5数据变换

2.5.1多项式变换

常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。4个特征，度为2的多项式转换公式如下： $x_{1}',x_{2}',x_{3}',x_{4}',x_{5}',x_{6}',x_{7}',x_{8}',x_{9}',x_{10}',x_{11}',x_{12}',x_{12}',x_{14}',x_{15}')=$ $1,x_{1},x_{2},x_{3},x_{4},x_{1}^{2},x_{1}*x_{2},x_{1}*x_{3}，x_{1}*x_{4}，x_{2}^{2},x_{2}*x_{3},x_{2}*x_{4}，x_{3}^{2},x_{3}*x_{4}，x_{4}^{2})$
使用preproccessing库的PolynomialFeatures类对数据进行多项式转换的代码如下：

1 from sklearn.preprocessing import PolynomialFeatures 
2 
3 #多项式转换 
4 #参数degree为度，默认值为2 
5 PolynomialFeatures().fit_transform(iris.data)

2.5.2自定义变换

基于单变元函数的数据变换可以使用一个统一的方式完成，使用preproccessing库的FunctionTransformer对数据进行对数函数转换的代码如下：

1 from numpy import log1p 
2 from sklearn.preprocessing 
import FunctionTransformer 
3 
4 #自定义转换函数为对数函数的数据变换 
5 #第一个参数是单变元函数 
6 FunctionTransformer(log1p).fit_transform(iris.data)

总结

类	功能	说明
StandardScaler	无量纲化	标准化，基于特征矩阵的列，将特征值转换至服从标准正态分布
MinMaxScaler	无量纲化	区间缩放，基于大小值，将特征值转换到[0, 1]区间上
Normalizer	归一化	基于特征矩阵的行，将样本向量转换为“单位向量”
Binarizer	二值化	基于给定阈值，将定量特征按阈值划分
OneHotEncoder	哑编码	将定性数据编码为定量数据
Imputer	缺失值计算	计算缺失值，缺失值可填充为均值等
PolynomialFeatures	多项式数据转换	多项式数据转换
FunctionTransformer	自定义单元数据转换	使用单元的函数来转换数据

3.特征选择

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除方差法外，本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种：

Filter：过滤法，不用考虑后续学习器，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
Wrapper：包装法，需考虑后续学习器，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。
Embedded：嵌入法，是Filter与Wrapper方法的结合。先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。

我们使用sklearn中的feature_selection库来进行特征选择。

3.1Filter

3.1.1方差选择法

使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。使用feature_selection库的 VarianceThreshold类来选择特征的代码如下：

1 from sklearn.feature_selection import VarianceThreshold 
2 
3 #方差选择法，返回值为特征选择后的数据 
4 #参数threshold为方差的阈值 
5 VarianceThreshold(threshold=3).fit_transform(iris.data)

3.1.2单变量特征选择

单变量特征选择能够对每一个特征进行测试，衡量该特征和目标变量之间的关系，根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。
方法简单，易于运行，易于理解，通常对于理解数据有较好的效果（但对特征优化、提高泛化能力来说不一定有效）；这种方法有许多改进的版本、变种。

3.1.2.1卡方检验

（chi2卡方检验）使用分类问题（y离散）

经典的卡方检验(原理及应用)是检验定性自变量对定性因变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距，构建统计量，其中A为实际数，E为理论值： $x^{2}=\sum\frac{(A-E)^{2}}{E}$
检验特征对标签的相关性，选择其中K个与标签相关的特征。使用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下：（这个就是自变量与因变量的相关性的取值，看到k的取值）

1 from sklearn.feature_selection import SelectKBest 
2 from sklearn.feature_selection import chi2 
3 
4 #选择K个好的特征，返回选择特征后的数据 
5 SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

# --- 例子 --
from sklearn.datasets import load_iris 
from sklearn.feature_selection import SelectKBest 
from sklearn.feature_selection import chi2 
iris = load_iris() 
X, y = iris.data, iris.target 
X.shape 
#(150, 4) 
X_new = SelectKBest(chi2, k=2).fit_transform(X, y) 
X_new.shape 
#(150, 2)  直接砍掉了两个特征

3.1.2.2Pearson相关系数

适用于回归问题（y连续值）

皮尔森相关系数是一种简单的，能帮助理解特征和目标变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]，-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关。
Pearson Correlation速度快、易于计算，经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。Scipy的 pearsonr 方法能够同时计算相关系数和p-value。

import numpy as np from scipy.stats 
import pearsonr 
np.random.seed(0) 
size = 300 
x = np.random.normal(0, 1, size) 
# pearsonr(x, y)的输入为特征矩阵和目标向量 
# np.random.normal(0, 1, 100) 创建100个均值为0，方差为1的高斯随机数 
print("Lower noise", pearsonr(x, x + np.random.normal(0, 1, size))) 
print("Higher noise", pearsonr(x, x + np.random.normal(0, 10, size)))

# 输出为二元组(sorce, p-value)的数组 
Lower noise (0.71824836862138386, 7.3240173129992273e-49) 
Higher noise (0.057964292079338148, 0.31700993885324746)

3.1.3互信息与最大信息系数

经典的互信息（互信息为随机变量X与Y之间的互信息I(X;Y)I(X;Y)为单个事件之间互信息的数学期望）也是评价定性自变量对定性因变量的相关性的，互信息计算公式如下：
$I(X,Y)=\int_{X}^{} \int_{Y}^{} P(X,Y)\log_{}{\frac{P(X,Y)}{P(X)P(Y)}}$
互信息直接用于特征选择其实不是太方便：

它不属于度量方式，也没有办法归一化，在不同数据及上的结果无法做比较
对于连续变量的计算不是很方便（X和Y都是集合，x，y都是离散的取值），通常变量需要先离散化，而互信息的结果对离散化的方式很敏感

大信息系数克服了这两个问题。它首先寻找一种优的离散化方式，然后把互信息取值转换成一种度量方式，取值区间在[0，1]。minepy 提供了MIC功能。
反过头来看 y=x^2 这个例子，MIC算出来的互信息值为1(大的取值)。
为了处理定量数据，大信息系数法被提出，使用feature_selection库的SelectKBest类结合大信息系数法来选择特征的代码如下：

from sklearn.feature_selection 
import SelectKBest from minepy 
import MINE

#由于MINE的设计不是函数式的，定义mic方法将其为函数式的，返回一个二元组，二元组的第2项设置成固定的P值0.5 
def mic(x, y):    
	m = MINE()    
	m.compute_score(x, y)    
	return (m.mic(), 0.5)
#选择K个好的特征，返回特征选择后的数据 
SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, 
k=2).fit_transform(iris.data, iris.target)

# --- 例子 --
from minepy 
import MINE 
m = MINE() 
x = np.random.uniform(-1, 1, 10000) 
m.compute_score(x, x**2) 
print(m.mic()) 
# 1.0

3.1.4距离相关系数

距离相关系数是为了克服Pearson相关系数的弱点而生的。在x和x^2这个例子中，即便Pearson相关系数是0，我们也不能断定这两个变量是独立的（有可能是非线性相关）；但如果距离相关系数是0，那么我们就可以说这两个变量是独立的。
R的 energy 包里提供了距离相关系数的实现，另外这是 Python gist 的实现。

> x = runif (1000, -1, 1) 
> dcor(x, x**2) 
[1] 0.4943864

尽管有 MIC 和距离相关系数在了，但当变量之间的关系接近线性相关的时候，Pearson相关系数仍然是不可替代的

第一，Pearson相关系数计算速度快，这在处理大规模数据的时候很重要。
第二，Pearson相关系数的取值区间是[-1，1]，而MIC和距离相关系数都是[0，1]。这个特点使得Pearson相关系数能够表征更丰富的关系，符号表示关系的正负，绝对值能够表示强度。当然，Pearson相关性有效的前提是两个变量的变化关系是单调的。

3.2Wrappper

包装法主要思想是：根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。
也可以将特征子集的选择看作是一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他的组合进行比较。
这样就将子集的选择看作是一个是一个优化问题，这里有很多的优化算法可以解决，尤其是一些启发式的优化算法，如GA，PSO，DE，ABC等，详见“优化算法—人工蜂群算法(ABC)”，“优化算法—粒子群算法(PSO)”。

3.2.1递归特征消除发

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。使用feature_selection库的RFE类来选择特征的代码如下：

1 from sklearn.feature_selection import RFE 
2 from sklearn.linear_model import LogisticRegression 
3 
4 #递归特征消除法，返回特征选择后的数据 
5 #参数estimator为基模型
6 #参数n_features_to_select为选择的特征个数 
7 RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data, iris.target)

# --- 例子，使用不同的基算法对特征的评估效果不一，注意选择--
from sklearn.svm import SVC from sklearn.datasets 
import load_digits from sklearn.feature_selection 
import RFE from sklearn.linear_model 
import LogisticRegression 
iris = load_iris() 
x, y = iris.data, iris.target
svc = SVC(kernel="linear", C=1) 
rfe = RFE(estimator=svc, n_features_to_select=2, step=1) 
rfe.fit(x, y) 
ranking = rfe.ranking_ 
print （ranking） # [3 2 1 1] 说明第三维度特征和第四维度特征排名前2

# 采用逻辑回归 
ref2 = RFE(estimator=LogisticRegression(), n_features_to_select=2).fit(iris.data, iris.target) 
print （ref2.ranking_） 
# [3 1 2 1]  这里则选择认为第二维和第四维特征重要

3.3Embedded

嵌入法主要思想是：使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。
其实是讲在确定模型的过程中，挑选出那些对模型的训练有重要意义的属性

3.3.1基于惩罚项的特征选择法

使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型，来选择特征的代码如下：

1 from sklearn.feature_selection import SelectFromModel 
2 from sklearn.linear_model import LogisticRegression 
3 
4 #带L1惩罚项的逻辑回归作为基模型的特征选择 
5 SelectFromModel(LogisticRegression(penalty="l1", C=0.1)).fit_transform(iris.data, iris.target)

# --- 例子，这里用支持向量机了 --
from sklearn.svm import LinearSVC 
from sklearn.datasets import load_iris 
from sklearn.feature_selection 
import SelectFromModel 
iris = load_iris() 
X, y = iris.data, iris.target 
X.shape 
# (150, 4)
lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X,y)  
# 这里的惩罚项是L1,别看做是11，这 里L是小写 
model = SelectFromModel(lsvc, prefit=True) 
X_new = model.transform(X) X_new[:3,:]  
# 选取的前三行看一下
#array([[ 5.1,  3.5,  1.4], 
#       [ 4.9,  3. ,  1.4], 
#       [ 4.7,  3.2,  1.3]])

L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个，所以没选到的特征不代表不重要。故可结合L2惩罚项来优化。
具体操作为：若一个特征在L1中的权值为1，选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合，将这一集合中的特征平分L1中的权值，故需要构建一个新的逻辑回归模型：

from sklearn.linear_model 
import LogisticRegression
class LR(LogisticRegression):    
	def __init__(self, threshold=0.01, dual=False, tol=1e-4, C=1.0,                 
				fit_intercept=True, intercept_scaling=1, class_weight=None,                 
				random_state=None, solver='liblinear', max_iter=100,                 
				multi_class='ovr', verbose=0, warm_start=False, n_jobs=1):
    	#权值相近的阈值        
    	self.threshold = threshold        
    	LogisticRegression.__init__(self, penalty='l1', dual=dual, tol=tol, C=C,                 
    		fit_intercept=fit_intercept, intercept_scaling=intercept_scaling, 
    		class_weight=class_weight,random_state=random_state, solver=solver, max_iter=max_iter,                 
    		multi_class=multi_class, verbose=verbose, warm_start=warm_start, n_jobs=n_jobs)        
    	#使用同样的参数创建L2逻辑回归        
    	self.l2 = LogisticRegression(penalty='l2', dual=dual, 
    		tol=tol, C=C, fit_intercept=fit_intercept, 
    		intercept_scaling=intercept_scaling, class_weight = 
    		class_weight, random_state=random_state, 
    		solver=solver, max_iter=max_iter, 
    		multi_class=multi_class, verbose=verbose, 
    		warm_start=warm_start, n_jobs=n_jobs)
    
    def fit(self, X, y, sample_weight=None):        
    	#训练L1逻辑回归        
    	super(LR, self).fit(X, y, sample_weight=sample_weight)        
    	self.coef_old_ = self.coef_.copy()        
    	#训练L2逻辑回归        
    	self.l2.fit(X, y, sample_weight=sample_weight)
    	
        cntOfRow, cntOfCol = self.coef_.shape        
        #权值系数矩阵的行数对应目标值的种类数目       
        for i in range(cntOfRow):            
        	for j in range(cntOfCol):                
        		coef = self.coef_[i][j]                
        		#L1逻辑回归的权值系数不为0                
        		if coef != 0:                    
        			idx = [j]                    
        			#对应在L2逻辑回归中的权值系数
        			  coef1 = self.l2.coef_[i][j]                    
        			  for k in range(cntOfCol):                        
        			  	coef2 = self.l2.coef_[i][k]                        
        			  	#在L2逻辑回归中，权值系数之差小于设定的阈值，且在L1中对应的权值为0                        
        			  	if abs(coef1-coef2) < self.threshold and j != k and self.coef_[i] [k] == 0:                            
        			  		idx.append(k)                    
        			  		#计算这一类特征的权值系数均值                    
        			  	mean = coef / len(idx)                    
        			  	self.coef_[i][idx] = me

用feature_selection库的SelectFromModel类结合带L1以及L2惩罚项,设定阈值来进行特征的筛选

import matplotlib.pyplot as plt 
import numpy as np
from sklearn.datasets import load_boston 
from sklearn.feature_selection 
import SelectFromModel 
from sklearn.linear_model import LassoCV

# Load the boston dataset. 
boston = load_boston() 
X, y = boston.data, boston.target

# We use the base estimator LassoCV since the L1 norm promotes sparsity of features. 
# 使用LassoCV来规范化使之稀疏化 clf = LassoCV()

# Set a minimum threshold of 0.25 
sfm = SelectFromModel(clf, threshold=0.25) 
n_features = sfm.fit_transform(X,y).shape[1]  
# 初始满足阈值后留下的特征

# Reset the threshold till the number of features equals two. 
# Note that the attribute can be set directly instead of repeatedly 
# fitting the metatransformer. 
# 开始不断的进行阈值攀升，直到有特征不满足被砍掉 
while n_features > 2:    
	sfm.threshold += 0.1    
	X_transform = sfm.transform(X)    
	n_features = X_transform.shape[1]

# Plot the selected two features from X. 
plt.title(    "Features selected from Boston using 
	SelectFromModel with "    "threshold %0.3f." % sfm.threshold) 
feature1 = X_transform[:, 0] 
feature2 = X_transform[:, 1] 
plt.plot(feature1, feature2, 'r.') 
plt.xlabel("Feature number 1") 
plt.ylabel("Feature number 2") 
plt.ylim([np.min(feature2), np.max(feature2)])  
# ylim 设置y轴的范围 
plt.show()

3.3.2基于树模型的特征选择法

树模型中GBDT可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，来选择特征的代码如下：

1 from sklearn.feature_selection import SelectFromModel 
2 from sklearn.ensemble import GradientBoostingClassifier 
3  
4 #GBDT作为基模型的特征选择 
5 SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target) 
 
# --- 例子：这里用了随机森林了 --- 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.datasets import load_iris 
from sklearn.feature_selection import SelectFromModel 
iris = load_iris() 

X, y = iris.data, iris.target 
X.shape 
# (150, 4) 
clf = RandomForestClassifier() 
clf = clf.fit(X, y) 
print clf.feature_importances_   
# 显示每一个特征的重要性指标，越大说明越重要，可以看出，第三第四两个特 征比较重要 
# [ 0.04505659  0.01056346  0.45428591  0.49009404] 
model = SelectFromModel(clf, prefit=True) 
X_new = model.transform(X) 
X_new.shape                
# (150, 2) 

# 使用feature_importances_对boston数据的特征进行排序 
from sklearn.ensemble import RandomForestRegressor 
x, y = boston.data, boston.target 
feature_name = np.array(["%d %s"%(b,a) for a,b in 
	zip(boston.feature_names,range(len(boston.feature_names)))]) 
rf = RandomForestRegressor(n_estimators=100, random_state=101).fit(x,y) 
importance = np.mean([tree.feature_importances_ for tree in rf.estimators_], axis=0) 
std = np.std([ tree.feature_importances_ for tree in rf.estimators_],axis=0) 
indices = np.argsort(importance) 
range_ = range(len(importance)) 
 
plt.figure() 
plt.title("random forset importance") 
plt.barh(range_, importance[indices],color='r',xerr=std[indices],alpha=0.4,align='center') 
plt.yticks(range(len(importance)),feature_name[indices]) plt.ylim([-1,len(importance)]) 
plt.xlim([0.0,0.65]) 
plt.show()

总结

类	所属方式	说明
VarianceThreshold	Filter	方差选择法
SelectKBest	Filter	可选关联系数、卡方校验、大信息系数作为得分计算的方法
RFE	Wrapper	递归地训练基模型，将权值系数较小的特征从特征集合中消除
SelectFromModel	Embedded	训练基模型，选择权值系数较高的特征

4.降维

当特征选择完成后，可以直接训练模型了，但是可能由于特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。
常见的降维方法除了以上提到的基于L1惩罚项的模型以外，另外还有主成分分析法（PCA）和线性判别分析（LDA），线性判别分析本身也是一个分类模型。
PCA和LDA有很多的相似点，其本质是要将原始的样本映射到维度更低的样本空间中，但是PCA和LDA的映射目标不一样：PCA是为了让映射后的样本具有最大的发散性；而LDA是为了让映射后的样本有最好的分类性能。
所以说PCA是一种无监督的降维方法，而LDA是一种有监督的降维方法。

4.1主成分分析法（PAC）

使用decomposition库的PCA类选择特征的代码如下：

1 from sklearn.decomposition import PCA 
2  
3 #主成分分析法，返回降维后的数据 
4 #参数n_components为主成分数目 
5 PCA(n_components=2).fit_transform(iris.data) 

# --- 例子 --- 
from sklearn.decomposition import PCA,KernelPCA 
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.datasets import  
load_iris iris_data = load_iris() 
category = pd.Categorical(iris_data.target)  
# 将标签进行量化，就是说本来都是字符串啊，但是后计算的 时候都需要量化成1，2，3类等 
 
pca_2c = PCA(n_components=2)  
# 使用PCA降到2维 
#pca_2c = KernelPCA(n_components=2) 
 
x_pca_2c = pca_2c.fit_transform(iris_data.data) 
x_pca_2c.shape 
plt.scatter(x_pca_2c[:,0],x_pca_2c[:,1],c=category.codes) 
plt.show()

4.2线性判别分析法（LDA）

使用LDA进行降维的代码如下：

1 from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA 
2  
3 #线性判别分析法，返回降维后的数据 
4 #参数n_components为降维后的维数 
5 LDA(n_components=2).fit_transform(iris.data, iris.target) 
 
# --- 例子 --- 
# LDA相较于pca是有监督的，但不能用于回归分析 
from sklearn.lda import LDA 
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.datasets import  load_iris 
iris_data = load_iris() 
category = pd.Categorical(iris_data.target)  
# 将标签进行量化，就是说本来都是字符串啊，但是后计算的 时候都需要量化成1，2，3类等 
 
lda_2c = LDA(n_components=2) 
x_pca_2c = lda_2c.fit_transform(iris_data.data,iris_data.target) 
x_pca_2c.shape 
plt.scatter(x_pca_2c[:,0],x_pca_2c[:,1],c=category.codes) 
plt.show()

总结

库	类	说明
decomposition	PCA	主成分分析法
lda	LDA	线性判别分析法

你可能感兴趣的:(kaggle学习笔记)

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
碎片化学习笔记分享剑客写作
现在生活节奏很快，学习力成为了我们拥有的最大财富。碎片化学习是最好的。首先，不要太过自信，学会虚心学习，是我们面对现实的好方法，才能够常保新鲜。平时我们要拥有什么工具呢？1.思维导图2.写在印象笔记里3.听书，消燥耳机4.教学输出5.录音笔里面最好的方式就是教学输出法，记忆里最好。当输出时我们集中精力记忆里最好。有人认为缩短睡眠时间来学习，其实最好的方式是保持最好的睡眠，记忆力会更好。剥夺睡眠，会
《随园诗话》学习笔记三百零六飞鸿雪舞
卷五凡诗之传者，都在灵性五、五斗米与诗【原文】丁丑，余觅一抄书人，或荐黄生，名之纪，号星岩者，人甚朴野。偶过其案头，得句云；“破庵僧卖临街瓦，独井人争向晚泉。”余大奇之，即饷米五斗。自此欣然大用力于诗。五言句云：“云开日脚直，雨落水纹圆。竹锐穿泥壁，蝇酣落酒尊。钓久知鱼性，樵多识树名。笔残芦并用，墨尽指同磨。＂七言云：＂小窗近水寒偏觉，古木遮天曙不知。旧生萍处泥犹绿，新落花时水亦香。旧甓恐闲都贮水
D15 论语学习笔记许小兔Angelina
悟：上级对下级的宽容：凡事成定局，就不你说了；已接近完结的事，也没必要匡正和挽回了；既然是过去的事，也没必要追究得失和责任了。对待孩子教育也是，不用“问责制”，这样容易让孩子因为害怕担责而说谎。应当循循善诱，避免再犯错才是最重要的。3.16：【原文】子曰：“射不主皮，为力不同科，古之道也。”【译文】孔子说：“射箭比赛不以射透为主，而主要看是否射得准确，因为人的力量不同，自古如此。”3.17：【原文
网络工程师学习笔记（一）专业白嫖怪网络工程师学习笔记学习笔记网络
为了备战下半年的软考——网络工程师，利用每天的下班的闲暇时间看书听课，然后自己手敲整理的系列资料。希望能够对你们有所帮助第一章__计算机网络概述计算机网络的定义：将分散的具有独立运算功能的计算机系统，通过通信线路和通信设备进行连接起来的实现资源的共享。ARPAnet网络的特征：资源共享、分散控制、分组交换1946年第一台通用计算机—埃尼亚克能够相互连通进行数据交换。1960年提出巨型网络，出现了对
K8S学习笔记02——K8S组件沉淅尘 #Docker #K8S kubernetes
Kubernetes组件一、控制平面组件（ControlPlaneComponents）(1)kube-apiserver(2)etcd(3)kube-scheduler(4)kube-controller-manager(5)cloud-controller-manager二、Node组件1.kubelet2.kube-proxy3.容器运行时（ContainerRuntime）三、插件（Add
「Python」2020.04.08学习笔记 | 第六章文件（a+）模式+把随机手机号写入文件小练习 Yetta的书影屋
学习测试开发的Day97，真棒！学习时间为40M第九次全天课(下午视频二20M-50M）>>>fp.seek(0)0>>>fp.read()'你好11你好12你好13你好14你好15\n你好16\n你好17\n你好18\n'>>>fp.seek(0,0)0>>>fp.write("*********************************\n")34>>>fp.seek(0,0)0>>>f
《金文成〈中庸〉学习笔记401。2020-2-24》金吾生
《金文成〈中庸〉学习笔记401。2020-2-24》今天是庚子年戊寅月丁酉日，二月初二，2020年2月24日星期一。二月二龙抬头。第二十二章【唯天下至诚，为能尽其性；能尽其性，则能尽人之性；能尽人之性，则能尽物之性；能尽物之性，则能赞天地之化育；能赞天地之化育，则可以与天地参矣。】上一节，船山讲解说，性作为天用之本体，于圣人和匹夫匹妇而言并无二致，区别来自于诚。诚的区别来自于纯粹与掺杂。掺杂什么呢
CDGA学习笔记三-《数据安全》 zy_chris 网络安全
七、数据安全7.1引言数据安全包括安全策略和过程的规划、建立与执行，为数据和信息资产提供正确的身份验证、授权、访问和审计。要求来自以下方面：（1）利益相关方（2）政府法规（3）特定业务关注点（4）合法访问需求（5）合同义务7.1.1业务驱动因素1、降低风险信息安全首先对组织数据进行分级分类，对组织数据进行分类分级的整个流程：1）识别敏感数据资产并分类分级2）在企业中查找敏感数据3）确定保护每项资产
vue学习笔记——关于对Vue3 ref(), toRef(), toRefs(), unref(), isRef(), reactive()方法的理解。 chen_sir_sh vue学习笔记 javascript 前端 vue
VUE3出现了很多新的API，下面是自己的一些理解进行的总结。欢迎大家一起交流补充。ref()使用ref创建一个数据类型，ref有value这个属性constname1={age:"14",name:"bob1"};constname2=ref({name:"bob2"});//使用ref创建一个数据类型相对于reactive，ref有value属性name2.value="bob3"consol
遇到僵尸进程，怎么处理---学习笔记 summer@彤妈性能优化 linux
僵尸进程解释当iowait升高时，进程很可能因为得不到硬件的响应，而长时间处于不可中断状态。从ps或者top命令的输出中，你可以发现它们都处于D状态，也就是不可中断状态（UninterruptibleSleep）。既然说到了进程的状态，进程有哪些状态你还记得吗？我们先来回顾一下。top和ps是最常用的查看进程状态的工具，我们就从top的输出开始。下面是一个top命令输出的示例，S列（也就是Stat
C++学习笔记----6、内存管理（五）---- 智能指针（3）王俊山IT c++学习笔记开发语言
2、shared_ptr有时候吧，有些对象或者一部分代码需要同一个指针的拷贝。那么unique_ptr不能被拷贝，因此就不能用于些场景。这样的话，std::shared_ptr就是一个支持能够被拷贝的拥有共享属主的智能指针。但是，如果有指向同一个资源的多个shared_ptr实例，那么怎么知道什么时候去释放资源呢？这可以通过对于引用记数来解决，这个我们以后再聊。首先，让我们看一下怎么构造与使用sh
【学习笔记】武志红心理学—潜意识决定命运万万千千
冰山一角什么构成了我们的命运？命运是由我们的显意识和潜意识来决定的。我们可以用一张图做一个比喻。看过“冰山一角”图片的都知道，潜意识就是水面以下的部分，显意识是水面以上的部分，从体积来看，潜意识占了大部分，而显意识只是冰山一角，纵向来看，庞大的潜意识支撑着冰山一角的显意识，才得以让冰山漂浮在水面。延伸到我们的人生，我们对自己显意识层面的想法很容易感知到，所以我们会说这是“我”自己做的选择。而潜意识
Prism 教程 yang_B621 Prism IOC
http://t.csdnimg.cn/VXSSvhttps://blog.csdn.net/u010476739/article/details/119341731Prism-随笔分类-Hello——寻梦者！-博客园(cnblogs.com)C#IoC学习笔记-缥缈的尘埃-博客园(cnblogs.com)WPF_SchuylerEX的博客-CSDN博客
绘本讲师训练营【第30期】2/21阅读原创《绘本之力》学习笔记2 郑贤钰
30028郑贤钰今天读了绘本之力《留在灵魂里的东西》读了心里有非常大的感触！两个年幼什么都不懂的孩子，为了自己心爱的东西，攒下来自己的零花钱，却买了一个自己不知道怎么用的东西，当他们觉得这个东西根本就不好，准备扔掉的时候，这是故事中的有趣有爱的老爷爷出现了，帮助孩子们再一次发现之前别人拉出优美的音乐，原来自己买的这一个琴，自认为没用的琴也能够经过老爷爷熟练的演奏也能拉出这样优美的声音，这让孩子们十
仿老师悟耕海者
毕业十年了，今天去拜访老师，看到老师的学习笔记，看到老师努力学习，积极提高的状态，我觉着自己真是有些懈怠了，孩子们，老师的老师都在孜孜不倦，我们岂能偷懒！
C++学习笔记----7、使用类与对象获得高性能（一）---- 书写类（2）王俊山IT c++学习笔记开发语言
2.2、定义成员函数前面对SpreadsheetCell类的定义足以让你生成类的对象。然而，如果想调用setValue()或者getValue()成员函数，连接器就会抱怨这些函数没有定义。这是因为到目前为止，这些成员函数只有原型，而还没有实现。通常，类的定义会在模块接口文件。对于成员函数的定义，你有一个选择：可以在模块定义文件或者在模块实现文件。下面是SpreadsheetCell类，在类内对成员
Spring6学习笔记4：事务 ·云扬· SSM Java #Spring 学习笔记 spring
1JdbcTemplate1.1简介Spring框架对JDBC进行封装，使用JdbcTemplate方便实现对数据库操作准备工作①搭建子模块搭建子模块：spring-jdbc-tx②加入依赖org.springframeworkspring-jdbc6.0.2mysqlmysql-connector-java8.0.30com.alibabadruid1.2.15③创建jdbc.propertie
连通无向图一般中心的算法及其matlab程序详解夏天天天天天天天# 图论算法 matlab 图论
#################本文为学习《图论算法及其MATLAB实现》的学习笔记#################若服务点只允许取在各顶点上,而服务对象却取在各顶点及各边(或弧)上的点,则在所有顶点中选定一个顶点作为图的一般中心其条件是该点离它本身的最远服务对象(包括顶点及各边(或弧)上的点)的距离达到极小值。寻找无向图的一般中心对解决网络最佳服务点确定的问题是十分有效的，使得服务对象的范围
学习笔记：FW内容安全概述 TKE_yinian
内容安全概述信息安全概述主要威胁关于防护简介内容安全威胁应用层威胁内容安全技术WEB安全应用安全入侵防御检测邮件安全数据安全网络安全反病毒全局环境感知沙箱检测信息安全概述•信息安全是对信息和信息系统进行保护，防止未授权的访问、使用、泄露、中断、修改、破坏并以此提供保密性、完整性和可用性。•为关键资产提供机密性、完整性和可用性（CIA三元组）保护是信息安全的核心目标。CIA（Confidential
java的socket实现一个九宫棋游戏睡不醒的小泽
前言一个简单的socket小作品=v=一个机酱在大三实验课中接触到很基础的JAVA语言socket编程。至于你问为什么嵌入式的机酱会弄些Java吗？emmmmm，可能是当初C语言版的不够好玩吧，另外如果碰巧有用，欢迎抱走的yoo在之前的笔记《网络基础知识和网络编程》中有讲解过关于网络编程的一些基本知识，以及一些LinuxC的socket编程，希望粗浅了解socket内部肌理的同学，右转咱的学习笔记
【每日一词】D33 edge 宠辱不惊的中年少女
1）学习笔记：edge：优势，=advantagebeanabsoluteedge有绝对优势AhasanedgeoverB表示A比B更好maintainone'sedge保持优势loseone'sedge失去优势innovativeedge创新方面的优势2）查字典延伸：A.就工作经验而言，她显然要比我们面试过的其他人都胜出一筹。Intermsofexperience,shedefinitelyha
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在