功夫大笨鲨

特征工程之特征选择

文章目录

前言
准备工作：数据的准备
一、Filter过滤法
- 1.1 方差过滤
- - 1.1.1 VarianceThreshold
  - 1.1.2 方差过滤对模型的影响
  - 1.1.3 为什么随机森林运行如此之快？为什么方差过滤对随机森林没很大的有影响?
  - 1.1.4 选取超参数threshold
- 1.2 相关性过滤
- - 1.2.1 卡方过滤
  - 1.2.2 选取超参数K
  - - 方法一：跑学习曲线
    - 方法二：看p值选择k（推荐，因为学习曲线运行时间长）
    - 和菜菜老师得出的结论的差异
  - 1.2.3 F检验
  - 1.2.4 互信息法
- 1.3 过滤法总结
二、Embedded嵌入法
- feature_selection.SelectFromModel
三、Wrapper包装法
- feature_selection.RFE
总结

前言

要尽可能的对数据每一个特征进行了解，这样就能很明显的判断某些特征对模型是否有影响，如果处于十分极端的情况，对数据一点不了解，那么可以通过特征选择的方法来进行特征的选择使用。

说明：案例来源于菜菜的课堂，this is 学习笔记，有些例子跑的时间太长就不自己跑了，用菜菜的截图

准备工作：数据的准备

import pandas as pd
import numpy as np

data = pd.read_csv('digit recognizor.csv')
data.head()

#特征是除了label都是
x = data.iloc[:,1:]

#标签为label
y = data.iloc[:,0]

x.shape
>(42000, 784)

一、Filter过滤法

过滤方法通常用作预处理步骤，特征选择完全独立于任何机器学习算法。它是根据各种统计检验中的分数以及相关性的各项指标来选择特征。

1.1 方差过滤

1.1.1 VarianceThreshold

这是通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小，就表示样本在这个特征上基本没有差异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。

无论接下来的特征工程要做什么，都要优先消除方差为0的特征。

VarianceThreshold有重要参数threshold，表示方差的阈值，表示舍弃所有方差小于threshold的特征，不填默认为0，即删除所有的记录都相同的特征。

#查看每一个特征列的方差
x.var()

from sklearn.feature_selection import VarianceThreshold

selector = VarianceThreshold() #实例化，不填参数默认方差为0
x_var0 = selector.fit_transform(x) #获取删除不合格特征之后的新特征矩阵

#也可以直接写成 X = VairanceThreshold().fit_transform(X)

x_var0.shape
>(42000, 708)

可以看见，我们已经删除了方差为0的特征，但是依然剩下了708多个特征，明显还需要进一步的特征选择。然而，如果我们知道我们需要多少个特征，方差也可以帮助我们将特征选择一步到位。比如说，我们希望留下一半的特征，那可以设定一个让特征总数减半的方差阈值，只要找到特征方差的中位数，再将这个中位数作为参数threshold的值输入就好了：

#取得所有方差的中位数
np.median(x.var().values)
>1352.286703180131

#删除方差在一半一下的特征
x_fsvar = VarianceThreshold(np.median(x.var().values)).fit_transform(x)

x_fsvar.shape
>(42000, 392)

当特征是二分类时，特征的取值就是伯努利随机变量，这些变量的方差可以计算为:
$V a r [X] = p (1 - p)$
其中X是特征矩阵，p是二分类特征中的一类在这个特征中所占的概率。

#若特征是伯努利随机变量，假设p=0.8，即二分类特征中某种分类占到80%以上的时候删除特征
x_bvar = VarianceThreshold(.8*(1-.8)).fit_transform(x)
x_bvar.shape
>(42000, 685)

1.1.2 方差过滤对模型的影响

通过KNN和随机森林分别在方差过滤前和方差过滤后运行的效果和运行时间的对比，来观察方差过滤对模型的影响

KNN是K近邻算法中的分类算法，其原理非常简单，是利用每个样本到其他样本点的距离来判断每个样本点的相似度，然后对样本进行分类。KNN必须遍历每个特征和每个样本，因而特征越多，KNN的计算也就会越缓慢。

导入模块并准备数据

#KNN vs 随机森林在不同方差过滤效果下的对比
from sklearn.ensemble import RandomForestClassifier as RFC #随机森林分类模型
from sklearn.neighbors import KNeighborsClassifier as KNN #KNN
from sklearn.model_selection import cross_val_score #交叉验证
import numpy as np

#同最开始的数据准备的目的一样
X = data.iloc[:,1:]
y = data.iloc[:,0]

#只留下一半的特征，找到特征方差的中位数，再将这个中位数作为参数threshold的值输入就可以达到目的
X_fsvar = VarianceThreshold(np.median(X.var().values)).fit_transform(X)

KNN方差过滤前

#======【TIME WARNING：35mins +】======#
cross_val_score(KNN(),X,y,cv=5).mean()

#python中的魔法命令，可以直接使用%%timeit来计算运行这个cell中的代码所需的时间

#为了计算所需的时间，需要将这个cell中的代码运行很多次（通常是7次）后求平均值，
#因此运行%%timeit的时间会远远超过cell中的代码单独运行的时间

#======【TIME WARNING：4 hours】======#
%%timeit
cross_val_score(KNN(),X,y,cv=5).mean()

KNN方差过滤后

#======【TIME WARNING：20 mins+】======#
cross_val_score(KNN(),X_fsvar,y,cv=5).mean()

#======【TIME WARNING：2 hours】======#
%%timeit
cross_val_score(KNN(),X_fsvar,y,cv=5).mean()

可以看出，对于KNN，过滤后的效果十分明显：准确率稍有提升，但平均运行时间减少了10分钟，特征选择过后算法的效率上升了1/3。

随机森林方差过滤前

cross_val_score(RFC(n_estimators=10,random_state=0),X,y,cv=5).mean()

随机森林方差过滤后

cross_val_score(RFC(n_estimators=10,random_state=0),X_fsvar,y,cv=5).mean()

首先可以观察到的是，随机森林的准确率略逊于KNN，但运行时间却连KNN的1%都不到，只需要十几秒钟。其次，方差过滤后，随机森林的准确率也微弱上升，但运行时间却几乎是没什么变化，依然是11秒钟。

1.1.3 为什么随机森林运行如此之快？为什么方差过滤对随机森林没很大的有影响?

最近邻算法KNN，单棵决策树，支持向量机SVM，神经网络，回归算法，都需要遍历特征或升维来进行运算，所以他们本身的运算量就很大，需要的时间就很长，因此方差过滤这样的特征选择对他们来说就尤为重要。
对于不需要遍历特征的算法，比如随机森林，它随机选取特征进行分枝，本身运算就非常快速，因此特征选择对它来说效果平平。

无论过滤法如何降低特征的数量，随机森林也只会选取固定数量的特征来建模；而最近邻算法就不同了，特征越少，距离计算的维度就越少，模型明显会随着特征的减少变得轻量。

过滤法的主要对象是：需要遍历特征或升维的算法们
过滤法的主要目的是：在维持算法表现的前提下，帮助算法们降低计算成本。

过滤法对随机森林无效，却对树模型有效？

从算法原理上来说，传统决策树需要遍历所有特征，计算不纯度后进行分枝，而随机森林却是随机选择特征进行计算和分枝，因此随机森林的运算更快，过滤法对随机森林无用，对决策树却有用

在sklearn中，决策树和随机森林都是随机选择特征进行分枝（可以去复习第一章：决策树，参数random_state），但决策树在建模过程中随机抽取的特征数目却远远超过随机森林当中每棵树随机抽取的特征数目（比如说对于这个780维的数据，随机森林每棵树只会抽取10-20个特征，而决策树可能会抽取300~400个特征），因此，过滤法对随机森林无用，却对决策树有用

也因此，在sklearn中，随机森林中的每棵树都比单独的一棵决策树简单得多，高维数据下的随机森林的计算比决策树快很多。

对受影响的算法来说，可以将方差过滤的影响总结如下：

	阈值很小被过滤掉得特征比较少	阈值比较大被过滤掉的特征有很多
模型表现	不会有太大影响	可能变更好，代表被滤掉的特征大部分是噪音也可能变糟糕，代表被滤掉的特征中很多都是有效特征
运行时间	可能降低模型的运行时间基于方差很小的特征有多少当方差很小的特征不多时对模型没有太大影响	一定能够降低模型的运行时间算法在遍历特征时的计算越复杂，运行时间下降得越多

如果在使用方差过滤掉特征之后，模型精准度上升了，这说明被过滤掉的特征在当前的随机模式(random_state = 0)下大部分是噪音。
如果过滤之后模型的效果反而变差了，被过滤掉的特征中有很多都有有效特征，那我们就放弃过滤，使用其他手段来进行特征选择。

对于随机森林还可以进行调整n_estimators参数来提高模型的准确率，随机森林是一个非常强大的模型

1.1.4 选取超参数threshold

我们怎样知道，方差过滤掉的到底时噪音还是有效特征呢？过滤后模型到底会变好还是会变坏呢？

每个数据集不一样，只能自己去尝试。
可以画学习曲线，找模型效果最好的点。但现实中，我们往往不会这样去做，因为这样会耗费大量的时间。
通常只会使用阈值为0或者阈值很小的方差过滤，来为我们优先消除一些明显用不到的特征，然后我们会选择更优的特征选择方法继续削减特征数量.

1.2 相关性过滤

方差挑选完毕之后，我们就要考虑下一个问题：相关性了。我们希望选出与标签相关且有意义的特征，因为这样的特征能够为我们提供大量信息。如果特征与标签无关，那只会白白浪费我们的计算内存，可能还会给模型带来噪音。在sklearn当中，我们有三种常用的方法来评判特征与标签之间的相关性：卡方，F检验，互信息。

1.2.1 卡方过滤

卡方过滤是专门针对离散型标签（即分类问题）的相关性过滤

卡方检验类feature_selection.chi2计算每个非负特征和标签之间的卡方统计量，并依照卡方统计量由高到低为特征排名 (说明需要对数据进行归一化或者标准化，在本数据内数据已经是非负的了，所以不需要进行归一化或者标准化的步骤) 。再结合feature_selection.SelectKBest这个可以输入”评分标准“来选出前K个分数最高的特征的类，我们可以借此除去最可能独立于标签，与我们分类目的无关的特征。

另外，如果卡方检验检测到某个特征中所有的值都相同，会提示我们使用方差先进行方差过滤。并且，刚才我们已经验证过，当我们使用方差过滤筛选掉一半的特征后，模型的表现时提升的。因此在这里，我们使用threshold=中位数时完成的方差过滤的数据来做卡方检验（如果方差过滤后模型的表现反而降低了，那我们就不会使用方差过滤后的数据，而是使用原数据）：

from sklearn.ensemble import RandomForestClassifier as RFC #分类森林
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectKBest #选出前K个分数最高的特征的类
from sklearn.feature_selection import chi2 #卡方检验类

x_fschi = SelectKBest(chi2,k=300).fit_transform(x_fsvar,y)

x_fschi.shape
>(42000, 300)

验证一下模型的效果：

cross_val_score(RFC(n_estimators=10,random_state=0),x_fschi,y,cv=5).mean()
>0.9344761904761905

可以看出，模型的效果降低了，这说明我们在设定k=300的时候删除了与模型相关且有效的特征，我们的K值设置得太小，要么我们需要调整K值，要么我们必须放弃相关性过滤。当然，如果模型的表现提升，则说明我们的相关性过滤是有效的，是过滤掉了模型的噪音的，这时候我们就保留相关性过滤的结果。

1.2.2 选取超参数K

在现实数据中，数据量很大，模型很复杂的时候,我们是希望最开始就能够选择一个最优的超参数k。

方法一：跑学习曲线

import matplotlib.pyplot as plt
#======【TIME WARNING: 5 mins】======#
score = []
for i in range(200,390,10):
    x_fschi = SelectKBest(chi2,k=i).fit_transform(x_fsvar,y)
    once = cross_val_score(RFC(n_estimators=10,random_state=0),x_fschi,y,cv=5).mean()
    score.append(once)

plt.plot(range(200,390,10),score)
plt.show()

最大值通过图像来看应该在320到350之间，在这个区间进一步来优化学习曲线

score = []
for i in range(320,350):
    x_fschi = SelectKBest(chi2,k=i).fit_transform(x_fsvar,y)
    once = cross_val_score(RFC(n_estimators=10,random_state=0),x_fschi,y,cv=5).mean()
    score.append(once)
    
print(max(score),score.index(max(score))+320)
plt.plot(range(320,350),score)
plt.show()

运行学习曲线的时间同样也是非常地长

方法二：看p值选择k（推荐，因为学习曲线运行时间长）

卡方检验的本质是推测两组数据之间的差异，其检验的原假设是”两组数据是相互独立的”。卡方检验返回卡方值和P值两个统计量，其中卡方值很难界定有效的范围，而p值，我们一般使用0.01或0.05作为显著性水平，即p值判断的边界，具体我们可以这样来看：

P值	<=0.05或0.01	>0.05或0.01
数据差异	差异不是自然形成的	这些差异是很自然的样本误差
相关性	两组数据是相关的	两组数据是相互独立的
原假设	拒绝原假设，接受备择假设	接受原假设

从特征工程的角度，我们希望选取卡方值很大，p值小于0.05的特征，即和标签是相关联的特征。

调用SelectKBest之前，我们可以直接从chi2实例化后的模型中获得各个特征所对应的卡方值和P值。

chivalue, pvalues_chi = chi2(x_fsvar,y)

#卡方
chivalue

#p值
pvalues_chi

k = chivalue.shape[0] - (pvalues_chi>0.05).sum()
#也可以直接写成k = (pvalues_chi<=0.05).sum()
>k
>392

#由方法二看p选k得出的
x_fschi = SelectKBest(chi2,k=392).fit_transform(x_fsvar,y)
cross_val_score(RFC(n_estimators=10,random_state=0),x_fschi,y,cv=5).mean()
>0.9390476190476191

#由方法一学习曲线得出的
x_fschi = SelectKBest(chi2,k=344).fit_transform(x_fsvar,y)
cross_val_score(RFC(n_estimators=10,random_state=0),x_fschi,y,cv=5).mean()
>0.9395

和菜菜老师得出的结论的差异

我实验得出的结果：可以发现学习曲线得出的344个特征要比通过p值选k的方法392得出的结果要好

菜菜老师的结论：所有特征的p值都是0，这说明对于digit recognizor这个数据集来说，方差验证已经把所有和标签无关的特征都剔除了，或者这个数据集本身就不含与标签无关的特征。在这种情况下，舍弃任何一个特征，都会舍弃对模型有用的信息，而使模型表现下降，因此在我们对计算速度感到满意时，我们不需要使用相关性过滤来过滤我们的数据。如果我们认为运算速度太缓慢，那我们可以酌情删除一些特征。

不同点：菜菜老师说的是通过p值求k得出来的特征个数就是最佳的个数，如果进行删减都会使模型表现下降，但是我的实验结论在344的时候评分要比392高出0.005左右，很迷惑，不过，使用学习曲线的运行时间会很长很长，而且我的实验结果也没有差多少，所以还是极力推荐使用第二种方法通过p找k，提高代码的效率。

1.2.3 F检验

F检验，又称ANOVA，方差齐性检验，是用来捕捉每个特征与标签之间的线性关系的过滤方法。它即可以做回归也可以做分类，因此包含feature_selection.f_classif（F检验分类）
和 feature_selection.f_regression（F检验回归）两个类。其中F检验分类用于标签是离散型变量的数据，而F检验回归用于标签是连续型变量的数据。

和卡方检验一样，这两个类需要和类SelectKBest连用，并且我们也可以直接通过输出的统计量来判断我们到底要设置一个什么样的K。需要注意的是，F检验在数据服从正态分布时效果会非常稳定，因此如果使用F检验过滤，我们会先将数据转换成服从正态分布的方式（本例子由于是验证上面菜菜老师的结论，就不进行标准化了）。

F检验的本质是寻找两组数据之间的线性关系，其原假设是”数据不存在显著的线性关系“。它返回F值和p值两个统计量。和卡方过滤一样，我们希望选取p值小于0.05或0.01的特征，这些特征与标签时显著线性相关的，而p值大于0.05或0.01的特征则被我们认为是和标签没有显著线性关系的特征，应该被删除。以F检验的分类为例，我们继续在数字数据集上来进行特征选择：

from sklearn.feature_selection import f_classif

F, pvalues_f = f_classif(x_fsvar,y)

#F值
F

#p值
pvalues_f

k = (pvalues_f<=0.05).sum()
>392

x_fsF = SelectKBest(f_classif,k=392).fit_transform(x_fsvar,y)
cross_val_score(RFC(n_estimators=10,random_state=0),x_fsF,y,cv=5).mean()
>0.9390476190476191

得到的结论和我们用卡方过滤得到的结论一模一样：没有任何特征的p值大于0.01，所有的特征都是和标签相关的，因此我们不需要相关性过滤。

1.2.4 互信息法

互信息法是用来捕捉每个特征与标签之间的任意关系（包括线性和非线性关系）的过滤方法。和F检验相似，它既可以做回归也可以做分类，并且包含两个类feature_selection.mutual_info_classif（互信息分类)和feature_selection.mutual_info_regression（互信息回归）。这两个类的用法和参数都和F检验一模一样，不过互信息法比F检验更加强大，F检验只能够找出线性关系，而互信息法可以找出任意关系。

互信息法不返回p值或F值类似的统计量，它返回“每个特征与目标之间的互信息量的估计”，这个估计量在[0,1]之间取值，为0则表示两个变量独立，为1则表示两个变量完全相关。以互信息分类为例的代码如下：

from sklearn.feature_selection import mutual_info_classif as MIC

result = MIC(x_fsvar,y)
k = result.shape[0] - sum(result <= 0)
>392

X_fsmic = SelectKBest(MIC, k=392).fit_transform(X_fsvar, y)
cross_val_score(RFC(n_estimators=10,random_state=0),X_fsmic,y,cv=5).mean()
>0.9390476190476191

所有特征的互信息量估计都大于0，因此所有特征都与标签相关

无论是F检验还是互信息法，大家也都可以使用学习曲线，只是使用统计量的方法会更加高效。当统计量
判断已经没有特征可以删除时，无论用学习曲线如何跑，删除特征都只会降低模型的表现(同本人的实验结果有些出入，详细看1.2.2的和菜菜老师得出的结论的差异)。当然了，如果数据量太庞大，模型太复杂，我们还是可以牺牲模型表现来提升模型速度，一切都看大家的具体需求。

1.3 过滤法总结

学习了常用的基于过滤法的特征选择，包括方差过滤，基于卡方，F检验和互信息的相关性过滤通，常来说，建议先使用方差过滤，然后使用互信息法来捕捉相关性，信息总结如下表：

二、Embedded嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法，即特征选择和算法训练同时进行。

在使用嵌入法时，我们先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性，比如决策树和树的集成模型中的feature_importances_属性，可以列出各个特征对树的建立的贡献，我们就可以基于这种贡献的评估，找出对模型建立最有用的特征。

相比于过滤法，嵌入法的结果会更加精确到模型的效用本身，对于提高模型效力有更好的效果。并且，由于考虑特征对模型的贡献，因此无关的特征（需要相关性过滤的特征）和无区分度的特征（需要方差过滤的特征）都会因为缺乏对模型的贡献而被删除掉，可谓是过滤法的进化版。

嵌入法也是有缺点的：
过滤法中使用的统计量可以使用统计知识和常识来查找范围（如p值应当低于显著性水平0.05），而嵌入法中使用的权值系数却没有这样的范围可找——我们可以说，权值系数为0的特征对模型丝毫没有作用，但当大量特征都对模型有贡献且贡献不一时，我们就很难去界定一个有效的临界值。这种情况下，模型权值系数就是我们的超参数，我们或许需要学习曲线，或者根据模型本身的某些性质去判断这个超参数的最佳值究竟应该是多少。

嵌入法引入了算法来挑选特征，因此其计算速度也会和应用的算法有很大的关系。如果采用计算量很大，计算缓慢的算法，嵌入法本身也会非常耗时耗力。并且，在选择完毕之后，我们还是需要自己来评估模型。

feature_selection.SelectFromModel

SelectFromModel是一个元变换器，可以与任何在拟合后具有coef_，feature_importances_属性或参数中可选惩罚项的评估器一起使用（比如随机森林和树模型就具有属性feature_importances_，逻辑回归就带有l1和l2惩罚项，线性支持向量机也支持l2惩罚项）

对于有feature_importances_的模型来说，若重要性低于提供的阈值参数，则认为这些特征不重要并被移除。feature_importances_的取值范围是[0,1]，如果设置阈值很小，比如0.001，就可以删除那些对标签预测完全没贡献的特征。如果设置得很接近1，可能只有一两个特征能够被留下

使用惩罚项的模型嵌入法

而对于使用惩罚项的模型来说，正则化惩罚项越大，特征在模型中对应的系数就会越小。当正则化惩罚项大到一定的程度的时候，部分特征系数会变成0，当正则化惩罚项继续增大到一定程度时，所有的特征系数都会趋于0。但是我们会发现一部分特征系数会更容易先变成0，这部分系数就是可以筛掉的。也就是说，我们选择特征系数较大的特征。另外，支持向量机和逻辑回归使用参数C来控制返回的特征矩阵的稀疏性，参数C越小，返回的特征越少。Lasso回归，用alpha参数来控制返回的特征矩阵，alpha的值越大，返回的特征越少。

我们重点要考虑的是前两个参数。在这里，我们使用随机森林为例，则需要学习曲线来帮助我们寻找最佳特征值。

from sklearn.feature_selection import SelectFromModel #原变换器，嵌入法
from sklearn.ensemble import RandomForestClassifier as RFC #随机森林分类模型
from sklearn.model_selection import cross_val_score #交叉验证
import matplotlib.pyplot as plt

RFC_ = RFC(n_estimators=10,random_state=0)

#例如0.005这个阈值对于有780个特征的数据来说，是非常高的阈值，因为平均每个特征
#只能够分到大约0.001的feature_importances_
x_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(x,y)

x_embedded.shape
>(42000, 47)
#模型的维度明显被降低了

#查看各个特征的贡献程度
RFC_.fit(x,y).feature_importances_

通过学习曲线来选取最佳的阈值

#在0到最大的重要程度之间选择20个
#使用linspace而不用range的原因是，range（x,y,z）z代表的是步长，
#而linspace最后一个参数代表的是在这个范围内随机得到的个数
threshold = np.linspace(0,max(RFC_.fit(x,y).feature_importances_),20)

score = []

for i in threshold:
    x_embeded = SelectFromModel(RFC_,threshold=i).fit_transform(x,y)
    once = cross_val_score(RFC_,x_embeded,y,cv=5).mean()
    score.append(once)
    
plt.plot(np.linspace(0,max(RFC_.fit(x,y).feature_importances_),20),score)
plt.show()

从图像上来看，随着阈值越来越高，模型的效果逐渐变差，被删除的特征越来越多，信息损失也逐渐变大。但是在0.002之前，模型的效果都可以维持在0.9以上，因此我们可以从中0到0.002这个范围进一步优化学习曲线。

score = []
for i in np.linspace(0,0.002,20):
    x_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(x,y)
    once = cross_val_score(RFC_,x_embedded,y,cv=5).mean()
    score.append(once)

#设置宽点的画布，这样图像可以放长，参数显示的可以更加明显
plt.figure(figsize=[20,5])  
plt.plot(np.linspace(0,0.002,20),score)
plt.xticks(np.linspace(0,0.002,20))
plt.show()

由优化后的学习曲线图像可得，在0.000632附近，取得最大值，我们可以用下面的方法来得到最高的评分以及对应的取值

x_ticks = np.linspace(0,0.002,20)

#最高评分
max(score)
>0.9407857142857143

#最高评分对应的参数
x_ticks[score.index(max(score))]
>0.0006315789473684211

x_embedded = SelectFromModel(RFC_,threshold=0.000632).fit_transform(x,y)
x_embedded.shape
>(42000, 332)

可以看出，特征个数瞬间缩小到332多，这比我们在方差过滤的时候选择中位数过滤出来的结果392列要小，并且交叉验证分数0.9407857142857143高于方差过滤后的结果0.9390476190476191，这是由于嵌入法比方差过滤更具体到模型的表现的缘故，换一个算法，使用同样的阈值，效果可能就没有这么好了

如果在对随机森林进行调参

cross_val_score(RFC(n_estimators=100,random_state=0),X_embedded,y,cv=5).mean()
>0.9630714285714287

得出的特征数目依然小于方差筛选，并且模型的表现也比没有筛选之前更高，已经完全可以和计算一次半小时的KNN相匹敌（KNN的准确率是96.58%）,再对随机森林进行调参，准确率应该还可以再升高不少。

在嵌入法下，我们很容易就能够实现特征选择的目标：减少计算量，提升模型表现。因此，比起要思考很多统计量的过滤法来说，嵌入法可能是更有效的一种方法。然而，在算法本身很复杂的时候，过滤法的计算远远比嵌入法要快，所以大型数据中，我们还是会优先考虑过滤法。

三、Wrapper包装法

包装法也是一个特征选择和算法训练同时进行的方法，与嵌入法十分相似，它也是依赖于算法自身的选择，比如coef_属性或feature_importances_属性来完成特征选择。但不同的是，我们往往使用一个目标函数作为黑盒来帮助我们选取特征，而不是自己输入某个评估指标或统计量的阈值。

包装法在初始特征集上训练评估器，并且通过coef_属性或通过feature_importances_属性获得每个特征的重要性。然后，从当前的一组特征中修剪最不重要的特征。在修剪的集合上递归地重复该过程，直到最终到达所需数量的要选择的特征。区别于过滤法和嵌入法的一次训练解决所有问题，包装法要使用特征子集进行多次训练，因此它所需要的计算成本是最高的。

注意，在这个图中的“算法”，指的不是我们最终用来导入数据的分类或回归算法（即不是随机森林），而是专业的数据挖掘算法，即我们的目标函数。这些数据挖掘算法的核心功能就是选取最佳特征子集。

最典型的目标函数是递归特征消除法（Recursive feature elimination, 简写为RFE）。它是一种贪婪的优化算法，旨在找到性能最佳的特征子集。它反复创建模型，并在每次迭代时保留最佳特征或剔除最差特征，下一次迭代时，它会使用上一次建模中没有被选中的特征来构建下一个模型，直到所有特征都耗尽为止。然后，它根据自己保留或剔除特征的顺序来对特征进行排名，最终选出一个最佳子集。包装法的效果是所有特征选择方法中最利于提升模型表现的，它可以使用很少的特征达到很优秀的效果。除此之外，在特征数目相同时，包装法和嵌入法的效果能够匹敌，不过它比嵌入法算得更加缓慢，所以也不适用于太大型的数据。相比之下，包装法是最能保证模型效果的特征选择方法。

feature_selection.RFE

class sklearn.feature_selection.RFE (estimator, n_features_to_select=None, step=1, verbose=0)

参数

estimator：需要填写的实例化后的评估器
n_features_to_select：想要选择的特征个数
step：每次迭代中希望移除的特征个数

属性

.support_：返回所有的特征的是否最后被选中的布尔矩阵
.ranking_：返回特征的按数次迭代中综合重要性的排名。名次越靠前就越重要

类feature_selection.RFECV会在交叉验证循环中执行RFE以找到最佳数量的特征，增加参数cv，其他用法都和RFE一模一样。

from sklearn.feature_selection import RFE

RFC_ = RFC(n_estimators=10,random_state=0)
#选340个特征，一次删除50
selector = RFE(RFC_,n_features_to_select=340,step=50).fit(x,y)

#返回所有的特征的是否最后被选中的布尔矩阵
selector.support_

#返回特征的按数次迭代中综合重要性的排名。名次越靠前就越重要
selector.ranking_

x_wrapper = selector.transform(x)
cross_val_score(RFC_,x_wrapper,y,cv=5).mean()
>0.9379761904761905

对包装法花学习曲线

score = []
for i in range(1,751,50):
    x_wrapper = RFE(RFC_,n_features_to_select=i,step=50).fit_transform(x,y)
    once = cross_val_score(RFC_,x_wrapper,y,cv=5).mean()
    score.append(once)
    
plt.figure(figsize=[20,5])
plt.plot(range(1,751,50),score)
plt.xticks(range(1,751,50))
plt.show()

可以选定范围在进一步的优化学习曲线

明显能够看出，在包装法下面，应用50个特征时，模型的表现就已经达到了90%以上，比嵌入法和过滤法都高效很多

如果我们此时追求的是最大化降低模型的运行时间，我们甚至可以直接选择50作为特征的数目，这是一个在缩减了94%的特征的基础上，还能保证模型表现在90%以上的特征组合，不可谓不高效。

由于包装法效果和嵌入法相差不多，在更小的范围内使用学习曲线，我们也可以将包装法的效果调得很好。

☆别忘记还可以对模型调参，这样在选择出的特征的条件下，通过调参，会有非常意想不到的效果

总结

过滤法更快速，但更粗糙。
包装法和嵌入法更精确，比较适合具体到算法去调整，但计算量比较大，运行时间长。

对于特征选择不同方法的选择

当数据量很大的时候，优先使用方差过滤和互信息法调整，再上其他特征选择方法。
使用逻辑回归时，优先使用嵌入法。
使用支持向量机时，优先使用包装法。
不知道该怎么办的时候，从过滤法走起，看具体数据具体分析。

你可能感兴趣的:(数据预处理与特征工程,机器学习,scikit-learn)

3 招学会 UI 色彩搭配，让你的设计亮眼出众大千UI工场 ui 工控界面前端 UI设计
在数字化时代，UI（用户界面）设计已成为产品成功与否的关键因素之一。而在UI设计的众多元素中，色彩搭配无疑占据着举足轻重的地位。一个优秀的UI色彩搭配方案，不仅能够吸引用户的注意力，提升产品的视觉吸引力，还能引导用户行为，增强用户对产品的认知与情感共鸣。接下来，我们将详细介绍3招学会UI色彩搭配的技巧，助你让设计亮眼出众。一、UI色彩搭配的重要性UI色彩搭配是用户与产品交互的第一视觉接触点。研究表
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来! 人工智能
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来在数字化转型加速的今天，企业新质生产力的核心已从传统资源投入转向技术驱动的效率革命。开源应用凭借其灵活性、成本优势和技术创新力，成为企业实现这一目标的关键引擎。作为开源技术与行业场景化落地的领航者，Websoft9通过企业应用平台（EPP）、AI智能引擎与知识库系统三位一体的解决方案，助力企业快速构建新一代生产力工具，实
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
【ARM系列】ARM常用汇编指令阿兹尔猫 ARM系列 arm开发汇编
本文目录前言数据传送指令MOV算数运算指令ADD(不带进位加法指令)SUB(不带进位减法指令)MUL(32位乘法指令)比较和跳转指令CMP(直接比较指令)BEQBNQBBL加载-存储指令LDRSTR移位指令LSLLSR系统寄存器访问指令MSRMRS逻辑运算指令AND(逻辑与指令)ORR(逻辑或指令)BIC(位清除指令)UBFXBFI前言在调试芯片启动代码或者分析ARMcore运行流程的过程中，尝尝
Linux驱动开发——（五）内核中断 KarudoLee Linux设备驱动开发 linux 驱动开发
目录一、内核中断简介1.1中断号1.2中断API函数1.2.1irq_of_parse_and_map函数1.2.2gpio_to_irq函数1.2.3request_irq函数1.2.4free_irq函数1.2.5中断处理函数1.2.6中断使能与禁止函数二、上半部（顶半部）与下半部（底半部）2.1上半部与下半部简介2.2软中断2.3tasklet2.4工作队列三、驱动代码一、内核中断简介1.1
基于IMX6ULL的安防监控项目暗夜之眼007 linux
项目功能介绍该项目是基于NXP的IMX6ULL的安防监控项目。应用http微服务器boa实现网页展示监控信息；利用ov5640摄像头模块采集图像信息，并移植mjpg-streamer库实现在远端网页可以查看实时监控图像；利用cgi与html交互实现控制命令的下发和监控数据上传，用户可以在网页端控制硬件，比如LED灯，蜂鸣器等，同时可以在网页端直观查看ICM20608获取的加速度、角速度和温度数据。
Linux驱动开发IO操作之阻塞与非阻塞暗夜之眼007 Linux驱动驱动开发
阻塞IO当应用程序通过read读取或write写入设备文件的某些数据时，就会调用驱动程序的read或者write函数，此时可能会遇到没有数据可读或者写满的情况，这时如果驱动程序会进入睡眠，当有数据可读或者可写的时候唤醒再返回，我们称这种操作为阻塞IO。下图是阻塞式IO访问示意图：阻塞IO相关函数init_waitqueue_head函数init_waitqueue_head‌是Linux内核中用于
Shiro反序列化漏洞原理与复现指南豪门土狗网络安全笔记 linux
0x01漏洞简介ApacheShiro是Java领域广泛使用的安全框架，用于身份认证、权限控制等场景。漏洞背景：Shiro在1.2.5及以下版本中，默认使用硬编码的AES加密密钥（kPH+bIxk5D2deZiIxcaaaA==），攻击者可通过构造恶意RememberMeCookie触发反序列化漏洞，导致远程代码执行（RCE）。影响版本：ApacheShiro≤1.2.5、≤1.5.2（部分版本需
马斯克说的没错，DeepSeek确实厉害，但真正可怕的是... PPT百科人工智能 powerpoint ppt DeepSeek 马斯克
作者：PPT百科（PPTwiki.COM）发布日期：2025年2月25日“中国能做出DeepSeek这样的AI，我一点都不意外。”当马斯克在达沃斯论坛上说出这句话时，全球科技圈的目光再次聚焦到了这个中国AI独角兽身上。然而，这位“硅谷钢铁侠”的下一句话却耐人寻味：“但它还不是革命性的，我们的Grok3会更好。”马斯克的评价看似矛盾，实则揭示了AI竞争的核心逻辑——技术突破与市场落地的双重博弈。而D
Linux驱动开发之中断处理暗夜之眼007 Linux驱动驱动开发
中断处理介绍在驱动程序中我们不乏使用中断机制，中断属于异常的一种，一般用于打断当前线程，进而去执行比较紧急的事件，当紧急事件处理完成再回来继续执行前面线程工作的一种机制。中断的应用在驱动程序中比较常见，比如按键驱动、触摸屏驱动都用到中断机制。中断还有底半部机制，用来处理耗时较长的任务，可以提高驱动执行效率。中断的底半部有多种实现方式比如tasklet机制与工作队列机制(workqueue）以及中断
EventStream 处理实时数据流小怪兽，让我来保护你 javascript node.js vue.js scss
简介text/event-stream和application/octet-stream本质上都是客户端与服务端打开了一个长连接，服务端可以多次写入一部分数据给客户端，客户端可以多次读取，直到全部读取完成。使用场景很多，例如：模拟机器人回复，几个词几个词的展示。下面我就以最近的一个功能需求为例，展示一下该如何使用event-stream：streamBack(){consturl="/api/..
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
KVM安全模块生产环境配置与优化指南 TechStack 创行者 #服务器容器 Linux 服务器运维安全 kvm SELinux
KVM安全模块生产环境配置与优化指南一、引言在当今复杂多变的网络安全环境下，生产环境中KVM（Kernel-basedVirtualMachine）的安全配置显得尤为重要。本指南旨在详细阐述KVM安全模块的配置方法，结合强制访问控制（MAC）、硬件隔离及合规性要求，为您提供全面且深入的操作建议，确保KVM环境的安全性和稳定性。二、SELinux安全模块配置1.基础策略配置SELinux（Secur
最新版！“非常详细的” 鸿蒙HarmonyOS Next应用开发学习路线！（从零基础入门到精通）不入流HarmonyOS开发 HarmonyOS 鸿蒙鸿蒙学习鸿蒙开发 harmonyos 移动开发前端学习 android
前言最新数据显示，在中国智能手机市场，鸿蒙操作系统的份额达到10%，鸿蒙开发者数量更是超过240万，鸿蒙生态已经与iOS、安卓形成了“三分天下”的格局，成为当下的风口。如今，为了抢占巨大的鸿蒙市场，Top20移动互联网公司中近半数已经启动了鸿蒙原生应用开发，其中包括支付宝、美团等各大巨头。鸿蒙的崛起，相关岗位需求迅速增长。就业市场中，鸿蒙人才紧缺，已成为炙手可热的宝贵资源。包括美团、京东、网易在内
HarmonyOS NEXT实战开发：页面路由 (@ohos.router) 「已注销」鸿蒙鸿蒙next版 harmonyos 华为 android 鸿蒙
页面路由指在应用程序中实现不同页面之间的跳转和数据传递。Router模块通过不同的url地址，可以方便地进行页面路由，轻松地访问不同的页面。本文将从页面跳转、页面返回、页面返回前增加一个询问框和命名路由几个方面介绍Router模块提供的功能。Router适用于模块间与模块内页面切换，通过每个页面的url实现模块间解耦。模块内页面跳转时，为了实现更好的转场动效场景不建议使用该模块，推荐使用Navig
Linux基本指令3 N201871643 热门相关技术分享 linux 服务器网络
Linux基本指令3目录Linux基本指令3一、Linux文件系统管理二、Linux进程与服务管理三、Linux网络配置与诊断一、Linux文件系统管理1.文件系统概述-定义:Linux文件系统是操作系统用于控制数据存储和检索的方法。它通过文件和目录的结构来组织数据，并提供了操作这些数据的工具。-作用:管理用户数据、系统配置、日志文件等，确保数据的持久性和可靠性。-类型:ext4（默认）、xfs、
HarmonyOS 实战开发 —— 基于HMRouter的路由跳转方案 CTrup 鸿蒙开发 HarmonyOS 移动开发 harmonyos 组件化移动开发鸿蒙开发 ArkUI HMRouter 组件化路由
往期笔录记录：鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……HMRouter简介HMRouter作为Har
web前端开发工程师工作的岗位职责（合集）极客11 面试与求职前端状态模式
web前端开发工程师工作的岗位职责1职责：1、根据设计图进行前端页面开发并设计编写业务交互脚本2、优化前端页面，保证良好的用户体验以及不同浏览器的兼容性3、web前沿技术研究和新技术调研，将主流的特效应用到业务场景中4、配合后台开发人员实现网站界面和功能，为产品后期运营提供升级、维护等技术支持。5、工作积极主动，善于沟通，协调项目与项目之间的工作安排与配合，确保开发工作顺利进行。6、具备较强的学习
Node.js 的模块作用域和 module 对象详细介绍还是鼠鼠 node.js node.js javascript 前端 vscode web
目录代码示例1.创建模块文件module-demo.js2.导入模块并使用module-demo.js运行结果总结在Node.js中，每个文件都是一个独立的模块，具有自己的作用域。与浏览器JavaScript代码不同，Node.js采用模块作用域，这意味着一个文件中的变量、函数、类等不会污染全局作用域，而是仅在该模块内部有效。这种设计提高了代码的封装性和安全性。module对象是Node.js提供
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
HarmonyNext 鸿蒙架构深度解析与 ArkTS 编程实践披光人 harmonyOS harmonyos 华为
引言HarmonyNext作为鸿蒙操作系统的下一代核心架构，带来了全新的开发体验和性能优化。本文将深入探讨HarmonyNext的架构设计，并通过ArkTS语言进行实战案例的编写，帮助开发者快速掌握鸿蒙应用开发的核心技术。一、HarmonyNext架构概述1.1架构设计理念HarmonyNext的架构设计秉承了“轻量、高效、安全”的理念，旨在为开发者提供一个稳定、高效的开发环境。其核心架构包括以下
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
HarmonyNext深度解析：ArkUI 3.0声明式开发与高性能渲染实践披光人 harmonyOS harmonyos
第一章鸿蒙声明式UI架构演进与技术优势1.1从命令式到声明式的范式迁移HarmonyNext的ArkUI3.0标志着鸿蒙开发生态的重大革新，其核心在于采用声明式UI编程范式。相较于传统Android的XML+Java/Kotlin命令式开发模式，声明式UI具有以下技术特征：状态驱动视图：UI呈现完全由数据状态决定，开发者只需描述"UI应该是什么样子"，无需手动操作DOM元素单向数据流：采用Stat
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
【颠覆认知】大模型开发终极实战：30分钟用LangChain打造「超级AI客服」系统（附全代码+黑科技调参技巧）煜bart 人工智能
重磅提示：文末含99%开发者不知道的Prompt逆向注入破解方案！---###一、撕开大模型开发的遮羞布：传统方案的三大致命陷阱![](https://img-blog.csdnimg.cn/direct/8a7d3f8c2c7f4e5e8d3c4d0a6e5d8e7a.png)传统AI客服系统开发面临：1.对话记忆金鱼症（7轮对话必失忆）2.知识库更新堪比器官移植3.业务逻辑与AI模型强耦合我们
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
光伏开发：工商业光伏的流程管理全面解析鹧鸪云光伏与储能软件开发光伏设计光伏光伏发电新能源分布式
一、项目准备阶段1、资源寻觅与沟通首要任务是寻找适合的工商业屋顶或空地资源，并与业主初步交流，了解其意向、屋顶条件及用电情况。这一阶段的关键在于建立信任关系，为后续工作奠定基础。2、资料收集与核查全面收集业主资料，包括产权证明、建设规划等，确保项目合法性。同时，深入了解屋顶结构、使用年限等关键信息，为后续设计和技术评估提供依据。3、现场踏勘与技术评估实地踏勘确认项目现场情况，结合技术方案测算，评估
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

	阈值很小被过滤掉得特征比较少	阈值比较大被过滤掉的特征有很多
模型表现	不会有太大影响	可能变更好，代表被滤掉的特征大部分是噪音也可能变糟糕，代表被滤掉的特征中很多都是有效特征
运行时间	可能降低模型的运行时间基于方差很小的特征有多少当方差很小的特征不多时对模型没有太大影响	一定能够降低模型的运行时间算法在遍历特征时的计算越复杂，运行时间下降得越多