yumin1997

Sklearn官方文档中文整理9——特征选择和半监督学习篇

1. 监督学习
- 1.13. 特征选择
- - 1.13.1. 移除低方差特征【feature_selection.VarianceThreshold】
  - 1.13.2. 单变量特征选择【feature_selection.SelectKBest，feature_selection.SelectPercentile，feature_selection.SelectFpr，feature_selection.SelectFdr，feature_selection.SelectFwe，feature_selection.GenericUnivariateSelect】
  - 1.13.3. 递归式特征消除【feature_selection.RFE，feature_selection.RFECV】
  - 1.13.4. 使用 SelectFromModel 选取特征【feature_selection.SelectFromModel】
  - - 1.13.4.1. 基于 L1 的特征选取
    - 1.13.4.2. 基于 Tree（树）的特征选取
  - 1.13.5. 特征选取作为 pipeline（管道）的一部分
- 1.14. 半监督学习
- - 1.14.1. 标签传播

1. 监督学习

1.13. 特征选择

在 sklearn.feature_selection 模块中的类可以用来对样本集进行 feature selection（特征选择）和 dimensionality reduction（降维），这将会提高估计器的准确度或者增强它们在高维数据集上的性能。

1.13.1. 移除低方差特征【feature_selection.VarianceThreshold】

VarianceThreshold 是特征选择的一个简单基本方法，它会移除所有那些方差不满足一些阈值的特征。默认情况下，它将会移除所有的零方差特征，即那些在所有的样本上的取值均不变的特征。

例如，假设我们有一个特征是布尔值的数据集，我们想要移除那些在整个数据集中特征值为0或者为1的比例超过80%的特征。布尔特征是伯努利（ Bernoulli ）随机变量，变量的方差为
$\mathrm{Var}[X] = p(1 - p)$
因此，我们可以使用阈值.8 * (1 - .8)进行选择:

>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
>>> sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
>>> sel.fit_transform(X)
array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

正如预期一样， VarianceThreshold 移除了第一列，它的值为 0 的概率为 p = 5/6 > .8 。

sklearn.feature_selection.VarianceThreshold

参数	解释
threshold：float, default=0	训练集方差低于此阈值的特征将被删除。默认情况下，保留方差不为零的所有特征，即删除所有样本中具有相同值的特征。

属性	解释
variances_：array, shape (n_features,)	个别特征的方差。

方法	解释
fit(X[, y])	从X学习经验方差。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
set_params(**params)	设置此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
>>> selector = VarianceThreshold()
>>> selector.fit_transform(X)
array([[2, 0],
       [1, 4],
       [1, 1]])

1.13.2. 单变量特征选择【feature_selection.SelectKBest，feature_selection.SelectPercentile，feature_selection.SelectFpr，feature_selection.SelectFdr，feature_selection.SelectFwe，feature_selection.GenericUnivariateSelect】

单变量的特征选择是通过基于单变量的统计测试来选择最好的特征。它可以当做是评估器的预处理步骤。Scikit-learn 将特征选择的内容作为实现了 transform 方法的对象：

SelectKBest 移除那些除了评分最高的 K 个特征之外的所有特征
SelectPercentile 移除除了用户指定的最高得分百分比之外的所有特征
对每个特征应用常见的单变量统计测试: 假阳性率（false positive rate） SelectFpr, 伪发现率（false discovery rate） SelectFdr , 或者族系误差（family wise error） SelectFwe 。
GenericUnivariateSelect 允许使用可配置方法来进行单变量特征选择。它允许超参数搜索评估器来选择最好的单变量特征。

例如下面的实例，我们可以使用 $\chi^2$ 检验样本集来选择最好的两个特征：

>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectKBest
>>> from sklearn.feature_selection import chi2
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape
(150, 4)
>>> X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
>>> X_new.shape
(150, 2)

这些对象将得分函数作为输入，返回单变量的得分和 p 值（或者仅仅是 SelectKBest 和 SelectPercentile 的分数）:

对于回归:f_regression , mutual_info_regression
对于分类: chi2 ,f_classif , mutual_info_classif

这些基于 F-test 的方法计算两个随机变量之间的线性相关程度。另一方面，mutual information methods（互信息）能够计算任何种类的统计相关性，但是作为非参数的方法，互信息需要更多的样本来进行准确的估计。

稀疏数据的特征选择
如果你使用的是稀疏的数据 (例如数据可以由稀疏矩阵来表示),chi2 , mutual_info_regression , mutual_info_classif可以处理数据并保持它的稀疏性。

警告
不要使用一个回归评分函数来处理分类问题，你会得到无用的结果。

sklearn.feature_selection.SelectKBest

参数	解释
score_func：callable, default=f_classif	函数获取两个数组X和y，并返回一对数组（scores，pvalues）或一个带有scores的数组。默认值为f_classif。默认函数仅适用于分类任务。
k：int or “all”, default=10	要选择的顶级功能数。“all”选项绕过选择，用于参数搜索。

属性	解释
scores_：array-like of shape (n_features,)	特征的分数
pvalues_：array-like of shape (n_features,)	特征得分的p值

方法	解释
fit(X[, y])	在（X，y）上运行score函数并获得适当的特性。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
set_params(**params)	设置此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.datasets import load_digits
>>> from sklearn.feature_selection import SelectKBest, chi2
>>> X, y = load_digits(return_X_y=True)
>>> X.shape
(1797, 64)
>>> X_new = SelectKBest(chi2, k=20).fit_transform(X, y)
>>> X_new.shape
(1797, 20)

sklearn.feature_selection.SelectPercentile

参数	解释
score_func：callable, default=f_classif	函数获取两个数组X和y，并返回一对数组（scores，pvalues）或一个带有scores的数组。默认值为f_classif。默认函数仅适用于分类任务。
percentile：int, default=10	要保留的特征的百分比。

属性	解释
scores_：array-like of shape (n_features,)	特征的分数
pvalues_：array-like of shape (n_features,)	特征得分的p值

方法	解释
fit(X[, y])	在（X，y）上运行score函数并获得适当的特性。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
set_params(**params)	设置此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.datasets import load_digits
>>> from sklearn.feature_selection import SelectPercentile, chi2
>>> X, y = load_digits(return_X_y=True)
>>> X.shape
(1797, 64)
>>> X_new = SelectPercentile(chi2, percentile=10).fit_transform(X, y)
>>> X_new.shape
(1797, 7)

sklearn.feature_selection.SelectFpr

参数	解释
score_func：callable, default=f_classif	函数获取两个数组X和y，并返回一对数组（scores，pvalues）或一个带有scores的数组。默认值为f_classif。默认函数仅适用于分类任务。
alpha：float, default=5e-2	要保留的特征的最高p值。

属性	解释
scores_：array-like of shape (n_features,)	特征的分数
pvalues_：array-like of shape (n_features,)	特征得分的p值

方法	解释
fit(X[, y])	在（X，y）上运行score函数并获得适当的特性。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
set_params(**params)	设置此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.datasets import load_breast_cancer
>>> from sklearn.feature_selection import SelectFpr, chi2
>>> X, y = load_breast_cancer(return_X_y=True)
>>> X.shape
(569, 30)
>>> X_new = SelectFpr(chi2, alpha=0.01).fit_transform(X, y)
>>> X_new.shape
(569, 16)

sklearn.feature_selection.SelectFdr

参数	解释
score_func：callable, default=f_classif	函数获取两个数组X和y，并返回一对数组（scores，pvalues）或一个带有scores的数组。默认值为f_classif。默认函数仅适用于分类任务。
alpha：float, default=5e-2	要保留的特征的最高p值。

属性	解释
scores_：array-like of shape (n_features,)	特征的分数
pvalues_：array-like of shape (n_features,)	特征得分的p值

方法	解释
fit(X[, y])	在（X，y）上运行score函数并获得适当的特性。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
set_params(**params)	设置此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.datasets import load_breast_cancer
>>> from sklearn.feature_selection import SelectFdr, chi2
>>> X, y = load_breast_cancer(return_X_y=True)
>>> X.shape
(569, 30)
>>> X_new = SelectFdr(chi2, alpha=0.01).fit_transform(X, y)
>>> X_new.shape
(569, 16)

sklearn.feature_selection.SelectFwe

参数	解释
score_func：callable, default=f_classif	函数获取两个数组X和y，并返回一对数组（scores，pvalues）或一个带有scores的数组。默认值为f_classif。默认函数仅适用于分类任务。
alpha：float, default=5e-2	要保留的特征的最高p值。

属性	解释
scores_：array-like of shape (n_features,)	特征的分数
pvalues_：array-like of shape (n_features,)	特征得分的p值

方法	解释
fit(X[, y])	在（X，y）上运行score函数并获得适当的特性。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
set_params(**params)	设置此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.datasets import load_breast_cancer
>>> from sklearn.feature_selection import SelectFwe, chi2
>>> X, y = load_breast_cancer(return_X_y=True)
>>> X.shape
(569, 30)
>>> X_new = SelectFwe(chi2, alpha=0.01).fit_transform(X, y)
>>> X_new.shape
(569, 15)

sklearn.feature_selection.GenericUnivariateSelect

参数	解释
score_func：callable, default=f_classif	函数获取两个数组X和y，并返回一对数组（scores，pvalues）或一个带有scores的数组。默认值为f_classif。默认函数仅适用于分类任务。
mode：{‘percentile’, ‘k_best’, ‘fpr’, ‘fdr’, ‘fwe’}, default=’percentile’	特征选择模式。
param：float or int depending on the feature selection mode, default=1e-5	对应模式的参数。

属性	解释
scores_：array-like of shape (n_features,)	特征的分数
pvalues_：array-like of shape (n_features,)	特征得分的p值

方法	解释
fit(X[, y])	在（X，y）上运行score函数并获得适当的特性。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
set_params(**params)	设置此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.datasets import load_breast_cancer
>>> from sklearn.feature_selection import GenericUnivariateSelect, chi2
>>> X, y = load_breast_cancer(return_X_y=True)
>>> X.shape
(569, 30)
>>> transformer = GenericUnivariateSelect(chi2, mode='k_best', param=20)
>>> X_new = transformer.fit_transform(X, y)
>>> X_new.shape
(569, 20)

1.13.3. 递归式特征消除【feature_selection.RFE，feature_selection.RFECV】

给定一个外部的估计器，可以对特征赋予一定的权重（比如，线性模型的相关系数），recursive feature elimination ( RFE ) 通过考虑越来越小的特征集合来递归的选择特征。首先，评估器在初始的特征集合上面训练并且每一个特征的重要程度是通过一个 coef_属性或者 feature_importances_ 属性来获得。然后，从当前的特征集合中移除最不重要的特征。在特征集合上不断的重复递归这个步骤，直到最终达到所需要的特征数量为止。 RFECV 在一个交叉验证的循环中执行RFE 来找到最优的特征数量

sklearn.feature_selection.RFE

参数	解释
estimator：Estimator instance	一种有监督的学习估计器，采用拟合方法提供有关特征重要性的信息
n_features_to_select：int or float, default=None	要选择的特征数。如果None，则选择一半特征。如果为整数，则参数是要选择的特征的绝对数量。如果浮点值介于0和1之间，则它是要选择的特征的分数。
step：int or float, default=1	如果大于或等于1，则步骤对应于每次迭代中要删除的特征数（整数）。如果在（0.0，1.0）之内，则步骤对应于在每次迭代中要删除的特征的百分比（向下舍入）。
verbose：int, default=0	控制输出的详细程度。
importance_getter：str or callable, default=’auto’	如果“auto”，则通过估计器的coef_或feature_importances_ 属性使用特征重要性。

属性	解释
estimator_：Estimator instance	用于选择特征的拟合估计器。
n_features_：int	选定特征的数量。
ranking_：ndarray of shape (n_features,)	特征排名
support_：ndarray of shape (n_features,)	选定特征的mask。

方法	解释
decision_function(X)	计算X的决策函数。
fit(X, y)	拟合RFE模型，然后对所选模型进行基础估计
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
predict(X)	将X减少到选定的特征，然后使用
predict_log_proba(X)	预测X的类的对数概率。
predict_proba(X)	预测X的类概率。
score(X, y)	将X减少到所选特征，然后返回所选特征的分数
set_params(**params)	设置此估计器的参数。
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.datasets import make_friedman1
>>> from sklearn.feature_selection import RFE
>>> from sklearn.svm import SVR
>>> X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)
>>> estimator = SVR(kernel="linear")
>>> selector = RFE(estimator, n_features_to_select=5, step=1)
>>> selector = selector.fit(X, y)
>>> selector.support_
array([ True,  True,  True,  True,  True, False, False, False, False,
       False])
>>> selector.ranking_
array([1, 1, 1, 1, 1, 6, 4, 3, 2, 5])

sklearn.feature_selection.RFECV

参数	解释
estimator：Estimator instance	一种有监督的学习估计器，采用拟合方法提供有关特征重要性的信息
n_features_to_select：int or float, default=None	要选择的特征数。如果None，则选择一半特征。如果为整数，则参数是要选择的特征的绝对数量。如果浮点值介于0和1之间，则它是要选择的特征的分数。
min_features_to_select：int, default=1	要选择的最小特征数。即使原始特征计数和最小特征选择之间的差值不能被步长整除，也将始终对该数量的特征进行评分。
cv：int, cross-validation generator or an iterable, default=None	确定交叉验证拆分策略。
scoring：string, callable or None, default=None	一个字符串（参见模型评估文档）或一个带有签名记分器（estimator，X，y）的记分器可调用对象/函数。
verbose：int, default=0	控制输出的详细程度。
n_jobs：int or None, default=None	线程数
importance_getter：str or callable, default=’auto’	如果“auto”，则通过估计器的coef_或feature_importances_ 属性使用特征重要性。

属性	解释
estimator_：Estimator instance	用于选择特征的拟合估计器。
grid_scores_：ndarray of shape (n_subsets_of_features,)	交叉验证得分
n_features_：int	选定特征的数量。
ranking_：ndarray of shape (n_features,)	特征排名
support_：ndarray of shape (n_features,)	选定特征的mask。

方法	解释
decision_function(X)	计算X的决策函数。
fit(X, y)	拟合RFE模型，然后对所选模型进行基础估计
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
predict(X)	将X减少到选定的特征，然后使用
predict_log_proba(X)	预测X的类的对数概率。
predict_proba(X)	预测X的类概率。
score(X, y)	将X减少到所选特征，然后返回所选特征的分数
set_params(**params)	设置此估计器的参数。
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.datasets import make_friedman1
>>> from sklearn.feature_selection import RFECV
>>> from sklearn.svm import SVR
>>> X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)
>>> estimator = SVR(kernel="linear")
>>> selector = RFECV(estimator, step=1, cv=5)
>>> selector = selector.fit(X, y)
>>> selector.support_
array([ True,  True,  True,  True,  True, False, False, False, False,
       False])
>>> selector.ranking_
array([1, 1, 1, 1, 1, 6, 4, 3, 2, 5])

1.13.4. 使用 SelectFromModel 选取特征【feature_selection.SelectFromModel】

SelectFromModel 是一个 meta-transformer（元转换器），它可以用来处理任何带有 coef_ 或者 feature_importances_ 属性的训练之后的评估器。如果相关的coef_ 或者 featureimportances 属性值低于预先设置的阈值，这些特征将会被认为不重要并且移除掉。除了指定数值上的阈值之外，还可以通过给定字符串参数来使用内置的启发式方法找到一个合适的阈值。可以使用的启发式方法有 mean 、 median 以及使用浮点数乘以这些（例如，0.1*mean ）。

sklearn.feature_selection.SelectFromModel

参数	解释
estimator：object	构建转换器的基本估计器，这既可以是拟合的（如果prefit设置为True）也可以是非拟合的估计器。估计器在拟合后必须具有feature_importances_或coef_属性。
threshold：string or float, default=None	用于特征选择的阈值。重要性大于或等于的特征将被保留，而其他特征将被丢弃。如果“median” (resp. “mean”)，则阈值为中值（resp.特征重要性的平均值)。也可以使用比例因子（例如，“1.25*平均值”）。如果None，并且如果估计器显式或隐式地（例如，lasso）将参数惩罚设置为l1，则使用的阈值为1e-5。否则，默认使用“mean”。
prefit：bool, default=False	prefit模型是否希望直接传递到构造函数中。如果为True，则必须直接调用transform，并且SelectFromModel不能与cross_val_score, GridSearchCV 和克隆估计器的类似实用程序一起使用。另外，利用拟合对模型进行训练，然后变换进行特征选择。
norm_order：non-zero int, inf, -inf, default=1	在估计器的coef_属性为维数2的情况下，用于过滤阈值以下系数向量的范数的阶数。
max_features：int, default=None	要选择的最大特征数
importance_getter：str or callable, default=’auto’	如果“auto”，则通过估计器的coef_或feature_importances_ 属性使用特征重要性。

属性	解释
estimator_：an estimator	用于选择特征的拟合估计器。
threshold_：float	用于特征选择的阈值。

方法	解释
fit(X, y)	拟合模型
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
get_support([indices])	获取所选特征的掩码或整数索引
inverse_transform(X)	反转转换操作
partial_fit(X[, y])	只拟合SelectFromModel meta-transformer一次
set_params(**params)	设置此估计器的参数。
transform(X)	将X减少到选定的特征。

例：

>>> from sklearn.feature_selection import SelectFromModel
>>> from sklearn.linear_model import LogisticRegression
>>> X = [[ 0.87, -1.34,  0.31 ],
...      [-2.79, -0.02, -0.85 ],
...      [-1.34, -0.48, -2.55 ],
...      [ 1.92,  1.48,  0.65 ]]
>>> y = [0, 1, 0, 1]
>>> selector = SelectFromModel(estimator=LogisticRegression()).fit(X, y)
>>> selector.estimator_.coef_
array([[-0.3252302 ,  0.83462377,  0.49750423]])
>>> selector.threshold_
0.55245...
>>> selector.get_support()
array([False,  True, False])
>>> selector.transform(X)
array([[-1.34],
       [-0.02],
       [-0.48],
       [ 1.48]])

1.13.4.1. 基于 L1 的特征选取

Linear models 使用 L1 正则化的线性模型会得到稀疏解：他们的许多系数为 0。当目标是降低使用另一个分类器的数据集的维度，它们可以与 feature_selection.SelectFromModel一起使用来选择非零系数。特别的，可以用于此目的的稀疏评估器有用于回归的 linear_model.Lasso, 以及用于分类的 linear_model.LogisticRegression 和 svm.LinearSVC

>>> from sklearn.svm import LinearSVC
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectFromModel
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape
(150, 4)
>>> lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
>>> model = SelectFromModel(lsvc, prefit=True)
>>> X_new = model.transform(X)
>>> X_new.shape
(150, 3)

在 SVM 和逻辑回归中，参数 C 是用来控制稀疏性的：小的 C 会导致少的特征被选择。使用 Lasso，alpha 的值越大，越少的特征会被选择。

1.13.4.2. 基于 Tree（树）的特征选取

基于树的 estimators （查阅 sklearn.tree 模块和树的森林在sklearn.ensemble模块）可以用来计算特征的重要性，然后可以消除不相关的特征（当与 sklearn.feature_selection.SelectFromModel 等元转换器一同使用时）:

>>> from sklearn.ensemble import ExtraTreesClassifier
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectFromModel
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape
(150, 4)
>>> clf = ExtraTreesClassifier()
>>> clf = clf.fit(X, y)
>>> clf.feature_importances_  
array([ 0.04...,  0.05...,  0.4...,  0.4...])
>>> model = SelectFromModel(clf, prefit=True)
>>> X_new = model.transform(X)
>>> X_new.shape               
(150, 2)

1.13.5. 特征选取作为 pipeline（管道）的一部分

特征选择通常在实际的学习之前用来做预处理。在 scikit-learn 中推荐的方式是使用 :sklearn.pipeline.Pipeline:

clf = Pipeline([
  ('feature_selection', SelectFromModel(LinearSVC(penalty="l1"))),
  ('classification', RandomForestClassifier())
])
clf.fit(X, y)

在这段代码中，我们利用 sklearn.svm.LinearSVC 和 sklearn.feature_selection.SelectFromModel来评估特征的重要性并且选择出相关的特征。然后，在转化后的输出中使用一个 sklearn.ensemble.RandomForestClassifier 分类器，比如只使用相关的特征。你也可以使用其他特征选择的方法和可以提供评估特征重要性的分类器来执行相似的操作。请查阅 sklearn.pipeline.Pipeline 来了解更多的实例。

sklearn.pipeline.Pipeline

参数	解释
steps：list	（名称，转换）元组列表（实现拟合/转换），按链接顺序链接，最后一个对象是估计器。
memory：str or object with the joblib.Memory interface, default=None	用于缓存已安装的管道转换器。默认情况下，不执行缓存。如果给定一个字符串，它就是缓存目录的路径。启用缓存会在拟合之前触发转换的克隆。因此，不能直接检查给管道的转换实例。使用名为_steps或steps的属性检查管道中的估计器。当拟合耗时时，缓存转换是有利的。
verbose：bool, default=False	如果为True，则拟合的每个步骤时所用的时间将在完成时打印出来。

属性	解释
named_steps：Bunch	类似字典的对象，具有以下属性。 Read-only属性，按用户给定的名称访问任何步骤参数。键是步骤名称，值是步骤参数。

方法	解释
decision_function(X)	应用变换和最终估计器的决策函数
fit(X, y)	拟合模型
fit_predict(X[, y])	应用转换后管道中最后一步的拟合。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
predict(X, **predict_params)	将变换应用于数据，并使用最终估计器进行预测
predict_log_proba(X)	将变换应用于数据，并使用最终估计器进行预测对数概率
predict_proba(X)	将变换应用于数据，并使用最终估计器进行预测概率
score(X[, y, sample_weight])	将变换应用于数据，并计算最终估计器分数
score_samples(X)	应用变换，并对最终估计量的样本进行评分。
set_params(**params)	设置此估计器的参数。

例：

>>> from sklearn.svm import SVC
>>> from sklearn.preprocessing import StandardScaler
>>> from sklearn.datasets import make_classification
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.pipeline import Pipeline
>>> X, y = make_classification(random_state=0)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y,
...                                                     random_state=0)
>>> pipe = Pipeline([('scaler', StandardScaler()), ('svc', SVC())])
>>> # The pipeline can be used as any other estimator
>>> # and avoids leaking the test set into the train set
>>> pipe.fit(X_train, y_train)
Pipeline(steps=[('scaler', StandardScaler()), ('svc', SVC())])
>>> pipe.score(X_test, y_test)
0.88

1.14. 半监督学习

半监督学习 适用于在训练数据上的一些样本数据没有贴上标签的情况。 sklearn.semi_supervised 中的半监督估计, 能够利用这些附加的未标记数据来更好地捕获底层数据分布的形状，并将其更好地类推到新的样本。当我们有非常少量的已标签化的点和大量的未标签化的点时，这些算法表现均良好。

y 中含有未标记的数据
在使用 fit 方法训练数据时, 将标识符与已标签化的数据一起分配给未标签化的点是尤其重要的. 实现该标记的方法是使用整数值 -1.

1.14.1. 标签传播

标签传播表示半监督图推理算法的几个变体。

该模型的一些特性如下:

可用于分类和回归任务
使用内核方法将数据投影到备用维度空间

scikit-learn 提供了两种标签传播模型: LabelPropagation和 LabelSpreading 。两者都通过在输入的 dataset（数据集）中的所有 items（项）上构建 similarity graph （相似图）来进行工作。

标签传播说明: 未标签化的观察值结构与 class（类）结构一致, 因此可以将 class（类）标签传播到训练集的未标签化的观察值

LabelPropagation 和 LabelSpreading 在对图形的相似性矩阵, 以及对标签分布的clamping effect（夹持效应）的修改方面不太一样。 Clamping 允许算法在一定程度上改变真实标签化数据的权重。该 LabelPropagation 算法执行输入标签的 hard clamping, 这意味着 $\alpha=0$ 。这些 clamping factor 可以不是很严格的, 例如 $\alpha=0.2$ , 这意味着我们将始终保留原始标签分配的 80%, 但该算法可以将其分布的置信度改变在 20% 以内。

LabelPropagation 使用原始相似性矩阵从未修改的数据来构建。 LabelSpreading 最小化具有正则化属性的损耗函数, 因此它通常更适用于噪声数据。该算法在原始图形的修改版本上进行迭代, 并通过计算 normalized graph Laplacian matrix （归一化图拉普拉斯矩阵）来对边缘的权重进行归一化。此过程也用于 Spectral clustering 。

标签传播模型有两种内置的 kernel methods（核函数）。 kernel （核）的选择会影响算法的可扩展性和性能。以下是可用的:

$(\exp(-\gamma |x-y|^2), \gamma > 0)$ . $\gamma$ 通过关键字 gamma 来指定。
$\in kNN(x)])$ . $k$ 通过关键字 n_neighbors 来指定。

RBF 核将产生一个完全连接的图形, 它通过密集矩阵在内存中表示。该矩阵可能非常大, 与算法的每次迭代执行全矩阵乘法计算的成本相结合可导致超长的运行时间。在另一方面, KNN 核将产生更多的内存友好的稀疏矩阵, 这样可以大幅度的减少运行时间。

sklearn.semi_supervised.LabelPropagation

参数	解释
kernel：{‘knn’, ‘rbf’} or callable, default=’rbf’	要使用的内核函数或内核函数本身的字符串标识符。只有“rbf”和“knn”字符串是有效输入。
gamma：float, default=20	rbf核的参数。
n_neighbors：int, default=7	knn内核的参数，需要严格正。
max_iter：int, default=1000	更改允许的最大迭代次数
tol：float, 1e-3	收敛容限：考虑系统稳态时的阈值。
n_jobs：int, default=None	线程数

属性	解释
X_：ndarray of shape (n_samples, n_features)	输入数组。
classes_：ndarray of shape (n_classes,)	用于分类实例的不同标签。
label_distributions_：ndarray of shape (n_samples, n_classes)	每个项目的分类分布。
transduction_：ndarray of shape (n_samples)	通过传感器分配给每个项目的标签。
n_iter_：int	运行的迭代次数。

方法	解释
decision_function(X)	应用变换和最终估计器的决策函数
fit(X, y)	拟合模型
fit_predict(X[, y])	应用转换后管道中最后一步的拟合。
fit_transform(X[, y])	拟合数据，然后转换它。
get_params([deep])	获取此估计器的参数。
predict(X, **predict_params)	将变换应用于数据，并使用最终估计器进行预测
predict_log_proba(X)	将变换应用于数据，并使用最终估计器进行预测对数概率
predict_proba(X)	将变换应用于数据，并使用最终估计器进行预测概率
score(X[, y, sample_weight])	将变换应用于数据，并计算最终估计器分数
score_samples(X)	应用变换，并对最终估计量的样本进行评分。
set_params(**params)	设置此估计器的参数。

例：

>>> from sklearn.svm import SVC
>>> from sklearn.preprocessing import StandardScaler
>>> from sklearn.datasets import make_classification
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.pipeline import Pipeline
>>> X, y = make_classification(random_state=0)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y,
...                                                     random_state=0)
>>> pipe = Pipeline([('scaler', StandardScaler()), ('svc', SVC())])
>>> # The pipeline can be used as any other estimator
>>> # and avoids leaking the test set into the train set
>>> pipe.fit(X_train, y_train)
Pipeline(steps=[('scaler', StandardScaler()), ('svc', SVC())])
>>> pipe.score(X_test, y_test)
0.88

你可能感兴趣的:(学习文档——机器学习,数据挖掘,算法)

二分查找算法 mcharleylei 算法 python
目录1、概述2、代码实现（1）递归实现（2）非递归实现1、概述二分查找又称折半查找，优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查
Kmeans与KMedoids聚类对比以及python实现呵呵爱吃菜 kmeans 聚类 python
在机器学习领域，聚类算法是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本尽可能相似，而不同簇之间的样本尽可能不同。K-Means和K-Medoids是两种经典的聚类算法，它们都基于划分的思想，但在具体实现和应用场景上存在一些差异。一、算法原理1.K-Means:中心点选择:K-Means算法通过计算簇内所有样本的均值来确定中心点（centroid）。距离度量:通常
网络安全态势感知：企业数字化转型的 “安全密钥” 知白守黑V 安全运营网络安全态势感知网络
在数字经济飞速发展的当下，网络安全已经成为企业平稳运营的关键所在。从大型企业的数据泄露事故，到中小企业遭遇的各类网络攻击，网络安全威胁无处不在。而网络安全态势感知产品，作为应对复杂网络威胁的关键技术，正逐渐成为企业守护数字资产的“智慧大脑”。一、态势感知：全景掌控，精准防御你可以把网络安全态势感知想象成企业网络的“超级侦察兵”。它借助大数据分析、机器学习这些先进技术，就像是拥有了超级强大的“洞察力
算法随笔_21:字符的最短距离程序趣谈算法
上一篇:算法随笔_20:区间子数组个数-CSDN博客=====================题目描述如下:给你一个字符串s和一个字符c，且c是s中出现过的字符。返回一个整数数组answer，其中answer.length==s.length且answer[i]是s中从下标i到离它最近的字符c的距离。两个下标i和j之间的距离为abs(i-j)，其中abs是绝对值函数。示例1：输入：s="lovel
【优选算法】10----无重复字符的最长子串 Rhzkp 算法 c++leetcode
---------------------------------------begin---------------------------------------题目解析：看到这一类题目，有没有那种一眼就感觉时要用到滑动窗口的感觉，铁子们？讲解算法原理：方法一:暴力解法：简单粗暴的地毯式搜索暴力解法就像一个没有什么技巧的探险家，直接把所有可能的子串都找出来，然后一个一个检查是不是有重复字符，最
【第四天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-两种常见的递归算法（持续更新） Long_poem python 算法开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的搜索算法2.两种常见的递归算法3.两种详细的递归算法代码1）斐波那契数列2）阶乘总结前言提示：这里可以添加本文要记录的大概内容：第一天Python数据结构与算法的详细介绍第二天五种常见的排序算法第三天两种常见的搜索算法第四天两种常见的递归算法第五天一种常见的
AlphaFold2的思路总结（十五） xiaofengzihhh 蛋白质结构预测深度学习人工智能神经网络
2021SC@SDUSC这学期的代码分析工作接近尾声了，我想简单总结一下AlphaFold2的总体思路具体来看，AlphaFold2主要利用多序列比对（MSA），把蛋白质的结构和生物信息整合到了深度学习算法中。它主要包括两个部分：神经网络EvoFormer和结构模块（Structuremodule）。一、EvoFormer 在EvoFormer中，主要是将图网络（Graphnetworks）
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
Python实现itemCF协同过滤推荐算法并计算召回率、准确率、F1分数和覆盖率计算机软件程序设计机器学习 python 推荐算法开发语言
一个完整的Python实现，包括ItemCF协同过滤算法的实现以及召回率、准确率、F1分数和覆盖率等评估指标的计算。将使用Pandas进行数据处理，Scikit-learn进行相似度计算，并编写函数来生成推荐列表和评估模型性能。1.数据准备首先，需要准备数据。假设有一个用户-物品评分矩阵（可以是显式评分或隐式反馈），表示用户对不同酒店的喜好程度。这里可以使用Pandas来处理数据。importpa
情感分析常见算法与模型及实现步骤计算机软件程序设计知识科普算法情感分析机器学习
【1】常见算法与模型情感分析（SentimentAnalysis）是一种自然语言处理（NLP）技术，用于识别和提取文本中的主观信息，如情绪、态度和意见。常见的算法和模型包括以下几种：传统机器学习方法朴素贝叶斯（NaiveBayes）基于贝叶斯定理，假设特征之间相互独立。计算简单，适用于大规模数据集。常用于文本分类任务。支持向量机（SVM）通过寻找最优超平面来划分不同的类别。在高维空间中表现良好，适
LeetCode 21. 合并两个有序链表链表合并 Java实现 Lentr0py LeetCode 算法题 leetcode 链表 java 算法数据结构
21.合并两个有序链表21.合并两个有序链表题目来源题目分析题目难度题目标签题目限制解题思路思路：核心算法步骤迭代法代码实现代码解读性能分析复杂度结果测试用例扩展讨论优化写法其他实现总结21.合并两个有序链表题目来源21.合并两个有序链表题目分析将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。题目难度难度：简单题目标签标签：链表题目限制两个链表的节点数目
2025-1-21-sklearn学习(43) 使用 scikit-learn 介绍机器学习楼上阑干横斗柄，寒露人远鸡相应。汤姆和佩琦 sklearn 机器学习 sklearn 学习 python 人工智能 scikit-learn
文章目录sklearn学习(43)使用scikit-learn介绍机器学习43.1机器学习：问题设置43.2加载示例数据集43.3学习和预测43.4模型持久化43.4规定43.4.1类型转换43.4.2再次训练和更新参数43.4.3多分类与多标签拟合sklearn学习(43)使用scikit-learn介绍机器学习文章参考网站：https://sklearn.apachecn.org/和https
通过Python编程语言实现“机器学习”小项目教程案例胡萝卜不甜机器学习 python 机器学习开发语言
1.Python与机器学习概述1.1Python语言特点Python是一种广泛使用的高级编程语言，具有简洁、易读、易学的特点，这使得它成为初学者和专业人士的首选语言之一。简洁性：Python的语法简洁明了，减少了代码量，提高了开发效率。例如，与其他语言相比，Python可以用更少的代码实现相同的功能，这使得代码更容易编写和维护。易读性：Python的代码风格类似于英语，易于理解和阅读。这种易读性使
redis原理小哲会嘿魔法 redis 数据库缓存
文章目录redis客户端-认识RESP持久化持久化具体实现1.RDB(RedisDataBase)2.AOF(AppendOnlyFile)事务相关命令主从复制拓扑结构同步过程部分复制实时复制哨兵（Sentinel）哨兵选取主节点流程集群数据分片主节点宕机集群扩容缓存缓存更新缓存预热、缓存穿透、缓存雪崩、缓存击穿分布式锁过期时间校验IdLua脚本watchdog（看门狗）Redlock算法redi
OpenCV实战技术应用 yzx991013 OpenCV基础全集 opencv 人工智能计算机视觉
10.0角点检测应用技术实现，使用SIFT算法进行特征点检测并绘制。结果：实现过程:解析过程：1.导入模块：importcv2：导入opencv库，用于图像处理操作，包括图像读取、特征提取、图像绘制、匹配等。importnumpyasnp：导入numpy库，用于处理数组数据，在特征描述符的存储和处理中可能会用到。2.函数定义：sift_tz()：功能：使用SIFT算法进行特征点检测并绘制。实现：i
「Py」基础语法篇之 Python缩进规则何曾参静谧「Py」Python程序设计数据库
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制开发「Py」Python程序设计「Math」探秘数学世界「PK」Pa
基于Python的开源量化交易框架：构建你的量化投资策略 ShAutoit python 开发语言
量化投资是一种利用数学和统计模型来进行投资决策的方法，它将大量的金融数据与算法相结合，以识别交易机会并执行交易。Python作为一种功能强大且易于使用的编程语言，为开发和实施量化交易策略提供了很好的支持。本文将介绍基于Python的开源量化交易框架，帮助你构建自己的量化投资策略。数据获取和处理在量化投资中，数据是至关重要的。你需要获取和处理市场数据，包括股票价格、指数数据、财务数据等。在Pytho
使用Python实现并行计算算法：效率提升的利器 Echo_Wish Python进阶 python 算法开发语言
在处理大规模数据和计算密集型任务时，单线程的处理方式往往显得力不从心。并行计算作为一种提升计算效率的重要手段，能够充分利用多核处理器的优势，加速任务的完成。Python作为一种灵活且功能强大的编程语言，提供了丰富的并行计算工具。本文将详细介绍如何使用Python实现并行计算算法，并通过具体代码示例展示其实现过程。项目概述本项目旨在通过Python实现一个并行计算算法，展示如何利用Python的多线
Kafka 消息存储与销毁机制 AI天才研究院大数据AI人工智能计算 kafka wpf 分布式
Kafka消息存储与销毁机制文章目录Kafka消息存储与销毁机制1.背景介绍1.1什么是Kafka1.2Kafka的基本概念解释2.核心概念与联系2.1消息存储机制2.2消息销毁机制2.3分区与副本机制3.核心算法原理具体操作步骤3.1消息存储过程3.2消息消费过程3.3消息销毁过程3.4分区副本同步过程4.数学模型和公式详细讲解举例说明4.1消息存储模型4.2消息销毁模型4.3分区副本同步模型5
ROS 实时修改动态参数的方法 jucat ROS 机器人自动驾驶 linux
参考HokuyoLaser动态参数设置wikiipa覆盖算法源码背景工作中需要在C++程序运行过程中，根据场景开关costmap2d的障碍物感知图层以及膨胀图层。在yaml启动参数配置中加载障碍物层插件和膨胀层插件，但是关闭它们的更新，大概如下：global_costmap:global_frame:maprobot_base_frame:base_footprint...plugins:-{na
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
P3978 [TJOI2015] 概率论洛谷之蒟蒻概率论
题目描述为了提高智商，ZJY开始学习概率论。有一天，她想到了这样一个问题：对于一棵随机生成的n个结点的有根二叉树（所有互相不同构的形态等概率出现），它的叶子节点数的期望是多少呢？判断两棵树是否同构的伪代码如下：算法1Check(T1,T2)Require:两棵树的节点ifT1=nullorT2=nullthenreturnT1=nullandT2=nullelsereturnCheck(T1→le
华为OD机试E卷 --连续字母长度--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java python 华为od javascript c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给定一个字符串，只包含大写字母，求在包含同一字母的子串中，长度第k长的子串的长度，相同字母只取最长的那个子串。输入描述第一行有一个子串(1<长度<=100)，只包含大写字母。第二行为k的值输出描述输出连续出现次数第k多的字母的次数。用例输入AAAAHHHBBCDHHHH3输出
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
如何修改Chromium内核|浏览器指纹伪装|Puppeteer指纹|Playwright指纹- Chromium内核修改与浏览器指纹伪装方法-anti-fingerprint指纹浏览器如何搭建环境药尘韩立前端 javascript 开发语言 python 自动化 ai
Chromium内核是许多现代浏览器的基础，如Chrome和Edge。在进行网络爬取、自动化测试或数据挖掘等任务时，使用Puppeteer或Playwright等工具时，浏览器指纹的重要性不言而喻。本文将介绍如何修改Chromium内核以及浏览器指纹伪装的方法，以构建一个抗指纹的浏览环境。首先，了解如何修改Chromium内核是至关重要的。您可以从Chromium源代码仓库中获取最新的代码，并根据
Feed流 baiyinaaaaa 后端
是一种呈现内容给用户并持续更新的方式，用户可以选择订阅多个资源，网站提供feed地址，用户将feed网址等级到阅读器中，在阅读器里形成的聚合页就是feed流。现在流行的feed类似NewsFeed:订阅源不再是某个内容，而是生产内容的人或团体内容不严格按照timeline，广泛使用智能feed排序，新的feed流可以不在需要主动搜索，而是主动根据推送算法呈现内容，极大的增加了用户粘性和使用时间，F
航空客户价值的数据挖掘与分析（numpy+pandas+matplotlib+scikit-learn） Want595 Python数据分析数据挖掘 numpy pandas
文章目录航空客户价值的数据挖掘与分析（numpy+pandas+matplotlib+scikit-learn）写在前面背景与挖掘目标1.1需求背景1.2挖掘目标1.3项目概述项目分析方法规划2.1RFM模型2.2LRFMC模型指标2.3分析总体流程图数据抽取探索及预处理3.1数据抽取3.2数据探索分析3.3数据预处理3.3.1数据清洗3.3.2属性规约3.3.3数据变换数据建模&应用4.1模型构
【Java】常用工具类方法：树形结构、获取IP、对象拷贝、File相关、雪花算法等 PlanOne_A java 算法
1、生成子孙树/***生成子孙树**@paramdataArray遍历所有数据,每个数据加到其父节点下*@return子孙树json*/publicstaticJSONArraymakeTree(JSONArraydataArray){List>data=newArrayListmap=newHashMap>res=newArrayList>map=newHashMapvo:data){map.p
oracle 替代方案,oracle – PL/SQL或替代方案的数值优化寂寂若离 oracle 替代方案
我们需要做一些计算繁重的工作来连接Oracle数据库.到目前为止,我们已经在PL/sql中进行了数值计算,并且很大程度上缺乏性能.我用三种语言实现了部分算法：Fortran(90-2008符合gfortran),Excel中的VBA和PL/sql,并围绕它进行了一百万次调用测试循环.即使使用binary_double数据类型和使用PLsql_CODE_TYPE=NATIVE的本机编译(两者都会导致
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发