ASIA_kobe

XGBoost中参数调优的完整指南（含Python-3.X代码）

CSDN：http://blog.csdn.net/kicilove/article/

Github：https://github.com/zhaohuicici?tab=repositories

原文链接：https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

- 引言
- 关于XGBoost你需要知道什么
- 目录
- XGBoost优势是什么
- 了解XGBoost参数有哪些
  - 普遍意义的参数
  - 提升器Booster参数在每一步中引导单个的加速器Booster树回归
  - 带有学习任务的参数指导优化的过程
- 在实例中使用XGBoost并调参
- 参数调优的一般方法
  - Step 1 Fix learning rate and number of estimators for tuning tree-based parameters
  - Step 2 Tune max_depth and min_child_weight
  - Step 3 Tune gamma
  - Step 4 Tune subsample and colsample_bytree
  - Step 5 Tuning Regularization Parameters
  - Step 6 Reducing Learning Rate
- End Notes

引言

如果其他的预测模型无法满足你的预测需求时，请使用XGboost。 XGBoost算法已经成为许多数据科学家的终极武器。这是一个足够强大的可以应对各种不寻常数据的高大上的算法。

使用XGBoost构建模型很容易。但是，使用XGBoost改进模型很困难（至少于我来说还是很挣扎的）。这个算法使用了很多个参数。要想对模型进行改进，就必须对参数做出调整。很多实际的问题，比如说你应该调整哪一个参数集合？要得到最优的输出结果参数的理想值是多少?，这些实际问题都是很难得到答案的。

本文适合与刚接触XGBoost的新人。在本文中，我们将学习参数调优的技术以及有关XGBoost的一些有用信息。此外，我们将使用Python中的数据集练习该算法。

关于XGBoost你需要知道什么

* XGBoost（eXtreme Gradient Boosting）*是梯度增强算法（GBM）的高级实现。由于我在之前的文章 Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python中详细介绍了Gradient Boosting Machine，所以强烈建议您先阅读本文。这将有助于您加强对GBM的一般升级和参数调优的理解。

特别感谢：就个人而言，我要感谢Sudalai Rajkumar先生（又名SRK）提供的永久支持，目前是AV Rank 2。如果没有他的帮助，这篇文章是不可能的诞生的啦。他正帮助着成千上万的数据科学家。非常感谢SRK！

1. XGBoost优势是什么

我一直钦佩在一个预测型的模型中这种算法注入了提升（boosting）的能力。当我探索它的表现性能以及高准确性背后的科学道路时，发现了它身上有诸多的优点：

正则化：
- 标准的GBM实现过程中没有像XGBoost一样拥有正规化，因此XGBoost也有助于减少过度拟合。
- 事实上，XGBoost也被称为“正规化提升”技术。
并行处理：
- XGBoost实现了并行处理，与GBM相比，速度惊人的快。
- 我们知道提升（boosting）是一个顺序也就是串行的过程，XGBoost是怎样并行化的呢？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
  可并行的近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。我希望你得到我来的地方。查看这个链接，进一步探索。
- XGBoost还支持在Hadoop上实现。
高度的灵活性
- XGBoost允许用户自定义优化目标以及评估的准则。
- 这就为模型的广泛性应用提供了无限的可能，有没有感受到‘为所欲为’。
缺失值处理
- XGBoost具有内置的规则来处理缺失的值，它可以自动学习出它的分裂方向。
剪枝
- GBM在遇到损失为负的分裂节点时会停止这个节点的继续分裂，因此，它更像是一种贪心的算法。
- 另一方面，当我们指定树的最大深度（max_depth）时，XGBoost就会以这个指定的最大树深为上限去剪枝。具体来说就是，XGBoost先从上到下建立出所有可能的子树，然后根据我们设定的max_depth，从下到上反向进行剪枝，并且也会移除负增益的分割树。
- 当我们遇到一个比如说为-2的负损失分裂点然后它后面又跟着一个为+10的正损失的分裂时， GBM将在遇到-2时停止，而XGBoost将会继续深入分割，并且会看到一个组合出来为+8的分裂效果。
内置交叉验证
- XGBoost允许用户在每一轮boosting过程中的每次迭代中使用交叉验证，因此很容易获得最优boosting迭代次数；
- GBM必须使用网格搜索，因此只能测试有限个值。
在之前存在的模型上继续训练
- 用户可以从上次运行的最后一次迭代开始训练XGBoost模型。这在特定的应用中优势还是比较明显的。
- GBM在sklearn的实现中也有这个特点。

我希望现在你明白了XGBoost的绝对优势。请注意，这些只是XGBoost的部分要点。还待你发现更多？

您可以参考以下网页以获得更深入的了解：

XGBoost Guide – Introduction to Boosted Trees
Words from the Author of XGBoost [Video]

2. 了解XGBoost参数有哪些

XGBoost的作者把参数整体分为3类：

普遍意义的参数：指导整个函数的
提升器（Booster）参数：在每一步中引导单个的加速器（Booster）（树/回归）
带有学习任务的参数：指导优化的过程

强烈建议阅读这篇与GBM对比的文章。

下面介绍这些参数

1. 普遍意义的参数：

下面这些参数指导XGBoost的整体过程。

booster[default=gbtree]
- 在每次迭代中选择模型的类型，有2个选项：
  - gbtree: 基于树的模型
  - gblinear: 基于回归的模型
silent[default=0]
- 激活Silent mode就设置为1，即正在运行的消息不会被打印。
- 默认为0，好处就是帮助我们理解模型运行状况。
nthread[defaulttomaximumnumberofthreadsavailableifnotset]
- 这个参数用于并行处理，系统中的核的数量
- 如果想运行所有的核，就不用再输入nthread的值，因为默认情况就是使用所有核。

还有另外两个参数是由XGBoost自动设置的，下面继续探索Booster参数。

2. 提升器（Booster）参数：在每一步中引导单个的加速器（Booster）（树/回归）

虽然有两种类型的Booster，这里只讨论树式Booster。

eta [default=0.3]
- 与GBM中的eta类似。
- 在每一步中收缩权重使得模型更加稳健。
- 通常设置值为： 0.01−0.2
min_child_weight [default=1]
- 孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。该成熟越大算法越conservative
- 这与GBM中的min_child_leaf类似，但不完全相同，XGBoost指 min “sum of weights” of observations 而 GBM 为 min “number of observations”。
- 可用于控制过拟合。太高的值可能导致欠拟合，应使用CV进行调参。
max_depth [default=6]
- 与GBM一样，定义了一棵树的最大深度。
- 用于控制过拟合，因为较高的深度会使模型对一些样本学习到特定关系，而这种关系又不是泛化的。
- 适合用CV进行调整值的大小。
- 通常设置值为： 3−10
max_leaf_nodes
- 树中节点或树叶的最大数量。
- 有时可以代替max_depth。如：二叉树，深度“n”将产生最大2 ^ n个叶。
- 如果这样，GBM可以忽略max_depth。
gamma [default=0]
- 只有当损失函数以正值减少时，节点才会分割。 Gamma指定了进行分割时所需的最小损失的减少量。
- 使算法比较保守。 Gamma值可以根据损失函数调整大小。
max_delta_step [default=0]
- 如果 max_delta_step 设置为0，表示没有约束。可以取正值。
- 这个参数不是必须要设定的。在逻辑回归中，当类别比例非常不平衡时，这个参数很有用。
subsample [default=1]
- 与GBM取子样本一样，都是对总体进行随机采样出子样本占总体的比例。
- 较低的值使算法比较保守，可以防止过度拟合，但太小的值可能会导致欠拟合。
- 通常设置值为： 0.5−1
colsample_bytree [default=1]
- 类似于GBM中的max_features。表示随机抽取的列数占总列数的比例。
- 通常设置值为： 0.5−1
colsample_bylevel [default=1]
- 表示每个层中用于拆分时的列数占比（相当于选出的列数的再比例）。
- 这个参数不常用，因为subsample和 colsample_bytree可以替代这个参数的作用。
lambda [default=1]
- L2 对权重正则化（Ridge回归也是 L2 ）
- 这用于XGBoost的正则化部分。虽然许多数据科学家一般不用它，但是减少过拟合的时候还是要用一下的。
alpha [default=0]
- L1 对权重正则化（类似于Lasso回归的 L1 ）
- 维度较高时使用，可以运行得更快
scale_pos_weight [default=1]
- 数值大于0，在样本的类非常不均衡时使用有助于快速收敛。

3.带有学习任务的参数：指导优化的过程

这些参数用于定义优化的目标，在一步计算的度量。

objective [default=reg:linear]
- 这个参数定义了要最小化的损失函数。有如下选择：
  - binary:logistic ：用于二分类的逻辑回归，返回值为概率，非类别。
  - multi:softmax ：使用softmax目标的多类分类返回预测类（不是概率）。
    - 还需设置一个num_class（number of classes）参数来定义类的数量。
  - multi:softprob ：与softmax相同，但返回的是每个样本属于每个类的预测概率而不是类别。
eval_metric [ default according to objective ]
- 默认值为rmse用于回归，错误率用于分类。
- 可选值有：
  - rmse – root mean square error
  - mae – mean absolute error
  - logloss – negative log-likelihood
  - error – Binary classification error rate (0.5 threshold)
  - merror – Multiclass classification error rate
  - mlogloss – Multiclass logloss
  - auc : Area under the curve
seed [default=0]
- 种子随机数。
- 使采样的结果与之前相同以及参数调整。

如果使用Scikit-Learn，这些参数名称可能不太熟悉。可喜的是，python中的xgboost模块有一个名为XGBClassifier的sklearn封装。有些参数名称变化如下：

eta –> learning_rate
lambda –> reg_lambda
alpha –> reg_alpha

好像我们已经定义了在XGBoost与GBM中相似的所有参数，除了GBM中的 ‘n_estimators’ 参数。其实它出现在XGBClassifier的参数中，在标准xgboost中拟合函数的时候，以 “num_boosting_rounds ”的形式传递。

建议您通过xgboost指南更好地了解参数和代码：

XGBoost Parameters (official guide)
XGBoost Demo Codes (xgboost GitHub repository)
Python API Reference (official guide)

3. 在实例中使用XGBoost并调参

我们将从Data Hackathon 3.x AV hackathon中获取数据集，与GBM文章中的数据集相同。细节可以在此页面找到。您可以从这里下载数据集。执行步骤如下：

城市变量类别太多，舍弃
DOB转换为Age | DOB
创建 EMI_Loan_Submitted_Missing，如果EMI_Loan_Submitted是missing则设置为1，否则为0 |原始变量EMI_Loan_Submitted舍弃
雇主名称因为类别太多而被删除
Existing_EMI缺失的用0补（中位数），因为只有111个值是缺失状态
如果Interest_Rate缺失，则为Interest_Rate_Missing创建1，否则为0 |原始变量Interest_Rate舍弃
Lead_Creation_Date舍弃，直觉上认为对结果没影响
Loan_Amount_Applied，Loan_Tenure_Applied以中位数填充
创建Loan_Amount_Submitted_Missing，如果Loan_Amount_Submitted值缺失则取1，否则取0，原始变量Loan_Amount_Submitted舍弃
创建Loan_Tenure_Submitted_Missing，如果Loan_Tenure_Submitted值缺失，则取1，否则为 0 |原始变量Loan_Tenure_Submitted舍弃
LoggedIn，Salary_Account删除
创建Processing_Fee_Missing，如果Processing_Fee值缺失，则为1，否则为0 |原始变量Processing_Fee删除
Source - 第2名保持原样，所有其他组合成不同的类别
进行数值和单热编码（One-Hot-Coding）

开始，导入所需的库并加载数据：

#Import libraries:
import pandas as pd
import numpy as np
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from sklearn import cross_validation, metrics   #Additional scklearn functions
from sklearn.grid_search import GridSearchCV   #Perforing grid search

import matplotlib.pylab as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 4

train = pd.read_csv('train_modified.csv')
target = 'Disbursed'
IDcol = 'ID'
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16

请注意，我已经导入了2种形式的XGBoost：

xgb - 直接使用xgboost库。我将使用该库中的特定函数“cv”
XGBClassifier - 这是XGBoost的sklearn封装。可以在并行过程中使用与GBM相同sklearn’s Grid Search。

先定义一个函数，帮助我们创建XGBoost模型并执行交叉验证。这个也可以用在你自己的模型中。

def modelfit(alg, dtrain, predictors,useTrainCV=True, cv_folds=5, early_stopping_rounds=50):

    if useTrainCV:
        xgb_param = alg.get_xgb_params()
        xgtrain = xgb.DMatrix(dtrain[predictors].values, label=dtrain[target].values)
        cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
            metrics='auc', early_stopping_rounds=early_stopping_rounds, show_progress=False)
        alg.set_params(n_estimators=cvresult.shape[0])

    #Fit the algorithm on the data
    alg.fit(dtrain[predictors], dtrain['Disbursed'],eval_metric='auc')

    #Predict training set:
    dtrain_predictions = alg.predict(dtrain[predictors])
    dtrain_predprob = alg.predict_proba(dtrain[predictors])[:,1]

    #Print model report:
    print ("\nModel Report")
    print ("Accuracy : %.4g" %) metrics.accuracy_score(dtrain['Disbursed'].values, dtrain_predictions)
    print ("AUC Score (Train): %f" % metrics.roc_auc_score(dtrain['Disbursed'], dtrain_predprob))

    feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)
    feat_imp.plot(kind='bar', title='Feature Importances')
    plt.ylabel('Feature Importance Score')
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24

这个代码与用于GBM的代码略有不同。本文的重点是涵盖概念而不是编码。注意，xgboost的sklearn封装没有“feature_importances”指标，它使用get_fscore（）函数做相同的事情。

参数调优的一般方法

我们将使用类似于GBM的方法。几个步骤如下：

选择相对较高的学习率（high learning rate）。一般选用0.1，有时0.05到0.3之间也行，看具体问题。 XGBoost有个非常有用的“cv”函数，可以用来确定该学习率下的最优树的颗数（optimum number of trees for this learning rate. ），它在每次 boosting迭代时执行交叉验证，返回所需的最优树的颗数。
调整树的特定参数（Tune tree-specific parameters）（max_depth，min_child_weight，gamma，subsample，colsample_bytree），以确定学习速率和树的颗数。请注意，我们可以选择不同的参数来定义一个树，我将在这里介绍一个例子。
调整xgboost的正则化参数（regularization parameters ）（lambda，alpha），这有助于降低模型复杂性并提高性能。
降低学习率（Lower the learning rate）并决定最佳参数。

让我们来看一个更详细的一步一步的实现方法。

Step 1: Fix learning rate and number of estimators for tuning tree-based parameters

为了确定boosting参数，我们需要设置其他参数的初始值。让我们取下列值：

max_depth = 5 ：这应该在3-10之间。我已经开始使用5，但是您也可以选择不同的数字。 4-6可以。
min_child_weight = 1 ：选择较小的值，因为它会使类非常不平衡，也可能使叶节点组员较少。
gamma = 0 ：也可以选择像0.1-0.2这样较小的值来启动，这个后面会一直调整变动。
subsample，colsample_bytree = 0.8 ：这是一个常用的使用起始值。常取值介于0.5-0.9之间。
scale_pos_weight = 1 ：因为类非常不均衡。

请注意，以上只是设定初始值，后面会进行参数调优。这里默认学习率为0.1，使用xgboost的cv函数检查最优树的颗数，上面定义的函数可以实现这个功能。

#Choose all predictors except target & IDcols
predictors = [x for x in train.columns if x not in [target, IDcol]]
xgb1 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=5,
 min_child_weight=1,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb1, train, predictors)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15

正如你所看到的，在学习率为0.1的情况下，得到140为最优的估计量个数。请注意，根据你运行系统的情况，此值可能太高。在这种情况下，您可以增加学习率并重新运行命令以获得减少的估计量数。

注意：这里输出结果中testAUC可视为′AUCScore（Test）′。但是，如果您尝试在系统上运行命令，因为数据未公开，则不会出现此错误。它在这里提供仅供参考。生成此输出的代码部分已在此处删除。

Step 2: Tune max_depth and min_child_weight

首先调整对模型输出结果影响最大的参数。首先，我们先设置较宽的范围，然后再用较小范围执行另一次迭代。

重要提示：我将在本节中进行运行压力较大的网格搜索，根据您的系统，可能需要15-30分钟甚至更多时间才能运行。您可以根据系统来更改您要测试的值。

param_test1 = {
 'max_depth':range(3,10,2),
 'min_child_weight':range(1,6,2)
}
gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,
 min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27), 
 param_grid = param_test1, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch1.fit(train[predictors],train[target])
gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10

这里，我们已经运行12个组合。 max_depth的理想值为5，min_child_weight的理想值为5。让我们深入一步，寻找最佳值。我们将搜索间隔为1上下的最佳值，因为之前间隔都是2。

param_test2 = {
 'max_depth':[4,5,6],
 'min_child_weight':[4,5,6]
}
gsearch2 = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=5,
 min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test2, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch2.fit(train[predictors],train[target])
gsearch2.grid_scores_, gsearch2.best_params_, gsearch2.best_score_
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10

这一次，我们得到最佳值为4为max_depth和为6的min_child_weight。此外，我们可以看到CV得分增加较轻。请注意，随着模型性能的提高，要想在哪怕是边缘性能的提升都是指数级的困难。你会注意到，这里我们得到6作为min_child_weight的最优值，但是我们还没有尝试超过6的值。我们可以这样做：

param_test2b = {
 'min_child_weight':[6,8,10,12]
}
gsearch2b = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=4,
 min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test2b, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch2b.fit(train[predictors],train[target])
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8

modelfit(gsearch3.best_estimator_, train, predictors)
gsearch2b.grid_scores_, gsearch2b.best_params_, gsearch2b.best_score_
   
   
   
   
    
    
    
    1
    
    
    
    2

我们看到6还是最佳值。

Step 3: Tune gamma

现在可以使用上面已调整的参数来调整gamma值。 Gamma这里尝试5个值。也可以使用更精确的数值。

param_test3 = {
 'gamma':[i/10.0 for i in range(0,5)]
}
gsearch3 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test3, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch3.fit(train[predictors],train[target])
gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

这表明我们的原始伽玛值，即0是最佳值。在继续之前，一个好想法是重新校准更新参数的 boosting rounds 。

xgb2 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb2, train, predictors)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13

在这里，我们可以看到得分有所改善。所以最终的参数是：

max_depth: 4
min_child_weight: 6
gamma: 0

Step 4: Tune subsample and colsample_bytree

下一步将尝试不同的subsample和colsample_bytree值。让我们分两个阶段完成，取0.6,0.7,0.8,0.9为他们的初始值。

param_test4 = {
 'subsample':[i/10.0 for i in range(6,10)],
 'colsample_bytree':[i/10.0 for i in range(6,10)]
}
gsearch4 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test4, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch4.fit(train[predictors],train[target])
gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10

这里，我们发现0.8为subsample和colsample_bytree的最优值。现在我们应该尝试在0.05间隔周围的值。

param_test5 = {
 'subsample':[i/100.0 for i in range(75,90,5)],
 'colsample_bytree':[i/100.0 for i in range(75,90,5)]
}
gsearch5 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test5, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch5.fit(train[predictors],train[target])
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

这一次得到的最优值和上面相同，因此最优值为：

subsample: 0.8
colsample_bytree: 0.8

Step 5: Tuning Regularization Parameters

下一步是应用正则化来减少过度拟合。尽管许多人不太使用这些参数，因为gamma提供了一种控制复杂性的实质方法。但我们应该尝试使用它。我会在这里调整“reg_alpha”值，并留给你尝试不同的’reg_lambda’值。

param_test6 = {
 'reg_alpha':[1e-5, 1e-2, 0.1, 1, 100]
}
gsearch6 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test6, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch6.fit(train[predictors],train[target])
gsearch6.grid_scores_, gsearch6.best_params_, gsearch6.best_score_
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

我们可以看到CV得分小于之前的情况。但是尝试的值非常广，我们应该尝试更接近于最优的值（0.01），看看是否得到更好的结果。

param_test7 = {
 'reg_alpha':[0, 0.001, 0.005, 0.01, 0.05]
}
gsearch7 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test7, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch7.fit(train[predictors],train[target])
gsearch7.grid_scores_, gsearch7.best_params_, gsearch7.best_score_
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

可以看到我们得到一个更好的CV。现在我们可以在模型中应用这种正则化，看看影响：

xgb3 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 reg_alpha=0.005,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb3, train, predictors)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14

再次，我们可以看到得分略有改善。

Step 6: Reducing Learning Rate

最后，我们应该降低学习率，增加更多的树。让我们用XGBoost的cv函数再次做这个工作。

xgb4 = XGBClassifier(
 learning_rate =0.01,
 n_estimators=5000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 reg_alpha=0.005,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb4, train, predictors)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14

现在我们可以看到性能的显着提高，参数调整后的效果更加明显。

最后，我想分享两个关键的想法：

通过使用参数调整或稍微更好的模型，很难在结果上获得巨大的飞跃。 GBM的最高分数为0.8487，而XGBoost则为0.8494。改进是有的但是也并没有达到惊艳。
通过特征工程，创建模型集合，比如stacking等其他方法可以获得显着的飞跃。

您还可以从我的GitHub帐户下载所有这些代码的iPython notebook。对于R中的实现代码，可以参考这篇文章。

End Notes

本文实现了端到端的基于XGBoost模型的参数调优。我们首先讨论为什么XGBoost比GBM具有更好的性能，然后详细讨论了所涉及的各种参数。我们还定义了一个通用函数，可以重新用于其他模型。

最后，我们讨论了解决XGBoost问题的一般方法，并通过该方法制定了AV Data Hackathon 3.x问题。

我希望你发现这很有用并更有信心应用XGBoost来解决数据科学问题。

你可能感兴趣的:(ML之路)

Docker 存储 Psycho_MrZhang Docker docker java 容器
目录挂载在执行run时设置参数-v即可实现目录映射,实现原理会在宿主机器创建一个空文件夹#挂载宿主机的/data目录到容器的/app目录dockerrun-d-v/data:/app--namemy-appmy-image#挂载docker内的/usr/share/nginx/html目录到本地机的/app/nghtmldockerrun-d-v/app/nghtml:/usr/share/ngi
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
【MyDB】6-TabelManager 字段与表管理之2-SQL语句解析 -$_$- Java项目 sql python 数据库
【MyDB】6-TabelManager字段与表管理之2-SQL语句解析前言SQL语法Parser类具体实现入口方法Parse(byte[]statement)事务控制parseBegin()parseCommit()，parseAbortDDL(DataDefinitionLanguage)parseCreate()parseDrop()DML语句parseSelect()parseInsert
解决Ubuntu报错 E: Unable to locate package yum SH-ke ubuntu yum apt
开门见山，Ubuntu的包管理工具是apt-get，所以不必再安装yum。如果要安装其他包需要使用apt-get命令。#这里以locate命令为例sudoapt-getinstallmlocate下文就是问题解决的全过程了。1.报错E:Unabletolocatepackageyum我在学习Linux命令的时候需要使用locate命令，但是Ubuntu的系统里没有安装locate命令。根据弹幕的指
kubernetes高级实战云原生的爱好者 kubernetes 容器云原生
一、模拟企业环境进行一个实战部署[root@masternode]#kubectlapply-fpod-tomcat.yamlpod/tomcat-testcreated[root@masternode]#kubectlgetpodsNAMEREADYSTATUSRESTARTSAGEtomcat-test2/2Running02s[root@masternode]#kubectlgetpods-
netdxf 用法_vb.net 保存成dxf文件 weixin_39913807 netdxf 用法
为按钮添加代码PrivateSubButton1_Click(ByValsenderAsSystem.Object,ByValeAsSystem.EventArgs)HandlesButton1.ClickDimdocAsNewDXFLibrary.Document()DimtablesAsNewDXFLibrary.Tables()doc.SetTables(tables)DimlayersAs
C语言：setjmp和longjmp函数使用详解 houxiaoni01 C语言 setjmp longjmp
转载自：https://www.runoob.com/cprogramming/c-standard-library-setjmp-h.htmlhttps://blog.csdn.net/chenyiming_1990/article/details/86834131、C标准库-简介setjmp.h头文件定义了宏setjmp()、函数longjmp()和变量类型jmp_buf，该变量类型会绕过正常
消息中间件选型: kafka与rabbitmq的对比 HS_Henry 消息中间件 rabbitmq kafka 消息中间件选型
RabbitMQ总结_陈海龙的格物之路-CSDN博客https://blog.csdn.net/chl87783255/article/details/122606212kafka总结_陈海龙的格物之路-CSDN博客kafka，仅支持拉取的分布式流式平台。本文从简介、使用场景、设计、实现四个方面阐述kafka。https://blog.csdn.net/chl87783255/article/de
python中的类方法，静态方法，对象方法 a174817529
原文地址：http://blog.chinaunix.net/uid-26602509-id-3087296.htmlclassA:count=100def__init__(self,instancedata):self.instancedata=instancedata@staticmethod#静态方法不能访问类参数和实例参数defsm():print"sm"@classmethod#类方法不
从SSL到TLS：密码协议的进化之路安全
互联网的快速发展对数据传输的安全性提出了更高要求，而密码协议作为网络通信的基石，经历了从SSL（SecureSocketsLayer）到TLS（TransportLayerSecurity）的重大技术革新。这一演进不仅是名称的变更，更代表了加密技术、安全机制与标准化设计的全面提升。1.SSL的起源与早期发展1994年，网景公司（Netscape）推出SSL1.0，旨在为HTTP协议提供加密支持，但
Claude 3.7 Sonnet 根据UI设计稿生成前端html页面徐同保前端 ui html
UI设计稿：提示词：你是一个前端代码工程师，根据UI设计稿，编写对应html页面，样式写在标签里，类名都以"m-"开头AI回答的结果：根据提供的UI设计稿，我将编写对应的HTML页面，所有类名都以"m-"开头，样式写在标签里。```html账单明细/*重置样式*/*{margin:0;padding:0;box-sizing:border-box;}body{font-family:-apple-
重建容器操作：对基于 docker-compose-project.yaml 配置文件的容器进行重启和更新操作 momopeng～ docker 容器运维
先停止当前运行的容器，然后删除这些停止的容器，最后重新创建并启动容器。需重建容器但配置不变的具体步骤：（1）修改调整docker-compose-project.yaml文件后保存（2）查看配置文件的容器运行状态：快速查看由docker-compose-project.yaml文件定义的所有容器的运行状态docker-compose-fdocker-compose-project.yamlps（3
【typescript进阶篇】(第四章) webpack编译ts及第三方库声明文件蒜香拿铁 typescript系列 typescript webpack javascript
使用webpack打包TS文件安装依赖安装webpack环境npmiwebpackwebpack-cliwebpack-dev-server-D安装TypeScriptnpminstalltypescript-D编译TSnpminstallts-loader-D热更新服务npminstallwebpack-dev-server-DHTML模板npminstallhtml-webpack-plugi
Webpack4从入门到精通以及和webpack5对比_webpack现在用的是哪个版本 2501_90253044 webpack 前端 node.js
'css-loader',//less-loader：将less文件编译成css文件，需要下载less-loader和less'less-loader'],},{test:/\.css$/,//使用多个loader用use,使用一个loader用loaderuse:['style-loader','css-loader'],},{//url-loader：处理图片资源，问题：默认处理不了html中
【存储中间件】Redis核心技术与实战（六）：Redis的设计与实现（缓存淘汰算法、过期策略与惰性删除）道友老李 #Redis核心技术与实战架构师进阶-存储中间件缓存中间件 redis
文章目录Redis的设计与实现缓存淘汰算法maxmemoryNoevictionvolatile-lruvolatile-ttlvolatile-randomallkeys-lruallkeys-randomLRU算法近似LRU算法LFU算法为什么Redis要缓存系统时间戳过期策略和惰性删除过期惰性删除lazyfree个人主页：道友老李欢迎加入社区：道友老李的学习社区Redis的设计与实现缓存淘汰
Pollinations AI文生图html源码酷爱码 html HTML
源码介绍用deepseek辅助制作了一个电脑端文生图小程序，html语言的，接口使用的是Pollinations，上传服务器访问首页即可一次生成4张，提示词最好用英文，点击小图可以预览大图，也可以点击下载按钮直接下载截图预览源码免费获取PollinationsAI文生图html源码
springboot整合Thymeleaf详解 weiha666 spring boot
Thymeleaf介绍简单说，Thymeleaf是一个跟Velocity、FreeMarker类似的模板引擎，它可以完全替代JSP。相较与其他的模板引擎，它有如下三个极吸引人的特点：Thymeleaf在有网络和无网络的环境下皆可运行，即它可以让美工在浏览器查看页面的静态效果，也可以让程序员在服务器查看带数据的动态页面效果。这是由于它支持html原型，然后在html标签里增加额外的属性来达到模板+数
探索 ESP32：物联网时代的全能微控制器菜只因C 物联网
引言：从ESP8266到ESP32的进化之路在物联网(IoT)蓬勃发展的今天，嵌入式设备需要兼具高性能、低功耗和联网能力。乐鑫科技(RobinLi)推出的ESP32系列芯片，正是这一需求下的产物。自2016年发布以来，ESP32凭借其卓越的综合性能，迅速成为物联网开发者的首选平台。本文将从硬件架构、核心功能、开发生态到实际应用，全面解析这款"物联网心脏"的奥秘。一、ESP32的硬件架构解析1.1双
浏览器 DOM 深度解析：从节点类型到遍历操作的全攻略码农的时光故事 javascript 开发语言 ecmascript
一、DOM核心概念与节点类型DOM（文档对象模型）是浏览器提供的核心API之一，用于将HTML文档转换为可操作的对象树结构。其核心设计遵循树形结构，每个节点都继承自Node接口，主要分为以下类型：1.基础节点类型Element：对应HTML标签，包含属性和子节点（）Text：文本内容节点Comment：注释节点Document：文档根节点，通过document全局对象访问（）2.特殊节点类型Doc
浏览器工作原理深度解析（阶段一）：从 URL 到页面渲染的完整流程码农的时光故事 javascript 前端
一、浏览器工作流程概述作为前端开发者，我们每天都在与浏览器打交道，但多数人对其内部工作机制却知之甚少。实际上，浏览器的核心功能就是将用户输入的URL转换为可视化的网页。这一过程大致分为六个关键步骤：网络请求：通过HTTP/HTTPS协议获取页面资源构建DOM树：解析HTML代码生成文档对象模型样式计算：解析CSS规则并应用到对应元素布局渲染：计算元素位置和尺寸生成渲染树合成优化：将渲染层合并为位图
【MySQL必知必会】数据库操纵语言（DML）超全总结：增删改查一文搞定！秀儿还能再秀数据库 MySQL 学习笔记
一、DML简介数据库操纵语言（DataManipulationLanguage,DML）是SQL的核心组成部分，主要用于对数据库中的数据进行增（INSERT）、删（DELETE）、改（UPDATE）、查（SELECT）操作，掌握DML都是必备技能！二、核心操作详解1.插入数据：INSERT--插入单条数据（全字段）INSERTINTO表名VALUES(值1,值2,...);--指定字段插入INSE
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
【今日EDA行业分析】2025年3月20日知梦EDA 人工智能大数据物联网半导体行业分析 EDA
今日EDA行业分析：应对技术封锁的突围之路一、引言在半导体产业的宏大版图中，EDA（电子设计自动化）软件宛如一颗闪耀的明珠，其重要性不言而喻。然而，当前国际竞争与地缘政治因素给EDA行业带来了诸多变数。今天，让我们一同深入剖析EDA行业的现状、面临的挑战以及未来的发展方向，并为行业从业者提供切实可行的行动建议。二、国际竞争与地缘政治影响（一）韩国企业的困境三星、SK海力士等韩国企业，因美国潜在的制
Bilibili 视频弹幕自动获取和自定义屏蔽词 dreadp 音视频 html python json 前端自动化
脚本地址:项目地址:GazerdmGrab.py提要适用于:任意B站视频弹幕XML文件下载.如不能,请提交issues联系我.支持指定屏蔽词.1秒即可完成自动解析任意B站视频的视频弹幕XML文件请求链接,并下载.使用方法克隆或下载项目代码。安装依赖:pipinstallrequestslxml,或者克隆项目代码后pipinstall-rrequirements.txt脚本顶部:指定常量FOLDER
pear-admin-boot开发框架使用记录（三）后青春期的诗go 经验分享 java spring boot spring log4j mybatis
一、实现部门选择操作用于从组织架构里选择出部门的操作，如开发日志管理模块，创建人新增日志时可以通过选择框选择相应共享的部门。数据库表调整在数据表添加2个字段：sharedeptid共享部门idvarcharsharedeptname共享部门名称varchar前端html页面调整页面添加如下代码：共享部门前端JS调整添加如下代码：letdtree=layui.dtree;dtree.renderSe
python中的构造函数 weixin_30770495 python
python中构造函数可以这样写classclassname（）：def——init——（self）：#构造函数函数体转载于:https://www.cnblogs.com/begoogatprogram/p/4649076.html
HBuilderX的下载、安装听海边涛声 HBuilderX
HBuilderX简称HX，是一款轻量级的、免费的IDE。它具有强大的语法提示和vue支持。访问HBuilderX的官网：https://www.dcloud.io/hbuilderx.html选择要下载的版本，我下载的是v4.08版本：将压缩包下拉以后解压到某个目录下就可以了，不需要安装过程，例如，我解压到D:\HBuilderX目录下面：双击HBuilderX.exe，就可以运行了：注意：HB
【BERT和GPT的区别】调皮的芋头人工智能深度学习机器学习 bert gpt
BERT采用完形填空（MaskedLanguageModeling,MLM）与GPT采用自回归生成（AutoregressiveGeneration）的差异，本质源于两者对语言建模的不同哲学导向与技术目标的根本分歧。这种选择不仅塑造了模型的架构特性，更决定了其应用边界与能力上限。以下从语言建模本质、任务适配性、技术约束及后续影响四个维度深入剖析：一、语言建模的本质差异1.BERT的“全知视角”与全
微信小程序云开发实现登录功能 Bilkan-studio 微信小程序小程序前端
使用云开发数据库实现登录功能，多的不说了直接看代码登录功能代码段WXML代码账号密码登录WXSS代码page{width:100%;height:100%;direction:ltr;}.waikuang{width:100%;height:100%;display:flex;align-items:center;justify-content:center;flex-direction:colu
python 读取配置文件 Pure Ven python 编程语言 python
Python读取配置文件并打印文件信息配置文件field_len.conf内容为：[ddl_max_len]NUMBER_MAX_LEN=10VARCHAR2_MAX_LEN=1024[dml_max_len]NUMBER_MAX_LEN=10VARCHAR2_MAX_LEN=1024BLOB_MAX_LEN=500MFLOAT_MAX_LEN=P20S8DATE=12TIMESTAMP(6)=1
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息