kicilove

XGBoost中参数调优的完整指南（含Python-3.X代码）

CSDN：http://blog.csdn.net/kicilove/article/

Github：https://github.com/zhaohuicici?tab=repositories

原文链接：https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

- 引言
- 关于XGBoost你需要知道什么
- 目录
- XGBoost优势是什么
- 了解XGBoost参数有哪些
  - 普遍意义的参数
  - 提升器Booster参数在每一步中引导单个的加速器Booster树回归
  - 带有学习任务的参数指导优化的过程
- 在实例中使用XGBoost并调参
- 参数调优的一般方法
  - Step 1 Fix learning rate and number of estimators for tuning tree-based parameters
  - Step 2 Tune max_depth and min_child_weight
  - Step 3 Tune gamma
  - Step 4 Tune subsample and colsample_bytree
  - Step 5 Tuning Regularization Parameters
  - Step 6 Reducing Learning Rate
- End Notes

引言

如果其他的预测模型无法满足你的预测需求时，请使用XGboost。 XGBoost算法已经成为许多数据科学家的终极武器。这是一个足够强大的可以应对各种不寻常数据的高大上的算法。

使用XGBoost构建模型很容易。但是，使用XGBoost改进模型很困难（至少于我来说还是很挣扎的）。这个算法使用了很多个参数。要想对模型进行改进，就必须对参数做出调整。很多实际的问题，比如说你应该调整哪一个参数集合？要得到最优的输出结果参数的理想值是多少?，这些实际问题都是很难得到答案的。

本文适合与刚接触XGBoost的新人。在本文中，我们将学习参数调优的技术以及有关XGBoost的一些有用信息。此外，我们将使用Python中的数据集练习该算法。

关于XGBoost你需要知道什么

* XGBoost（eXtreme Gradient Boosting）*是梯度增强算法（GBM）的高级实现。由于我在之前的文章 Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python中详细介绍了Gradient Boosting Machine，所以强烈建议您先阅读本文。这将有助于您加强对GBM的一般升级和参数调优的理解。

特别感谢：就个人而言，我要感谢Sudalai Rajkumar先生（又名SRK）提供的永久支持，目前是AV Rank 2。如果没有他的帮助，这篇文章是不可能的诞生的啦。他正帮助着成千上万的数据科学家。非常感谢SRK！

1. XGBoost优势是什么

我一直钦佩在一个预测型的模型中这种算法注入了提升（boosting）的能力。当我探索它的表现性能以及高准确性背后的科学道路时，发现了它身上有诸多的优点：

正则化：
- 标准的GBM实现过程中没有像XGBoost一样拥有正规化，因此XGBoost也有助于减少过度拟合。
- 事实上，XGBoost也被称为“正规化提升”技术。
并行处理：
- XGBoost实现了并行处理，与GBM相比，速度惊人的快。
- 我们知道提升（boosting）是一个顺序也就是串行的过程，XGBoost是怎样并行化的呢？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
  可并行的近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。我希望你得到我来的地方。查看这个链接，进一步探索。
- XGBoost还支持在Hadoop上实现。
高度的灵活性
- XGBoost允许用户自定义优化目标以及评估的准则。
- 这就为模型的广泛性应用提供了无限的可能，有没有感受到‘为所欲为’。
缺失值处理
- XGBoost具有内置的规则来处理缺失的值，它可以自动学习出它的分裂方向。
剪枝
- GBM在遇到损失为负的分裂节点时会停止这个节点的继续分裂，因此，它更像是一种贪心的算法。
- 另一方面，当我们指定树的最大深度（max_depth）时，XGBoost就会以这个指定的最大树深为上限去剪枝。具体来说就是，XGBoost先从上到下建立出所有可能的子树，然后根据我们设定的max_depth，从下到上反向进行剪枝，并且也会移除负增益的分割树。
- 当我们遇到一个比如说为-2的负损失分裂点然后它后面又跟着一个为+10的正损失的分裂时， GBM将在遇到-2时停止，而XGBoost将会继续深入分割，并且会看到一个组合出来为+8的分裂效果。
内置交叉验证
- XGBoost允许用户在每一轮boosting过程中的每次迭代中使用交叉验证，因此很容易获得最优boosting迭代次数；
- GBM必须使用网格搜索，因此只能测试有限个值。
在之前存在的模型上继续训练
- 用户可以从上次运行的最后一次迭代开始训练XGBoost模型。这在特定的应用中优势还是比较明显的。
- GBM在sklearn的实现中也有这个特点。

我希望现在你明白了XGBoost的绝对优势。请注意，这些只是XGBoost的部分要点。还待你发现更多？

您可以参考以下网页以获得更深入的了解：

XGBoost Guide – Introduction to Boosted Trees
Words from the Author of XGBoost [Video]

2. 了解XGBoost参数有哪些

XGBoost的作者把参数整体分为3类：

普遍意义的参数：指导整个函数的
提升器（Booster）参数：在每一步中引导单个的加速器（Booster）（树/回归）
带有学习任务的参数：指导优化的过程

强烈建议阅读这篇与GBM对比的文章。

下面介绍这些参数

1. 普遍意义的参数：

下面这些参数指导XGBoost的整体过程。

booster[default=gbtree]
- 在每次迭代中选择模型的类型，有2个选项：
  - gbtree: 基于树的模型
  - gblinear: 基于回归的模型
silent[default=0]
- 激活Silent mode就设置为1，即正在运行的消息不会被打印。
- 默认为0，好处就是帮助我们理解模型运行状况。
nthread[defaulttomaximumnumberofthreadsavailableifnotset]
- 这个参数用于并行处理，系统中的核的数量
- 如果想运行所有的核，就不用再输入nthread的值，因为默认情况就是使用所有核。

还有另外两个参数是由XGBoost自动设置的，下面继续探索Booster参数。

2. 提升器（Booster）参数：在每一步中引导单个的加速器（Booster）（树/回归）

虽然有两种类型的Booster，这里只讨论树式Booster。

eta [default=0.3]
- 与GBM中的eta类似。
- 在每一步中收缩权重使得模型更加稳健。
- 通常设置值为： 0.01−0.2
min_child_weight [default=1]
- 孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。该成熟越大算法越conservative
- 这与GBM中的min_child_leaf类似，但不完全相同，XGBoost指 min “sum of weights” of observations 而 GBM 为 min “number of observations”。
- 可用于控制过拟合。太高的值可能导致欠拟合，应使用CV进行调参。
max_depth [default=6]
- 与GBM一样，定义了一棵树的最大深度。
- 用于控制过拟合，因为较高的深度会使模型对一些样本学习到特定关系，而这种关系又不是泛化的。
- 适合用CV进行调整值的大小。
- 通常设置值为： 3−10
max_leaf_nodes
- 树中节点或树叶的最大数量。
- 有时可以代替max_depth。如：二叉树，深度“n”将产生最大2 ^ n个叶。
- 如果这样，GBM可以忽略max_depth。
gamma [default=0]
- 只有当损失函数以正值减少时，节点才会分割。 Gamma指定了进行分割时所需的最小损失的减少量。
- 使算法比较保守。 Gamma值可以根据损失函数调整大小。
max_delta_step [default=0]
- 如果 max_delta_step 设置为0，表示没有约束。可以取正值。
- 这个参数不是必须要设定的。在逻辑回归中，当类别比例非常不平衡时，这个参数很有用。
subsample [default=1]
- 与GBM取子样本一样，都是对总体进行随机采样出子样本占总体的比例。
- 较低的值使算法比较保守，可以防止过度拟合，但太小的值可能会导致欠拟合。
- 通常设置值为： 0.5−1
colsample_bytree [default=1]
- 类似于GBM中的max_features。表示随机抽取的列数占总列数的比例。
- 通常设置值为： 0.5−1
colsample_bylevel [default=1]
- 表示每个层中用于拆分时的列数占比（相当于选出的列数的再比例）。
- 这个参数不常用，因为subsample和 colsample_bytree可以替代这个参数的作用。
lambda [default=1]
- L2 对权重正则化（Ridge回归也是 L2 ）
- 这用于XGBoost的正则化部分。虽然许多数据科学家一般不用它，但是减少过拟合的时候还是要用一下的。
alpha [default=0]
- L1 对权重正则化（类似于Lasso回归的 L1 ）
- 维度较高时使用，可以运行得更快
scale_pos_weight [default=1]
- 数值大于0，在样本的类非常不均衡时使用有助于快速收敛。

3.带有学习任务的参数：指导优化的过程

这些参数用于定义优化的目标，在一步计算的度量。

objective [default=reg:linear]
- 这个参数定义了要最小化的损失函数。有如下选择：
  - binary:logistic ：用于二分类的逻辑回归，返回值为概率，非类别。
  - multi:softmax ：使用softmax目标的多类分类返回预测类（不是概率）。
    - 还需设置一个num_class（number of classes）参数来定义类的数量。
  - multi:softprob ：与softmax相同，但返回的是每个样本属于每个类的预测概率而不是类别。
eval_metric [ default according to objective ]
- 默认值为rmse用于回归，错误率用于分类。
- 可选值有：
  - rmse – root mean square error
  - mae – mean absolute error
  - logloss – negative log-likelihood
  - error – Binary classification error rate (0.5 threshold)
  - merror – Multiclass classification error rate
  - mlogloss – Multiclass logloss
  - auc : Area under the curve
seed [default=0]
- 种子随机数。
- 使采样的结果与之前相同以及参数调整。

如果使用Scikit-Learn，这些参数名称可能不太熟悉。可喜的是，python中的xgboost模块有一个名为XGBClassifier的sklearn封装。有些参数名称变化如下：

eta –> learning_rate
lambda –> reg_lambda
alpha –> reg_alpha

好像我们已经定义了在XGBoost与GBM中相似的所有参数，除了GBM中的 ‘n_estimators’ 参数。其实它出现在XGBClassifier的参数中，在标准xgboost中拟合函数的时候，以 “num_boosting_rounds ”的形式传递。

建议您通过xgboost指南更好地了解参数和代码：

XGBoost Parameters (official guide)
XGBoost Demo Codes (xgboost GitHub repository)
Python API Reference (official guide)

3. 在实例中使用XGBoost并调参

我们将从Data Hackathon 3.x AV hackathon中获取数据集，与GBM文章中的数据集相同。细节可以在此页面找到。您可以从这里下载数据集。执行步骤如下：

城市变量类别太多，舍弃
DOB转换为Age | DOB
创建 EMI_Loan_Submitted_Missing，如果EMI_Loan_Submitted是missing则设置为1，否则为0 |原始变量EMI_Loan_Submitted舍弃
雇主名称因为类别太多而被删除
Existing_EMI缺失的用0补（中位数），因为只有111个值是缺失状态
如果Interest_Rate缺失，则为Interest_Rate_Missing创建1，否则为0 |原始变量Interest_Rate舍弃
Lead_Creation_Date舍弃，直觉上认为对结果没影响
Loan_Amount_Applied，Loan_Tenure_Applied以中位数填充
创建Loan_Amount_Submitted_Missing，如果Loan_Amount_Submitted值缺失则取1，否则取0，原始变量Loan_Amount_Submitted舍弃
创建Loan_Tenure_Submitted_Missing，如果Loan_Tenure_Submitted值缺失，则取1，否则为 0 |原始变量Loan_Tenure_Submitted舍弃
LoggedIn，Salary_Account删除
创建Processing_Fee_Missing，如果Processing_Fee值缺失，则为1，否则为0 |原始变量Processing_Fee删除
Source - 第2名保持原样，所有其他组合成不同的类别
进行数值和单热编码（One-Hot-Coding）

开始，导入所需的库并加载数据：

#Import libraries:
import pandas as pd
import numpy as np
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from sklearn import cross_validation, metrics   #Additional scklearn functions
from sklearn.grid_search import GridSearchCV   #Perforing grid search

import matplotlib.pylab as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 4

train = pd.read_csv('train_modified.csv')
target = 'Disbursed'
IDcol = 'ID'

请注意，我已经导入了2种形式的XGBoost：

xgb - 直接使用xgboost库。我将使用该库中的特定函数“cv”
XGBClassifier - 这是XGBoost的sklearn封装。可以在并行过程中使用与GBM相同sklearn’s Grid Search。

先定义一个函数，帮助我们创建XGBoost模型并执行交叉验证。这个也可以用在你自己的模型中。

def modelfit(alg, dtrain, predictors,useTrainCV=True, cv_folds=5, early_stopping_rounds=50):

    if useTrainCV:
        xgb_param = alg.get_xgb_params()
        xgtrain = xgb.DMatrix(dtrain[predictors].values, label=dtrain[target].values)
        cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
            metrics='auc', early_stopping_rounds=early_stopping_rounds, show_progress=False)
        alg.set_params(n_estimators=cvresult.shape[0])

    #Fit the algorithm on the data
    alg.fit(dtrain[predictors], dtrain['Disbursed'],eval_metric='auc')

    #Predict training set:
    dtrain_predictions = alg.predict(dtrain[predictors])
    dtrain_predprob = alg.predict_proba(dtrain[predictors])[:,1]

    #Print model report:
    print ("\nModel Report")
    print ("Accuracy : %.4g" %) metrics.accuracy_score(dtrain['Disbursed'].values, dtrain_predictions)
    print ("AUC Score (Train): %f" % metrics.roc_auc_score(dtrain['Disbursed'], dtrain_predprob))

    feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)
    feat_imp.plot(kind='bar', title='Feature Importances')
    plt.ylabel('Feature Importance Score')

这个代码与用于GBM的代码略有不同。本文的重点是涵盖概念而不是编码。注意，xgboost的sklearn封装没有“feature_importances”指标，它使用get_fscore（）函数做相同的事情。

参数调优的一般方法

我们将使用类似于GBM的方法。几个步骤如下：

选择相对较高的学习率（high learning rate）。一般选用0.1，有时0.05到0.3之间也行，看具体问题。 XGBoost有个非常有用的“cv”函数，可以用来确定该学习率下的最优树的颗数（optimum number of trees for this learning rate. ），它在每次 boosting迭代时执行交叉验证，返回所需的最优树的颗数。
调整树的特定参数（Tune tree-specific parameters）（max_depth，min_child_weight，gamma，subsample，colsample_bytree），以确定学习速率和树的颗数。请注意，我们可以选择不同的参数来定义一个树，我将在这里介绍一个例子。
调整xgboost的正则化参数（regularization parameters ）（lambda，alpha），这有助于降低模型复杂性并提高性能。
降低学习率（Lower the learning rate）并决定最佳参数。

让我们来看一个更详细的一步一步的实现方法。

Step 1: Fix learning rate and number of estimators for tuning tree-based parameters

为了确定boosting参数，我们需要设置其他参数的初始值。让我们取下列值：

max_depth = 5 ：这应该在3-10之间。我已经开始使用5，但是您也可以选择不同的数字。 4-6可以。
min_child_weight = 1 ：选择较小的值，因为它会使类非常不平衡，也可能使叶节点组员较少。
gamma = 0 ：也可以选择像0.1-0.2这样较小的值来启动，这个后面会一直调整变动。
subsample，colsample_bytree = 0.8 ：这是一个常用的使用起始值。常取值介于0.5-0.9之间。
scale_pos_weight = 1 ：因为类非常不均衡。

请注意，以上只是设定初始值，后面会进行参数调优。这里默认学习率为0.1，使用xgboost的cv函数检查最优树的颗数，上面定义的函数可以实现这个功能。

#Choose all predictors except target & IDcols
predictors = [x for x in train.columns if x not in [target, IDcol]]
xgb1 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=5,
 min_child_weight=1,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb1, train, predictors)

正如你所看到的，在学习率为0.1的情况下，得到140为最优的估计量个数。请注意，根据你运行系统的情况，此值可能太高。在这种情况下，您可以增加学习率并重新运行命令以获得减少的估计量数。

注意：这里输出结果中testAUC可视为′AUCScore（Test）′。但是，如果您尝试在系统上运行命令，因为数据未公开，则不会出现此错误。它在这里提供仅供参考。生成此输出的代码部分已在此处删除。

Step 2: Tune max_depth and min_child_weight

首先调整对模型输出结果影响最大的参数。首先，我们先设置较宽的范围，然后再用较小范围执行另一次迭代。

重要提示：我将在本节中进行运行压力较大的网格搜索，根据您的系统，可能需要15-30分钟甚至更多时间才能运行。您可以根据系统来更改您要测试的值。

param_test1 = {
 'max_depth':range(3,10,2),
 'min_child_weight':range(1,6,2)
}
gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,
 min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27), 
 param_grid = param_test1, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch1.fit(train[predictors],train[target])
gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

这里，我们已经运行12个组合。 max_depth的理想值为5，min_child_weight的理想值为5。让我们深入一步，寻找最佳值。我们将搜索间隔为1上下的最佳值，因为之前间隔都是2。

param_test2 = {
 'max_depth':[4,5,6],
 'min_child_weight':[4,5,6]
}
gsearch2 = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=5,
 min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test2, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch2.fit(train[predictors],train[target])
gsearch2.grid_scores_, gsearch2.best_params_, gsearch2.best_score_

这一次，我们得到最佳值为4为max_depth和为6的min_child_weight。此外，我们可以看到CV得分增加较轻。请注意，随着模型性能的提高，要想在哪怕是边缘性能的提升都是指数级的困难。你会注意到，这里我们得到6作为min_child_weight的最优值，但是我们还没有尝试超过6的值。我们可以这样做：

param_test2b = {
 'min_child_weight':[6,8,10,12]
}
gsearch2b = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=4,
 min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test2b, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch2b.fit(train[predictors],train[target])

modelfit(gsearch3.best_estimator_, train, predictors)
gsearch2b.grid_scores_, gsearch2b.best_params_, gsearch2b.best_score_

我们看到6还是最佳值。

Step 3: Tune gamma

现在可以使用上面已调整的参数来调整gamma值。 Gamma这里尝试5个值。也可以使用更精确的数值。

param_test3 = {
 'gamma':[i/10.0 for i in range(0,5)]
}
gsearch3 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test3, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch3.fit(train[predictors],train[target])
gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_

这表明我们的原始伽玛值，即0是最佳值。在继续之前，一个好想法是重新校准更新参数的 boosting rounds 。

xgb2 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb2, train, predictors)

在这里，我们可以看到得分有所改善。所以最终的参数是：

max_depth: 4
min_child_weight: 6
gamma: 0

Step 4: Tune subsample and colsample_bytree

下一步将尝试不同的subsample和colsample_bytree值。让我们分两个阶段完成，取0.6,0.7,0.8,0.9为他们的初始值。

param_test4 = {
 'subsample':[i/10.0 for i in range(6,10)],
 'colsample_bytree':[i/10.0 for i in range(6,10)]
}
gsearch4 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test4, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch4.fit(train[predictors],train[target])
gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_

这里，我们发现0.8为subsample和colsample_bytree的最优值。现在我们应该尝试在0.05间隔周围的值。

param_test5 = {
 'subsample':[i/100.0 for i in range(75,90,5)],
 'colsample_bytree':[i/100.0 for i in range(75,90,5)]
}
gsearch5 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test5, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch5.fit(train[predictors],train[target])

这一次得到的最优值和上面相同，因此最优值为：

subsample: 0.8
colsample_bytree: 0.8

Step 5: Tuning Regularization Parameters

下一步是应用正则化来减少过度拟合。尽管许多人不太使用这些参数，因为gamma提供了一种控制复杂性的实质方法。但我们应该尝试使用它。我会在这里调整“reg_alpha”值，并留给你尝试不同的’reg_lambda’值。

param_test6 = {
 'reg_alpha':[1e-5, 1e-2, 0.1, 1, 100]
}
gsearch6 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test6, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch6.fit(train[predictors],train[target])
gsearch6.grid_scores_, gsearch6.best_params_, gsearch6.best_score_

我们可以看到CV得分小于之前的情况。但是尝试的值非常广，我们应该尝试更接近于最优的值（0.01），看看是否得到更好的结果。

param_test7 = {
 'reg_alpha':[0, 0.001, 0.005, 0.01, 0.05]
}
gsearch7 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test7, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch7.fit(train[predictors],train[target])
gsearch7.grid_scores_, gsearch7.best_params_, gsearch7.best_score_

可以看到我们得到一个更好的CV。现在我们可以在模型中应用这种正则化，看看影响：

xgb3 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 reg_alpha=0.005,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb3, train, predictors)

再次，我们可以看到得分略有改善。

Step 6: Reducing Learning Rate

最后，我们应该降低学习率，增加更多的树。让我们用XGBoost的cv函数再次做这个工作。

xgb4 = XGBClassifier(
 learning_rate =0.01,
 n_estimators=5000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 reg_alpha=0.005,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb4, train, predictors)

现在我们可以看到性能的显着提高，参数调整后的效果更加明显。

最后，我想分享两个关键的想法：

通过使用参数调整或稍微更好的模型，很难在结果上获得巨大的飞跃。 GBM的最高分数为0.8487，而XGBoost则为0.8494。改进是有的但是也并没有达到惊艳。
通过特征工程，创建模型集合，比如stacking等其他方法可以获得显着的飞跃。

您还可以从我的GitHub帐户下载所有这些代码的iPython notebook。对于R中的实现代码，可以参考这篇文章。

End Notes

本文实现了端到端的基于XGBoost模型的参数调优。我们首先讨论为什么XGBoost比GBM具有更好的性能，然后详细讨论了所涉及的各种参数。我们还定义了一个通用函数，可以重新用于其他模型。

最后，我们讨论了解决XGBoost问题的一般方法，并通过该方法制定了AV Data Hackathon 3.x问题。

我希望你发现这很有用并更有信心应用XGBoost来解决数据科学问题。

你可能感兴趣的:(Kaggle神器)

配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
小学家长和老师最喜欢的出题神器！
暑假到了，家里的学生也放假了，大家每天都是怎么度过的？今天我给家长们推荐一款神器：小学生数学习题生成器，相信家长们一定非常喜欢！小学生数学习题生成器就像一位聪明的“数学小管家”。输入年级、知识点、题量和难度，几秒就能吐出一份量身定制的练习卷，加减乘除、应用题、图形、数列应有尽有，覆盖每个学习阶段。核心亮点：进度精准同步：从一年级的数数到六年级的综合题，它紧扣教材，按知识点推送练习，像私人导师一样帮
低成本作弊神器？使用ESP32将通义千问AI接入学生计算器
前因：IT之家9月24日消息，YouTube频道ChromaLock于9天前发布视频，介绍了名为TI-32的改造电路板，加装在德州仪器TI-84Plus图形计算器上，可以接入ChatGPT。IT之家查询公开资料，在PSAT、SAT和ACT大学入学考试、IB和AP考试中，标准化组织已经批准考生使用TI-84Plus图形计算器。ChromaLock探索了该计算器的连接端口，设计了名为TI-32的改造电
Python|扫描版词书转文字(PyPDF、OCR） NuageL pdf ocr python
心血来潮想把词书pdf(只有扫描版）转化成电子版，然后插到某生词APP去复习然后有两个想法：1.按照A-Z等来分词单2.PDF转文字1.那首先需要把PDF分开，这个用PyPDF2可以达成PDF参考文章：掌握PDF文件处理的神器：PythonPyPDF2库详解-CSDN博客写了一个功能，允许用户一次性输入多个页码范围：fromPyPDF2importPdfReader,PdfWriterdefspl
Node.js安装及环境配置完全指南（手把手保姆级教程） Cyb3rMagnet node.js 其他
文章目录一、为什么你的开发环境总出问题？二、安装包去哪下才靠谱？1.Windows用户看这里2.Mac用户专属通道3.Linux用户命令行秘籍三、环境配置防坑指南1.PATH变量自查（重要！）2.Windows环境变量手动配置3.Mac/Linux用户看这里四、npm加速大法1.换国内镜像源（速度提升10倍！）2.安装cnpm（可选）五、版本管理神器nvm1.安装nvm2.常用命令六、常见报错急救
Kutools：替代重复操作，搞定原生 Office 搞不定的事批量删空白行多功能小飞软件园电脑开源软件社交电子
各位办公打工人！今天给大家介绍个超厉害的办公神器——Kutools！它是专门给MicrosoftOffice设计的效率增强插件合集，里面有Excel、Word、Outlook这些组件工具包。它的核心功能老强大了，集成了好几百个一键式操作，能把那些复杂任务简单得不能再简单，办公效率直接起飞！下面给大家详细说说它的核心功能分类哈。软件下载地址安装包先说说Excel工具箱，这里面高级功能超过300项呢！
9.7 国产代码生成神器CodeGeex2实测：效率提升300%，免费平替Copilot！少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力 copilot langchain llama 语言模型
国产代码生成神器CodeGeex2实测：效率提升300%，免费平替Copilot！代码生成模型CodeGeex2：智能编程的国产之光智谱AI推出的CodeGeex2是当前国产代码生成模型的标杆之作，其技术架构与训练策略展现了中国在代码大模型领域的突破性进展。本章将深入解析CodeGeex2的技术原理，并通过实战演示如何构建智能编程助手。一、CodeGeex2技术架构解析1.1模型底座与训练数据
「史上最通俗」Express 框架入门到实战：前端也能轻松学会的 Node.js 后端神器！
三年前，我作为一名纯前端开发者，被迫临时接手一个Node.js后端项目，那个绝望的下午我几乎崩溃。六小时后，我却笑着对同事说：“原来后端这么简单？”。这不是魔法，而是因为遇见了Express——一个让前端开发者也能轻松驾驭的后端框架。据StackOverflow2022年调查，87%的Node.js开发者都在使用它，这不是没有原因的。为什么你必须掌握Express？想象一下，如果React是前端的
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
PPT 图形制作神器推荐：从基础到 AI 的高效工具指南
在当今信息飞速传播的时代，PPT已成为展示观点、传递信息的重要媒介。一份出色的PPT，不仅要有清晰的逻辑和丰富的内容，美观且直观的图形更是吸引观众注意力、提升信息传达效率的关键。无论是商务汇报中展示数据趋势的图表，还是教学课件里解释概念的示意图，恰当的PPT图形都能让演示效果事半功倍。那么，如何高效地生成这些助力PPT出彩的图形呢？接下来，我们将深入探讨多种实用方法，并着重为您推荐功能强大的Pic
网络工具Fing Network Tools v12.10.2专业版，WiFi设备扫描神器米豆学社网络工具
[软件名称]:网络工具FingNetworkTools[软件大小]:49.2MB[下载通道]:夸克盘|迅雷盘软件介绍《FingNetworkTools》v12.10.2专业版｜WiFi安全卫士，一键检测所有联网设备✨核心功能设备扫描–实时发现WiFi网络中的所有连接设备，识别陌生入侵者⚡网络诊断–速度测试+延迟分析，找出Netflix卡顿真凶️安全防护–入侵检测+防火墙功能，守护家庭网络安全高级工
Agentic AI与Gen AI区别 500佰技术资讯 NodeJS 人工智能
AgenticAI上班族的摸鱼神器我最近一年都在用AI，非但没有感觉AI成了我的助理，却感觉我好像再给AI打工。因为我总是需要不断去喂提示词，要不断调整模型的输出，我就像一个保姆一样要守在ChatGPT旁边，其实此时此刻，人类点亮的科技树，已经够我们用AI去自动化60%-70%的工作时长了，但这个实际进度还在个位数，ni知道问题所在吗。这问题在于，我们还处在generatedAI的阶段，我们和AI
数字化时代练歌神器：卡拉OK点唱机应用全解析
本文还有配套的精品资源，点击获取简介：卡拉OK点唱机是一款专为音乐爱好者和练歌者设计的软件，提供网络点播、音轨分离、音调调整、评分系统、回放功能和歌词同步显示等辅助功能，帮助用户随时随地进行歌唱练习，提升演唱技巧。高级版本还提供专业音效处理功能，使得卡拉OK点唱机成为业余爱好者和专业歌手的理想训练工具。1.网络点播功能的实现与应用网络点播功能改变了我们获取媒体内容的方式，赋予了用户前所未有的主动性
BabelDOC入门手册一点就通 AhriProGramming 算法 ocr python
BabelDOC入门手册一点就通【#BubbleDOC震撼发布！科研党的终极翻译神器，PDF翻译从此告别排版灾难！】你是否经历过翻译PDF时公式错位、图表乱飞、版式崩坏的绝望？传统翻译工具的时代结束了！#BubbleDOC横空出世，凭借三大革命性突破，成为全球科研、金融、法律从业者的新宠✨核心亮点1️⃣无损解析：精准提取PDF内嵌公式、图表、脚注，误差<0.5mm，翻译后与原版像素级对齐；2️⃣智
BossKey：高效办公护盾——一键隐藏窗口&静音的多功能工具
Boss-Key老板键是一款开源、免费、简洁的老板键程序，仅需一键即可隐藏并静音当前活动窗口，是一款上班摸鱼神器。支持多窗口隐藏、多进程隐藏、自定义热键、隐藏活动窗口、静音窗口、暂停视频播放等超多功能。核心功能一键隐身：支持隐藏多个活动窗口及关联进程，快速响应老板突袭。静音与暂停：隐藏时自动静音应用、暂停视频播放，杜绝声音泄露风险。多进程管理：可绑定多窗口进程，自定义热键（含鼠标中键/侧键），灵活
Python python-docx详解：从入门到精通的Word文档处理指南 detayun Python python word 开发语言
引言在自动化办公与数据报告生成的场景中，Python的python-docx库以其简洁的API设计和强大的功能，成为处理Word文档的利器。无论是创建结构化文档、批量生成报告，还是处理复杂表格与图片，该库都能提供高效的解决方案。本文将系统讲解python-docx的核心用法与高级技巧，助您快速掌握这一文档自动化神器。安装与配置快速安装pipinstallpython-docx#推荐同时安装依赖库（
6.kaggle实战之房价预测温柔济沧海深度学习神经网络人工智能 python 深度学习
importhashlibimportosimporttarfileimportzipfileimportrequestsimportnumpyasnpimportpandasaspdimporttorchimportnumpyasnpfromtorchimportnnimportmatplotlib.pyplotaspltfromtorch.utils.dataimportDataLoader,
30个网络抓包/调试工具-IT运维与网络工程师必会，从零基础到精通，收藏这篇就够了！程序员羊羊黑客网安工程师网络安全网络运维安全数据库压力测试 web安全
运维老兵都知道，网络抓包这活儿，就像给网络做CT，透视内部问题。但工具再多，用不对也是白搭。今天咱就来聊聊30款抓包/调试“神器”，别再只会用Wireshark了！一、协议分析工具：别光看表面，还得懂“潜台词”Wireshark：老牌劲旅，但别迷信它简介：开源界的扛把子，协议分析界的“瑞士军刀”，跨平台支持是基本操作。特点：协议多？那是必须的，2000+协议解析，过滤表达式（tcp.port==8
比Cursor香！字节AI编程神器Trae上线，Claude3.5+GPT4o免费用，中文开发者狂喜！东哥说AI AI应用 AI编程 AI工具 Trae Cursor Windsurf
2024年开始，AI编程工具在国外卷疯了——Cursor、Copilot、Windsurf、Devin、Bolt.new等一系列AI编程神器纷纷露脸，但是国外的软件多国内的中文开发者还是不够友好；国内的各个编程插件通义灵码、文心快码、豆包MarsCode也经常刷屏程序员圈，但是还是作为一个插件嵌入到IDE中使用、而非作为独立的IDE。就在1月，字节跳动终于出手了，发布了对标Cursor和Winds
别再重复造轮子！火语言 RPA 开发神器来了
在软件开发与运维过程中，重复性工作总是占据大量时间和精力，有没有一款工具能让开发者从这些繁琐事务中解脱出来？火语言RPA就是这样一款专为开发者打造的开发神器，助你告别重复劳动，高效完成任务。一、开箱即用的开发环境，降低开发门槛对于开发者来说，搭建开发环境往往是一件耗时耗力的事情。火语言RPA提供了开箱即用的开发环境，无需复杂的配置和安装过程，下载安装后即可快速进入开发状态。其内置丰富的组件库，涵盖
Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
使用美团NoCode生成应用-实战案例（一）零代码探险家 AI编程人工智能数据库 react.js reactjs sql
一、概要通过NoCode搭建的值班管理神器，可以支持人员信息批量导入、自定义排班周期，一键生成规则化值班表，适配多角色分工，更可实时导出表格，彻底告别手动排班烦恼！二、实现路径拆解需求输入：明确值班表内容（如日期、人员、岗位）及预设排班规则（如工作日与非工作日所需值班人数）。迭代优化：针对初版人员识别偏差，重构输入逻辑（如多人员批量导入格式优化），通过差异分析精准定位问题。功能完善：新增名单导入模
9款免费毕业论文工具推荐：AI写作神器助你高效完成论文
在完成毕业论文的过程中，学生群体往往会遭遇时间紧张、内容创作受阻等多重挑战。而随着科技进步，各类AI写作工具陆续涌现，这些工具能够有效提升写作效率、优化论文质量。接下来将为大家详细介绍9款免费的毕业论文辅助工具，借助这些AI写作利器，助力你更高效地完成论文撰写。图灵论文AI写作助手——专注于论文领域的神级工具工具链接:图灵论文AI写作助手快速初稿生成：用户仅需输入论文标题，平台即可在30分钟内生成
Claude Code 深夜也要加班？这个神器让 AI 自动续命! terryso AI编程 AI编程
你有没有遇到过这种情况？晚上熬夜用ClaudeCode写代码，正写到关键时刻，突然弹出："Claudeusagelimitreached.恢复时间：凌晨3点"这时候你可能已经困得睁不开眼，但又舍不得放弃手头的工作进度…解决方案来了！今天给大家推荐一个开源神器：ClaudeAutoResume，让你的ClaudeCode可以"自动续命"！它是怎么工作的？智能检测：自动监控Claude使用限制倒计时等
开发效率翻倍！一键将 JSON 转换成 Java 实体类的神器来了！ A__tao java
开发效率翻倍！一键将JSON转换成Java实体类的神器来了！在开发Java后端接口时，你是否常常面对这样的烦恼：拿到前端传来的JSON，字段多到眼花缭乱手动敲JavaBean，字段写漏、类型搞错嵌套结构太复杂，写起来痛苦又低效别担心，这些问题通通可以交给它来解决：JSON转Java实体类在线工具为什么推荐这个工具？这个工具由资深开发者打造，功能聚焦于一件事：把你的JSON一键生成JavaBean，
一键将 SQL 转为 Java 实体类，全面支持 MySQL / PostgreSQL / Oracle！ A__tao sql java mysql
一键将SQL表结构转为Java实体类，全面支持MySQL/PostgreSQL/Oracle！还在手动根据SQL表结构去写Java实体类？字段一个个敲、类型一个个改、注释一个个补，既浪费时间又容易出错！现在，一款强大而简洁的开发神器来了：SQL转Java实体类在线工具（支持MySQL、PostgreSQL、Oracle）适用人群Java后端开发工程师数据库表结构设计者ORM模型搭建者（如Hiber
Excel 如何处理更复杂的嵌套逻辑判断？冰糖心书房 Excel excel
处理复杂的嵌套逻辑判断，是Excel进阶路上必然会遇到的一道坎。当简单的IF函数“套娃”变得冗长、难以阅读和维护时，我们就需要更高级、更清晰的工具。这里介绍三种从基础到高级的处理方法：传统的IF函数嵌套(经典，但容易混乱)IFS函数(Excel的推荐方案，更清晰)AND,OR,NOT函数与IF的结合(处理复合逻辑的神器)一、IF函数嵌套(回顾与痛点)我们之前提到过用IF嵌套来评定成绩：=IF(B2
star31.6k，Aider：让代码编写如虎添翼的终端神器
ider是一款运行在终端中的AI结对编程工具，它能与大型语言模型（LLM）无缝协作，直接在您的本地Git仓库中编辑代码。无论是启动新项目，还是优化现有代码库，Aider都能成为您最得力的助手。它支持Claude3.5Sonnet、DeepSeekV3、GPT-4o等顶级AI模型，几乎可以连接任何LLM，让编程体验如虎添翼。Stars数35,188Forks数3,230主要特点Git操作：Aider
Aider：27.6K Star！这个终端AI编程神器能用语音改代码，自动生成Git记录并提交，接入DeepSeek斩获编程基准最高分蚝油菜花每日 AI 项目与应用实例 AI编程 git 人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->尽在微信公众号->搜一搜：蚝油菜花⌨️“每个CLI爱好者都该试试的AI编程革命：对着终端说话自动生成Gitcommit是怎样的体验？”大家好，我是蚝油菜花。如果你也经历过——在vim里卡了半小时，只为给函
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><