hhy518518

XGBoost参数调优

摘要：

转载：http://blog.csdn.net/han_xiaoyang/article/details/52665396

1. 简介

如果你的预测模型表现得有些不尽如人意，那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法，可以处理各种不规则的数据。
构造一个使用XGBoost的模型十分简单。但是，提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现，参数的调整十分必要。在解决实际问题的时候，有些问题是很难回答的——你需要调整哪些参数？这些参数要调到什么值，才能达到理想的输出？
这篇文章最适合刚刚接触XGBoost的人阅读。在这篇文章中，我们会学到参数调优的技巧，以及XGboost相关的一些有用的知识。以及，我们会用Python在一个数据集上实践一下这个算法。

2. 你需要知道的

XGBoost(eXtreme Gradient Boosting)是Gradient Boosting算法的一个优化的版本。因为我在前一篇文章，基于Python的Gradient Boosting算法参数调整完全指南，里面已经涵盖了Gradient Boosting算法的很多细节了。我强烈建议大家在读本篇文章之前，把那篇文章好好读一遍。它会帮助你对Boosting算法有一个宏观的理解，同时也会对GBM的参数调整有更好的体会。

特别鸣谢：我个人十分感谢Mr Sudalai Rajkumar (aka SRK)大神的支持，目前他在AV Rank中位列第二。如果没有他的帮助，就没有这篇文章。在他的帮助下，我们才能给无数的数据科学家指点迷津。给他一个大大的赞！

3. 内容列表

1、XGBoost的优势
2、理解XGBoost的参数
3、调参示例

4. XGBoost的优势

XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候，当我对它的高准确率背后的原理有更多了解的时候，我发现它具有很多优势：

4.1 正则化

标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。
实际上，XGBoost以“正则化提升(regularized boosting)”技术而闻名。

4.2 并行处理

XGBoost可以实现并行处理，相比GBM有了速度的飞跃。
不过，众所周知，Boosting算法是顺序处理的，它怎么可能并行呢？每一课树的构造都依赖于前一棵树，那具体是什么让我们能用多核处理器去构造一个树呢？我希望你理解了这句话的意思。如果你希望了解更多，点击这个链接。
XGBoost 也支持Hadoop实现。

4.3 高度的灵活性

XGBoost 允许用户定义自定义优化目标和评价标准
它对模型增加了一个全新的维度，所以我们的处理不会受到任何限制。

4.4 缺失值处理

XGBoost内置处理缺失值的规则。
用户需要提供一个和其它样本不同的值，然后把它作为一个参数传进去，以此来作为缺失值的取值。XGBoost在不同节点遇到缺失值时采用不同的处理方法，并且会学习未来遇到缺失值时的处理方法。

4.5 剪枝

当分裂时遇到一个负损失时，GBM会停止分裂。因此GBM实际上是一个贪心算法。
XGBoost会一直分裂到指定的最大深度(max_depth)，然后回过头来剪枝。如果某个节点之后不再有正值，它会去除这个分裂。
这种做法的优点，当一个负损失（如-2）后面有个正损失（如+10）的时候，就显现出来了。GBM会在-2处停下来，因为它遇到了一个负值。但是XGBoost会继续分裂，然后发现这两个分裂综合起来会得到+8，因此会保留这两个分裂。

4.6 内置交叉验证

XGBoost允许在每一轮boosting迭代中使用交叉验证。因此，可以方便地获得最优boosting迭代次数。
而GBM使用网格搜索，只能检测有限个值。

4.7、在已有的模型基础上继续

XGBoost可以在上一轮的结果上继续训练。这个特性在某些特定的应用上是一个巨大的优势。
sklearn中的GBM的实现也有这个功能，两种算法在这一点上是一致的。

相信你已经对XGBoost强大的功能有了点概念。注意这是我自己总结出来的几点，你如果有更多的想法，尽管在下面评论指出，我会更新这个列表的！

你的胃口被我吊起来了吗？棒棒哒！如果你想更深入了解相关信息，可以参考下面这些文章：
XGBoost Guide - Introduce to Boosted Trees
Words from the Auther of XGBoost [Viedo]

5. XGBoost的参数

XGBoost的作者把所有的参数分成了三类：

通用参数：宏观函数控制。
Booster参数：控制每一步的booster(tree/regression)。
学习目标参数：控制训练目标的表现。

在这里我会类比GBM来讲解，所以作为一种基础知识，强烈推荐先阅读这篇文章。

5.1 通用参数

这些参数用来控制XGBoost的宏观功能。

1、booster[默认gbtree]

选择每次迭代的模型，有两种选择：
gbtree：基于树的模型
gbliner：线性模型

2、silent[默认0]

当这个参数值为1时，静默模式开启，不会输出任何信息。
一般这个参数就保持默认的0，因为这样能帮我们更好地理解模型。

3、nthread[默认值为最大可能的线程数]

这个参数用来进行多线程控制，应当输入系统的核数。
如果你希望使用CPU全部的核，那就不要输入这个参数，算法会自动检测它。

还有两个参数，XGBoost会自动设置，目前你不用管它。接下来咱们一起看booster参数。

5.2 booster参数

尽管有两种booster可供选择，我这里只介绍tree booster，因为它的表现远远胜过linear booster，所以linear booster很少用到。

1、eta[默认0.3]

和GBM中的 learning rate 参数类似。
通过减少每一步的权重，可以提高模型的鲁棒性。
典型值为0.01-0.2。

2、min_child_weight[默认1]

决定最小叶子节点样本权重和。
和GBM的 min_child_leaf 参数类似，但不完全一样。XGBoost的这个参数是最小样本权重的和，而GBM参数是最小样本总数。
这个参数用于避免过拟合。当它的值较大时，可以避免模型学习到局部的特殊样本。
但是如果这个值过高，会导致欠拟合。这个参数需要使用CV来调整。

3、max_depth[默认6]

和GBM中的参数相同，这个值为树的最大深度。
这个值也是用来避免过拟合的。max_depth越大，模型会学到更具体更局部的样本。
需要使用CV函数来进行调优。
典型值：3-10

4、max_leaf_nodes

树上最大的节点或叶子的数量。
可以替代max_depth的作用。因为如果生成的是二叉树，一个深度为n的树最多生成n2个叶子。
如果定义了这个参数，GBM会忽略max_depth参数。

5、gamma[默认0]

在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。
这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的。

6、max_delta_step[默认0]

这参数限制每棵树权重改变的最大步长。如果这个参数的值为0，那就意味着没有约束。如果它被赋予了某个正值，那么它会让这个算法更加保守。
通常，这个参数不需要设置。但是当各类别的样本十分不平衡时，它对逻辑回归是很有帮助的。
这个参数一般用不到，但是你可以挖掘出来它更多的用处。

7、subsample[默认1]

和GBM中的subsample参数一模一样。这个参数控制对于每棵树，随机采样的比例。
减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。
典型值：0.5-1

8、colsample_bytree[默认1]

和GBM里面的max_features参数类似。用来控制每棵随机采样的列数的占比(每一列是一个特征)。
典型值：0.5-1

9、colsample_bylevel[默认1]

用来控制树的每一级的每一次分裂，对列数的采样的占比。
我个人一般不太用这个参数，因为subsample参数和colsample_bytree参数可以起到相同的作用。但是如果感兴趣，可以挖掘这个参数更多的用处。

10、lambda[默认1]

权重的L2正则化项。(和Ridge regression类似)。
这个参数是用来控制XGBoost的正则化部分的。虽然大部分数据科学家很少用到这个参数，但是这个参数在减少过拟合上还是可以挖掘出更多用处的。

11、alpha[默认1]

权重的L1正则化项。(和Lasso regression类似)。
可以应用在很高维度的情况下，使得算法的速度更快。

12、scale_pos_weight[默认1]

在各类别样本十分不平衡时，把这个参数设定为一个正值，可以使算法更快收敛。

5.3学习目标参数

这个参数用来控制理想的优化目标和每一步结果的度量方法。

1、objective[默认reg:linear]

这个参数定义需要被最小化的损失函数。最常用的值有：
- binary:logistic 二分类的逻辑回归，返回预测的概率(不是类别)。
- multi:softmax 使用softmax的多分类器，返回预测的类别(不是概率)。
  - 在这种情况下，你还需要多设一个参数：num_class(类别数目)。
- multi:softprob 和multi:softmax参数一样，但是返回的是每个数据属于各个类别的概率。

2、eval_metric[默认值取决于objective参数的取值]

对于有效数据的度量方法。
对于回归问题，默认值是rmse，对于分类问题，默认值是error。
典型值有：
- rmse 均方根误差(∑Ni=1ϵ2N−−−−−√)
- mae 平均绝对误差(∑Ni=1|ϵ|N)
- logloss 负对数似然函数值
- error 二分类错误率(阈值为0.5)
- merror 多分类错误率
- mlogloss 多分类logloss损失函数
- auc 曲线下面积

3、seed(默认0)

随机数的种子
设置它可以复现随机数据的结果，也可以用于调整参数

如果你之前用的是Scikit-learn,你可能不太熟悉这些参数。但是有个好消息，python的XGBoost模块有一个sklearn包，XGBClassifier。这个包中的参数是按sklearn风格命名的。会改变的函数名是：

1、eta -> learning_rate
2、lambda -> reg_lambda
3、alpha -> reg_alpha

你肯定在疑惑为啥咱们没有介绍和GBM中的n_estimators类似的参数。XGBClassifier中确实有一个类似的参数，但是，是在标准XGBoost实现中调用拟合函数时，把它作为num_boosting_rounds参数传入。
XGBoost Guide 的一些部分是我强烈推荐大家阅读的，通过它可以对代码和参数有一个更好的了解：

XGBoost Parameters (official guide)
XGBoost Demo Codes (xgboost GitHub repository)
Python API Reference (official guide)

调参示例

我们从Data Hackathon 3.x AV版的hackathon中获得数据集，和GBM 介绍文章中是一样的。更多的细节可以参考competition page
数据集可以从这里下载。我已经对这些数据进行了一些处理：

City变量，因为类别太多，所以删掉了一些类别。
DOB变量换算成年龄，并删除了一些数据。
增加了 EMI_Loan_Submitted_Missing 变量。如果EMI_Loan_Submitted变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的EMI_Loan_Submitted变量。
EmployerName变量，因为类别太多，所以删掉了一些类别。
因为Existing_EMI变量只有111个值缺失，所以缺失值补充为中位数0。
增加了 Interest_Rate_Missing 变量。如果Interest_Rate变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的Interest_Rate变量。
删除了Lead_Creation_Date，从直觉上这个特征就对最终结果没什么帮助。
Loan_Amount_Applied, Loan_Tenure_Applied 两个变量的缺项用中位数补足。
增加了 Loan_Amount_Submitted_Missing 变量。如果Loan_Amount_Submitted变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的Loan_Amount_Submitted变量。
增加了 Loan_Tenure_Submitted_Missing 变量。如果 Loan_Tenure_Submitted 变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的Loan_Tenure_Submitted 变量。
删除了LoggedIn, Salary_Account 两个变量
增加了 Processing_Fee_Missing 变量。如果 Processing_Fee 变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的 Processing_Fee 变量。
Source前两位不变，其它分成不同的类别。
进行了离散化和独热编码(一位有效编码)。

如果你有原始数据，可以从资源库里面下载data_preparation的Ipython notebook 文件，然后自己过一遍这些步骤。

载入必要库：

import pandas as pd
import numpy as np
import xgboost as xgb

from xgboost.sklearn import XGBClassifier
from sklearn.model_selection import GridSearchCV,cross_val_score
from sklearn import  metrics
import matplotlib.pylab as plt

读取文件

train_df = pd.read_csv('train_modified.csv')
    train_y = train_df.pop('Disbursed').values
    test_df = pd.read_csv('test_modified.csv')
    train_df.drop('ID',axis=1,inplace=True)
    test_df.drop('ID',axis=1,inplace=True)
    train_X = train_df.values

然后评分函数未下：

def modelMetrics(clf,train_x,train_y,isCv=True,cv_folds=5,early_stopping_rounds=50):
    if isCv:
        xgb_param = clf.get_xgb_params()
        xgtrain = xgb.DMatrix(train_x,label=train_y)
        cvresult = xgb.cv(xgb_param,xgtrain,num_boost_round=clf.get_params()['n_estimators'],nfold=cv_folds,
                          metrics='auc',early_stopping_rounds=early_stopping_rounds)#是否显示目前几颗树额
        clf.set_params(n_estimators=cvresult.shape[0])

    clf.fit(train_x,train_y,eval_metric='auc')

    #预测
    train_predictions = clf.predict(train_x)
    train_predprob = clf.predict_proba(train_x)[:,1]#1的概率

    #打印
    print("\nModel Report")
    print("Accuracy : %.4g" % metrics.accuracy_score(train_y, train_predictions))
    print("AUC Score (Train): %f" % metrics.roc_auc_score(train_y, train_predprob))

    feat_imp = pd.Series(clf.booster().get_fscore()).sort_values(ascending=False)
    feat_imp.plot(kind='bar',title='Feature importance')
    plt.ylabel('Feature Importance Score')

我们测试下：

Model Report
Accuracy : 0.9854
AUC Score (Train): 0.851058

我们看下其中具体的cv结果

cvresult.shape[0]是其中我们用的树的个数

cvresult的结果是一个DataFrame

6.1 参数调优的一般方法

我们会使用和GBM中相似的方法。需要进行如下步骤：

选择较高的学习速率(learning rate)。一般情况下，学习速率的值为0.1。但是，对于不同的问题，理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”，这个函数可以在每一次迭代中使用交叉验证，并返回理想的决策树数量。
对于给定的学习速率和决策树数量，进行决策树特定参数调优(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在确定一棵树的过程中，我们可以选择不同的参数，待会儿我会举例说明。
xgboost的正则化参数的调优。(lambda, alpha)。这些参数可以降低模型的复杂度，从而提高模型的表现。
降低学习速率，确定理想参数。

第一步：确定学习速率和tree_based 参数调优的估计器数目

为了确定boosting参数，我们要先给其它参数一个初始值。咱们先按如下方法取值：

1、max_depth = 5 :这个参数的取值最好在3-10之间。我选的起始值为5，但是你也可以选择其它的值。起始值在4-6之间都是不错的选择。

2、min_child_weight = 1:在这里选了一个比较小的值，因为这是一个极不平衡的分类问题。因此，某些叶子节点下的值会比较小。

3、gamma = 0: 起始值也可以选其它比较小的值，在0.1到0.2之间就可以。这个参数后继也是要调整的。

4、subsample, colsample_bytree = 0.8: 这个是最常见的初始值了。典型值的范围在0.5-0.9之间。

5、scale_pos_weight = 1: 这个值是因为类别十分不平衡。

这里把学习速率就设成默认的0.1。然后用xgboost中的cv函数来确定最佳的决策树数量。前文中的函数可以完成这个工作。

def tun_parameters(train_x,train_y):
    xgb1 = XGBClassifier(learning_rate=0.1,n_estimators=1000,max_depth=5,min_child_weight=1,gamma=0,subsample=0.8,
                         colsample_bytree=0.8,objective= 'binary:logistic',nthread=4,scale_pos_weight=1,seed=27)
    modelMetrics(xgb1,train_x,train_y)

然后我们得到如下的结果：

是根据交叉验证中迭代中

n_estimators: 112

Model Report
Accuracy : 0.9854
AUC Score (Train): 0.891681

每一次迭代中使用交叉验证，并返回理想的决策树数量。这个值取决于系统的性能。

第二步： max_depth 和 min_child_weight 参数调优

param_test1 = {
    'max_depth':range(3,10,2),
    'min_child_weight':range(1,6,2)
}
gsearch1 = GridSearchCV(estimator=XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,
min_child_weight=1, gamma=0, subsample=0.8,colsample_bytree=0.8,
objective= 'binary:logistic', nthread=4,scale_pos_weight=1, seed=27),
                        param_grid=param_test1,scoring='roc_auc',iid=False,cv=5)
gsearch1.fit(train_X,train_y)
gsearch1.grid_scores_,gsearch1.best_params_,gsearch1.best_score_

我们看见min_child_weight已经在边界处了所以我们还可以继续调整，也可以在下个参数一起调节

我们得到max_depth的理想取值为4，min_child_weight的理想取值为6。同时，我们还能看到cv的得分有了小小一点提高。需要注意的一点是，随着模型表现的提升，进一步提升的难度是指数级上升的，尤其是你的表现已经接近完美的时候。

我们能够进一步看是否6比较好，

    param_test2b = {
        'min_child_weight': [6, 8, 10, 12]
    }
    gsearch2b = GridSearchCV(estimator=XGBClassifier(learning_rate=0.1, n_estimators=140, max_depth=4,
                                                     min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
                                                     objective='binary:logistic', nthread=4, scale_pos_weight=1,
                                                     seed=27), param_grid=param_test2b, scoring='roc_auc', n_jobs=4,
                             iid=False, cv=5)

    gsearch2b.fit(train_x, train_y)
    gsearch2b.grid_scores_, gsearch2b.best_params_, gsearch2b.best_score_
    modelMetrics(gsearch2b, train_x, train_y)

6确实是最佳的值了，不用再调节了。

然后我们拟合一下看下模型评分：

n_estimators: 140

Model Report
Accuracy : 0.9854
AUC Score (Train): 0.875086

第三步：gamma参数调优

在已经调整好其它参数的基础上，我们可以进行gamma参数的调优了。Gamma参数取值范围可以很大，我这里把取值范围设置为5了。你其实也可以取更精确的gamma值。

    param_test3 = {
        'gamma': [i / 10.0 for i in range(0, 5)]
    }
    gsearch3 = GridSearchCV(
        estimator=XGBClassifier(learning_rate=0.1, n_estimators=140, max_depth=4, min_child_weight=6, gamma=0,
                                subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4,
                                scale_pos_weight=1, seed=27), param_grid=param_test3, scoring='roc_auc', n_jobs=4,
        iid=False, cv=5)
    gsearch3.fit(train_x,train_y)
    gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_

从这里，可以看出，得分提高了。所以，最终得到的参数是：

xgb2 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 objective= 'binary:logistic',
 nthread=4,
scale_pos_weight=1,
seed=27)
modelfit(xgb2, train, predictors)

第四步：调整subsample 和 colsample_bytree 参数

这两个参数相当于每个树的样本和参数个数

    param_test4 = {
        'subsample': [i / 10.0 for i in range(6, 10)],
        'colsample_bytree': [i / 10.0 for i in range(6, 10)]
    }

    gsearch4 = GridSearchCV(
        estimator=XGBClassifier(learning_rate=0.1, n_estimators=177, max_depth=3, min_child_weight=4, gamma=0.1,
                                subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4,
                                scale_pos_weight=1, seed=27), param_grid=param_test4, scoring='roc_auc', n_jobs=4,
        iid=False, cv=5)

    gsearch4.fit(train_x, train_y)
    gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_

([mean: 0.83836, std: 0.00840, params: {'subsample': 0.6, 'colsample_bytree': 0.6},
  mean: 0.83720, std: 0.00976, params: {'subsample': 0.7, 'colsample_bytree': 0.6},
  mean: 0.83787, std: 0.00758, params: {'subsample': 0.8, 'colsample_bytree': 0.6},
  mean: 0.83776, std: 0.00762, params: {'subsample': 0.9, 'colsample_bytree': 0.6},
  mean: 0.83923, std: 0.01005, params: {'subsample': 0.6, 'colsample_bytree': 0.7},
  mean: 0.83800, std: 0.00853, params: {'subsample': 0.7, 'colsample_bytree': 0.7},
  mean: 0.83819, std: 0.00779, params: {'subsample': 0.8, 'colsample_bytree': 0.7},
  mean: 0.83925, std: 0.00906, params: {'subsample': 0.9, 'colsample_bytree': 0.7},
  mean: 0.83977, std: 0.00831, params: {'subsample': 0.6, 'colsample_bytree': 0.8},
  mean: 0.83867, std: 0.00870, params: {'subsample': 0.7, 'colsample_bytree': 0.8},
  mean: 0.83879, std: 0.00797, params: {'subsample': 0.8, 'colsample_bytree': 0.8},
  mean: 0.84144, std: 0.00854, params: {'subsample': 0.9, 'colsample_bytree': 0.8},
  mean: 0.83878, std: 0.00760, params: {'subsample': 0.6, 'colsample_bytree': 0.9},
  mean: 0.83922, std: 0.00823, params: {'subsample': 0.7, 'colsample_bytree': 0.9},
  mean: 0.83912, std: 0.00765, params: {'subsample': 0.8, 'colsample_bytree': 0.9},
  mean: 0.83926, std: 0.00843, params: {'subsample': 0.9, 'colsample_bytree': 0.9}],
 {'colsample_bytree': 0.8, 'subsample': 0.9},
 0.84143722014693034)

若我们再将精度增加的话，我们将步长调节到0.05

我们得到的理想取值还是原来的值。因此，最终的理想取值是:

subsample: 0.8
colsample_bytree: 0.8

第五步：正则化参数调优

下一步是应用正则化来降低过拟合。由于gamma函数提供了一种更加有效地降低过拟合的方法，大部分人很少会用到这个参数。但是我们在这里也可以尝试用一下这个参数。

param_test6 = {
 'reg_alpha':[1e-5, 1e-2, 0.1, 1, 100]
}
gsearch6 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test6, scoring='roc_auc',n_jobs=4,iid=False, cv=5)

gsearch6.fit(train_X, train_y)
gsearch6.grid_scores_, gsearch6.best_params_, gsearch6.best_score_

([mean: 0.83949, std: 0.00720, params: {'reg_alpha': 1e-05},
  mean: 0.83940, std: 0.00607, params: {'reg_alpha': 0.01},
  mean: 0.84005, std: 0.00638, params: {'reg_alpha': 0.1},
  mean: 0.84062, std: 0.00775, params: {'reg_alpha': 1},
  mean: 0.81217, std: 0.01559, params: {'reg_alpha': 100}],
 {'reg_alpha': 1},
 0.84062434371797357)

相比之前的结果，CV的得分甚至还降低了。但是我们之前使用的取值是十分粗糙的，我们在这里选取一个比较靠近理想值(0.01)的取值，来看看是否有更好的表现。

    param_test7 = {
        'reg_alpha': [0, 0.001, 0.005, 0.01, 0.05]
    }
    gsearch7 = GridSearchCV(
        estimator=XGBClassifier(learning_rate=0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1,
                                subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4,
                                scale_pos_weight=1, seed=27), param_grid=param_test7, scoring='roc_auc', n_jobs=4,
        iid=False, cv=5)

    gsearch7.fit(train_x, train_y)
    gsearch7.grid_scores_, gsearch7.best_params_, gsearch7.best_score_

调整精度以后

CV的得分提高了。现在，我们在模型中来使用正则化参数，来看看这个参数的影响。

xgb3 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 reg_alpha=0.005,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)

现在我们可以来看下reg_lambda参数调节：

([mean: 0.83996, std: 0.00597, params: {'reg_lambda': 1e-05},
  mean: 0.84030, std: 0.00580, params: {'reg_lambda': 0.01},
  mean: 0.83965, std: 0.00574, params: {'reg_lambda': 0.1},
  mean: 0.84035, std: 0.00622, params: {'reg_lambda': 1},
  mean: 0.83601, std: 0.00944, params: {'reg_lambda': 100}],
 {'reg_lambda': 1},
 0.84035395025572046)

param_test8 = {
    'reg_lambda': [1e-5, 1e-2, 0.1, 1, 100]
}
gsearch8 = GridSearchCV(
    estimator=XGBClassifier(learning_rate =0.1, n_estimators=177,max_depth=4,min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, reg_alpha=0.005,
                            objective= 'binary:logistic',nthread=4, scale_pos_weight=1,seed=27), param_grid=param_test8, scoring='roc_auc', n_jobs=4,
    iid=False, cv=5)

gsearch8.fit(train_X, train_y)
gsearch8.grid_scores_, gsearch8.best_params_, gsearch8.best_score_

第6步：降低学习速率

最后，我们使用较低的学习速率，以及使用更多的决策树。我们可以用XGBoost中的CV函数来进行这一步工作。

xgb4 = XGBClassifier( learning_rate = 0.01 , n_estimators= 5000 , max_depth= 4 , min_child_weight= 6 , gamma= 0 , subsample= 0.8 , colsample_bytree= 0.8 , reg_alpha= 0.005 , objective= 'binary:logistic' , nthread= 4 , scale_pos_weight= 1 , seed= 27 )

我们看下最后的模型评分

至此，你可以看到模型的表现有了大幅提升，调整每个参数带来的影响也更加清楚了。 
在文章的末尾，我想分享两个重要的思想： 
1、仅仅靠参数的调整和模型的小幅优化，想要让模型的表现有个大幅度提升是不可能的。GBM的最高得分是0.8487，XGBoost的最高得分是0.8494。确实是有一定的提升，但是没有达到质的飞跃。 
2、要想让模型的表现有一个质的飞跃，需要依靠其他的手段，诸如，特征工程(feature egineering) ，模型组合(ensemble of model),以及堆叠(stacking)等。

你可能感兴趣的:(Kaggle系列,机器学习,数据科学)

PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
Java File 类与文件操作代码先锋者 java开发 java 开发语言
一、引言在Java编程中，文件操作是一项非常常见且重要的任务。无论是读取配置文件、保存用户数据，还是进行日志记录，都离不开对文件的操作。Java提供了File类来表示文件和目录的抽象路径名，通过该类可以对文件和目录进行创建、删除、重命名等操作。同时，Java还提供了一系列的输入输出流类，用于对文件内容进行读写操作。本文将详细介绍Java中File类的使用以及相关的文件操作案例。二、File类概述2
【大模型系列】SFT（Supervised Fine-Tuning，监督微调） Kwan的解忧杂货铺@新空间代码工作室 s2 AIGC 大模型
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
JAVA网络通信 MeyrlNotFound java 开发语言
IP地址与InetAddress类在Java网络通信中，IP地址是设备在网络中的唯一标识，而InetAddress类则是Java对IP地址的高层表示，它封装了IP地址和域名的相关信息，并提供了一系列方法来获取和操作这些信息。以下是对IP地址与InetAddress类的详细解析：一、IP地址基础•定义：IP（InternetProtocol）地址是分配给上网设备的唯一标志，用于指明因特网上的一台计算
硬件练习生系列（六）——LDO设计自学心得炸洋芋Zy. 硬件工程嵌入式硬件单片机
一、LDO稳压原理LDO（LowDropoutRegulator，低压差线性稳压器）是一种线性稳压电路，其核心功能是将输入电压转换为稳定的输出电压，且输入与输出之间的压差（DropoutVoltage）非常低（通常在几百毫伏以内）。1.基本结构LDO主要由以下关键模块组成：调整元件（PassElement）：通常为PNP或PMOS晶体管，负责调节输入到输出的电流。误差放大器（ErrorAmplif
Ubuntu下通过.sh文件同时启动多个程序系列3—gnome-terminal简单使用说明 JANGHIGH Ubuntu ROS bash linux
gnome-terminal简单使用说明gnome-terminal使用基本用法启动后自动执行命令废弃命令提示：~~-x和-e解释~~如何使用.bashrc里的内容gnome-terminal使用基本用法1.gnome-terminal命令用于打开一个新的终端，直接在命令行$gnome-terminal就可以打开一个新的终端，有一些常用参数：2.打开后自动最大化$gnome-terminal--m
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
讨论在 Swift 中引入函数体宏网罗开发实战 Swift Swift周报 swift ssh 开发语言
文章目录前言提案通过的提案正在审查的提案Swift论坛话题讨论关于我们前言文章内容精选提案：函数体Macros提案正在审查中Swift论坛：Swift中引入函数体宏话题讨论：你是更能接受同性上司还是更能接受异性上司？上期话题结果投票结果反映，大多数开发者还是比较担心自己的头发，另外就是身体变胖。久坐缺乏运动会导致一系列的身体健康问题。建议大家抽时间多运动，避免久坐。提案通过的提案SE-0411隔离
【愚公系列】《高效使用DeepSeek》023-兴趣技能培训愚公搬代码愚公系列-书籍专栏人工智能 AI Agent deepseek 学习
【技术大咖愚公搬代码：全栈专家的成长之路，你关注的宝藏博主在这里！】开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主！江湖人称"愚公搬代码"，用七年如一日的精神深耕技术领域，以"挖山不止"的毅力为开发者们搬开知识道路上的重重阻碍！【行业认证·权威头衔】✔华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家✔开发者社区全满贯：CSDN博客&商业化双料
面试可能会问到的问题dSP xinyizhangwei dsp
1.如何选择外部时钟？DSP的内部指令周期较高，外部晶振的主频不够，因此DSP大多数片内均有PLL。但每个系列不尽相同。1)TMS320C2000系列：TMS320C20x：PLL可以÷2，×1，×2和×4，因此外部时钟可以为5MHz－40MHz。TMS320F240：PLL可以÷2，×1，×1.5，×2，×2.5，×3，×4，×4.5，×5和×9，因此外部时钟可以为2.22MHz－40MHz。T
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
C++ STL常用库的使用方法（一）小崔的技术博客算法 c++算法开发语言
文章目录（0）C++STL介绍（0）C++STL组件(一)Vector容器1）创建vector2）尾部元素扩张3）访问Vector元素4)元素的删除5)元素的排序6)向量的大小(二)String基本字符系列容器1）创建String对象2)给String赋值(三)set集合容器1）创建set集合对象2)元素的插入与中序遍历3)元素的反向遍历4)元素的删除5)元素的检索(四)map映射容器1）map创
【知识管理】搞技术的季经验分享
一、概念：知识：公司内部的个体的、部门的、企业的，甚至是行业的不同的知识层次所综合组成的知识网络，包括品牌市场、渠道、知识产权、技术标准、技术秘密、产品附加值、竞争情报等多种内容。知识管理：是传递知识的过程，由于传递人员的经验问题或者知识源的问题，可能导致较大的知识损耗。而知识管理的过程通过对隐性知识的挖掘和一系列知识管理的活动，可以有效提升知识转化的效率，体现企业内知识资产的价值。二、要素和现状
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
Centos7软件包管理(rpm、yum) Bulut0907 Linux centos 软件包管理 rpm yum yum源修改
目录1.rpm2.yum2.1修改yum源1.rpmRPM(RedHatPackageManager)，redhat系列操作系统里面的打包安装工具查询命令：查询安装的所有rpm软件包：rpm-qa查询指定rpm软件包，并显示详细信息：rpm-qipython3卸载命令：卸载软件包，不管是否有其它软件包依赖该软件包：rpm-e--nodeps软件包名称安装命令：安装rpm包，并显示详细信息和进度条(
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
稳定运行的以PostgreSQL数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 postgresql 开发语言数据库性能优化 etl
在使用PostgreSQL作为数据源和目标的ETL（Extract,Transform,Load）过程中，当ETL性能变差时，可以通过一系列方法来诊断问题并提高性能。提高PostgreSQL数据库ETL性能的核心思想是从数据库配置、查询优化、硬件资源、并行处理等多个方面入手。通过上述方法逐步优化，可以大幅提升ETL过程的效率。下面是提高PostgreSQL数据库ETL性能的一些常用方法和步骤：1.
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【新品发售】NVIDIA 发布全球最小个人 AI 超级计算机 DGX Spark segmentfault
GTC2025大会上，NVIDIA正式推出了搭载NVIDIAGraceBlackwell平台的个人AI超级计算机——DGXSpark。赞奇可接受预订，直接私信后台即刻预订！DGXSpark(前身为ProjectDIGITS)支持AI开发者、研究人员、数据科学家和学生，在台式电脑上对大模型进行原型设计、微调和推理。用户可以在本地运行这些模型，或将其部署在NVIDIADGXCloud或任何其他加速云或
AI编程系列之Claude 3.5 Sonnet：编码的未来已无限改变！ Claude 3.5 Sonnet 即将改变一切！知识大胖 NVIDIA GPU和大语言模型开发教程 AI编程信息可视化 claude
简介“编程并不是让你成为一个成功人士的必要条件。”Nvidia首席执行官黄仁勋。正如JensenHuang所说，LLM的最新特点让我们意识到了解编码可能并不像我们想象的那么重要。你知道吗，你可以在2分钟内创建一款贪吃蛇或俄罗斯方块游戏？在本文中，我们将探索Claude3.5Sonnet，你将明白为什么最近每个人都在谈论它。推荐文章《AnythingLLM教程系列之05AnythingLLM允许您创
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的