sinat_16388393

Python机器学习笔记：XgBoost算法

前言

1，Xgboost简介

　　Xgboost是Boosting算法的其中一种，Boosting算法的思想是将许多弱分类器集成在一起，形成一个强分类器。因为Xgboost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是CART回归树模型。

　　Xgboost是在GBDT的基础上进行改进，使之更强大，适用于更大范围。

　　Xgboost一般和sklearn一起使用，但是由于sklearn中没有集成Xgboost，所以才需要单独下载安装。

2，Xgboost的优点

　　Xgboost算法可以给预测模型带来能力的提升。当我们对其表现有更多了解的时候，我们会发现他有如下优势：

2.1 正则化

　　实际上，Xgboost是以“正则化提升（regularized boosting）” 技术而闻名。Xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数，每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是Xgboost优于传统GBDT的一个特征

2.2 并行处理

　　Xgboost工具支持并行。众所周知，Boosting算法是顺序处理的，也是说Boosting不是一种串行的结构吗？怎么并行的？注意Xgboost的并行不是tree粒度的并行。Xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含）。Xgboost的并行式在特征粒度上的，也就是说每一颗树的构造都依赖于前一颗树。

　　我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），Xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分类时，需要计算每个特征的增益，大大减少计算量。这个block结构也使得并行成为了可能，在进行节点的分裂的时候，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

2.3 灵活性

　　Xgboost支持用户自定义目标函数和评估函数，只要目标函数二阶可导就行。它对模型增加了一个全新的维度，所以我们的处理不会受到任何限制。

2.4 缺失值处理

　　对于特征的值有缺失的样本，Xgboost可以自动学习出他的分裂方向。Xgboost内置处理缺失值的规则。用户需要提供一个和其他样本不同的值，然后把它作为一个参数穿进去，以此来作为缺失值的取值。Xgboost在不同节点遇到缺失值时采用不同的处理方法，并且会学习未来遇到缺失值时的处理方法。

2.5 剪枝

　　Xgboost先从顶到底建立所有可以建立的子树，再从底到顶反向机芯剪枝，比起GBM，这样不容易陷入局部最优解

2.6 内置交叉验证

　　Xgboost允许在每一轮Boosting迭代中使用交叉验证。因此可以方便的获得最优Boosting迭代次数，而GBM使用网格搜索，只能检测有限个值。

3，Xgboost的离线安装

1，点击此处，下载对应自己Python版本的网址。

2，输入安装的程式：

 
       ? 
      
            pip install xgboost-0.81-cp37-cp37m-win_amd64.whl

Xgboost模型详解

1，Xgboost能加载的各种数据格式解析

　　Xgboost可以加载多种数据格式的训练数据：

 
       ? 
      
            libsvm 格式的文本数据； 
           
            Numpy 的二维数组； 
           
            XGBoost 的二进制的缓存文件。加载的数据存储在对象 DMatrix 中。

　　　下面一一列举：

　　记载libsvm格式的数据

 
       ? 
      
            dtrain1 = xgb.DMatrix( 
            'train.svm.txt' 
            )

　　记载二进制的缓存文件

 
       ? 
      
            dtrain2  = xgb.DMatrix( 
            'train.svm.buffer' 
            )

　　加载numpy的数组

 
       ? 
      
            data = np.random.rand(5,10)                 # 5行10列数据集 
           
            label = np.random.randint(2,size=5)       # 二分类目标值 
           
            dtrain = xgb.DMatrix(data,label=label)    # 组成训练集

　　将scipy.sparse格式的数据转化为Dmatrix格式

 
       ? 
      
            csr = scipy.sparse.csr_matrix((dat,(row,col))) 
           
            dtrain = xgb.DMatrix( csr )

　　将Dmatrix格式的数据保存成Xgboost的二进制格式，在下次加载时可以提高加载速度，使用方法如下：

 
       ? 
      
            dtrain = xgb.DMatrix( 
            'train.svm.txt' 
            ) 
           
            dtrain.save_binary( 
            "train.buffer" 
            )

　　可以使用如下方式处理DMatrix中的缺失值

 
       ? 
      
            dtrain = xgb.DMatrix( data, label=label, missing = -999.0)

　　当需要给样本设置权重时，可以用如下方式：

 
       ? 
      
            w = np.random.rand(5,1) 
           
            dtrain = xgb.DMatrix( data, label=label, missing = -999.0, weight=w)

2，Xgboost的模型参数

　　Xgboost使用key-value字典的方式存储参数

 
       ? 
      
            # xgboost模型 
           
            params 
            = { 
           
            'booster' 
            : 
            'gbtree' 
            , 
           
            'objective' 
            : 
            'multi:softmax' 
            ,   # 多分类问题 
           
            'num_class' 
            :10,  # 类别数，与multi softmax并用 
           
            'gamma' 
            :0.1,    # 用于控制是否后剪枝的参数，越大越保守，一般0.1 0.2的样子 
           
            'max_depth' 
            :12,  # 构建树的深度，越大越容易过拟合 
           
            'lambda' 
            :2,  # 控制模型复杂度的权重值的L2 正则化项参数，参数越大，模型越不容易过拟合 
           
            'subsample' 
            :0.7, # 随机采样训练样本 
           
            'colsample_bytree' 
            :3,# 这个参数默认为1，是每个叶子里面h的和至少是多少 
           
            # 对于正负样本不均衡时的0-1分类而言，假设h在0.01附近，min_child_weight为1 
           
            #意味着叶子节点中最少需要包含100个样本。这个参数非常影响结果， 
           
            # 控制叶子节点中二阶导的和的最小值，该参数值越小，越容易过拟合 
           
            'silent' 
            :0,  # 设置成1 则没有运行信息输入，最好是设置成0 
           
            'eta' 
            :0.007,  # 如同学习率 
           
            'seed' 
            :1000, 
           
            'nthread' 
            :7,  #CPU线程数 
           
            #'eval_metric':'auc' 
           
            }

　　在运行Xgboost之前，必须设置三种类型成熟：general parameters，booster parameters和task parameters：

　　通用参数（General Parameters）：该参数控制在提升（boosting）过程中使用哪种booster，常用的booster有树模型（tree）和线性模型（linear model）

　　Booster参数（Booster Parameters）：这取决于使用哪种booster

　　学习目标参数（Task Parameters）：控制学习的场景，例如在回归问题中会使用不同的参数控制排序

2.1，通用参数

booster [default=gbtree]
- 有两种模型可以选择gbtree和gblinear。gbtree使用基于树的模型进行提升计算，gblinear使用线性模型进行提升计算。缺省值为gbtree

silent [default=0]

取0时表示打印出运行时信息，取1时表示以缄默方式运行，不打印运行时的信息。缺省值为0
建议取0，过程中的输出数据有助于理解模型以及调参。另外实际上我设置其为1也通常无法缄默运行。。

nthread [default to maximum number of threads available if not set]

XGBoost运行时的线程数。缺省值是当前系统可以获得的最大线程数
如果你希望以最大速度运行，建议不设置这个参数，模型将自动获得最大线程

num_pbuffer [set automatically by xgboost, no need to be set by user]

size of prediction buffer, normally set to number of training instances. The buffers are used to save the prediction results of last boosting step.

num_feature [set automatically by xgboost, no need to be set by user]

boosting过程中用到的特征维数，设置为特征个数。XGBoost会自动设置，不需要手工设置

2.2，tree booster参数

eta [default=0.3]
- 为了防止过拟合，更新过程中用到的收缩步长。在每次提升计算之后，算法会直接获得新特征的权重。 eta通过缩减特征的权重使提升计算过程更加保守。缺省值为0.3
- 取值范围为：[0,1]
- 通常最后设置eta为0.01~0.2

gamma [default=0]

minimum loss reduction required to make a further partition on a leaf node of the tree. the larger, the more conservative the algorithm will be.
range: [0,∞]
模型在默认情况下，对于一个节点的划分只有在其loss function 得到结果大于0的情况下才进行，而gamma 给定了所需的最低loss function的值
gamma值使得算法更conservation，且其值依赖于loss function ，在模型中应该进行调参。

max_depth [default=6]

树的最大深度。缺省值为6
取值范围为：[1,∞]
指树的最大深度
树的深度越大，则对数据的拟合程度越高（过拟合程度也越高）。即该参数也是控制过拟合
建议通过交叉验证（xgb.cv ) 进行调参
通常取值：3-10

min_child_weight [default=1]

孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。该成熟越大算法越conservative。即调大这个参数能够控制过拟合。
取值范围为: [0,∞]

max_delta_step [default=0]

Maximum delta step we allow each tree’s weight estimation to be. If the value is set to 0, it means there is no constraint. If it is set to a positive value, it can help making the update step more conservative. Usually this parameter is not needed, but it might help in logistic regression when class is extremely imbalanced. Set it to value of 1-10 might help control the update
取值范围为：[0,∞]
如果取值为0，那么意味着无限制。如果取为正数，则其使得xgboost更新过程更加保守。
通常不需要设置这个值，但在使用logistics 回归时，若类别极度不平衡，则调整该参数可能有效果

subsample [default=1]

用于训练模型的子样本占整个样本集合的比例。如果设置为0.5则意味着XGBoost将随机的从整个样本集合中抽取出50%的子样本建立树模型，这能够防止过拟合。
取值范围为：(0,1]

colsample_bytree [default=1]

在建立树时对特征随机采样的比例。缺省值为1
取值范围：(0,1]

colsample_bylevel[default=1]

决定每次节点划分时子样例的比例
通常不使用，因为subsample和colsample_bytree已经可以起到相同的作用了

scale_pos_weight[default=0]

A value greater than 0 can be used in case of high class imbalance as it helps in faster convergence.
大于0的取值可以处理类别不平衡的情况。帮助模型更快收敛

2.3，Linear Booster参数

lambda [default=0]
- L2 正则的惩罚系数
- 用于处理XGBoost的正则化部分。通常不使用，但可以用来降低过拟合

alpha [default=0]

L1 正则的惩罚系数
当数据维度极高时可以使用，使得算法运行更快。

lambda_bias

在偏置上的L2正则。缺省值为0（在L1上没有偏置项的正则，因为L1时偏置不重要）

2.4，学习目标参数

　　这个参数是来控制理想的优化目标和每一步结果的度量方法。

objective [ default=reg:linear ]
- 定义学习任务及相应的学习目标，可选的目标函数如下：
- “reg:linear” –线性回归。
- “reg:logistic” –逻辑回归。
- “binary:logistic” –二分类的逻辑回归问题，输出为概率。
- “binary:logitraw” –二分类的逻辑回归问题，输出的结果为wTx。
- “count:poisson” –计数问题的poisson回归，输出结果为poisson分布。
- 在poisson回归中，max_delta_step的缺省值为0.7。(used to safeguard optimization)
- “multi:softmax” –让XGBoost采用softmax目标函数处理多分类问题，同时需要设置参数num_class（类别个数）
- “multi:softprob” –和softmax一样，但是输出的是ndata * nclass的向量，可以将该向量reshape成ndata行nclass列的矩阵。每行数据表示样本所属于每个类别的概率。
- “rank:pairwise” –set XGBoost to do ranking task by minimizing the pairwise loss

base_score [ default=0.5 ]

the initial prediction score of all instances, global bias

eval_metric [ default according to objective ]

校验数据所需要的评价指标，不同的目标函数将会有缺省的评价指标（rmse for regression, and error for classification, mean average precision for ranking）
用户可以添加多种评价指标，对于Python用户要以list传递参数对给程序，而不是map参数list参数不会覆盖’eval_metric’
The choices are listed below:
“rmse”: root mean square error
“logloss”: negative log-likelihood
“error”: Binary classification error rate. It is calculated as #(wrong cases)/#(all cases). For the predictions, the evaluation will regard the instances with prediction value larger than 0.5 as positive instances, and the others as negative instances.
“merror”: Multiclass classification error rate. It is calculated as #(wrong cases)/#(all cases).
“mlogloss”: Multiclass logloss
“auc”: Area under the curve for ranking evaluation.
“ndcg”:Normalized Discounted Cumulative Gain
“map”:Mean average precision
“ndcg@n”,”map@n”: n can be assigned as an integer to cut off the top positions in the lists for evaluation.
“ndcg-“,”map-“,”ndcg@n-“,”map@n-“: In XGBoost, NDCG and MAP will evaluate the score of a list without any positive samples as 1. By adding “-” in the evaluation metric XGBoost will evaluate these score as 0 to be consistent under some conditions.
training repeatively

seed [ default=0 ]

随机数的种子。缺省值为0
可以用于产生可重复的结果（每次取一样的seed即可得到相同的随机划分）

3，Xgboost基本方法和默认参数

 
      ? 
     
           xgboost.train( 
           params 
           ,dtrain,num_boost_round=10,evals(),obj=None, 
          
           feval=None,maximize=False,early_stopping_rounds=None,evals_result=None, 
          
           verbose_eval=True,learning_rates=None,xgb_model=None)

　　parms：这是一个字典，里面包含着训练中的参数关键字和对应的值，形式是parms = {'booster':'gbtree','eta':0.1}

　　dtrain：训练的数据

　　num_boost_round：这是指提升迭代的个数

　　evals：这是一个列表，用于对训练过程中进行评估列表中的元素。形式是evals = [(dtrain,'train'),(dval,'val')] 或者是 evals =[(dtrain,'train')] ，对于第一种情况，它使得我们可以在训练过程中观察验证集的效果。

　　obj ：自定义目的函数

　　feval：自定义评估函数

　　maximize：是否对评估函数进行最大化

　　early_stopping_rounds：早起停止次数，假设为100，验证集的误差迭代到一定程度在100次内不能再继续降低，就停止迭代。这要求evals里至少有一个元素，如果有多个，按照最后一个去执行。返回的是最后的迭代次数（不是最好的）。如果early_stopping_rounds存在，则模型会生成三个属性，bst.best_score ,bst.best_iteration和bst.best_ntree_limit

　　evals_result：字典，存储在watchlist中的元素的评估结果

　　verbose_eval（可以输入布尔型或者数值型）：也要求evals里至少有一个元素，如果为True，则对evals中元素的评估结果会输出在结果中；如果输入数字，假设为5，则每隔5个迭代输出一次。

　　learning_rates：每一次提升的学习率的列表

　　xgb_model：在训练之前用于加载的xgb_model

4，模型训练

　　有了参数列表和数据就可以训练模型了

 
      ? 
     
           num_round = 10 
          
           bst = xgb.train( plst, dtrain, num_round, evallist )

5，模型预测

 
      ? 
     
           # X_test类型可以是二维List，也可以是numpy的数组 
          
           dtest = DMatrix(X_test) 
          
           ans = model.predict(dtest)

　　完整代码如下：

 
      ? 
     
           xgb_model.get_booster().save_model( 
           'xgb.model' 
           ) 
          
           tar = xgb.Booster(model_file= 
           'xgb.model' 
           ) 
          
           x_test = xgb.DMatrix(x_test) 
          
           pre=tar.predict(x_test) 
          
           act=y_test 
          
           print(mean_squared_error(act, pre))

6，保存模型

　　在训练完成之后可以将模型保存下来，也可以查看模型内部的结构

 
      ? 
     
           bst.save_model( 
           'test.model' 
           )

　　导出模型和特征映射（Map）

　　你可以导出模型到txt文件并浏览模型的含义：

 
      ? 
     
           # 导出模型到文件 
          
           bst.dump_model( 
           'dump.raw.txt' 
           ) 
          
           # 导出模型和特征映射 
          
           bst.dump_model( 
           'dump.raw.txt' 
           , 
           'featmap.txt' 
           )

7，加载模型

　　通过如下方式可以加载模型

 
      ? 
     
           bst = xgb.Booster({ 
           'nthread' 
           :4}) # init model 
          
           bst.load_model( 
           "model.bin" 
           )      # load data

Xgboost实战

　　Xgboost有两大类接口：Xgboost原生接口和sklearn接口，并且Xgboost能够实现分类回归两种任务。下面对这四种情况做以解析。

1，基于Xgboost原生接口的分类

 
      ? 
     
           from 
           sklearn.datasets import load_iris 
          
           import xgboost  
           as 
           xgb 
          
           from 
           xgboost import plot_importance 
          
           import matplotlib.pyplot   
           as 
           plt 
          
           from 
           sklearn.model_selection import train_test_split 
          
           from 
           sklearn.metrics import accuracy_score  # 准确率 
          
           # 记载样本数据集 
          
           iris = load_iris() 
          
           X,y = iris.data,iris.target 
          
           # 数据集分割 
          
           X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123457) 
          
           # 算法参数 
          
           params 
           = { 
          
           'booster' 
           : 
           'gbtree' 
           , 
          
           'objective' 
           : 
           'multi:softmax' 
           , 
          
           'num_class' 
           :3, 
          
           'gamma' 
           :0.1, 
          
           'max_depth' 
           :6, 
          
           'lambda' 
           :2, 
          
           'subsample' 
           :0.7, 
          
           'colsample_bytree' 
           :0.7, 
          
           'min_child_weight' 
           :3, 
          
           'slient' 
           :1, 
          
           'eta' 
           :0.1, 
          
           'seed' 
           :1000, 
          
           'nthread' 
           :4, 
          
           } 
          
           plst =  
           params 
           .items() 
          
           # 生成数据集格式 
          
           dtrain = xgb.DMatrix(X_train,y_train) 
          
           num_rounds = 500 
          
           # xgboost模型训练 
          
           model = xgb.train(plst,dtrain,num_rounds) 
          
           # 对测试集进行预测 
          
           dtest = xgb.DMatrix(X_test) 
          
           y_pred = model.predict(dtest) 
          
           # 计算准确率 
          
           accuracy = accuracy_score(y_test,y_pred) 
          
           print( 
           'accuarcy:%.2f%%' 
           %(accuracy*100)) 
          
           # 显示重要特征 
          
           plot_importance(model) 
          
           plt.show()

　　输出预测正确率以及特征重要性：

 
      ? 
     
           accuarcy:93.33%

2，基于Xgboost原生接口的回归

 
      ? 
     
           import xgboost  
           as 
           xgb 
          
           from 
           xgboost import plot_importance 
          
           from 
           matplotlib import pyplot  
           as 
           plt 
          
           from 
           sklearn.model_selection import train_test_split 
          
           from 
           sklearn.datasets import load_boston 
          
           from 
           sklearn.metrics import mean_squared_error 
          
           # 加载数据集,此数据集时做回归的 
          
           boston = load_boston() 
          
           X,y = boston.data,boston.target 
          
           # Xgboost训练过程 
          
           X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0) 
          
           # 算法参数 
          
           params 
           = { 
          
           'booster' 
           : 
           'gbtree' 
           , 
          
           'objective' 
           : 
           'reg:gamma' 
           , 
          
           'gamma' 
           :0.1, 
          
           'max_depth' 
           :5, 
          
           'lambda' 
           :3, 
          
           'subsample' 
           :0.7, 
          
           'colsample_bytree' 
           :0.7, 
          
           'min_child_weight' 
           :3, 
          
           'slient' 
           :1, 
          
           'eta' 
           :0.1, 
          
           'seed' 
           :1000, 
          
           'nthread' 
           :4, 
          
           } 
          
           dtrain = xgb.DMatrix(X_train,y_train) 
          
           num_rounds = 300 
          
           plst =  
           params 
           .items() 
          
           model = xgb.train(plst,dtrain,num_rounds) 
          
           # 对测试集进行预测 
          
           dtest = xgb.DMatrix(X_test) 
          
           ans = model.predict(dtest) 
          
           # 显示重要特征 
          
           plot_importance(model) 
          
           plt.show()

　　重要特征（值越大，说明该特征越重要）显示结果：

3，Xgboost使用sklearn接口的分类（推荐）

XGBClassifier

 
      ? 
     
           from 
           xgboost.sklearn import XGBClassifier 
          
           clf = XGBClassifier( 
          
           silent=0,  # 设置成1则没有运行信息输出，最好是设置为0，是否在运行升级时打印消息 
          
           # nthread = 4  # CPU 线程数 默认最大 
          
           learning_rate=0.3 , # 如同学习率 
          
           min_child_weight = 1, 
          
           # 这个参数默认为1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言 
          
           # 假设h在0.01附近，min_child_weight为1 意味着叶子节点中最少需要包含100个样本 
          
           # 这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易过拟合 
          
           max_depth=6, # 构建树的深度，越大越容易过拟合 
          
           gamma = 0,# 树的叶子节点上做进一步分区所需的最小损失减少，越大越保守，一般0.1 0.2这样子 
          
           subsample=1, # 随机采样训练样本，训练实例的子采样比 
          
           max_delta_step=0,  # 最大增量步长，我们允许每个树的权重估计 
          
           colsample_bytree=1, # 生成树时进行的列采样 
          
           reg_lambda=1, #控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合 
          
           # reg_alpha=0, # L1正则项参数 
          
           # scale_pos_weight =1 # 如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛，平衡正负权重 
          
           # objective = 'multi:softmax', # 多分类问题，指定学习任务和响应的学习目标 
          
           # num_class = 10,  # 类别数，多分类与multisoftmax并用 
          
           n_estimators=100,  # 树的个数 
          
           seed = 1000,  # 随机种子 
          
           # eval_metric ='auc' 
          
           )

基于Sckit-learn接口的分类

 
      ? 
     
           from 
           sklearn.datasets import load_iris 
          
           import xgboost  
           as 
           xgb 
          
           from 
           xgboost import plot_importance 
          
           from 
           matplotlib import pyplot  
           as 
           plt 
          
           from 
           sklearn.model_selection import train_test_split 
          
           from 
           sklearn.metrics import accuracy_score 
          
           # 加载样本数据集 
          
           iris = load_iris() 
          
           X,y = iris.data,iris.target 
          
           X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343) 
          
           # 训练模型 
          
           model = xgb.XGBClassifier(max_depth=5,learning_rate=0.1,n_estimators=160,silent=True,objective= 
           'multi:softmax' 
           ) 
          
           model.fit(X_train,y_train) 
          
           # 对测试集进行预测 
          
           y_pred = model.predict(X_test) 
          
           #计算准确率 
          
           accuracy = accuracy_score(y_test,y_pred) 
          
           print( 
           'accuracy:%2.f%%' 
           %(accuracy*100)) 
          
           # 显示重要特征 
          
           plot_importance(model) 
          
           plt.show()

　　输出结果：

 
      ? 
     
           accuracy:93%

4，基于Scikit-learn接口的回归

 
      ? 
     
           import xgboost  
           as 
           xgb 
          
           from 
           xgboost import plot_importance 
          
           from 
           matplotlib import pyplot  
           as 
           plt 
          
           from 
           sklearn.model_selection import train_test_split 
          
           from 
           sklearn.datasets import load_boston 
          
           # 导入数据集 
          
           boston = load_boston() 
          
           X ,y = boston.data,boston.target 
          
           # Xgboost训练过程 
          
           X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0) 
          
           model = xgb.XGBRegressor(max_depth=5,learning_rate=0.1,n_estimators=160,silent=True,objective= 
           'reg:gamma' 
           ) 
          
           model.fit(X_train,y_train) 
          
           # 对测试集进行预测 
          
           ans = model.predict(X_test) 
          
           # 显示重要特征 
          
           plot_importance(model) 
          
           plt.show()

5，整理代码1（原生XGB）

 
      ? 
     
           from 
           sklearn.model_selection import train_test_split 
          
           from 
           sklearn import metrics 
          
           from  
           sklearn.datasets  import  make_hastie_10_2 
          
           import xgboost  
           as 
           xgb 
          
           #记录程序运行时间 
          
           import time  
          
           start_time = time.time() 
          
           X, y = make_hastie_10_2(random_state=0) 
          
           X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)##test_size测试集合所占比例 
          
           #xgb矩阵赋值 
          
           xgb_train = xgb.DMatrix(X_train, label=y_train) 
          
           xgb_test = xgb.DMatrix(X_test,label=y_test) 
          
           ##参数 
          
           params 
           ={ 
          
           'booster' 
           : 
           'gbtree' 
           , 
          
           'silent' 
           :1 ,#设置成1则没有运行信息输出，最好是设置为0. 
          
           #'nthread':7,# cpu 线程数 默认最大 
          
           'eta' 
           : 0.007, # 如同学习率 
          
           'min_child_weight' 
           :3,  
          
           # 这个参数默认是 1，是每个叶子里面 h 的和至少是多少，对正负样本不均衡时的 0-1 分类而言 
          
           #，假设 h 在 0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100 个样本。 
          
           #这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。 
          
           'max_depth' 
           :6, # 构建树的深度，越大越容易过拟合 
          
           'gamma' 
           :0.1,  # 树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。 
          
           'subsample' 
           :0.7, # 随机采样训练样本 
          
           'colsample_bytree' 
           :0.7, # 生成树时进行的列采样  
          
           'lambda' 
           :2,  # 控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。 
          
           #'alpha':0, # L1 正则项参数 
          
           #'scale_pos_weight':1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。 
          
           #'objective': 'multi:softmax', #多分类的问题 
          
           #'num_class':10, # 类别数，多分类与 multisoftmax 并用 
          
           'seed' 
           :1000, #随机种子 
          
           #'eval_metric': 'auc' 
          
           } 
          
           plst = list( 
           params 
           .items()) 
          
           num_rounds = 100 # 迭代次数 
          
           watchlist = [(xgb_train,  
           'train' 
           ),(xgb_test,  
           'val' 
           )] 
          
           #训练模型并保存 
          
           # early_stopping_rounds 当设置的迭代次数较大时，early_stopping_rounds 可在一定的迭代次数内准确率没有提升就停止训练 
          
           model = xgb.train(plst, xgb_train, num_rounds, watchlist,early_stopping_rounds=100,pred_margin=1) 
          
           #model.save_model('./model/xgb.model') # 用于存储训练出的模型 
          
           print  
           "best best_ntree_limit" 
           ,model.best_ntree_limit  
          
           y_pred = model.predict(xgb_test,ntree_limit=model.best_ntree_limit) 
          
           print ( 
           'error=%f' 
           % (  sum(1  
           for 
           i  
           in 
           range(len(y_pred))  
           if 
           int 
           (y_pred[i]>0.5)!=y_test[i]) / 
           float 
           (len(y_pred))))   
          
           #输出运行时长 
          
           cost_time = time.time()-start_time 
          
           print  
           "xgboost success!" 
           , 
           '\n' 
           , 
           "cost time:" 
           ,cost_time, 
           "(s)......"

6，整理代码2（XGB使用sklearn）

 
      ? 
     
           from 
           sklearn.model_selection import train_test_split 
          
           from 
           sklearn import metrics 
          
           from  
           sklearn.datasets  import  make_hastie_10_2 
          
           from 
           xgboost.sklearn import XGBClassifier 
          
           X, y = make_hastie_10_2(random_state=0) 
          
           X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)##test_size测试集合所占比例 
          
           clf = XGBClassifier( 
          
           silent=0 ,#设置成1则没有运行信息输出，最好是设置为0.是否在运行升级时打印消息。 
          
           #nthread=4,# cpu 线程数 默认最大 
          
           learning_rate= 0.3, # 如同学习率 
          
           min_child_weight=1,  
          
           # 这个参数默认是 1，是每个叶子里面 h 的和至少是多少，对正负样本不均衡时的 0-1 分类而言 
          
           #，假设 h 在 0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100 个样本。 
          
           #这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。 
          
           max_depth=6, # 构建树的深度，越大越容易过拟合 
          
           gamma=0,  # 树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。 
          
           subsample=1, # 随机采样训练样本 训练实例的子采样比 
          
           max_delta_step=0,#最大增量步长，我们允许每个树的权重估计。 
          
           colsample_bytree=1, # 生成树时进行的列采样  
          
           reg_lambda=1,  # 控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。 
          
           #reg_alpha=0, # L1 正则项参数 
          
           #scale_pos_weight=1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。平衡正负权重 
          
           #objective= 'multi:softmax', #多分类的问题 指定学习任务和相应的学习目标 
          
           #num_class=10, # 类别数，多分类与 multisoftmax 并用 
          
           n_estimators=100, #树的个数 
          
           seed=1000 #随机种子 
          
           #eval_metric= 'auc' 
          
           ) 
          
           clf.fit(X_train,y_train,eval_metric= 
           'auc' 
           ) 
          
           #设置验证集合 verbose=False不打印过程 
          
           clf.fit(X_train, y_train,eval_set=[(X_train, y_train), (X_val, y_val)],eval_metric= 
           'auc' 
           ,verbose=False) 
          
           #获取验证集合结果 
          
           evals_result = clf.evals_result() 
          
           y_true, y_pred = y_test, clf.predict(X_test) 
          
           print 
           "Accuracy : %.4g" 
           % metrics.accuracy_score(y_true, y_pred) 
          
           #回归 
          
           #m_regress = xgb.XGBRegressor(n_estimators=1000,seed=0)

Xgboost参数调优的一般方法

调参步骤：

　　1，选择较高的学习速率（learning rate）。一般情况下，学习速率的值为0.1.但是，对于不同的问题，理想的学习速率有时候会在0.05~0.3之间波动。选择对应于此学习速率的理想决策树数量。Xgboost有一个很有用的函数“cv”，这个函数可以在每一次迭代中使用交叉验证，并返回理想的决策树数量。

　　2，对于给定的学习速率和决策树数量，进行决策树特定参数调优（max_depth , min_child_weight , gamma , subsample,colsample_bytree）在确定一棵树的过程中，我们可以选择不同的参数。

　　3，Xgboost的正则化参数的调优。（lambda , alpha）。这些参数可以降低模型的复杂度，从而提高模型的表现。

　　4，降低学习速率，确定理想参数。

　　下面详细的进行这些操作。

第一步：确定学习速率和tree_based参数调优的估计器数目

　　为了确定Boosting参数，我们要先给其他参数一个初始值。咱们先按照如下方法取值：

1，max_depth = 5：这个参数的取值最好在3-10之间，我选的起始值为5，但是你可以选择其他的值。起始值在4-6之间都是不错的选择。
2，min_child_weight = 1 ：这里选择了一个比较小的值，因为这是一个极不平衡的分类问题。因此，某些叶子节点下的值会比较小。
3，gamma = 0 :起始值也可以选择其它比较小的值，在0.1到0.2之间就可以，这个参数后继也是要调整的。
4，subsample,colsample_bytree = 0.8 这个是最常见的初始值了。典型值的范围在0.5-0.9之间。
5，scale_pos_weight =1 这个值时因为类别十分不平衡。

　　注意，上面这些参数的值知识一个初始的估计值，后继需要调优。这里把学习速率就设成默认的0.1。然后用Xgboost中的cv函数来确定最佳的决策树数量。

 
      ? 
     
           from 
           xgboost import XGBClassifier 
          
           xgb1 = XGBClassifier( 
          
           learning_rate =0.1, 
          
           n_estimators=1000, 
          
           max_depth=5, 
          
           min_child_weight=1, 
          
           gamma=0, 
          
           subsample=0.8, 
          
           colsample_bytree=0.8, 
          
           objective=  
           'binary:logistic' 
           , 
          
           nthread=4, 
          
           scale_pos_weight=1, 
          
           seed=27)

第二步：max_depth和min_weight参数调优

　　我们先对这两个参数调优，是因为他们对最终结果有很大的影响。首先，我们先大范围地粗略参数，然后再小范围的微调。

　　注意：在这一节我会进行高负荷的栅格搜索（grid search），这个过程大约需要15-30分钟甚至更久，具体取决于你系统的性能，你也可以根据自己系统的性能选择不同的值。

　　网格搜索scoring = 'roc_auc' 只支持二分类，多分类需要修改scoring（默认支持多分类）

 
      ? 
     
           param_test1 = { 
          
           'max_depth' 
           :range(3,10,2), 
          
           'min_child_weight' 
           :range(1,6,2) 
          
           } 
          
           #param_test2 = { 
          
           'max_depth' 
           :[4,5,6], 
          
           'min_child_weight' 
           :[4,5,6] 
          
           } 
          
           from 
           sklearn import svm, grid_search, datasets 
          
           from 
           sklearn import grid_search 
          
           gsearch1 = grid_search.GridSearchCV( 
          
           estimator = XGBClassifier( 
          
           learning_rate =0.1, 
          
           n_estimators=140, max_depth=5, 
          
           min_child_weight=1, 
          
           gamma=0, 
          
           subsample=0.8, 
          
           colsample_bytree=0.8, 
          
           objective=  
           'binary:logistic' 
           , 
          
           nthread=4, 
          
           scale_pos_weight=1, 
          
           seed=27), 
          
           param_grid = param_test1, 
          
           scoring= 
           'roc_auc' 
           , 
          
           n_jobs=4, 
          
           iid=False, 
          
           cv=5) 
          
           gsearch1.fit(train[predictors],train[target]) 
          
           gsearch1.grid_scores_, gsearch1.best_params_,gsearch1.best_score_ 
          
           #网格搜索scoring='roc_auc'只支持二分类，多分类需要修改scoring(默认支持多分类)

第三步：gamma参数调优

　　在已经调整好其他参数的基础上，我们可以进行gamma参数的调优了。Gamma参数取值范围很大，这里我们设置为5，其实你也可以取更精确的gamma值。

 
      ? 
     
           param_test3 = { 
          
           'gamma' 
           :[i/10.0  
           for 
           i  
           in 
           range(0,5)] 
          
           } 
          
           gsearch3 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, 
          
           n_estimators=140, max_depth=4,min_child_weight=6, gamma=0,  
          
           subsample=0.8, colsample_bytree=0.8,objective=  
           'binary:logistic' 
           ,  
          
           nthread=4, scale_pos_weight=1,seed=27),  param_grid = param_test3, scoring= 
           'roc_auc' 
           ,n_jobs=4,iid=False, cv=5) 
          
           gsearch3.fit(train[predictors],train[target]) 
          
           gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_

 
      ? 
     
           param_test3 = { 
          
           'gamma' 
           :[i/10.0  
           for 
           i  
           in 
           range(0,5)] 
          
           } 
          
           gsearch3 = GridSearchCV( 
          
           estimator = XGBClassifier(  
          
           learning_rate =0.1,  
          
           n_estimators=140,  
          
           max_depth=4,  
          
           min_child_weight=6,  
          
           gamma=0,  
          
           subsample=0.8,  
          
           colsample_bytree=0.8,  
          
           objective=  
           'binary:logistic' 
           ,  
          
           nthread=4,  
          
           scale_pos_weight=1, 
          
           seed=27),  
          
           param_grid = param_test3,  
          
           scoring= 
           'roc_auc' 
           , 
          
           n_jobs=4, 
          
           iid=False,  
          
           cv=5) 
          
           gsearch3.fit(train[predictors],train[target]) 
          
           gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_

第四步：调整subsample 和 colsample_bytree参数

　　尝试不同的subsample 和 colsample_bytree 参数。我们分两个阶段来进行这个步骤。这两个步骤都取0.6,0.7,0.8,0.9作为起始值。

 
      ? 
     
           #取0.6,0.7,0.8,0.9作为起始值 
          
           param_test4 = { 
          
           'subsample' 
           :[i/10.0  
           for 
           i  
           in 
           range(6,10)], 
          
           'colsample_bytree' 
           :[i/10.0  
           for 
           i  
           in 
           range(6,10)] 
          
           } 
          
           gsearch4 = GridSearchCV( 
          
           estimator = XGBClassifier( 
          
           learning_rate =0.1, 
          
           n_estimators=177, 
          
           max_depth=3, 
          
           min_child_weight=4, 
          
           gamma=0.1, 
          
           subsample=0.8, 
          
           colsample_bytree=0.8, 
          
           objective=  
           'binary:logistic' 
           , 
          
           nthread=4, 
          
           scale_pos_weight=1, 
          
           seed=27), 
          
           param_grid = param_test4, 
          
           scoring= 
           'roc_auc' 
           , 
          
           n_jobs=4, 
          
           iid=False, 
          
           cv=5) 
          
           gsearch4.fit(train[predictors],train[target]) 
          
           gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_

第五步：正则化参数调优

　　由于gamma函数提供了一种更加有效的降低过拟合的方法，大部分人很少会用到这个参数，但是我们可以尝试用一下这个参数。

 
      ? 
     
           param_test6 = { 
          
           'reg_alpha' 
           :[1e-5, 1e-2, 0.1, 1, 100] 
          
           } 
          
           gsearch6 = GridSearchCV( 
          
           estimator = XGBClassifier( 
          
           learning_rate =0.1, 
          
           n_estimators=177, 
          
           max_depth=4, 
          
           min_child_weight=6, 
          
           gamma=0.1, 
          
           subsample=0.8, 
          
           colsample_bytree=0.8, 
          
           objective=  
           'binary:logistic' 
           , 
          
           nthread=4, 
          
           scale_pos_weight=1, 
          
           seed=27), 
          
           param_grid = param_test6, 
          
           scoring= 
           'roc_auc' 
           , 
          
           n_jobs=4, 
          
           iid=False, 
          
           cv=5) 
          
           gsearch6.fit(train[predictors],train[target]) 
          
           gsearch6.grid_scores_, gsearch6.best_params_, gsearch6.best_score_

第六步：降低学习速率

　　最后，我们使用较低的学习速率，以及使用更多的决策树，我们可以用Xgboost中CV函数来进行这一步工作。

 
      ? 
     
           xgb4 = XGBClassifier( 
          
           learning_rate =0.01, 
          
           n_estimators=5000, 
          
           max_depth=4, 
          
           min_child_weight=6, 
          
           gamma=0, 
          
           subsample=0.8, 
          
           colsample_bytree=0.8, 
          
           reg_alpha=0.005, 
          
           objective=  
           'binary:logistic' 
           , 
          
           nthread=4, 
          
           scale_pos_weight=1, 
          
           seed=27) 
          
           modelfit(xgb4, train, predictors)

　　总结一下，要想模型的表现有大幅的提升，调整每个参数带来的影响也必须清楚，仅仅靠着参数的调整和模型的小幅优化，想要让模型的表现有个大幅度提升是不可能的。要想模型的表现有质的飞跃，需要依靠其他的手段。诸如，特征工程(feature egineering) ，模型组合(ensemble of model),以及堆叠(stacking)等。

第七步：Python示例

 
      ? 
     
           import xgboost  
           as 
           xgb 
          
           import pandas  
           as 
           pd 
          
           #获取数据 
          
           from 
           sklearn import cross_validation 
          
           from 
           sklearn.datasets import load_iris 
          
           iris = load_iris() 
          
           #切分数据集 
          
           X_train, X_test, y_train, y_test = cross_validation.train_test_split(iris.data, iris.target, test_size=0.33, random_state=42) 
          
           #设置参数 
          
           m_class = xgb.XGBClassifier( 
          
           learning_rate =0.1, 
          
           n_estimators=1000, 
          
           max_depth=5, 
          
           gamma=0, 
          
           subsample=0.8, 
          
           colsample_bytree=0.8, 
          
           objective=  
           'binary:logistic' 
           , 
          
           nthread=4, 
          
           seed=27) 
          
           #训练 
          
           m_class.fit(X_train, y_train) 
          
           test_21 = m_class.predict(X_test) 
          
           print  
           "Accuracy : %.2f" 
           % metrics.accuracy_score(y_test, test_21) 
          
           #预测概率 
          
           #test_2 = m_class.predict_proba(X_test) 
          
           #查看AUC评价标准 
          
           from 
           sklearn import metrics 
          
           print  
           "Accuracy : %.2f" 
           % metrics.accuracy_score(y_test, test_21) 
          
           ##必须二分类才能计算 
          
           ##print "AUC Score (Train): %f" % metrics.roc_auc_score(y_test, test_2) 
          
           #查看重要程度 
          
           feat_imp = pd.Series(m_class.booster().get_fscore()).sort_values( 
           ascending 
           =False) 
          
           feat_imp.plot(kind= 
           'bar' 
           , title= 
           'Feature Importances' 
           ) 
          
           import matplotlib.pyplot  
           as 
           plt 
          
           plt.show() 
          
           #回归 
          
           #m_regress = xgb.XGBRegressor(n_estimators=1000,seed=0) 
          
           #m_regress.fit(X_train, y_train) 
          
           #test_1 = m_regress.predict(X_test)

XGBoost输出特征重要性以及筛选特征

1，梯度提升算法是如何计算特征重要性的？

　　使用梯度提升算法的好处是在提升树被创建后，可以相对直接地得到每个属性的重要性得分。一般来说，重要性分数，衡量了特征在模型中的提升决策树构建中的价值。一个属性越多的被用来在模型中构建决策树，它的重要性就相对越高。

　　属性重要性是通过对数据集中的每个属性进行计算，并进行排序得到。在单个决策树中通过每个属性分裂点改进性能度量的量来计算属性重要性。由节点负责加权和记录次数，也就是说一个属性对分裂点改进性能度量越大（越靠近根节点），权值越大；被越多提升树所选择，属性越重要。性能度量可以是选择分裂节点的Gini纯度，也可以是其他度量函数。

　　最终将一个属性在所有提升树中的结果进行加权求和后然后平均，得到重要性得分。

2，绘制特征重要性

　　一个已训练的Xgboost模型能够自动计算特征重要性，这些重要性得分可以通过成员变量feature_importances_得到。可以通过如下命令打印：

 
      ? 
     
           print(model.feature_importances_)

　　我们可以直接在条形图上绘制这些分数，以便获得数据集中每个特征的相对重要性的直观显示，例如：

 
      ? 
     
           # plot 
          
           pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_) 
          
           pyplot.show()

　　我们可以通过在the Pima Indians onset of diabetes 数据集上训练XGBoost模型来演示，并从计算的特征重要性中绘制条形图。

 
      ? 
     
           # plot feature importance manually 
          
           from 
           numpy import loadtxt 
          
           from 
           xgboost import XGBClassifier 
          
           from 
           matplotlib import pyplot 
          
           from 
           sklearn.datasets import load_iris 
          
           # load data 
          
           dataset = load_iris() 
          
           # split data into X and y 
          
           X = dataset.data 
          
           y = dataset.target 
          
           # fit model no training data 
          
           model = XGBClassifier() 
          
           model.fit(X, y) 
          
           # feature importance 
          
           print(model.feature_importances_) 
          
           # plot 
          
           pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_) 
          
           pyplot.show()

　　运行这个实例，首先输出特征重要性分数：

 
      ? 
     
           [0.17941953 0.11345647 0.41556728 0.29155672]

　　相对重要性条形图：

　　这种绘制的缺点在于，只显示了特征重要性而没有排序，可以在绘制之前对特征重要性得分进行排序。

　　通过内建的绘制函数进行特征重要性得分排序后的绘制，这个函数就是plot_importance()，示例如下：

 
      ? 
     
           # plot feature importance manually 
          
           from 
           numpy import loadtxt 
          
           from 
           xgboost import XGBClassifier 
          
           from 
           matplotlib import pyplot 
          
           from 
           sklearn.datasets import load_iris 
          
           from 
           xgboost import plot_importance 
          
           # load data 
          
           dataset = load_iris() 
          
           # split data into X and y 
          
           X = dataset.data 
          
           y = dataset.target 
          
           # fit model no training data 
          
           model = XGBClassifier() 
          
           model.fit(X, y) 
          
           # feature importance 
          
           print(model.feature_importances_) 
          
           # plot feature importance 
          
           plot_importance(model) 
          
           pyplot.show()

　　示例得到条形图：

　　根据其在输入数组的索引，特征被自动命名为f0~f3，在问题描述中手动的将这些索引映射到名称，我们可以看到，f2具有最高的重要性，f1具有最低的重要性。

3，根据Xgboost特征重要性得分进行特征选择

　　特征重要性得分，可以用于在scikit-learn中进行特征选择。通过SelectFromModel类实现，该类采用模型并将数据集转换为具有选定特征的子集。这个类可以采取预先训练的模型，例如在整个数据集上训练的模型。然后，它可以阈值来决定选择哪些特征。当在SelectFromModel实例上调用transform()方法时，该阈值被用于在训练集和测试集上一致性选择相同特征。

　　在下面的示例中，我们首先在训练集上训练xgboost模型，然后在测试上评估。使用从训练数据集计算的特征重要性，然后，将模型封装在一个SelectFromModel实例中。我们使用这个来选择训练集上的特征，用所选择的特征子集训练模型，然后在相同的特征方案下对测试集进行评估。

 
      ? 
     
           # select features using threshold 
          
           selection = SelectFromModel(model, threshold=thresh, prefit=True) 
          
           select_X_train = selection.transform(X_train) 
          
           # train model 
          
           selection_model = XGBClassifier() 
          
           selection_model.fit(select_X_train, y_train) 
          
           # eval model 
          
           select_X_test = selection.transform(X_test) 
          
           y_pred = selection_model.predict(select_X_test)

　　我们可以通过测试多个阈值，来从特征重要性中选择特征。具体而言，每个输入变量的特征重要性，本质上允许我们通过重要性来测试每个特征子集。

完整代码如下：

 
      ? 
     
           # plot feature importance manually 
          
           import numpy  
           as 
           np 
          
           from 
           xgboost import XGBClassifier 
          
           from 
           matplotlib import pyplot 
          
           from 
           sklearn.datasets import load_iris 
          
           from 
           xgboost import plot_importance 
          
           from 
           sklearn.model_selection import train_test_split 
          
           from 
           sklearn.metrics import accuracy_score 
          
           from 
           sklearn.feature_selection import SelectFromModel 
          
           # load data 
          
           dataset = load_iris() 
          
           # split data into X and y 
          
           X = dataset.data 
          
           y = dataset.target 
          
           # split data into train and test sets 
          
           X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.33,random_state=7) 
          
           # fit model no training data 
          
           model = XGBClassifier() 
          
           model.fit(X_train, y_train) 
          
           # feature importance 
          
           print(model.feature_importances_) 
          
           # make predictions for test data and evaluate 
          
           y_pred = model.predict(X_test) 
          
           predictions = [round(value)  
           for 
           value  
           in 
           y_pred] 
          
           accuracy = accuracy_score(y_test,predictions) 
          
           print( 
           "Accuracy:%.2f%%" 
           %(accuracy*100.0)) 
          
           #fit model using each importance as a threshold 
          
           thresholds = np.sort(model.feature_importances_) 
          
           for 
           thresh  
           in 
           thresholds: 
          
           # select features using threshold 
          
           selection = SelectFromModel(model,threshold=thresh,prefit=True ) 
          
           select_X_train = selection.transform(X_train) 
          
           # train model 
          
           selection_model = XGBClassifier() 
          
           selection_model.fit(select_X_train, y_train) 
          
           # eval model 
          
           select_X_test = selection.transform(X_test) 
          
           y_pred = selection_model.predict(select_X_test) 
          
           predictions = [round(value)  
           for 
           value  
           in 
           y_pred] 
          
           accuracy = accuracy_score(y_test,predictions) 
          
           print( 
           "Thresh=%.3f, n=%d, Accuracy: %.2f%%" 
           % (thresh, select_X_train.shape[1], accuracy * 100.0))

　　运行示例，得到输出：

 
      ? 
     
           [0.20993228 0.09029345 0.54176074 0.15801354] 
          
           Accuracy:92.00% 
          
           Thresh=0.090, n=4, Accuracy: 92.00% 
          
           Thresh=0.158, n=3, Accuracy: 92.00% 
          
           Thresh=0.210, n=2, Accuracy: 86.00% 
          
           Thresh=0.542, n=1, Accuracy: 90.00%

　　我们可以看到，模型的性能通常随着所选择的特征的数量减少，在这一问题上，可以对测试集准确率和模型复杂度做一个权衡，例如选择三个特征，接受准确率为92%，这可能是对这样一个小数据集的清洗，但是对于更大的数据集和使用交叉验证作为模型评估方案可能是更有用的策略。

4，网格搜索

代码1：

 
      ? 
     
           from 
           sklearn.model_selection import GridSearchCV 
          
           tuned_parameters= [{ 
           'n_estimators' 
           :[100,200,500], 
          
           'max_depth' 
           :[3,5,7], ##range(3,10,2) 
          
           'learning_rate' 
           :[0.5, 1.0], 
          
           'subsample' 
           :[0.75,0.8,0.85,0.9] 
          
           }] 
          
           tuned_parameters= [{ 
           'n_estimators' 
           :[100,200,500,1000] 
          
           }] 
          
           clf = GridSearchCV(XGBClassifier(silent=0,nthread=4,learning_rate= 0.5,min_child_weight=1, max_depth=3,gamma=0,subsample=1,colsample_bytree=1,reg_lambda=1,seed=1000), param_grid=tuned_parameters,scoring= 
           'roc_auc' 
           ,n_jobs=4,iid=False,cv=5)   
          
           clf.fit(X_train, y_train) 
          
           ##clf.grid_scores_, clf.best_params_, clf.best_score_ 
          
           print(clf.best_params_) 
          
           y_true, y_pred = y_test, clf.predict(X_test) 
          
           print 
           "Accuracy : %.4g" 
           % metrics.accuracy_score(y_true, y_pred)  
          
           y_proba=clf.predict_proba(X_test)[:,1] 
          
           print  
           "AUC Score (Train): %f" 
           % metrics.roc_auc_score(y_true, y_proba)

代码2：

 
      ? 
     
           from 
           sklearn.model_selection import GridSearchCV 
          
           parameters= [{ 
           'learning_rate' 
           :[0.01,0.1,0.3], 
           'n_estimators' 
           :[1000,1200,1500,2000,2500]}] 
          
           clf = GridSearchCV(XGBClassifier( 
          
           max_depth=3, 
          
           min_child_weight=1, 
          
           gamma=0.5, 
          
           subsample=0.6, 
          
           colsample_bytree=0.6, 
          
           objective=  
           'binary:logistic' 
           , #逻辑回归损失函数 
          
           scale_pos_weight=1, 
          
           reg_alpha=0, 
          
           reg_lambda=1, 
          
           seed=27 
          
           ),  
          
           param_grid=parameters,scoring= 
           'roc_auc' 
           )   
          
           clf.fit(X_train, y_train) 
          
           print(clf.best_params_)   
          
           y_pre= clf.predict(X_test) 
          
           y_pro= clf.predict_proba(X_test)[:,1]  
          
           print  
           "AUC Score : %f" 
           % metrics.roc_auc_score(y_test, y_pro)  
          
           print 
           "Accuracy : %.4g" 
           % metrics.accuracy_score(y_test, y_pre)

输出特征重要性：

 
      ? 
     
           import pandas  
           as 
           pd 
          
           import matplotlib.pylab  
           as 
           plt 
          
           feat_imp = pd.Series(clf.booster().get_fscore()).sort_values( 
           ascending 
           =False) 
          
           feat_imp.plot(kind= 
           'bar' 
           , title= 
           'Feature Importances' 
           ) 
          
           plt.ylabel( 
           'Feature Importance Score' 
           ) 
          
           plt.show()

补充：关于随机种子——random_state

　　random_state是一个随机种子，是在任意带有随机性的类或者函数里作为参数来控制随机模式。random_state取某一个值的时候，也就确定了一种规则。

　　random_state可以用于很多函数，比如训练集测试集的划分；构建决策树；构建随机森林

1，划分训练集和测试集的类train_test_split

　　随机数种子控制每次划分训练集和测试集的模式，其取值不变时划分得到的结果一模一样，其值改变时，划分得到的结果不同。若不设置此参数，则函数会自动选择一种随机模式，得到的结果也就不同。

2，构建决策树的函数

 
      ? 
     
           clf = tree.DecisionTreeClassifier(criterion= 
           "entropy" 
           ,random_state=30,splitter= 
           "random" 
           )

　　其取值不变时，用相同的训练集建树得到的结果一模一样，对测试集的预测结果也是一样的

　　其取值改变时，得到的结果不同；

　　若不设置此参数，则函数会自动选择一种随机模式，每次得到的结果也就不同。

3，构建随机森林

 
      ? 
     
           clf = RandomForestClassifier(random_state=0)

　　其取值不变时，用相同的训练集建树得到的结果一模一样，对测试集的预测结果也是一样的

　　其取值改变时，得到的结果不同；

　　若不设置此参数，则函数会自动选择一种随机模式，每次得到的结果也就不同。

4，总结

　　在需要设置random_state的地方给其赋值，当多次运行此段代码得到完全一样的结果，别人运行代码也可以复现你的过程。若不设置此参数则会随机选择一个种子，执行结果也会因此不同。虽然可以对random_state进行调参，但是调参后再训练集上表现好的模型未必在陌生训练集上表现好，所以一般会随便选择一个random_state的值作为参数。

　　对于那些本质上是随机的过程，我们有必要控制随机的状态，这样才能重复的展现相同的结果。如果对随机状态不加控制，那么实验的结果就无法固定，而是随机的显示。

参考文献：

https://blog.csdn.net/waitingzby/article/details/81610495

https://blog.csdn.net/u011089523/article/details/72812019

https://blog.csdn.net/luanpeng825485697/article/details/79907149

https://xgboost.readthedocs.io/en/latest/parameter.html#general-parameters

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

Python机器学习笔记：XgBoost算法

前言

1，Xgboost简介

2，Xgboost的优点

2.1 正则化

2.2 并行处理

2.3 灵活性

2.4 缺失值处理

2.5 剪枝

2.6 内置交叉验证

3，Xgboost的离线安装

Xgboost模型详解

1，Xgboost能加载的各种数据格式解析

2，Xgboost的模型参数

2.1， 通用参数

2.2，tree booster参数

2.3，Linear Booster参数

2.4，学习目标参数

3，Xgboost基本方法和默认参数

4，模型训练

5，模型预测

6，保存模型

7，加载模型

Xgboost实战

1，基于Xgboost原生接口的分类

2，基于Xgboost原生接口的回归

3，Xgboost使用sklearn接口的分类（推荐）

XGBClassifier

基于Sckit-learn接口的分类

4，基于Scikit-learn接口的回归

5，整理代码1（原生XGB）

6，整理代码2（XGB使用sklearn）

Xgboost参数调优的一般方法

调参步骤：

第一步：确定学习速率和tree_based参数调优的估计器数目

第二步：max_depth和min_weight参数调优

第三步：gamma参数调优

第四步：调整subsample 和 colsample_bytree参数

第五步：正则化参数调优

第六步：降低学习速率

第七步：Python示例

XGBoost输出特征重要性以及筛选特征

1，梯度提升算法是如何计算特征重要性的？

2，绘制特征重要性

3，根据Xgboost特征重要性得分进行特征选择

4，网格搜索

补充：关于随机种子——random_state

1，划分训练集和测试集的类train_test_split

2，构建决策树的函数

3，构建随机森林

4，总结

你可能感兴趣的:(Python机器学习笔记：XgBoost算法)

2.1，通用参数