小小的天和蜗牛

树类算法之--XGBoost算法原理&代码实战

1.算法原理介绍

1.1Xgboost简介

xgboost是Boosting算法的其中一种，Boosting算法的思想是许多弱分类器集成在一起，形成一个强分类器。以为xgboost是一种提升树模型，所以他是将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是cart回归树模型。

xgboost是在GBDT的基础上进行改进，使得更加强大，使用范围更大
xgboost一般和sklearn一起使用，但是由于sklearn中没有集成Xgboost，所以需要单独安装
在安装的时候要注意安装多线程版本

1.2.xgboost的优点

xgboost算法可以给预测模型带来能力的提升。当我们对其表现有很多了解的时候，我们会发现他们有如下优势：

1.2.1正则化

实际上，xgboost是以“正则化提升技术”而闻名。xgboost在代价函数里加入了正则化项，用于控制模型的复杂度。
正则化项里包含了：

树的叶子节点个数
每个叶子节点上输出的score的L2模的平方和。
从Bias-variance tradeoff角度来看，正则化项降低了模型的variance，使得学习出来的模型更加的简单，防止过拟合，这也是xgboost优于传统GBDT的一个特征

1.2.2并行处理

xgboost工具支持并行。众所周知，Boosting算法是串行结构的处理方式，也就是说按照这种顺序的处理是没有办法实现并行处理的。这里要格外的注意xgboost的并行处理，并不是并行的建树。xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含）。xgboost的并行是在特征粒度，也就是说每一棵树的构造依然是依赖于前一棵树
决策树的整个建树过程，最耗时耗资源的一个步骤就是对特征值得排序（因为要确定最佳分割点），xgboost的并行处理过程如下：

1.预先对数据（特征值）进行排序。
2.将排好序的结构保存为block块，在后面的迭代建树过程重复的使用这个结构，可以大大减少计算，这个block结构也使得并行成为了可能。
3.进行节点分裂时，并行的计算每个特征的增益，最终选择增益最大的特征去分裂

1.2.3灵活性

xgboost支持用户自定义目标函数和评估函数，只要目标函数二阶可导就行了。它对模型增加了一个全新的维度，所以我们的处理不会受到任何限制。

1.2.4泰勒二阶展开

在工程实际问题的优化设计中，所列的目标函数往往很复杂，为了使问题简化，常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数。
实际上，xgboost使用泰勒二阶展开的目的是，为了自定义Loss,如果按照最小二乘法的损失函数直接推导，同样能够得到陈大佬最终的推导式子：

二阶泰勒展开实际上不是最小二乘法，平方损失函数的二阶泰勒展开 = 最小二乘，但是陈大佬之所以使用泰勒展开，就是为了xgboost库的可扩展性，因为任何Loss函数只要二阶可导，就可以重复使用，关于最小二乘法的任何推导，而且泰勒展开的本质就是尽量去模仿一个函数，而二阶泰勒展开已经足够去近似大量的Loss函数了，最经典还有基于分类的对数似然Loss函数，这样的话，同样的一套代码就可以完成分类或回归了，而不至于每次都要重新推导一遍。

1.2.5Xgboost寻找特征

xgboost在训练过程中，给出各个特征的评分，从而表明每个特征对模型的重要性
xgboost是利用梯度优化算法，样本是不放回的，如果一个样本被连续重复抽出，梯度来回踏步，不利于收敛。
xgboost支持自采样，也就是说每轮计算可以不使用全部的样本。

1.2.6缺失值处理

对于特征值有缺失的样本，xgboost可以自动学习出他的分裂方向。xgboost内置处理缺失值的规则。用户需要提供一个和其他样本不同的值，然后把它作为一个参数传入，以此来作为缺失值的取值。xgboost在不同节点遇到缺失值时采用不同的处理方式，并且会学习未来遇到缺失值时的处理方法。

1.2.7剪枝技术

xgboost先从顶到底建立所有可以建立的子树，再从底到顶的反向机芯剪枝，比起lightGBM，这样不容易陷入局部最优解。【后剪枝技术：去掉某个子树或用叶子节点代替某个子树时，对模型整体的能力影响很小】

1.2.8内置交叉验证

xgboost允许在每一轮Boosting迭代中使用交叉验证，因此可以方便的获得最优Boosting迭代次数，而GBDT使用网格搜索，只能检测有限个值。

2.xgboost模型详解

2.1安装

安装有两种方式：

离线安装：可以去选择适合自己的版本
在线安装：可以直接在终端使用pip命令进行安装

pip install xgboost-0.81-cp37-cp37m-win_amd64.whl

注意：多线程版本安装比较复杂，可以参考一些专业教程进行安装

2.2xgboost加载的数据格式解析

xgboost可以加载多种数据格式的训练数据

名称	说明
libsvm	格式的文本数据
Numpy	二维数组
xgboost	算法自带的二进制的缓存文件。剪枝的数据存储在对象DMatrix中。

2.2.1下面会对各种格式进行演示

加载libsvm格式的数据

dtrain1 = xgb.DMatrix('train.svm.txt')

加载二进制的缓存文件

dtrain2  = xgb.DMatrix('train.svm.buffer')

加载numpy的数组

data = np.random.rand(5,10)                 # 5行10列数据集
label = np.random.randint(2,size=5)       # 二分类目标值
dtrain = xgb.DMatrix(data,label=label)    # 组成训练集

将scipy.sparse格式的数据转化为Dmatrix格式

csr = scipy.sparse.csr_matrix((dat,(row,col)))
dtrain = xgb.DMatrix( csr )

将Dmatrix格式的数据保存为xgboost的二进制格式，在下次加载时可以提高加载速度，使用方法如下：

dtrain = xgb.DMatrix('train.svm.txt')
dtrain.save_binary("train.buffer")

可以使用如下方式处理Dmatrix中的缺失值：

dtrain = xgb.DMatrix( data, label=label, missing = -999.0)

当需要给样本设置权重时，可以用如下方式：

w = np.random.rand(5,1)
dtrain = xgb.DMatrix( data, label=label, missing = -999.0, weight=w)

2.3 xgboost的模型参数

xgboost使用字典的方式存储参数

# xgboost模型
params = {
    'booster':'gbtree',
    'objective':'multi:softmax',   # 多分类问题
    'num_class':10,  # 类别数，与multi softmax并用
    'gamma':0.1,    # 用于控制是否后剪枝的参数，越大越保守，一般0.1 0.2的样子
    'max_depth':12,  # 构建树的深度，越大越容易过拟合
    'lambda':2,  # 控制模型复杂度的权重值的L2 正则化项参数，参数越大，模型越不容易过拟合
    'subsample':0.7, # 随机采样训练样本
    'colsample_bytree':3,# 这个参数默认为1，是每个叶子里面h的和至少是多少
    # 对于正负样本不均衡时的0-1分类而言，假设h在0.01附近，min_child_weight为1
    #意味着叶子节点中最少需要包含100个样本。这个参数非常影响结果，
    # 控制叶子节点中二阶导的和的最小值，该参数值越小，越容易过拟合
    'silent':0,  # 设置成1 则没有运行信息输入，最好是设置成0
    'scale_pos_weight':1 # 正负样本比例
    'eta':0.007,  # 如同学习率
    'seed':1000,
    'nthread':7,  #CPU线程数
    #'eval_metric':'auc'
}

在运行xgboost之前，必须设置三种类型参数：general parameters、booster parameters和task parameters：
通用参数（general parameter）：该参数控制在提升过冲使用哪种booster，常用的booster有树模型（Tree model）和线性模型（Liner model）
Booster参数（booster parameter）：取决于使用哪种booster
学习目标参数（Task parameter）：控制学习的场景，例如在回归问题中会使用不同的参数控制排序

2.3.1 通用参数

booster = gbtree：有两个模型可选，gbtree和gblinear。gbtree使用基于树的模型进行提升计算；gblinear使用线性模型进行提升计算。【默认为树模型：gbtree】
silent = 0：取0时表示打印出运行时信息，取1时表示已默认方式运行，不打印运行信息。【默认为0】
verbosity = 1：打印消息的详细程度，有效值为0（静默），1（警告），2（信息），3（调试）。有时xgboost会尝试根据启发式更改配置，启动式显示为警告信息，如果出现意外，请尝试增加详细程度。【默认为1】
nthread = None：xgboost运行的线程数，缺省时默认当前系统可以获得的最大线程数。【默认为None】
num_pbuffer：预测缓冲区大小，通常设置为训练实例的数目。缓冲用于保存最后一步提升的预测结果，无需人为设置。
num_feature：Boosting过程中用到的特征维数，设置为特征个数，xgboost会自动设置，无需人为设置。
disable_default_eval_metric = 0：标记以禁止默认度量标准，设置为>0以禁止。【默认不禁止】

2.3.2 tree booster参数

eta = 0.3：为了防止过拟合，更新过程中用到的收缩步长。在每次提升迭代计算之后，算法会直接获得新特征的权重。eta通过缩减特征的权重使得提升计算过程更加保守。取值范围为：[0，1]，一般设置为0.01-0.2【默认为0.3】
gamma = 0：在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了节点分裂所需要的最小损失函数下降。这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的。取值范围为：[0，正无穷]
max_depth = 6：树的最大深度。取值范围为：[1，正无穷]，可以使用gradsearch函数来进行调优。一般设置3-10。【默认为6】
min_child_weight = 1：孩子节点中最小样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在线性回归模型中，这个参数是指建立每个模型所需要的最小样本数。这个参数用于避免过拟合。当他的值较大时，可以避免模型学习到局部的特殊样本；但是如果这个值过高，就会导致欠拟合。这个参数需要使用CV函数来调整。取值范围为：[0，正无穷]。【默认为1】
max_delta_step = 0：我们允许每棵树的权重被估计的值。如果他的值被设置为0，意味着没有约束；如果它的值被设置为一个正直，它能够是的更新的步骤更加保守。通常这个参数是没有必要的，但是如果在逻辑回归中，类极其不平衡这时候他有可能会起到帮助的作用。把它范围设置为1-10之间也许能控制更新。取值范围为：[0，正无穷]。【默认值为0】
subsample = 1：用于训练模型的子样本占整个样本集合的比例。如果设置为0.5则意味着xgboost将随机的从整个样本集合中随机的抽取出50%的子样本建立树模型，这样能够防止过拟合。取值范围：(0，1]。【默认为1，不采样】
colsample_bytree,colsample_bylevel,colsample_bynode = 1：这是对列的子采样参数家族，所有的colsample_by*参数的范围均为(0,1]，【默认值为1，不采样】
colsample_bytree =1：在建树时对特征采样的比例。
colsample_bylevel = 1：是每个级别的列的子采样比例，对于树中达到的每个新深度级别，子采样都会发生一次，列是从当前树的列集中进行子采样的。
colsample_bynode =1：是每个节点（拆分）的列的子采样比例，每次评估新的拆分时，都会发生一次子采样。列是从当前级别选择的列集中进行的二次采样的。

2.3.3 Linear Booster参数

lambda = 1：L2正则化的惩罚系数，增加这个值可以使得模型更加保守
alpha = 1：L1正则化的惩罚系数，增加这个值可以使得模型更加保守
lambda_bias：在偏置上的L2正则。（在L1上没有偏置项的正则，因为L1偏置时不需要）【默认值为0】

2.3.4 学习目标参数

这个参数是用来控制理想的优化目标和每一步结果的度量方法

objective = reg:linear ：定义学习任务及相应的学习目标，可选择的目标函数如下：
- “reg:linear”：线性回归
- “reg:logistic”：逻辑回归
- “binary:logistic”：二分类的逻辑回归问题，输出为概率
- “binary:logitraw”：二分类的逻辑回归问题，输出的结果为wTx.
- “count:poisson”：计数问题的poisson回归，输出结果为poisson分布。在poisson回归中，max_delta_step的缺省值为0.7.
- “multi:softmax”：让xgboost采用softmax目标函数处理多分类问题，同事需要设置参数num_class（类别个数）
- “multi:softprob”：和softmax一样，但是输出的是ndata * nclass 的向量，可以将该向量reshape成ndata行nclass列的矩阵。没有行数据表示样本所属于每个类别的概率。
- “rank:pairwise”：set xgboost to do ranking task by minimizing the pairwise loss
- base_score = 0.5：所有实例的初始化预测分数，全局偏置；当有足够的迭代次数是，改变这个值将不会有太大的影响。
- eval_metric ：校验数据所需要的评价指标，不同的目标函数将会有缺省的评价指标。
- 可以添加多种评价指标，对于Python用户要以list传递参数给程序，而不是map参数，list参数不会覆盖eval_metric
- 可供的选择如下：
  - rmse：均方根误差
  - mae：平均绝对误差
  - logloss：负对数似然函数损失
  - error：二分类错误率，阈值为0.5
  - merror：多分类错误率
  - mlogloss：多分类logloss损失函数
  - auc：ROC曲线下面积
- seed = 0：随机数的种子，默认为0

2.3.5 xgboost训练时的超参数

xgboost.train(params,
			  dtrain,
			  num_boost_round=10,
			  evals(),
			  obj=None,
			  feval=None,
			  maximize=False,
			  early_stopping_rounds=None,
			  evals_result=None,
			  verbose_eval=True,
			  learning_rates=None,
			  xgb_model=None)

参数解析：

params：这是一个字典，里面包含着训练中的参数关键字和对应的值，形式是params = {'booster':'gbtree','eta':0.1}
dtrain：训练数据
num_boost_round：这是指提升迭代的个数
evals：这是一个列表，用于对训练过程中进行评估列表中的元素。形式是evals = [(dtrain,'train'),(dval:'val')]或者是evals = [(dtrain,'train')]，对于第一种情况，它使得我们可以在训练过程中观察验证集的效果。
obj：自定义目标函数
feval：自定义评估函数
maximize：是否对评估函数进行最大化
early_stopping_rounds：早起停止次数。例如，假设为100，验证集的误差迭代到一定程度在100次内不能再继续降低，就停止迭代。这要求evals里至少有一个元素，如果有多个，按照最后一个区执行。返回的是最后的迭代次数（不是最好的）。如果early_stopping_rounds存在，则模型会生成三个属性，bst.best_score，bst.best_iteration和bst.best_ntree_limit
evals_result：字典，存储在watchilist中的元素的评估结果
verbose_eval（可以输入布尔型或者数值型）：也要求evals里至少有一个元素，如果为True，则对evals中的元素的评估结果会输出在结果中；如果输入的是数字，假设为3，则每个3个迭代输出一次。
learning_rates：每次提升的学习率的列表
xgb_model：在训练之前用于加载的xgb_modelfile。可以加载已经训练过的模型，进行继续训练。

2.4模型训练

有了参数列表和数据就可以训练模型了

num_round = 10
bst = xgb.train( plst, dtrain, num_round, evallist )

2.5模型预测

模型已经训练好了，可以利用已经训练好的模型对测试集进行预测

# X_test类型可以是二维List，也可以是numpy的数组
dtest = DMatrix(X_test)
y_pred = model.predict(dtest)

2.6保存模型

模型训练好了，一直在内存中毕竟是不安全的，持久化到磁盘才是王道。并且我们也很好奇模型到底长什么样子

bst.save_model('test.model')

导出模型和特征映射（Map），之后就可以查看.txt文件，来满足自己的好奇心了（查看模型结构和意义）

# 导出模型到文件
bst.dump_model('dump.raw.txt')
# 导出模型和特征映射
bst.dump_model('dump.raw.txt','featmap.txt')

2.7加载模型

保存模型是为了后面可以方便使用，所以加载模型会为我们提供便利

bst = xgb.Booster({'nthread':4}) # init model
bst.load_model("model.bin")      # load data

注意：在加载模型的时候需要先初始化一个“空壳”这个类似TensorFlow中的操作

3.xgboost的代码实战

xgboost有俩大类接口：xgboost原生接口和sklearn接口，並且xgboost能夠實現分類回歸兩種任務，下面對4中情況作出解析

3.1原生接口的分類问题

数据使用的sklearn中自带的iris数据集
注意：如果开启多线程，使用MacOS系统，要配置环境变量os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"，不然系统会不支持调用多线程，在Windows系统使用什么情况不太清楚，有不同的意见可留言讨论！

from sklearn.datasets import load_iris
import xgboost as xgb
from xgboost import plot_importance
import matplotlib.pyplot  as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score  # 准确率
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
 
# 记载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
# 数据集分割
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=22)
 
# 算法参数
params = {
    'booster':'gbtree',
    'objective':'multi:softmax',
    'num_class':3,
    'gamma':0.1,
    'silent': 1, # 关闭掉运行时打印信息
    'max_depth':6,
    'lambda':2,
    'subsample':0.7,
    'colsample_bytree':0.7,
    'min_child_weight':3,
    'slient':1,
    'eta':0.1,
    'seed':1000,
    'nthread':4,
}
# 构造参数 
plst = params.items()
 
# 生成数据集格式，xgboost的数据需要转换一下
dtrain = xgb.DMatrix(X_train,y_train)
num_rounds = 500
# xgboost模型训练
model = xgb.train(plst,dtrain,num_rounds,verbose_eval=100)
 
# 对测试集进行预测
dtest = xgb.DMatrix(X_test)
y_pred = model.predict(dtest)
 
# 计算准确率
accuracy = accuracy_score(y_test,y_pred)
print('accuarcy:%.2f%%'%(accuracy*100))
 
# 显示重要特征
plot_importance(model)
plt.show()

经过500次迭代，测试集计算的accuracy = 93.34%，结果算是很高的了

3.2原生接口回归问题

数据集使用的sklearn中的Boston数据集

import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
 
# 加载数据集,此数据集时做回归的
boston = load_boston()
X,y = boston.data,boston.target
 
# Xgboost训练过程
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=22)
 
# 算法参数
params = {
    'booster':'gbtree',
    'objective':'reg:gamma',
    'gamma':0.01,
    'max_depth':6,
    'silent': 1,
    'lambda':3,
    'subsample':0.8,
    'colsample_bytree':0.8,
    'min_child_weight':3,
    'slient':1,
    'eta':0.1,
    'seed':1000,
    'nthread':4,
}
 
dtrain = xgb.DMatrix(X_train,y_train)
num_rounds = 800
plst = params.items()
model = xgb.train(plst,dtrain,num_rounds)
 
# 对测试集进行预测
dtest = xgb.DMatrix(X_test)
y_pred = model.predict(dtest)

# 计算mse
mse= mean_squared_error(y_true=y_test,y_pred=y_pred)
print('mse:',mse)
 
# 显示重要特征
plot_importance(model)
plt.show()

在没有调参的情况下mse = 9.86左右，效果还是可以的

3.3Xgboost使用sklearn接口的分类（推荐）

先熟悉一下sklearn接口中模型初始化参数都有哪些

from xgboost.sklearn import XGBClassifier
 
clf = XGBClassifier(
    silent=0,  # 设置成1则没有运行信息输出，最好是设置为0，是否在运行升级时打印消息
    nthread = 4  # CPU 线程数 默认最大
    learning_rate=0.3 , # 如同学习率
    min_child_weight = 1,
    # 这个参数默认为1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言
    # 假设h在0.01附近，min_child_weight为1 意味着叶子节点中最少需要包含100个样本
    # 这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易过拟合
    max_depth=6, # 构建树的深度，越大越容易过拟合
    gamma = 0,# 树的叶子节点上做进一步分区所需的最小损失减少，越大越保守，一般0.1 0.2这样子
    subsample=1, # 随机采样训练样本，训练实例的子采样比
    max_delta_step=0,  # 最大增量步长，我们允许每个树的权重估计
    colsample_bytree=1, # 生成树时进行的列采样
    reg_lambda=1, #控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合
    # reg_alpha=0, # L1正则项参数
    # scale_pos_weight =1 # 如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛，平衡正负权重
    # objective = 'multi:softmax', # 多分类问题，指定学习任务和响应的学习目标
    # num_class = 10,  # 类别数，多分类与multisoftmax并用
    n_estimators=100,  # 树的个数
    seed = 1000,  # 随机种子
    # eval_metric ='auc'
)

下面使用sklearn接口下的xgboost帮助我们处理分类问题
iris数据集算是多分类，注意一下使用的目标函数objective='multi:softmax’

from sklearn.datasets import load_iris
import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
 
# 加载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)
 
# 训练模型
model = xgb.XGBClassifier(max_depth=5,learning_rate=0.1,n_estimators=160,silent=True,objective='multi:softmax')
model.fit(X_train,y_train)
 
# 对测试集进行预测
y_pred = model.predict(X_test)
 
#计算准确率
accuracy = accuracy_score(y_test,y_pred)
print('accuracy:%2.f%%'%(accuracy*100))
 
# 显示重要特征
plot_importance(model)
plt.show()

最后输出的accuracy = 93%，效果差不多

3.4基于Scikit-learn接口的回归

依然使用Boston数据集进行回归预测
认真的同学可能发现了，使用sklearn的接口用起来方便一些，目前可以看到的至少不用单独构建数据了，接口已经辅助构造了

import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
 
# 导入数据集
boston = load_boston()
X ,y = boston.data,boston.target
 
# Xgboost训练过程
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)
 
model = xgb.XGBRegressor(max_depth=5,learning_rate=0.1,n_estimators=160,silent=True,objective='reg:gamma')
model.fit(X_train,y_train)
 
# 对测试集进行预测
y_pred = model.predict(X_test)

# 计算mse
mse= mean_squared_error(y_true=y_test,y_pred=y_pred)
print('mse:',mse)
 
# 显示重要特征
plot_importance(model)
plt.show()

mse: 22.61262300770485，默认参数效果

4.xgboost参数调优

4.1参数调优步骤：

选择较高的学习率。一般情况下，学习率的值为0.1，但是对于不同的问题，理想的学习率有时候会在0.05-0.3之间波动。选择对应于此学习率的理想决策树数量。xgboost有一个很有用的函数“CV”，这个函数可以在每一次迭代中使用交叉验证，并返回理想的决策树数量。【学习率+树棵树组合调优】
对于给定的学习率和决策树数量，进行决策树特定参数调优（max_depth、min_child_weight、gamma、subsample、colsample_bytree）在确定一棵树的过程中，我们可以选择不同的参数。
xgboost的正则化参数调优，（lambda、alpha）。这些参数可以降低模型的复杂度，从而提高模型的表现。
降低学习率，确定理想参数。
下面按照上面顺序，详细说明调优策略

4.2 确定学习率和树的个数

为了确定Boosting参数，我们要先给其他参数一个初始值。咱们先按照如下方法取值：

1.max_depth = 5 ：这个参数的取值在3-10之间，初始给定5，当然选择6也是没有问题的。
2.min_child_weight = 1 ：这里选择了一个比较小的值，因为这是一个极不平衡的分类问题。因此，某些叶子节点下的值会比较小。
3.gamma = 0 ：起始值也可以选择其它比较小的值，在0.1-0.2都是可以的，这个参数后面也会重新调整。
4.subsample,colsample = 0.8 ：这个是比较常见的初始值了，典型的范围在0.5-0.9之间
5.scale_pos_weight = 1 ：这个值是因为类别十分不平衡
**注意：上面这些参数的初始值只是一个根据经验给出的，后续需要调优。这里把学习率设置成默认的0.1.然后用xgboost中的CV函数来确定最佳的决策树数量。

4.3 max_depth和min_weight参数调优

我们先对这两个参数调优，是因为他们对最终结果有很大的影响。首先。我们先大范围的粗略设置参数，然后在小范围的调整
注意：在这一个环节我会进行高负荷的网格搜索调参，这个过程会很久，也行十几分钟、几十分钟、甚至更久，具体的情况取决于你的系统性能。

4.4 gamma参数调优

在已经调整好的其他参数的基础上，我们可以进行gamma参数的调优了。Gamma参数取值范围很大，这里简单的设置为5，当然也可取得更加精细些，比如：

# 数据包
from sklearn.model_selection import GridSearchCV
# 设置待测参数
param_test3 = {
 'gamma':[i/10.0 for i in range(0,5)]
}
 # 初始化CV模型
gsearch = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1,
												   n_estimators=140, 
												   max_depth=4,
												   min_child_weight=6, 
												   gamma=0,
												   subsample=0.8, 
												   colsample_bytree=0.8,
												   objective= 'binary:logistic',
												   nthread=4, 
												   scale_pos_weight=1,
												   seed=22
												   ),  
												   param_grid = param_test3, 
												   scoring='roc_auc',
												   n_jobs=4,
												   iid=False, 
												   cv=5)
 # 开启CV
gsearch.fit(train[predictors],train[target])
 # 找到每个CV分数，最好的参数，最好的分数
gsearch.grid_scores_, 
gsearch.best_params_, 
gsearch.best_score_

4.5 调整subsample和colsample_bytree参数

尝试不同的subsample和colsample_bytree参数。可以分成两个阶段进行这个步骤。这两个步骤都取0.6、0.7、0.8、0.9作为起始值。

4.6 正则化参数调优

由于gamma函数提供了一种更加有效的降低过拟合的方法，大部分人很少会用到这个参数，但是我们可以尝试调整一下这个参数。

4.7降低学习速率

最后，我使用较低的学习速率，以及使用更多的决策树，我们可以用xgboost中CV函数来进行这一步工作。

4.8 调优总结

**要想模型的表现有大幅度的提升，调整每个参数带来的影响也必须清楚，仅仅靠着参数的调整和模型的小幅度优化，想要让模型的表现有个大幅度提升是不可能的。想要模型的表现有质的飞跃，需要依靠其他的手段。没错的，是【数据】。特征工程、模型融合、模型堆叠也许效果更明显。

5.xgboost特征重要性&特征选择

5.1 梯度提升算法是如何计算特征重要性的

使用梯度提升算法的好出是在提升树被创建后，可以相对直接的得到每个属性的重要性得分。一般来说，重要性分数，衡量了特征在模型中的提升决策树构建中的价值。一个属性越多的备用来在模型中构建决策树，他的重要性就相对越高。
属性重要性是通过对数据集中的每个属性进行计算，并进行排序得到。在单个决策树中通过每个属性分裂点改进性能度量的量来计算属性重要性。由节点负责加权和记录次数，也就是说一个属性对分裂点改进性能度量越大（越靠近根节点），权值越大；被越多提升树所选择，属性越重要。性能度量可以是选择分裂节点的Gini纯度，也可以是其他的度量函数。
最后将一个属性在所有提升树中的结果进行加权求和然后平均，得到重要性得分。

5.2 绘制特征重要性

一个已经训练好的xgboost模型，是可以自动计算特征重要性的，这些重要性得分可以通过成员变量feature_importances_得到。如下可以展示在控制台：

print(model.feature_importances_)

同样也可以可视化这些分数，以便获得数据集中每个特征的相对重要性的直观显示，例如：

# plot
pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
pyplot.show()

下面使用iris数据集，训练一个xgboost的分类器，从而计算特征的重要性，并进行可视化

 # plot feature importance manually
from numpy import loadtxt
from xgboost import XGBClassifier
from matplotlib import pyplot
from sklearn.datasets import load_iris
# load data
dataset = load_iris()
# split data into X and y
X = dataset.data
y = dataset.target
# fit model no training data
model = XGBClassifier()
model.fit(X, y)
# feature importance
print(model.feature_importances_)
# plot
pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
pyplot.show()

"""
[0.17941953 0.11345647 0.41556728 0.29155672]
"""

这种绘图的方式并不是很完美，只是显示了特征重要性而没有排序，可以在进行绘图之前对特征重要性进行排序
下面就通过内置的绘图函数，进行特征重要性得分排序后的绘制，这个函数就是plot_importance()，如下所示：

# plot feature importance manually
from numpy import loadtxt
from xgboost import XGBClassifier
from matplotlib import pyplot
from sklearn.datasets import load_iris
from xgboost import plot_importance
 
# load data
dataset = load_iris()
# split data into X and y
X = dataset.data
y = dataset.target
# fit model no training data
model = XGBClassifier()
model.fit(X, y)
# feature importance
print(model.feature_importances_)
# plot feature importance
 
plot_importance(model)
pyplot.show()

"""
[0.17941953 0.11345647 0.41556728 0.29155672]
"""

根据特征在输入数组的索引，特征被自动命名为f0 - f3，在问题描述中手动的将这些索引映射到名称，我们可以看到，f2具有最高的重要性，f1具有最低的重要性。

5.3 根据xgboost特征重要性得分进行特征选择

特征重要性得分，可以用于在sklearn中进行特征选择。通过SelectFromModel类实现，该类采用模型并将数据集转换为具有选定特征的子集。这个类可以采取预先训练的模型，例如在真个数据集上训练的模型，然后，他可以通过阈值来决定选择那些特征。
当在SelectFromModel实例上调用transform()方法时，该阈值被用于在训练集和测试集上一致性选择相同特征。
在下面实例中，我们首先在训练集上训练xgboost模型，然后在测试集上评估。使用从训练数据集计算的特征重要性，然后，将模型封装在一个SelectFromModel实例中，我们使用这个来选择训练集上的特征，用所选择的特征子集训练模型，然后在相同的特征方案下对测试集进行评估。

# 使用阈值进行选择特征
selection = SelectFromModel(model, threshold=thresh, prefit=True)
select_X_train = selection.transform(X_train)
# 训练模型
selection_model = XGBClassifier()
selection_model.fit(select_X_train, y_train)
# 评估模型
select_X_test = selection.transform(X_test)
y_pred = selection_model.predict(select_X_test)

我们可以通过测试多个阈值，来从特征重要性中选择特征。具体而言，每个输入变量的特征重要度，本质上允许我们通过重要性来测试每个特征子集。
下面是完整代码：

# 绘制特征重要性得分
import numpy as np
from xgboost import XGBClassifier
from matplotlib import pyplot
from sklearn.datasets import load_iris
from xgboost import plot_importance
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.feature_selection import SelectFromModel
 
# 加载数据
dataset = load_iris()
# 切分数据，样本&标签
X = dataset.data
y = dataset.target
 
# 切分训练集测试集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.33,random_state=7)
 
# 训练一个xgboost分类器
model = XGBClassifier()
model.fit(X_train, y_train)
# 获得特征重要性
print(model.feature_importances_)
 
# 对测试数据做出预测，并进行评估
y_pred = model.predict(X_test)
predictions = [round(value) for value in y_pred]
accuracy = accuracy_score(y_test,predictions)
print("Accuracy:%.2f%%"%(accuracy*100.0))
 
# 训练模型，使用每个特征重要性作为阈值
# 特征重要性得分排序
thresholds = np.sort(model.feature_importances_)
for thresh in thresholds:
    # 遍历所有的特征重要性得分，把每个得分作为阈值进行特征选择
    selection = SelectFromModel(model,threshold=thresh,prefit=True )
    # 构建新的训练集
    select_X_train = selection.transform(X_train)
    # 使用选择出的特征作为训练集，重新训练一个模型出来
    selection_model = XGBClassifier()
    selection_model.fit(select_X_train, y_train)
    # 对测试集进行transform()操作
    select_X_test = selection.transform(X_test)
    # 预测，评估
    y_pred = selection_model.predict(select_X_test)
    predictions = [round(value) for value in y_pred]
    accuracy = accuracy_score(y_test,predictions)
    print("Thresh=%.3f, n=%d, Accuracy: %.2f%%" % (thresh, select_X_train.shape[1], accuracy * 100.0))
    
"""
[0.20993228 0.09029345 0.54176074 0.15801354]
Accuracy:92.00%
Thresh=0.090, n=4, Accuracy: 92.00%
Thresh=0.158, n=3, Accuracy: 92.00%
Thresh=0.210, n=2, Accuracy: 86.00%
Thresh=0.542, n=1, Accuracy: 90.00%
"""

我们可以看到，模型的性能通常随着所选择的特征的数量减少，在这个问题上，可以对测试集准确率和模型复杂度做一个权衡。例如，选择3个特征，接受准确率为92%，这样可能是对这样一个小数据集的清洗，但是对于更大的数据集，使用交叉验证作为模型评估方案可能是更有用的策略。

6. end

你可能感兴趣的:(机器学习算法,树类算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
2018/02/12 Tracy_zhang
人生并不在于获取，更在于放得下。放下一粒种子，收获一棵大树;放下一处烦恼，收获一个惊喜;放下一种偏见，收获一种幸福;放下一种执著，收获一种自在。放下既是一种理性抉择，也是一种豁达美。只要看得开放得下，何愁没有快乐的春莺在啼鸣，何愁没有快乐的泉溪在歌唱，何愁没有快乐的鲜花绽放!
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
2018-12-29 枫叶红时总多离别
2018年12月29日星期六昨天老师就告诉我们，今天下午不用上课，是图书漂流活动会。我觉得很兴奋，好期待。到了下午，我帮好忙就到外面去买书，刚一出去，就有一大帮的大哥哥、大姐姐围着我问要不要买书，买一本书送一颗糖。我看到了一本《小老虎比上树》的书，问大姐姐多少钱，大姐姐说这本书原价13块，现在便宜4块钱也就是9块钱卖给你，我就把一张10块钱给她找，她找了我一块钱。我现在想想我今天只带了10块钱，现
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
似乎老是忘记什么东西灰台
S带上了耳机，眼前的一切都与她隔绝开来。虽是初春的好天气，花都开的正鲜艳，行人也都驻足欣赏，还有不少怀着好心情的年轻人在花树下打闹。不过S似乎并不在意这些，连耳机传来的rap也没有调动起她的兴致。一瞬间，心脏好像变成了黑洞，“啊，我身边还有几个人呢，似乎没有了吧”。阳光的温度覆盖到了脖子上，S抬头看了看开满花的树，“我妈好像还挺喜欢花的”，S随手拍了一张照片，微信发到自己一家三口的群里。过了一会，
《在战“疫”中成长致敬生活》观后感梅子刘的刀
（作者：周晨）今天上午，我看了“我是接班人”网络大课堂《在战役中成长致敬生活》。有很多人拿出自己攒下的钱，默默地捐给了武汉，有几千块钱的、有几万块钱的，也有十几万块钱的。连小朋友也把自己的压岁钱捐给了武汉。有名环卫工人把自己五年的积蓄全部捐给了武汉。有名外卖小哥为医护人员买鞋子送吃的。还有已经治愈出院的新型肺炎病人捐了400毫升的血浆。还有位叫大树的叔叔，虽然他没有钱，但是他地里有蔬菜，捐了几大卡
2019-08-16 希望在东方
《春游荣华山》春游荣华山，乍暖还寒。青苔路，石阶险。山路弯上弯！为寻古寺往幽探。细雨已润江南岸，初春芳草现。老树新芽冒枝端，人间又过到新年。今游荣华山，树茂参天，古寺悠闲。细雨飘落发端！三眼井旁，投币许心愿，并祷一世安然。更喜大女明事端，应心安，放开颜。修竹静默，雨中吐心愿。待得春风浩吹时，春笋节节攀。图片发自App图片发自App图片发自App
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
目前哪里有卖高仿包包，推荐十个渠道已更新富腕表之家
1、工厂购买，推荐微信:【76929666】目前买的人最多的渠道。2、某宝购买，价格较高，质量没有保障。3、拼夕夕，价格是便宜，但是质量不敢想象。4、专柜购买，数量较少，经常断货，价格也太高不好接受。5、批发市场购买，可遇不可求，一般生活在批发市场附近的，根本不用考虑在哪里买高仿包包分几个级别？在当今的包类市场中，广州作为一个知名的货源地，已经成为高仿包行业的一个重要标志。随着市场的需求增加，高仿
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
一颗小桃树李蓉乐平市湾头中小学
当“凹”同“洼”的时侯，才读(wa，平声)，他不叫贾平洼(贾，原名贾平娃)，非要写作贾平凹。为了表示对他的尊重，对文学的尊重，对文化人的尊重。如果不是帮闺蜜的儿子修改作文，我也不会发现贾平凹叫贾平娃。以下是摘选他的文章《一棵小桃树》：可我的小桃树儿，一颗“仙桃”的种子，却开得太白了，太淡了，那瓣片儿单薄得似纸做的，没有肉的感觉，没有粉的感觉，像患了重病的少女，苍白白的脸，又偏苦涩涩地笑着。雨还在下
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
2.2.6 通知类控件 Toast、Menu 常思行
本文例程下载：WillFlow_Toast、WillFlowMenu一、什么是Toast？Toast也被叫做吐司，是Android系统提供的一种非常好的提醒方式，在程序中可以使用它将一些短小的信息通知给用户，它有如下两个特点：Toast是没有焦点的Toast显示的时间有限过一定的时间就会自动消失所以一般来讲Toast的使用并不会影响我们的正常操作，并且它通常不会占用太大的屏幕空间，有着良好的用户体
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa