CC‘s World

【工程应用】XGBoost应用（Python）

XGBoost是eXtreme Gradient Boosting的缩写，它是一个十分强大的Boosting算法工具包。XGBoost在并行计算效率、缺失值解决、抑制过拟合、预测泛化能力上都变现十分优良。

一、基础

XGBoost安装基于pip就能够轻松实现：

pip install xgboost

二、XGBoost数据读取

应用XGBoost的第一步，需要加载所需的数据成为工具库所能支持的格式形态。XGBoost可以加载多种数据格式的数据用于训练建模：

libsvm格式的文本数据。
Numpy的二维数组。
XGBoost的二进制的缓存文件。加载的数据存储在对象DMatrix中。

XGBoost的SKLearn接口也支持对于Dataframe格式的数据。

下面是不同格式的数据，XGBoost的加载方式。

加载libsvm格式的数据：

dtrain1 = xgb.DMatrix('train.svm.txt')

加载二进制的缓存文件：

dtrain2 = xgb.DMatrix('train.svm.buffer')

加载numpy的数组：

data = np.random.rand(5,10) # 5 entities, each contains 10 features
label = np.random.randint(2, size=5) # binary target
dtrain = xgb.DMatrix( data, label=label)

将scipy.sparse格式的数据转化为 DMatrix 格式：

csr = scipy.sparse.csr_matrix( (dat, (row,col)) )
dtrain = xgb.DMatrix( csr )

将DMatrix格式的数据保存成XGBoost的二进制格式，在下次加载时可以提高加载速度，使用方式如下：

dtrain = xgb.DMatrix('train.svm.txt')
dtrain.save_binary("train.buffer")

可以用如下方式处理DMatrix中的缺失值：

dtrain = xgb.DMatrix( data, label=label, missing = -999.0)

当需要给样本设置权重时，可以用如下方式：

w = np.random.rand(5,1)
dtrain = xgb.DMatrix( data, label=label, missing = -999.0, weight=w)

三、XGBoost不同建模方式

3.1 内置建模方式：libsvm格式数据源

XGBoost内置了建模方式，有如下的数据格式与核心训练方法：

基于DMatrix格式的数据。
基于xgb.train接口训练。

下面是官方的一个简单示例，演示了读取libsvm格式数据(成DMatrix格式)并指定参数建模的过程。

# 导入工具库
import numpy as np
import scipy.sparse
import pickle
import xgboost as xgb

# 从libsvm文件中读取数据，做二分类
# 数据是libsvm的格式，如下样本格式
#1 3:1 10:1 11:1 21:1 30:1 34:1 36:1 40:1 41:1 53:1 58:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 105:1 117:1 124:1
#0 3:1 10:1 20:1 21:1 23:1 34:1 36:1 39:1 41:1 53:1 56:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 116:1 120:1
#0 1:1 10:1 19:1 21:1 24:1 34:1 36:1 39:1 42:1 53:1 56:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 116:1 122:1
dtrain = xgb.DMatrix('./data/agaricus.txt.train')
dtest = xgb.DMatrix('./data/agaricus.txt.test')

# 超参数设定
# 主要是树深、学习率、目标函数
param = {'max_depth':2, 'eta':1, 'silent':1, 'objective':'binary:logistic' }

# 设定watchlist用于建模过程中观测模型状态
watchlist  = [(dtest,'eval'), (dtrain,'train')]
num_round = 2
bst = xgb.train(param, dtrain, num_round, watchlist)

# 使用模型预测
preds = bst.predict(dtest)

# 判断准确率
labels = dtest.get_label()
print('错误率为%f' % \
       (sum(1 for i in range(len(preds)) if int(preds[i]>0.5)!=labels[i]) /float(len(preds))))

# 模型存储
bst.save_model('./model/0001.model')

输出为：

[0]  eval-error:0.042831  train-error:0.046522
[1]  eval-error:0.021726  train-error:0.022263
错误率为0.021726

3.2 内置建模方式：csv格式数据源

下面的例子，输入的数据源是csv文件，我们使用大家熟悉的pandas工具库把数据读取为Dataframe格式，再构建Dmatrix格式输入，后续使用内置建模方式进行训练。

# 皮马印第安人糖尿病数据集 包含很多字段：怀孕次数 口服葡萄糖耐量试验中血浆葡萄糖浓度 舒张压(mm Hg) 三头肌组织褶厚度(mm) 
# 2小时血清胰岛素(μU/ ml) 体重指数(kg/(身高(m)^2) 糖尿病系统功能 年龄(岁)
import pandas as pd
data = pd.read_csv('./data/Pima-Indians-Diabetes.csv')
data.head()

# 导入工具库
import numpy as np
import pandas as pd
import pickle
import xgboost as xgb
from sklearn.model_selection import train_test_split

# 用pandas读入数据
data = pd.read_csv('./data/Pima-Indians-Diabetes.csv')

# 做数据切分
train, test = train_test_split(data)

# 转换成Dmatrix格式
feature_columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
target_column = 'Outcome'

# 取出Dataframe的numpy数组值去初始化DMatrix对象
xgtrain = xgb.DMatrix(train[feature_columns].values, train[target_column].values)
xgtest = xgb.DMatrix(test[feature_columns].values, test[target_column].values)

#参数设定
param = {'max_depth':5, 'eta':0.1, 'silent':1, 'subsample':0.7, 'colsample_bytree':0.7, 'objective':'binary:logistic' }

# 设定watchlist用于查看模型状态
watchlist  = [(xgtest,'eval'), (xgtrain,'train')]
num_round = 10
bst = xgb.train(param, xgtrain, num_round, watchlist)

# 使用模型预测
preds = bst.predict(xgtest)

# 判断准确率
labels = xgtest.get_label()
print('错误类为%f' % \
       (sum(1 for i in range(len(preds)) if int(preds[i]>0.5)!=labels[i]) /float(len(preds))))

# 模型存储
bst.save_model('./model/0002.model'）

输出为：

[0]  eval-error:0.354167  train-error:0.194444
[1]  eval-error:0.34375   train-error:0.170139
[2]  eval-error:0.322917  train-error:0.170139
[3]  eval-error:0.28125   train-error:0.161458
[4]  eval-error:0.302083  train-error:0.147569
[5]  eval-error:0.286458  train-error:0.138889
[6]  eval-error:0.296875  train-error:0.142361
[7]  eval-error:0.291667  train-error:0.144097
[8]  eval-error:0.302083  train-error:0.130208
[9]  eval-error:0.291667  train-error:0.130208
错误类为0.291667

3.3 预估器建模方式：SKLearn接口+Dataframe

XGBoost也支持用SKLearn中统一的预估器形态接口进行建模，如下为典型的参考案例，对于读取为Dataframe格式的训练集和测试集，可以直接使用XGBoost初始化XGBClassifier进行fit拟合训练。使用方法与接口，和SKLearn中其他预估器一致。

# 导入工具库
import numpy as np
import pandas as pd
import pickle
import xgboost as xgb
from sklearn.model_selection import train_test_split

# 用pandas读入数据
data = pd.read_csv('./data/Pima-Indians-Diabetes.csv')

# 做数据切分
train, test = train_test_split(data)

# 特征列
feature_columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
# 标签列
target_column = 'Outcome'

# 初始化模型
xgb_classifier = xgb.XGBClassifier(n_estimators=20,\
                                   max_depth=4, \
                                   learning_rate=0.1, \
                                   subsample=0.7, \
                                   colsample_bytree=0.7, \
                                   eval_metric='error')

# Dataframe格式数据拟合模型
xgb_classifier.fit(train[feature_columns], train[target_column])

# 使用模型预测
preds = xgb_classifier.predict(test[feature_columns])

# 判断准确率
print('错误类为%f' %((preds!=test[target_column]).sum()/float(test_y.shape[0])))

# 模型存储
joblib.dump(xgb_classifier, './model/0003.model')

输出为：

错误类为0.265625

['./model/0003.model']

四、模型参数

在运行XGBoost之前，必须设置三种类型参数：general parameters，booster parameters和task parameters：

4.1 通用参数

booster [default=gbtree]：有两种模型可以选择gbtree和gblinear。gbtree使用基于树的模型进行提升计算，gblinear使用线性模型进行提升计算。缺省值为gbtree
silent [default=0]：取0时表示打印出运行时信息，取1时表示以缄默方式运行，不打印运行时信息。缺省值为0
nthread：XGBoost运行时的线程数。缺省值是当前系统可以获得的最大线程数
num_pbuffer：预测缓冲区大小，通常设置为训练实例的数目。缓冲用于保存最后一步提升的预测结果，无需人为设置。
num_feature：Boosting过程中用到的特征维数，设置为特征个数。XGBoost会自动设置，无需人为设置。

4.2 booster参数

4.2.1 树模型booster参数

eta [default=0.3]：为了防止过拟合，更新过程中用到的收缩步长。在每次提升计算之后，算法会直接获得新特征的权重。 eta通过缩减特征的权重使提升计算过程更加保守。缺省值为0.3 取值范围为：[0,1]
gamma [default=0]：树要进一步分裂生长所需的最小loss减小值. the larger, the more conservative the algorithm will be. 取值范围为：[0,∞]
max_depth [default=6]：数的最大深度。缺省值为6 取值范围为：[1,∞]
min_child_weight [default=1]：孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。该参数越大算法越conservative 取值范围为：[0,∞]
max_delta_step [default=0]：我们允许每个树的权重被估计的值。如果它的值被设置为0，意味着没有约束；如果它被设置为一个正值，它能够使得更新的步骤更加保守。通常这个参数是没有必要的，但是如果在逻辑回归中类极其不平衡这时候他有可能会起到帮助作用。把它范围设置为1-10之间也许能控制更新。取值范围为：[0,∞]
subsample [default=1]：用于训练模型的子样本占整个样本集合的比例。如果设置为0.5则意味着XGBoost将随机的从整个样本集合中随机的抽取出50%的子样本建立树模型，这能够防止过拟合。取值范围为：(0,1]
colsample_bytree [default=1]：在建立树时对特征采样的比例。缺省值为1 取值范围为：(0,1]

4.2.2 线性Booster参数

lambda [default=0]：L2正则的惩罚系数
alpha [default=0]：L1正则的惩罚系数
lambda_bias：在偏置上的L2正则。缺省值为0(在L1上没有偏置项的正则，因为L1时偏置不重要)

4.3 任务参数

objective [ default=reg:linear ]

base_score [ default=0.5 ]

eval_metric [ default according to objective ]

seed [ default=0 ]
随机数的种子。缺省值为0

五、调参与高级功能

5.1 内置调参优化

5.1.1 交叉验证

XGBoost自带实验与调参的一些方法，如下为交叉验证方法xgb.cv。

xgb.cv(param, dtrain, num_round, nfold=5,metrics={'error'}, seed = 0)

5.1.2 添加预处理

我们可以把数据建模过程中的一些设置加到交叉验证环节里，比如对于不同类别的样本加权，可以参考下列代码示例：

# 计算正负样本比，调整样本权重
def fpreproc(dtrain, dtest, param):
    label = dtrain.get_label()
    ratio = float(np.sum(label == 0)) / np.sum(label==1)
    param['scale_pos_weight'] = ratio
    return (dtrain, dtest, param)

# 先做预处理，计算样本权重，再做交叉验证
xgb.cv(param, dtrain, num_round, nfold=5,
       metrics={'auc'}, seed = 0, fpreproc = fpreproc)

5.1.3 自定义损失函数与评估准则

XGBoost支持在训练过程中，自定义损失函数和评估准则，其中损失函数的定义需要返回损失函数一阶和二阶导数的计算方法，评估准则部分需要对数据的label和预估值进行计算。其中损失函数用于训练过程中的树结构学习，而评估准则很多时候是用在验证集上进行效果评估。

print('使用自定义损失函数进行交叉验证')
# 自定义损失函数，需要提供损失函数的一阶导和二阶导
def logregobj(preds, dtrain):
    labels = dtrain.get_label()
    preds = 1.0 / (1.0 + np.exp(-preds))
    grad = preds - labels
    hess = preds * (1.0-preds)
    return grad, hess

# 自定义评估准则，评估预估值和标准答案之间的差距
def evalerror(preds, dtrain):
    labels = dtrain.get_label()
    return 'error', float(sum(labels != (preds > 0.0))) / len(labels)

watchlist  = [(dtest,'eval'), (dtrain,'train')]
param = {'max_depth':3, 'eta':0.1, 'silent':1}
num_round = 5
# 自定义损失函数训练
bst = xgb.train(param, dtrain, num_round, watchlist, logregobj, evalerror)
# 交叉验证
xgb.cv(param, dtrain, num_round, nfold = 5, seed = 0, obj = logregobj, feval=evalerror)

输出为：

使用自定义损失函数进行交叉验证
[0]  eval-rmse:0.306901   train-rmse:0.306164  eval-error:0.518312  train-error:0.517887
[1]  eval-rmse:0.179189   train-rmse:0.177278  eval-error:0.518312  train-error:0.517887
[2]  eval-rmse:0.172565   train-rmse:0.171728  eval-error:0.016139  train-error:0.014433
[3]  eval-rmse:0.269612   train-rmse:0.27111   eval-error:0.016139  train-error:0.014433
[4]  eval-rmse:0.396903   train-rmse:0.398256  eval-error:0.016139  train-error:0.014433

5.1.4 只用前n颗树预测

对于boosting模型来说，最后会训练得到很多基学习器(在XGBoost中很多时候是很多棵树)，我们可以一次完整训练，只用前n棵树的集成来完成预测。

#!/usr/bin/python
import numpy as np
import pandas as pd
import pickle
import xgboost as xgb
from sklearn.model_selection import train_test_split

# 基本例子，从csv文件中读取数据，做二分类

# 用pandas读入数据
data = pd.read_csv('./data/Pima-Indians-Diabetes.csv')

# 做数据切分
train, test = train_test_split(data)

# 转换成Dmatrix格式
feature_columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
target_column = 'Outcome'
xgtrain = xgb.DMatrix(train[feature_columns].values, train[target_column].values)
xgtest = xgb.DMatrix(test[feature_columns].values, test[target_column].values)

#参数设定
param = {'max_depth':5, 'eta':0.1, 'silent':1, 'subsample':0.7, 'colsample_bytree':0.7, 'objective':'binary:logistic' }

# 设定watchlist用于查看模型状态
watchlist  = [(xgtest,'eval'), (xgtrain,'train')]
num_round = 10
bst = xgb.train(param, xgtrain, num_round, watchlist)

# 只用第1颗树预测
ypred1 = bst.predict(xgtest, ntree_limit=1)
# 用前9颗树预测
ypred2 = bst.predict(xgtest, ntree_limit=9)
label = xgtest.get_label()
print('用前1颗树预测的错误率为 %f' % (np.sum((ypred1>0.5)!=label) /float(len(label))))
print('用前9颗树预测的错误率为 %f' % (np.sum((ypred2>0.5)!=label) /float(len(label))))

输出：

[0]  eval-error:0.255208  train-error:0.196181
[1]  eval-error:0.234375  train-error:0.175347
[2]  eval-error:0.25   train-error:0.163194
[3]  eval-error:0.229167  train-error:0.149306
[4]  eval-error:0.213542  train-error:0.154514
[5]  eval-error:0.21875   train-error:0.152778
[6]  eval-error:0.21875   train-error:0.154514
[7]  eval-error:0.213542  train-error:0.138889
[8]  eval-error:0.1875 train-error:0.147569
[9]  eval-error:0.1875 train-error:0.144097
用前1颗树预测的错误率为 0.255208
用前9颗树预测的错误率为 0.187500

5.2 预估器调参优化

5.2.1 SKLearn形态接口实验评估

XGBoost有SKLearn预估器形态的接口，整体使用方法和SKLearn中其他预估器一致，如下是手动对数据做交叉验证，注意到这里直接使用XGBClassifier对Dataframe数据进行fit拟合和评估。

import pickle
import xgboost as xgb

import numpy as np
from sklearn.model_selection import KFold, train_test_split, GridSearchCV
from sklearn.metrics import confusion_matrix, mean_squared_error
from sklearn.datasets import load_iris, load_digits, load_boston

rng = np.random.RandomState(31337)

# 二分类：混淆矩阵
print("数字0和1的二分类问题")
digits = load_digits(2)
y = digits['target']
X = digits['data']
# 数据切分对象
kf = KFold(n_splits=2, shuffle=True, random_state=rng)
print("在2折数据上的交叉验证")
# 2折交叉验证
for train_index, test_index in kf.split(X):
    xgb_model = xgb.XGBClassifier().fit(X[train_index],y[train_index])
    predictions = xgb_model.predict(X[test_index])
    actuals = y[test_index]
    print("混淆矩阵:")
    print(confusion_matrix(actuals, predictions))

#多分类：混淆矩阵
print("\nIris: 多分类")
iris = load_iris()
y = iris['target']
X = iris['data']
kf = KFold(n_splits=2, shuffle=True, random_state=rng)
print("在2折数据上的交叉验证")
for train_index, test_index in kf.split(X):
    xgb_model = xgb.XGBClassifier().fit(X[train_index],y[train_index])
    predictions = xgb_model.predict(X[test_index])
    actuals = y[test_index]
    print("混淆矩阵:")
    print(confusion_matrix(actuals, predictions))

#回归问题：MSE
print("\n波士顿房价回归预测问题")
boston = load_boston()
y = boston['target']
X = boston['data']
kf = KFold(n_splits=2, shuffle=True, random_state=rng)
print("在2折数据上的交叉验证")
for train_index, test_index in kf.split(X):
    xgb_model = xgb.XGBRegressor().fit(X[train_index],y[train_index])
    predictions = xgb_model.predict(X[test_index])
    actuals = y[test_index]
    print("MSE:",mean_squared_error(actuals, predictions))

输出为：

数字0和1的二分类问题
在2折数据上的交叉验证
混淆矩阵:
[[87  0]
 [ 1 92]]
混淆矩阵:
[[91  0]
 [ 3 86]]

Iris: 多分类
在2折数据上的交叉验证
混淆矩阵:
[[19  0  0]
 [ 0 31  3]
 [ 0  1 21]]
混淆矩阵:
[[31  0  0]
 [ 0 16  0]
 [ 0  3 25]]

波士顿房价回归预测问题
在2折数据上的交叉验证
MSE: 9.860776812557337
MSE: 15.942418468446029

5.2.2 网格搜索调参

上面提到XGBoost的预估器接口，整体使用方法和SKLearn中其他预估器一致，所以我们也可以使用SKLearn中的超参数调优方法来进行模型调优。

如下是一个典型的网格搜索交法调优超参数的代码示例，我们会给出候选参数列表字典，通过GridSearchCV进行交叉验证实验评估，选出XGBoost在候选参数中最优的超参数。
print(“参数最优化：”)

y = boston['target']
X = boston['data']
xgb_model = xgb.XGBRegressor()
clf = GridSearchCV(xgb_model,
                   {'max_depth': [2,4,6],
                    'n_estimators': [50,100,200]}, verbose=1)
clf.fit(X,y)
print(clf.best_score_)
print(clf.best_params_)

输出为：

参数最优化：
Fitting 3 folds for each of 9 candidates, totalling 27 fits

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.

0.6001029721598573
{'max_depth': 4, 'n_estimators': 100}

[Parallel(n_jobs=1)]: Done  27 out of  27 | elapsed:    1.3s finished

5.2.3 early-stopping早停

XGBoost模型有时候会因为不停叠加新的树(修正训练集上拟合尚不正确的一些样本)，可能会因为对于训练集过度学习而导致模型过拟合。early stopping早停止是一个有效的策略，具体的做法是，在训练集不断追加树学习的过程中，对验证集上的表现进行监控，如果出现一定轮次评估准则都没有优化提升的情况，则回溯到历史上验证集最好的点，保存为最佳模型。

下面是对应的代码示例，其中参数early_stopping_rounds设定了验证集上能接受的效果不提升的最多轮次数，eval_set指定了验证数据集。

# 在训练集上学习模型，一颗一颗树添加，在验证集上看效果，当验证集效果不再提升，停止树的添加与生长
X = digits['data']
y = digits['target']
X_train, X_val, y_train, y_val = train_test_split(X, y, random_state=0)
clf = xgb.XGBClassifier()
clf.fit(X_train, y_train, early_stopping_rounds=10, eval_metric="auc",
        eval_set=[(X_val, y_val)])

输出为：

[0]  validation_0-auc:0.999497
Will train until validation_0-auc hasn't improved in 10 rounds.
[1]  validation_0-auc:0.999497
[2]  validation_0-auc:0.999497
[3]  validation_0-auc:0.999749
[4]  validation_0-auc:0.999749
[5]  validation_0-auc:0.999749
[6]  validation_0-auc:0.999749
[7]  validation_0-auc:0.999749
[8]  validation_0-auc:0.999749
[9]  validation_0-auc:0.999749
[10] validation_0-auc:1
[11] validation_0-auc:1
[12] validation_0-auc:1
[13] validation_0-auc:1
[14] validation_0-auc:1
[15] validation_0-auc:1
[16] validation_0-auc:1
[17] validation_0-auc:1
[18] validation_0-auc:1
[19] validation_0-auc:1
[20] validation_0-auc:1
Stopping. Best iteration:
[10] validation_0-auc:1


XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
       colsample_bytree=1, gamma=0, learning_rate=0.1, max_delta_step=0,
       max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
       n_jobs=1, nthread=None, objective='binary:logistic', random_state=0,
       reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
       silent=True, subsample=1)

5.2.4 特征重要度

XGBoost建模过程中，还可以学习到对应的特征重要度信息，并保存在模型的feature_importances_属性中。如下为绘制特征重要度的可视化代码：

iris = load_iris()
y = iris['target']
X = iris['data']
xgb_model = xgb.XGBClassifier().fit(X,y)

print('特征排序：')
feature_names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
feature_importances = xgb_model.feature_importances_
indices = np.argsort(feature_importances)[::-1]

for index in indices:
    print("特征 %s 重要度为 %f" %(feature_names[index], feature_importances[index]))

%matplotlib inline
import matplotlib.pyplot as plt
plt.figure(figsize=(16,8))
plt.title("feature importances")
plt.bar(range(len(feature_importances)), feature_importances[indices], color='b')
plt.xticks(range(len(feature_importances)), np.array(feature_names)[indices], color='b')

输出为：

特征排序：
特征 petal_length 重要度为 0.415567
特征 petal_width 重要度为 0.291557
特征 sepal_length 重要度为 0.179420
特征 sepal_width 重要度为 0.113456

5.2.5 并行训练加速

在多资源的情况下，XGBoost可以实现并行训练加速，示例代码如下：

import os

if __name__ == "__main__":
    try:
        from multiprocessing import set_start_method
    except ImportError:
        raise ImportError("Unable to import multiprocessing.set_start_method."
                          " This example only runs on Python 3.4")
    #set_start_method("forkserver")

    import numpy as np
    from sklearn.model_selection import GridSearchCV
    from sklearn.datasets import load_boston
    import xgboost as xgb

    rng = np.random.RandomState(31337)

    print("Parallel Parameter optimization")
    boston = load_boston()

    os.environ["OMP_NUM_THREADS"] = "2"  # or to whatever you want
    y = boston['target']
    X = boston['data']
    xgb_model = xgb.XGBRegressor()
    clf = GridSearchCV(xgb_model, {'max_depth': [2, 4, 6],
                                   'n_estimators': [50, 100, 200]}, verbose=1,
                       n_jobs=2)
    clf.fit(X, y)
    print(clf.best_score_)
    print(clf.best_params_)

输出为：

Parallel Parameter optimization
Fitting 3 folds for each of 9 candidates, totalling 27 fits

[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  24 out of  27 | elapsed:    2.2s remaining:    0.3s

0.6001029721598573
{'max_depth': 4, 'n_estimators': 100}

[Parallel(n_jobs=2)]: Done  27 out of  27 | elapsed:    2.4s finished

参考资料

机器学习实战 | XGBoost建模应用详解

你可能感兴趣的:(工程应用,python,算法,机器学习,XGBoost)

centos7安装python3并配置环境变量 weixin_46119222 centos python3.11
在CentOS7上安装Python3并将其设置为默认版本，可以按照以下步骤进行：1.安装Python3首先，你需要安装Python3。在CentOS7上，你可以通过yum包管理器来安装Python3。执行以下命令：bash复制代码sudoyuminstallpython3这个命令会使用yum来安装Python3。2.安装依赖文件（可选）如果你打算从源代码安装Python3，或者需要某些特定的库和功
LeetCode-268-丢失的数字醉舞经阁半卷书
丢失的数字题目描述：给定一个包含[0,n]中n个数的数组nums，找出[0,n]这个范围内没有出现在数组中的那个数。进阶：你能否实现线性时间复杂度、仅使用额外常数空间的算法解决此问题?示例说明请见LeetCode官网。来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/missing-number/著作权归领扣网络所有。商业转载请联系官方授权，非商
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
云原生环境中Consul的动态服务发现实践 AI云原生与云计算技术学院 AI云原生与云计算云原生 consul 服务发现 ai
云原生环境中Consul的动态服务发现实践关键词：云原生,服务发现,Consul,微服务,动态注册,健康检查,Raft算法摘要：本文深入探讨云原生环境下Consul在动态服务发现中的核心原理与实践方法。通过剖析Consul的架构设计、核心算法和关键机制，结合具体代码案例演示服务注册、发现和健康检查的全流程。详细阐述在Kubernetes、Docker等云原生技术栈中的集成方案，分析实际应用场景中的
云原生环境里Nginx的故障排查思路 AI云原生与云计算技术学院 AI云原生与云计算云原生 nginx 运维 ai
云原生环境里Nginx的故障排查思路关键词：云原生、Nginx、故障排查、容器化、Kubernetes摘要：本文聚焦于云原生环境下Nginx的故障排查思路。随着云原生技术的广泛应用，Nginx作为常用的高性能Web服务器和反向代理服务器，在容器化和编排的环境中面临着新的故障场景和挑战。文章首先介绍云原生环境及Nginx的相关背景知识，接着阐述核心概念和联系，详细讲解故障排查的核心算法原理与操作步骤
谷歌云(GCP)入门指南：从零开始搭建你的第一个云应用 AI云原生与云计算技术学院 AI云原生与云计算 perl 服务器网络 ai
谷歌云(GCP)入门指南：从零开始搭建你的第一个云应用关键词：谷歌云、GCP、云应用搭建、入门指南、云计算摘要：本文旨在为初学者提供一份全面的谷歌云（GCP）入门指南，详细介绍如何从零开始搭建第一个云应用。通过逐步分析推理，我们将涵盖背景知识、核心概念、算法原理、数学模型、项目实战、实际应用场景、工具资源推荐等多个方面，帮助读者深入理解GCP的使用方法和搭建云应用的流程，为后续的云计算实践打下坚实
利用Python实现QQ实时到账免签支付原创 0xdF Python学习 python
原创转载请注明出处核心部分:解决QQ的登录验证问题主要利用python的selenium库和QQ的快速登录实现登录网页再利用抓到的json来输出今日的订单情况直接上代码importrequestsimporttimeimportosfromseleniumimportwebdriverimportsysimportshutilimportjson'''注意:要实现QQ钱包实时到账需要在服务器上登录
院级医疗AI管理流程—基于数据共享、算法开发与工具链治理的系统化框架 Allen_Lyb 医疗高效编程研发人工智能算法时序数据库经验分享健康医疗
医疗AI：从“单打独斗”到“协同共进”在科技飞速发展的今天，医疗人工智能（AI）正以前所未有的速度改变着传统医疗模式。从最初在影像诊断、临床决策支持、药物发现等单一领域的“单点突破”，医疗AI如今已迈向“系统级协同”的新阶段。曾经，医疗AI的应用多集中在某一特定环节，比如利用深度学习算法分析医学影像，辅助医生进行疾病诊断。这种单点突破式的应用虽然在一定程度上提高了医疗效率，但随着医疗行业对AI技术
【数据结构与算法】力扣 88. 合并两个有序数组秀秀_heo 数据结构与算法 leetcode 算法职场和发展
题目描述88.合并两个有序数组给你两个按非递减顺序排列的整数数组nums1**和nums2，另有两个整数m和n，分别表示nums1和nums2中的元素数目。请你合并nums2**到nums1中，使合并后的数组同样按非递减顺序排列。注意：最终，合并后数组不应由函数返回，而是存储在数组nums1中。为了应对这种情况，nums1的初始长度为m+n，其中前m个元素表示应合并的元素，后n个元素为0，应忽略。
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
面试高频题力扣 130. 被围绕的区域洪水灌溉(FloodFill) 深度优先遍历(dfs) 暴力搜索 C++解题思路每日一题 Q741_147 C/C++每日一题：从语法到算法面试 leetcode 深度优先 c++洪水灌溉
目录零、题目描述一、为什么这道题值得你花时间掌握？二、题目拆解：提取核心关键点三、解题思路：从边界入手，反向标记四、算法实现：深度优先遍历（DFS）+两次遍历五、C++代码实现：一步步拆解代码拆解时间复杂度空间复杂度七、坑点总结八、举一反三九、总结零、题目描述题目链接：被围绕的区域题目描述：示例1：输入：board=[[“X”,“X”,“X”,“X”],[“X”,“O”,“O”,“X”],[“X”
2007. 从双倍数组中还原原数组
【算法题解析】还原双倍数组—从打乱的数组恢复原数组题目描述给定一个整数数组changed，该数组是通过对一个原始数组original的每个元素乘以2并打乱顺序后得到的。你的任务是判断给定的changed是否为某个original数组的双倍数组，并返回该原数组。具体来说，存在一个数组original，使得对original中的每个元素x，changed中都包含x和2*x两个元素（顺序可能被打乱）。如
【Python】人脸识别宅男很神经 python 开发语言
第一章：计算机视觉与图像处理的基石在深入人脸识别之前，我们必须首先牢固掌握计算机视觉和图像处理的基本概念。人脸，本质上就是一张复杂的图像，对图像的理解是所有高级视觉任务的起点。1.1图像的本质：像素与数字化表示图像，在我们看来是连续的画面，但在计算机内部，它却是离散的数值矩阵。1.1.1什么是像素？图像的最小单元像素（Pixel），是构成数字图像的最小单位。可以将其想象成一个微小的彩色点。一张数字
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
聚众识别漏检难题？陌讯多尺度检测实测提升 92%
一、开篇痛点：复杂场景下的聚众识别困境在安防监控、大型赛事等场景中，实时聚众识别是保障公共安全的核心技术。但传统视觉算法常面临三大难题：一是密集人群重叠导致小目标漏检率超30%，二是光照变化（如夜间逆光）引发误报率飙升，三是复杂背景干扰下实时性不足（FPS＜15）。某景区监控项目曾反馈，开源模型在节假日人流高峰时，因漏检导致预警延迟达20秒，存在严重安全隐患。这些问题的根源在于传统算法的局限性：单
python 函数校园伴侣
函数函数也是一个对象对象是内存中专门用来存储数据的一块区域，函数可以用来保存一些可执行的代码，并且可以在需要时，对这些语句进行多次的调用创建函数：def函数名([形参1,形参2,…形参n]):代码块函数名必须要符合标识符的规范（可以包含字母、数字、下划线、但是不能以数字开头）函数中保存的代码不会立即执行，需要调用函数代码才会执行-调用函数：函数对象()-定义函数一般都是要实现某种功能的定义函数de
（四）Python总结笔记：函数 Laura_Wangzx Python学习笔记 python
Python总结笔记（四）函数python中的函数函数中的参数变量作用域偏函数PFA递归函数高阶函数BIFs中的高阶函数匿名函数lambda闭包Closure装饰器Decorator函数式编程FunctionalProgramming1.python中的函数￭函数的意义:■1.对输入进行变换映射后输出，可以进行反复调用。以函数名对代码块进行封装■2.过程化VS结构化￭函数的创建及结构:■定义函数名
Python 算法基础篇之线性搜索算法：顺序搜索、二分搜索挣扎的蓝藻 Python算法初阶：入门篇 python 算法开发语言
Python算法基础篇之线性搜索算法：顺序搜索、二分搜索引用1.顺序搜索算法2.二分搜索算法3.顺序搜索和二分搜索的对比a)适用性b)时间复杂度c)前提条件4.实例演示实例1：顺序搜索实例2：二分搜索总结引用在算法和数据结构中，搜索是一种常见的操作，用于查找特定元素在数据集合中的位置。线性搜索算法是最简单的搜索算法之一，在一组数据中逐一比较查找目标元素。本篇博客将介绍线性搜索算法的两种实现方式：顺
Python基础（四）函数
一、函数简介函数也是一个对象。对象是内存中专门用来存储数据的一块区域。函数用来保存一些可执行代码，并且在需要时，可以重复调用。创建函数：def函数名([形参1，形参2，.....形参n]):代码块函数名必须要符合标识符规范可以包含字母、数字、下划线，但不能以数字开头。函数中保存的代码，需要被调用才会执行。调用函数：函数对象()二、函数参数定义函数时，可以在函数名后定义数量不等的形参，多个形参以，隔
【算法】哈希映射（C/C++）摆烂小白敲代码哈希算法算法 c语言 c++数据结构
目录算法引入：算法介绍：优点：缺点：哈希映射实现：mapunordered_map题目链接：“蓝桥杯”练习系统解析：代码实现：哈希映射算法是一种通过哈希函数将键映射到数组索引以快速访问数据的数据结构。它的核心思想是利用哈希函数的快速计算能力，将键（Key）转换为数组索引，从而实现对数据的快速访问和存储。哈希映射在现代软件开发中非常重要，它提供了高效的数据查找、插入和删除操作。算法引入：小白算法学校
计算机视觉算法实战——关键点检测
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言关键点检测（KeypointDetection）是计算机视觉领域中的一个重要研究方向，旨在从图像或视频中检测出具有特定语义信息的关键点。这些关键点通常代表了物体的特定部位或特征，例如人体的关节、面部特征点、车辆的轮子等。关键点检测在姿态估计、动作识别、目标跟踪、三维重建等任务中
博弈算法
有一种很有意思的游戏，就是有物体若干堆，可以是火柴棍或是围棋子等等均可。两个人轮流从堆中取物体若干，规定最后取光物体者取胜。这是我国民间很古老的一个游戏，别看这游戏极其简单，却蕴含着深刻的数学原理。下面我们来分析一下要如何才能够取胜。（一）巴什博奕（BashGame）：只有一堆n个物品，两个人轮流从这堆物品中取物，规定每次至少取一个，最多取m个。最后取光者得胜。显然，如果n=m+1，那么由于一次最
Frida使用指南（三）- Objection 象野VH Android 逆向进阶逆向
1.什么是objectionobjection是基于frida的命令行hook集合工具,可以让你不写代码,敲几句命令就可以对java函数的高颗粒度hook,还支持RPC调用。可以实现诸如内存搜索、类和模块搜索、方法hook打印参数返回值调用栈等常用功能，是一个非常方便的，逆向必备、内存漫游神器。项目地址2.objection环境配置已不更新，要和frida的版本匹配python使用的版本建议大于3
STL 简介（标准模板库）
前言通过对C++的特性，类和对象的学习和C++的内存管理对C++基本上有了全面的认识，但是C++的核心在于STL一、STL简介什么是STLC++STL（StandardTemplateLibrary，标准模板库）是C++编程语言中一个功能强大的模板库，它提供了一系列通用的数据结构和算法。STL的设计基于泛型编程，这意味着它使用模板来编写独立于任何特定数据类型的代码。STL的核心组件包括容器（如向量
C++博弈论善良的小乔博弈 c++算法开发语言
C++中的博弈算法主要用于解决两人对弈或多方博弈中的策略问题，常用于解决在棋类、卡牌、游戏等情景下的最优策略。这类算法通常基于数学博弈论，重点在于模拟玩家的策略选择并寻找最优解。下面将逐步介绍博弈算法的基本思想、常用算法以及具体实现思路。一、博弈算法的基本思想博弈算法的核心在于状态空间搜索，通过模拟玩家的所有可能动作，推导出局面评价和策略选择，常见特性包括：零和博弈：一个玩家的得分增加意味着另一个
工服误检率高达40%？陌讯改进YOLOv7实战降噪50% 2501_92487859 YOLO 算法视觉检测目标检测计算机视觉
开篇痛点：工业场景的视觉检测困境在工地、化工厂等高危场景，传统视觉算法面临三重挑战：环境干扰：强光/阴影导致工服颜色失真目标微小：安全帽反光标识仅占图像0.1%像素遮挡密集：工人簇拥时漏检率超35%（数据来源：CVPR2023工业检测白皮书）行业真相：某安监部门实测显示，开源YOLOv5在雾天场景误报率高达41%技术解析：陌讯算法的三大创新设计1.多模态特征融合架构#伪代码示例：可见光+红外特征融
渣土车识别漏检率高？陌讯算法实测降 90% 2501_92487936 目标跟踪人工智能计算机视觉目标检测算法智慧城市
在城市建筑垃圾运输管理中，渣土车的合规性监测一直是行业痛点。传统视觉算法在复杂工况下常常出现误判——阴雨天车牌识别模糊、夜间车灯眩光导致车型误分类、不同品牌渣土车混检时准确率骤降。某市政管理局的统计显示，采用传统方案时，日均漏检率高达23%，由此引发的违规倾倒投诉占比超60%。技术解析：从单模态到多特征融合的突破传统渣土车识别多依赖单一目标检测模型（如FasterR-CNN），其核心缺陷在于：特征
路面裂缝漏检率高？陌讯多尺度检测降 30% 2501_92487936 计算机视觉 opencv 人工智能深度学习算法目标检测
在市政工程与公路养护领域，路面裂缝检测是保障交通安全的关键环节。传统人工巡检不仅效率低下（日均检测≤50公里），且受主观因素影响漏检率高达15-20%[1]。而主流开源视觉算法在面对阴影干扰、多类型裂缝混杂等场景时，往往陷入"精度与速度不可兼得"的困境。本文将结合实战案例，解析陌讯视觉算法在路面裂缝检测中的技术突破与落地经验。一、技术解析：从传统方法到多模态融合架构传统裂缝检测多采用"边缘检测+形
考场/工厂违规用机难捕捉？3维度优化方案部署成本直降40% 2501_92487762 视觉检测计算机视觉算法目标检测
开篇痛点工业场景中传统玩手机识别面临三重挑战：小目标检测（手机平均像素占比<0.5%）、遮挡干扰（人手/物体遮挡率超60%）、实时性要求（需200ms内响应）。某安检企业反馈，开源YOLOv5在车间场景误报率高达34%。技术解析：双流特征融合架构陌讯算法创新性融合双路径特征（图1）：#陌讯核心代码逻辑（简化版）defdual_path_fusion(backbone):shallow_path=C
复杂场景检测失效？陌讯多模态算法在千万级监控网的落地实战 2501_92473061 算法视觉检测安全计算机视觉
开篇痛点：安防监控的检测困境"明明人就在画面里，系统却毫无反应！"——这是某智慧园区安防负责人的吐槽。传统目标检测模型在安防监控场景面临三大死穴：漏报：夜间、遮挡场景下召回率骤降（实测ResNet50漏报率>40%）误报：树叶晃动、光影变化引发的误报占比超35%延迟：1080P视频流检测延迟普遍>100ms，难以满足实时响应需求技术解析：陌讯算法的三阶优化架构陌讯视觉算法采用多模态特征金字塔（MM
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，