zc02051126

XGBoost：二分类问题

二分类问题

本文介绍XGBoost的命令行使用方法。Python和R的使用方法见https://github.com/dmlc/xgboost/blob/master/doc/README.md 。
下面将介绍如何利用XGBoost解决二分类问题。以下使用的数据集见mushroom dataset

简介

产生输入数据

XGBoost的输入数据格式和LibSVM一样。下面是XGBoost使用的输入数据格式：

1 101:1.2 102:0.03
0 1:2.1 10001:300 10002:400 
...

每行表示一个样本，第一列的数字表示类别标签，表示样本所属于的类别，‘101’和‘102’表示特征索引，’1.2‘和‘0.03’是特征所对应的值。在二分类中‘1’表示正类，‘0’表示负类。同时类别标签支持概率标签，取值服务i为[0,1]，表示样本属于某个类别的可能性。

第一步需要将数据集转化成libSVM形式，执行如下脚本

python mapfeat.py
python mknfold.py agaricus.txt 1

mapfeat.py和mknfold.py分别如下

#!/usr/bin/python
def loadfmap( fname ):
    fmap = {}
    nmap = {}
    for l in open( fname ):
        arr = l.split()
        if arr[0].find('.') != -1:
            idx = int( arr[0].strip('.') )
            assert idx not in fmap
            fmap[ idx ] = {}
            ftype = arr[1].strip(':')
            content = arr[2]
        else:
            content = arr[0]
        for it in content.split(','):
            if it.strip() == '':
                continue
            k , v = it.split('=')
            fmap[ idx ][ v ] = len(nmap)
            nmap[ len(nmap) ] = ftype+'='+k
    return fmap, nmap

def write_nmap( fo, nmap ):
    for i in range( len(nmap) ):
        fo.write('%d\t%s\ti\n' % (i, nmap[i]) )
# start here
fmap, nmap = loadfmap( 'agaricus-lepiota.fmap' )
fo = open( 'featmap.txt', 'w' )
write_nmap( fo, nmap )
fo.close()
fo = open( 'agaricus.txt', 'w' )
for l in open( 'agaricus-lepiota.data' ):
    arr = l.split(',')
    if arr[0] == 'p':
        fo.write('1')
    else:
        assert arr[0] == 'e'
        fo.write('0')
    for i in range( 1,len(arr) ):
        fo.write( ' %d:1' % fmap[i][arr[i].strip()] )
    fo.write('\n')
fo.close()

#!/usr/bin/python
import sys
import random
if len(sys.argv) < 2:
    print ('Usage:<filename> <k> [nfold = 5]')
    exit(0)
random.seed( 10 )
k = int( sys.argv[2] )
if len(sys.argv) > 3:
    nfold = int( sys.argv[3] )
else:
    nfold = 5
fi = open( sys.argv[1], 'r' )
ftr = open( sys.argv[1]+'.train', 'w' )
fte = open( sys.argv[1]+'.test', 'w' )
for l in fi:
    if random.randint( 1 , nfold ) == k:
        fte.write( l )
    else:
        ftr.write( l )
fi.close()
ftr.close()
fte.close()

运行完以上两个Python脚本将会产生训练数据集：’agaricus.txt.train’ 和测试数据集： ‘agaricus.txt.test’

训练

执行如下命令行完成模型训练:

xgboost mushroom.conf

mushroom.conf文件用于配置训练模型和测试模型时需要的信息。每行的配置信息格式为：[attribute]=[value]：

# General Parameters, see comment for each definition
# can be gbtree or gblinear
booster = gbtree 
# choose logistic regression loss function for binary classification
objective = binary:logistic

# Tree Booster Parameters
# step size shrinkage
eta = 1.0 
# minimum loss reduction required to make a further partition
gamma = 1.0 
# minimum sum of instance weight(hessian) needed in a child
min_child_weight = 1 
# maximum depth of a tree
max_depth = 3 

# Task Parameters
# the number of round to do boosting
num_round = 2
# 0 means do not save any model except the final round model
save_period = 0 
# The path of training data
data = "agaricus.txt.train" 
# The path of validation data, used to monitor training process, here [test] sets name of the validation set
eval[test] = "agaricus.txt.test" 
# The path of test data 
test:data = "agaricus.txt.test"

这里的booster采用gbtree，目标函数采用logistic regression。这意味着可以采用经典的梯度提升回归树进行计算（GBRT）。这种方法能够很好的处理二分类问题

以上的配置文件中给出了最常用的配置参数。如果想了解更多的参数，详见https://github.com/dmlc/xgboost/blob/master/doc/parameter.md。如果不想在配置文件中配置算法参数，可以通过命令行配置，如下

xgboost mushroom.conf max_depth=6

这表示max_depth参数将被设置为6而不是配置文件中的3。当使用命令行参数时确保max_depth=6为一个参数，即参数之间不要含有间隔。如果既使用配置又使用命令行参数，则命令行参数会覆盖配置文件参数，即优先使用命令行参数

在以上的例子中使用tree booster计算梯度提升。如果想使用linear booster进行回归计算，可以修改booster参数为gblinear，配置文件中的其它参数都不需要修改，配置文件信息如下

# General Parameters
# choose the linear booster
booster = gblinear
...

# Change Tree Booster Parameters into Linear Booster Parameters
# L2 regularization term on weights, default 0
lambda = 0.01
# L1 regularization term on weights, default 0
f ```agaricus.txt.test.buffer``` exists, and automatically loads from binary buffer if possible, this can speedup training process when you do training many times. You can disable it by setting ```use_buffer=0```.
  - Buffer file can also be used as standalone input, i.e if buffer file exists, but original agaricus.txt.test was removed, xgboost will still run
* Deviation from LibSVM input format: xgboost is compatible with LibSVM format, with the following minor differences:
  - xgboost allows feature index starts from 0
  - for binary classification, the label is 1 for positive, 0 for negative, instead of +1,-1
  - the feature indices in each line *do not* need to be sorted
alpha = 0.01 
# L2 regularization term on bias, default 0
lambda_bias = 0.01 

# Regression Parameters
...

预测

在训练好模型之后，可以对测试数据进行预测，执行如下脚本

xgboost mushroom.conf task=pred model_in=0003.model

对于二分类问题预测的输出结果为[0,1]之间的概率值，表示样本属于正类的概率。

模型展示

目前这还是个基本功能，只支持树模型的展示。XGBoost可以用文本的显示展示树模型，执行以下脚本

../../xgboost mushroom.conf task=dump model_in=0003.model name_dump=dump.raw.txt 
../../xgboost mushroom.conf task=dump model_in=0003.model fmap=featmap.txt name_dump=dump.nice.txt

0003.model将会输出到dump.raw.txt和dump.nice.txt中。dump.nice.txt中的结果更容易理解，因为其中使用了特征映射文件featmap.txt

featmap.txt的格式为 featmap.txt: <featureid> <featurename> <q or i or int>\n:

Feature id从0开始直到特征的个数为止，从小到大排列。
i表示是二分类特征
q表示数值变量，如年龄，时间等。q可以缺省
int表示特征为整数(when int is hinted, the decision boundary will be integer)

计算过程监测

当运行程序时，会输出如下运行信息

tree train end, 1 roots, 12 extra nodes, 0 pruned nodes ,max_depth=3
[0]  test-error:0.016139
boosting round 1, 0 sec elapsed

tree train end, 1 roots, 10 extra nodes, 0 pruned nodes ,max_depth=3
[1]  test-error:0.000000

计算过程中模型评价信息输出到错误输出流stderr中，如果希望记录计算过程中的模型评价信息，可以执行如下脚本

xgboost mushroom.conf 2>log.txt

在log.txt文件中记录如下信息

[0]     test-error:0.016139
[1]     test-error:0.000000

也可以同时监测训练过程和测试过程中的统计信息，可以通过如下方式进行配置

eval[test] = "agaricus.txt.test" 
eval[trainname] = "agaricus.txt.train"

运行以上的脚本后得到的信息如下

[0]     test-error:0.016139     trainname-error:0.014433
[1]     test-error:0.000000     trainname-error:0.001228

运行规则是[name-printed-in-log] = filename， filename文件将会被加入检测进程并在每个迭代过程中对模型进行评价。

XGBoost同时支持多种统计量的监测，假设希望监测在训练过程每次预测的平均log-likelihood，只需要在配置文件中添加配置信息 eval_metric=logloss。再次运行log文件中将会有如下信息

[0]     test-error:0.016139     test-negllik:0.029795   trainname-error:0.014433        trainname-negllik:0.027023
[1]     test-error:0.000000     test-negllik:0.000000   trainname-error:0.001228        trainname-negllik:0.002457

保存运行过程中的模型

如果现在运行过程中每两步保存一个模型，则可以设置参数set save_period=2.。在当前文件夹将会看到模型0002.model。如果想修改模型输出的路径，则可以通过参数dir=foldername修改。缺省情况下XGBoost将会保持上次迭代的结果模型。

从已有模型继续计算

如果想从已有的模型继续训练，例如从0002.model继续计算，则用如下命令行

xgboost mushroom.conf model_in=0002.model num_round=2 model_out=continue.model

XGBoost将加载0002.model并进行两次迭代计算，并将输出明显保存在continue.model。需要注意的是在mushroom.conf中定义的训练数据和评价数据信息不能发生变化。

使用多线程

当计算大数据集时，可能需要并行计算。如果编译器支持OpenMP，XGBoost原生是支持多线程的，通过一下参数nthread=10设置线程数为10。

其它需要注意的点

agaricus.txt.test.buffer 和 agaricus.txt.train.buffer是什么文件
- 默认情况下XGBoost将会产生二进制的缓存文件，文件后缀为 buffer。当下次再次运行XGBoost时将加载缓存文件而不是原始的文件。

你可能感兴趣的:(xgboost)

十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
Python处理大数据，如何提高处理速度 RS& #python python 大数据 pandas
Python处理大数据，如何提高处理速度？一、利用大数据分析工具Dask：https://dask.org/Dask简介：Dask支持Pandas的DataFrame和NumpyArray的数据结构，并且既可在本地计算机上运行，也可以扩展到在集群上运行。Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等。原理及使用方法：https://blog.
XGBoost调参demo（Python）妄念驱动机器学习算法 python 机器学习 XGBoost python
XGBoost我们用的是保险公司的一份数据#各种库importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsi
【python】Python实现XGBoost算法的详细理论讲解与应用实战景天科技苑 python轻松入门基础语法到高阶实战教学 python 算法开发语言 XGBoost算法 XGBoost python实现XGBoost 人工智能
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生K
每天一个数据分析题（五百零五）- 提升方法跟着紫枫学姐学CDA 数据分析题库数据分析
提升方法（Boosting），是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting的集成学习，其代表算法不包括？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据
每天一个数据分析题（五百零六）- 装袋方法跟着紫枫学姐学CDA 数据分析数据挖掘
装袋方法(bagging)也叫做bootstrapaggregating,是在原始数据集有放回地重采样S次后得到新数据集的一种技术，其代表算法有？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专
R语言使用caret包构建xgboost模型（xgbLinear算法）构建回归模型实战、通过method参数指定算法名称、通过trainControl函数控制训练过程 statistics.insight R语言入门课算法 r语言回归机器学习数据挖掘
R语言使用caret包构建xgboost模型（xgbLinear算法）构建回归模型实战、通过method参数指定算法名称、通过trainControl函数控制训练过程目录R语言使用caret包构建xgboost模型（xgbLinear算法）构建回归模型、通过method参数指定算法名称、通过trainControl函数控制训练过程#导入包和库#仿真数据#R语言使用caret包构建xgboost模型
LTE Network Quality Analysis Method Based on MR Data and XGBoost Algorithm YZRuin 网络机器学习人工智能
原文链接：LTENetworkQualityAnalysisMethodBasedonMRDataandXGBoostAlgorithm|IEEEConferencePublication|IEEEXploreBasicInformation:Title:LTENetworkQualityAnalysisMethodBasedonMRDataandXGBoostAlgorithm(基于MR数据和X
XGB-12:在 Kubernetes 上进行分布式 XGBoost 训练 uncle_ll #XGBoost kubernetes 分布式 xgb xgboost Python
通过KubeflowXGBoostTrainingOperator支持在Kubernetes上进行分布式XGBoost训练和批量预测。操作步骤为在Kubernetes集群上运行XGBoost作业，执行以下步骤：在Kubernetes集群上安装XGBoostOperator。XGBoostOperator旨在管理XGBoost作业的调度和监控。按照安装指南安装XGBoostOperator。编写由X
探索XGBoost：深度集成与迁移学习 Echo_Wish Python 笔记 Python算法迁移学习机器学习人工智能
导言深度集成与迁移学习是机器学习领域中的两个重要概念，它们可以帮助提高模型的性能和泛化能力。本教程将详细介绍如何在Python中使用XGBoost进行深度集成与迁移学习，包括模型集成、迁移学习的概念和实践等，并提供相应的代码示例。模型集成模型集成是一种通过组合多个模型来提高性能的技术。XGBoost提供了集成多个弱学习器的功能，可以通过设置booster参数来选择集成模型。以下是一个简单的示例：i
基于LightGBM的回归任务案例 python收藏家机器学习数据挖掘人工智能机器学习
在本文中，我们将学习先进的机器学习模型之一：Lightgbm。在对XGB模型进行了越来越多的改进以获得更好的性能之后，XGBoost是一种极限梯度提升机器，但通过lightgbm，我们可以在没有太多计算的情况下实现类似或更好的结果，并在更短的时间内在更大的数据集上训练我们的模型。让我们看看什么是LightGBM以及如何使用LightGBM执行回归。什么是LightGBM？LightGBM或“Lig
Task 11 XGBoost 算法分析与案例调参实例沫2021
1.XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在GradientBoosting框架下实现机器学习算法。XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速
ApacheCN 交流社区热点汇总 2019.3 布客飞龙
听说B站可以睡小姐姐？可是。。那个小姐姐就是我鸭！【每日一问】卷积、卷积核、卷积神经网络怎么理解？如果你没有经验怎么办？来ApacheCN免费实习把！出国留学-微信讨论组自然语言处理（NLP）学习路线【每日一问】ID3、C4.5、C5.0和CART有什么联系、区别和优劣？【每日一问】假设模型准确率接近的情况下，模型融合越多越好吗？【每日一问】1000W数据量，喂给xgboost的特征大概是多少维度
新思路：TCN-RVM模型，你见过吗？机器学习预测全家桶新增模型，MATLAB代码今天吃饺子机器学习 matlab 人工智能开发语言
截止到本期，一共发了13篇关于机器学习预测全家桶MATLAB代码的文章。参考文章如下：1.五花八门的机器学习预测？一篇搞定不行吗？2.机器学习预测全家桶，多步预测之BiGRU、BiLSTM、GRU、LSTM，LSSVM、TCN、CNN，光伏发电数据为例3.机器学习预测全家桶，多步预测之组合预测模型，光伏发电数据为例4.机器学习预测全家桶之Xgboost，交通流量数据预测为例，MATLAB代码5.机
学习笔记 2019-04-30 段勇_bf97
HousePrices-bagging_xgboost+lasso+ridgeKaggle入門級賽題：房價預測FFMPEG视音频编解码零基础学习方法35岁程序员的独家面试经历公司名称公司介绍薪水车辆工程专业33岁简历有些传感器方面的东西20k-35k非渣硕是如何获得百度、京东双SP一些面试经验20k-40k吴以均的简历一个大牛的简历北京航空航天大学毕业生的简历厦门大学软件学院毕业生的简历名称介绍H
XGboost集成学习亦旧sea 集成学习机器学习人工智能
XGBoost集成学习是一种基于决策树的集成方法，用于解决分类和回归问题。它是一种GradientBoosting（梯度提升）的改进版，通过使用一系列弱学习器（例如决策树）的集合来构建一个更强大的模型。XGBoost通过迭代的方式逐步优化模型的预测结果。在每一轮迭代中，它先计算模型的负梯度（残差），然后用一个新的弱学习器来拟合这个残差。接着，它将当前模型的预测结果与新学习器的预测结果相加，得到一个
GBDT算法的升级--XGBoost与LightGBM算法 CquptDJ 数据挖掘机器学习机器学习算法数据挖掘人工智能大数据
本文同样不涉及公式推导及代码，对于GBDT算法的学习可以参考前面的文章GBDT算法原理，这里不再讲述GBDT，只讲述XGBoost与LightGBM算法原理下面推荐两篇写得最权威最官方(没有之一)的文档参考文档：XGBoost官方文档(全英文)LightGBM官方文档(全英文)关于GBDT算法，优点非常多，可以算是将boosting的思想发挥到了极致，处理许多数据效果都是非常好，但是正所谓人无完人
XGboost和lightGBM算法对比亦旧sea 算法
XGBoost（eXtremeGradientBoosting）和LightGBM（LightGradientBoostingMachine）都是一类基于梯度提升树（GradientBoostingDecisionTrees）的机器学习算法。XGBoost是由陈天奇开发的一种优化的梯度提升框架，它可以用于分类和回归问题。XGBoost通过将多个弱学习器（通常是决策树）组合成一个强学习器来提高预测性
探索XGBoost：时间序列数据建模 Echo_Wish Python 笔记 Python算法 python 算法开发语言
导言XGBoost是一种强大的机器学习算法，广泛应用于各种领域的数据建模任务中。但是，在处理时间序列数据时，需要特别注意数据的特点和模型的选择。本教程将深入探讨如何在Python中使用XGBoost建模时间序列数据，包括数据准备、特征工程和模型训练等方面，并提供相应的代码示例。准备数据在处理时间序列数据之前，首先需要准备数据。通常，时间序列数据是按照时间顺序排列的，每个时间点都有相应的观测值。以下
探索XGBoost：多分类与不平衡数据处理 Echo_Wish Python算法 Python 笔记分类数据挖掘人工智能
导言XGBoost是一种强大的机器学习算法，广泛应用于各种分类任务中。但在处理多分类和不平衡数据时，需要特别注意数据的特点和模型的选择。本教程将深入探讨如何在Python中使用XGBoost处理多分类和不平衡数据，包括数据准备、模型调优和评估等方面，并提供相应的代码示例。准备数据首先，我们需要准备多分类和不平衡的数据集。以下是一个简单的示例：importpandasaspdfromsklearn.
机器学习之xgboost算法及特征筛选和GridSearchCV Jlan
importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearnimportmetricsimportpicklefromxgboost.sklearnimportXGBRegressorfromsklearn.preprocessingimportStandardScalerfromclean_dataimportpre
智慧海洋建设-Task4模型建立 1598903c9dd7
模型建立：bagging方法--随机森林：太耗时间了。boosting方法：lightGBM模型：https://blog.csdn.net/wuzhongqiang/article/details/105350579Xgboost模型：https://blog.csdn.net/wuzhongqiang/article/details/104854890集成模型集成方法（ensemblemeth
XGBoost算法小森( ﹡ˆoˆ﹡ ) 机器学习算法算法人工智能机器学习
XGBoost在机器学习中被广泛应用于多种场景，特别是在结构化数据的处理上表现出色，XGBoost适用于多种监督学习任务，包括分类、回归和排名问题。在数据挖掘和数据科学竞赛中，XGBoost因其出色的性能而被频繁使用。例如，在Kaggle平台上的许多获奖方案中，XGBoost都发挥了重要作用。此外，它在处理缺失值和大规模数据集上也有很好的表现。XGBoost是一种基于梯度提升决策树（GBDT）的算
深入理解XGBoost：集成学习与堆叠模型 Echo_Wish Python 笔记 Python算法集成学习机器学习人工智能
导言XGBoost是一种强大的集成学习算法，但在解决复杂问题时，单个模型可能无法达到最佳性能。集成学习和堆叠模型是两种有效的方法，可以进一步提高模型的性能。本教程将深入探讨如何在Python中应用集成学习和堆叠模型，使用代码示例详细说明这些概念。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipinstallxgboost集成学习集成
掌握XGBoost：特征工程与数据预处理 Echo_Wish Python算法 Python 笔记机器学习 python 人工智能
掌握XGBoost：特征工程与数据预处理导言在应用XGBoost模型之前，特征工程和数据预处理是至关重要的步骤。良好的特征工程和数据预处理可以显著提高模型的性能。本教程将介绍在Python中使用XGBoost进行特征工程和数据预处理的中级教程，通过代码示例详细说明各种技术和方法。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipins
机器学习 | 深入集成学习的精髓及实战技巧挑战亦世凡华、 #机器学习机器学习集成学习人工智能 boosting xgboost
目录xgboost算法简介泰坦尼克号乘客生存预测(实操)lightGBM算法简介《绝地求生》玩家排名预测(实操)xgboost算法简介XGBoost全名叫极端梯度提升树，XGBoost是集成学习方法的王牌，在Kaggle数据挖掘比赛中，大部分获胜者用了XGBoost。XGBoost在绝大多数的回归和分类问题上表现的十分顶尖，接下来将较详细的介绍XGBoost的算法原理。最优模型构建方法：构建最优模
探索XGBoost：参数调优与模型解释 Echo_Wish Python 笔记 Python算法 python 算法开发语言分布式
导言XGBoost是一种高效的机器学习算法，广泛应用于数据科学和机器学习任务中。本教程将介绍XGBoost的中级用法，重点关注参数调优和模型解释。我们将使用代码示例来说明这些概念，帮助您更好地理解和应用XGBoost。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipinstallxgboost参数调优XGBoost有许多参数可以调整
称霸kaggle的XGBoost究竟是啥？猴小白
一、前言：kaggle神器XGBoost相信入了机器学习这扇门的小伙伴们一定听过XGBoost这个名字，这个看起来朴实无华的boosting算法近年来可算是炙手可热，别的不说，但是大家所熟知的kaggle比赛来看，说XGBoost是“一统天下”都不为过。业界将其冠名“机器学习竞赛的胜利女神”，当然，相信很多小伙伴也看过很多文章称其为“超级女王”。那么问题来了，为啥是女的？（滑稽~）XGBoost全
推荐收藏 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结 Pysamlam
作者：ChrisCaohttps://zhuanlan.zhihu.com/p/75468124一.决策树决策树是一个有监督分类模型，本质是选择一个最大信息增益的特征值进行分割，直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图：根据分割指标和分割方法，可分为：ID3、C4.5、CART算法。1.ID3算法：以信息增益为准则来选择最优划分属性信息增益的计算是基于信息熵（度量样本集合纯
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他