Datawhale

一文详尽系列之CatBoost

点击上方“Datawhale”，选择“星标”公众号

第一时间获取价值内容

CatBoost

CatBoost是俄罗斯的搜索巨头Y andex在2017年开源的机器学习库，也是Boosting族算法的一种，同前面介绍过的XGBoost和LightGBM类似，依然是在GBDT算法框架下的一种改进实现，是一种基于对称决策树（oblivious trees）算法的参数少、支持类别型变量和高准确性的GBDT框架，主要说解决的痛点是高效合理地处理类别型特征，这个从它的名字就可以看得出来，CatBoost是由catgorical和boost组成，另外是处理梯度偏差（Gradient bias）以及预测偏移（Prediction shift）问题，提高算法的准确性和泛化能力。集成学习 CatBoost主要有以下五个特性：

无需调参即可获得较高的模型质量，采用默认参数就可以获得非常好的结果，减少在调参上面花的时间
支持类别型变量，无需对非数值型特征进行预处理
快速、可扩展的GPU版本，可以用基于GPU的梯度提升算法实现来训练你的模型，支持多卡并行
提高准确性，提出一种全新的梯度提升机制来构建模型以减少过拟合
快速预测，即便应对延时非常苛刻的任务也能够快速高效部署模型

CatBoost的主要算法原理可以参照以下两篇论文：

Anna Veronika Dorogush, Andrey Gulin, Gleb Gusev, Nikita Kazeev, Liudmila Ostroumova Prokhorenkova, Aleksandr Vorobev "Fighting biases with dynamic boosting". arXiv:1706.09516, 2017
Anna Veronika Dorogush, Vasily Ershov, Andrey Gulin "CatBoost: gradient boosting with categorical features support". Workshop on ML Systems at NIPS 2017

Categorical features

所谓类别型变量（Categorical features）是指其值是离散的集合且相互比较并无意义的变量，比如用户的ID、产品ID、颜色等。因此，这些变量无法在二叉决策树当中直接使用。常规的做法是将这些类别变量通过预处理的方式转化成数值型变量再喂给模型，比如用一个或者若干个数值来代表一个类别型特征。目前广泛用于低势（一个有限集的元素个数是一个自然数）类别特征的处理方法是 One-hot encoding ：将原来的特征删除，然后对于每一个类别加一个0/1的用来指示是否含有该类别的数值型特征。 One-hot encoding 可以在数据预处理时完成，也可以在模型训练的时候完成，从训练时间的角度，后一种方法的实现更为高效，CatBoost对于低势类别特征也是采用后一种实现。显然，在高势特征当中，比如 user ID ，这种编码方式会产生大量新的特征，造成维度灾难。一种折中的办法是可以将类别分组成有限个的群体再进行 One-hot encoding 。一种常被使用的方法是根据目标变量统计（Target Statistics，以下简称TS）进行分组，目标变量统计用于估算每个类别的目标变量期望值。甚至有人直接用TS作为一个新的数值型变量来代替原来的类别型变量。重要的是，可以通过对TS数值型特征的阈值设置，基于对数损失、基尼系数或者均方差，得到一个对于训练集而言将类别一分为二的所有可能划分当中最优的那个。在LightGBM当中，类别型特征用每一步梯度提升时的梯度统计（Gradient Statistics，以下简称GS）来表示。虽然为建树提供了重要的信息，但是这种方法有以下两个缺点：

增加计算时间，因为需要对每一个类别型特征，在迭代的每一步，都需要对GS进行计算；
增加存储需求，对于一个类别型变量，需要存储每一次分离每个节点的类别。

为了克服这些缺点，LightGBM以损失部分信息为代价将所有的长尾类别归位一类，作者声称这样处理高势特征时比起 One-hot encoding 还是好不少。不过如果采用TS特征，那么对于每个类别只需要计算和存储一个数字。如此看到，采用TS作为一个新的数值型特征是最有效、信息损失最小的处理类别型特征的方法。 TS也被广泛采用，在点击预测任务当中，这个场景当中的类别特征有用户、地区、广告、广告发布者等。接下来我们着重讨论TS，暂时将 One-hot encoding 和GS放一边。 Target statistics 一个有效和高效的处理类别型特征的方式是用一个与某些TS相等的数值型变量来代替第个训练样本的类别。通常用基于类别的目标变量的期望来进行估算：。 Greedy TS 估算最直接的方式就是用训练样本当中相同类别的目标变量的平均值。显然，这样的处理方式很容易引起过拟合。举个例子，假如在整个训练集当中所有样本的类别都互不相同，即个样本有个类别，那么新产生的数值型特征的值将与目标变量的值相同。某种程度上，这是一种目标穿越（target leakage），非常容易引起过拟合。比较好的一种做法是采用一个先验概率进行平滑处理：其中是先验概率的权重，而对于先验概率，通常的做法是设置为数据集当中目标变量的平均值。不过这样的平滑处理依然无法完全避免目标穿越：特征是通过自变量的目标计算所得。这将会导致条件偏移：对于训练集和测试集，的分布会有所不同。再举个例子，假设第个特征为类别型特征，并且特征所有取值为无重复的集合，然后对于每一个类别，对于一个分类任务，我们有。然后在训练集当中，，于是用阈值就可以仅用一次分裂就训练集完美分开。但是，对于测试集，因为还无法判断此时目标变量的类别，所以这一项，最后得到的TS值为，并且得到的模型在$p 其中，是第个训练样本。在我们的例子当中，，，显然无法满足上述条件。 Holdout TS 留出TS，就是将训练集一分为二：，然后根据下式用来计算TS，并将作为训练样本。这样处理能够满足同分布的问题，但是却大大减少了训练样本的数量。 Leave-one-out TS 初看起来，留一TS（Leave-one-out TS）能够非常好地工作：

对于训练样本：
对于测试样本：

但事实上，这并没有给预防target leakage带来多少益处。举个例子，考虑一个常数类别型特征：对于所有的样本，，在二分类的条件下，让表示的样本数量，则有：

对于测试样本：

此时，同样可以用阈值将训练集完美的分类。 Ordered TS 从在线学习按照时间序列获得样本得到的启发，CatBoost依靠排序原则，采用了一种更为有效的策略。主要有以下几个步骤：

产生一个随机排列顺序并对数据集进行编号
对于训练样本：
对于测试样本：
根据带先验概率的Greedy TS计算

这样计算得到的 Ordered TS能够满足P1，同时也能够使用所有的训练样本。且比在线学习的划窗（sliding window）处理能够进一步减小的方差。需要注意的是，CatBoost在不同的迭代上会采用不同的排列顺序。下面是Ordered TS与其它各种TS在不同数据集上面在logloss/zero-one loss上面的效果比较： TS比较 特征组合 CatBoost的另外一项重要实现是将不同类别型特征的组合作为新的特征，以获得高阶依赖（high-order dependencies），比如在广告点击预测当中用户ID与广告话题之间的联合信息，又或者在音乐推荐引用当中，用户ID和音乐流派，如果有些用户更喜欢摇滚乐，那么将用户ID和音乐流派分别转换为数字特征时，这种用户内在的喜好信息就会丢失。然而，组合的数量会随着数据集中类别型特征的数量成指数增长，因此在算法中考虑所有组合是不现实的。为当前树构造新的分割点时，CatBoost会采用贪婪的策略考虑组合。对于树的第一次分割，不考虑任何组合。对于下一个分割，CatBoost将当前树的所有组合、类别型特征与数据集中的所有类别型特征相结合，并将新的组合类别型特征动态地转换为数值型特征。 CatBoost还通过以下方式生成数值型特征和类别型特征的组合：树中选定的所有分割点都被视为具有两个值的类别型特征，并像类别型特征一样地被进行组合考虑。

Gradient bias

CatBoost，和所有标准梯度提升算法一样，都是通过构建新树来拟合当前模型的梯度。然而，所有经典的提升算法都存在由有偏的点态梯度估计引起的过拟合问题。在每个步骤中使用的梯度都使用当前模型中的相同的数据点来估计，这导致估计梯度在特征空间的任何域中的分布与该域中梯度的真实分布相比发生了偏移，从而导致过拟合。为了解决这个问题，CatBoost对经典的梯度提升算法进行了一些改进，简要介绍如下：在许多利用GBDT框架的算法（例如，XGBoost、LightGBM）中，构建下一棵树分为两个阶段：选择树结构和在树结构固定后计算叶子节点的值。为了选择最佳的树结构，算法通过枚举不同的分割，用这些分割构建树，对得到的叶子节点中计算值，然后对得到的树计算评分，最后选择最佳的分割。两个阶段叶子节点的值都是被当做梯度或牛顿步长的近似值来计算。在CatBoost中，第二阶段使用传统的GBDT框架执行，第一阶段使用修改后的版本。既然原来的梯度估计是有偏的，那么能不能改成无偏估计呢？设为构建棵树后的模型，为构建棵树后第个训练样本上面的梯度值。为了使得无偏于模型，我们需要在没有参与的情况下对模型进行训练。由于我们需要对所有训练样本计算无偏的梯度估计，乍看起来对于的训练不能使用任何样本，貌似无法实现的样子。我们运用下面这个技巧来处理这个问题：对于每一个样本，我们训练一个单独的模型，且该模型从不使用基于该样本的梯度估计进行更新。我们使用来估计上的梯度，并使用这个估计对结果树进行评分。用伪码描述如下，其中是需要优化的损失函数，是标签值，是公式计算值。 Gradient bias 值得注意的是模型的建立并没有样本的参与，并且CatBoost中所有的树的共享同样的结构。在CatBoost中，我们生成训练数据集的个随机排列。采用多个随机排列是为了增强算法的鲁棒性，这在前面的Odered TS当中对于类别型特征的处理有介绍到：针对每一个随机排列，计算得到其梯度，为了与Ordered TS保持一致，这里的排列与用于计算Ordered TS时的排列相同。我们使用不同的排列来训练不同的模型，因此不会导致过拟合。对于每个排列，我们训练个不同的模型，如上所示。这意味着为了构建一棵树，需要对每个排列存储并重新计算，其时间复杂度近似于：对于每个模型，我们必须更新。因此，时间复杂度变成。当然，在具体实现当中，CatBoost使用了其它的技巧，可以将构建一个树的时间复杂度降低到。

Prediction shift

预测偏移（Prediction shift）是由上一节所讨论的梯度偏差造成的。本节希望用数学语言严格地对预测偏差进行描述和分析。首先来看下梯度提升的整体迭代过程：

对于梯度提升：

在这个过程当中，偏移是这样发生的：

根据进行随机计算的条件分布与测试集的分布发生偏移
这样导致基学习器与产生偏差
最后影响模型的泛化能力

下面以一个回归任务为例，从理论上分析计算偏差的值。假设以下边界条件：

损失函数：
两个相互独立的特征，随机变量，符合伯努利分布，先验概率
目标函数：
梯度提升迭代次数为2
树深度为1
学习率：

最后得到的模型为：，其中分别基于和。区分数据集是否独立，我们有以下两个推论：

如果使用了规模为的两个独立数据集和来分别估算和，则对于任意，有：
如果使用了相同的数据集来估算和，则有：

显然，偏差部分与数据集的规模成反比，与映射关系也有关系，在我们的例子当中，与成正比。

Ordered boosting

为了克服上一节所描述的预测偏移问题，我们提出了一种新的叫做Ordered boosting的算法。假设用棵树来学习一个模型，为了确保无偏，需要确保模型的训练没有用到样本。由于我们需要对所有训练样本计算无偏的梯度估计，乍看起来对于的训练不能使用任何样本，貌似无法实现的样子，但是事实上可以通过一些技巧来进行克服，具体的算法在前面已经有所描述，而且是作者较新的论文当中的描述，这里不再赘述。本节主要讲讲Ordered boosting的具体实现。 Ordered boosting算法好是好，但是在大部分的实际任务当中都不具备使用价值，因为需要训练个不同的模型，大大增加的内存消耗和时间复杂度。在CatBoost当中，我们实现了一个基于GBDT框架的修改版本。前面提到过，在传统的GBDT框架当中，构建下一棵树分为两个阶段：选择树结构和在树结构固定后计算叶子节点的值。 CatBoost主要在第一阶段进行优化。 First phase 在建树的阶段，CatBoost有两种提升模式，Ordered和Plain。 Plain模式是采用内建的ordered TS对类别型特征进行转化后的标准GBDT算法。 Ordered则是对Ordered boosting算法的优化。 Ordered boosting mode 一开始，CatBoost对训练集产生个独立的随机序列。序列用来评估定义树结构的分裂，用来计算所得到的树的叶子节点的值。因为，在一个给定的序列当中，对于较短的序列，无论是TS的计算还是基于Ordered boosting的预测都会有较大的方差，所以仅仅用一个序列可能引起最终模型的方差，这里我们会有多个序列进行学习。 CatBoost采用对称树作为基学习器，对称意味着在树的同一层，其分裂标准都是相同的。对称树具有平衡、不易过拟合并能够大大减少测试时间的特点。建树的具体算法如下伪码描述。 Building a tree in CatBoost 在Ordered boosting模式的学习过程当中，我们维持一个模型，其中表示基于在序列当中的前个样本学习得到的模型对于第个样本的预测。在算法的每一次迭代，我们从当中抽样一个随机序列，并基于此构建第步的学习树。然后，基于，计算相应的梯度。接下来，我们会用余弦相似度来近似梯度，其中对于每一个样本，我们取梯度。在候选分裂评估过程当中，第个样本的叶子节点的值由与同属一个叶子的的所有样本的前个样本的梯度值求平均得到。需要注意的是，取决于选定的序列，因为会影响第个样本的Ordered TS。当树的结构确定以后，我们用它来提升所有的模型，我们需要强调下，一个相同的树结构会被用于所有的模型，但是会根据和的不同设置不同的叶子节点的值以后应用于不同的模型。 Plain boosting mode Plain boosting模式的算法与标准GBDT流程类似，但是如果出现了类别型特征，它会基于得到的TS维持个支持模型。 Second phase 当所有的树结构确定以后，最终模型的叶子节点值的计算与标准梯度提升过程类似。第个样本与叶子进行匹配，我们用来计算这里的TS。当最终模型在测试期间应用于新的样本，我们采用整个训练集来计算TS。

GPU加速

就GPU内存使用而言，CatBoost至少与LightGBM一样有效，CatBoost的GPU实现可支持多个GPU，分布式树学习可以通过样本或特征进行并行化。

sklearn参数

sklearn 本身的文档当中并没有CatBoost的描述， CatBoost python-reference_parameters-list 上面看到主要参数如下：

iterations : 迭代次数，解决机器学习问题能够构建的最大树的数目，default=1000
learning_rate : 学习率，default=0.03
depth : 树的深度，default=6
l2_leaf_reg : 正则化数，default=3.0
model_size_reg :模型大小正则化系数，数值越到，模型越小，仅在有类别型变量的时候起作用，取值范围从0到，GPU计算时不可用， default=None
rsm : =None,
loss_function : 损失函数，字符串 (分类任务，default= Logloss ，回归任务，default= RMSE )
border_count : 数值型变量的分箱个数
- CPU： 1～65535的整数，default=254
- GPU： 1～255的整数，default=128
feature_border_type : 数值型变量分箱个数的初始量化模式，default=GreedyLogSum
- Median
- Uniform
- UniformAndQuantiles
- MaxLogSum
- MinEntropy
- GreedyLogSum
per_float_feature_quantization : 指定特定特征的分箱个数，default=None,
input_borders =None,
output_borders =None,
fold_permutation_block : 对数据集进行随机排列之前分组的block大小，default=1
od_pval : 过拟合检测阈值，数值越大，越早检测到过拟合，default=0
od_wait : 达成优化目标以后继续迭代的次数，default=20
od_type : 过拟合检测类型，default=IncToDec
- IncToDec
- Iter
nan_mode : 缺失值的预处理方法，字符串类型，default=Min
- Forbidden : 不支持缺失值
- Min : 缺失值赋值为最小值
- Max : 缺失值赋值为最大值
counter_calc_method : 计算Counter CTR类型的方法，default=None
leaf_estimation_iterations : 计算叶子节点值时候的迭代次数，default=None,
leaf_estimation_method : 计算叶子节点值的方法，default=Gradient
- Newton
- Gradient
thread_count : 训练期间的进程数，default=-1，进程数与部件的核心数相同
random_seed : 随机数种子，default=0
use_best_model : 如果有设置 eval_set 设置了验证集的话可以设为True，否则为False
verbose : 是否显示详细信息，default=1
logging_level : 打印的日志级别，default=None
metric_period : 计算优化评估值的频率，default=1
ctr_leaf_count_limit : 类别型特征最大叶子数，default=None
store_all_simple_ctr : 是否忽略类别型特征，default=False
max_ctr_complexity : 最大特征组合数，default=4
has_time : 是否采用输入数据的顺序，default=False
allow_const_label : 使用它为所有对象用具有相同标签值的数据集训练模型，default=None
classes_count : 多分类当中类别数目上限，defalut=None
class_weights : 类别权重，default=None
one_hot_max_size : one-hot编码最大规模，默认值根据数据和训练环境的不同而不同
random_strength : 树结构确定以后为分裂点进行打分的时候的随机强度，default=1
name : 在可视化工具当中需要显示的实验名字
ignored_features : 在训练当中需要排除的特征名称或者索引，default=None
train_dir : 训练过程当中文件保存的目录
custom_loss : 用户自定义的损失函数
custom_metric : 自定义训练过程当中输出的评估指标，default=None
eval_metric : 过拟合检测或者最优模型选择的评估指标
- loss-functions
bagging_temperature : 贝叶斯bootstrap强度设置，default=1
save_snapshot : 训练中断情况下保存快照文件
snapshot_file : 训练过程信息保存的文件名字
snapshot_interval : 快照保存间隔时间，单位秒
fold_len_multiplier : 改变fold长度的系数，default=2
used_ram_limit : 类别型特征使用内存限制，default=None
gpu_ram_part : GPU内存使用率，default=0.95
allow_writing_files : 训练过程当中允许写入分析和快照文件，default=True
final_ctr_computation_mode : Final CTR计算模式
approx_on_full_history : 计算近似值的原则，default=False
boosting_type : 提升模式
- Ordered
- Plain
simple_ctr : 单一类别型特征的量化设置
- CtrType
- TargetBorderCount
- TargetBorderType
- CtrBorderCount
- CtrBorderType
- Prior
combinations_ctr : 组合类别型特征的量化设置
- CtrType
- TargetBorderCount
- TargetBorderType
- CtrBorderCount
- CtrBorderType
- Prior
per_feature_ctr : 以上几个参数的设置具体可以细看下面的文档
- Categorical features
task_type : 任务类型，CPU或者GPU，default=CPU
device_config : =None
devices : 用来训练的GPU设备号，default=NULL
bootstrap_type : 自采样类型，default=Bayesian
- Bayesian
- Bernoulli
- MVS
- Poisson
- No
subsample : bagging的采样率，default=0.66
sampling_unit : 采样模式，default=Object
- Object
- Group
dev_score_calc_obj_block_size : =None,
max_depth : 树的最大深度
n_estimators : 迭代次数
num_boost_round : 迭代轮数
num_trees : 树的数目
colsample_bylevel : 按层抽样比例，default=None
random_state : 随机数状态
reg_lambda : 损失函数范数，default=3.0
objective : =同损失函数
eta : 学习率
max_bin : =同 border_coucnt
scale_pos_weight : 二分类任务当中1类的权重，default=1.0
gpu_cat_features_storage : GPU训练时类别型特征的存储方式，default=GpuRam
- CpuPinnedMemory
- GpuRam
data_partition : 分布式训练时数据划分方法
- 特征并行
- 样本并行
metadata : =None
early_stopping_rounds : 早停轮次，default=False
cat_features : =指定类别型特征的名称或者索引
grow_policy : 树的生长策略
min_data_in_leaf : 叶子节点最小样本数，default=1
min_child_samples : 叶子节点最小样本数，default=1
max_leaves : 最大叶子数，default=31
num_leaves : 叶子数
score_function : 建树过程当中的打分函数
leaf_estimation_backtracking : 梯度下降时回溯类型
ctr_history_unit : =None
monotone_constraints : =None

如果有遗漏，具体可以参阅 CatBoost python-reference_parameters-list 区分具体的机器学习任务有： CatBoostClassifier CatBoostClassifier


     
       
        
      class CatBoostClassifier(iterations=None,
     
       
     
       
        
                               learning_rate=None,
     
       
     
       
        
                               depth=None,
     
       
     
       
        
                               l2_leaf_reg=None,
     
       
     
       
        
                               model_size_reg=None,
     
       
     
       
        
                               rsm=None,
     
       
     
       
        
                               loss_function=None,
     
       
     
       
        
                               border_count=None,
     
       
     
       
        
                               feature_border_type=None,
     
       
     
       
        
                               per_float_feature_quantization=None,                         
     
       
     
       
        
                               input_borders=None,
     
       
     
       
        
                               output_borders=None,
     
       
     
       
        
                               fold_permutation_block=None,
     
       
     
       
        
                               od_pval=None,
     
       
     
       
        
                               od_wait=None,
     
       
     
       
        
                               od_type=None,
     
       
     
       
        
                               nan_mode=None,
     
       
     
       
        
                               counter_calc_method=None,
     
       
     
       
        
                               leaf_estimation_iterations=None,
     
       
     
       
        
                               leaf_estimation_method=None,
     
       
     
       
        
                               thread_count=None,
     
       
     
       
        
                               random_seed=None,
     
       
     
       
        
                               use_best_model=None,
     
       
     
       
        
                               verbose=None,
     
       
     
       
        
                               logging_level=None,
     
       
     
       
        
                               metric_period=None,
     
       
     
       
        
                               ctr_leaf_count_limit=None,
     
       
     
       
        
                               store_all_simple_ctr=None,
     
       
     
       
        
                               max_ctr_complexity=None,
     
       
     
       
        
                               has_time=None,
     
       
     
       
        
                               allow_const_label=None,
     
       
     
       
        
                               classes_count=None,
     
       
     
       
        
                               class_weights=None,
     
       
     
       
        
                               one_hot_max_size=None,
     
       
     
       
        
                               random_strength=None,
     
       
     
       
        
                               name=None,
     
       
     
       
        
                               ignored_features=None,
     
       
     
       
        
                               train_dir=None,
     
       
     
       
        
                               custom_loss=None,
     
       
     
       
        
                               custom_metric=None,
     
       
     
       
        
                               eval_metric=None,
     
       
     
       
        
                               bagging_temperature=None,
     
       
     
       
        
                               save_snapshot=None,
     
       
     
       
        
                               snapshot_file=None,
     
       
     
       
        
                               snapshot_interval=None,
     
       
     
       
        
                               fold_len_multiplier=None,
     
       
     
       
        
                               used_ram_limit=None,
     
       
     
       
        
                               gpu_ram_part=None,
     
       
     
       
        
                               allow_writing_files=None,
     
       
     
       
        
                               final_ctr_computation_mode=None,
     
       
     
       
        
                               approx_on_full_history=None,
     
       
     
       
        
                               boosting_type=None,
     
       
     
       
        
                               simple_ctr=None,
     
       
     
       
        
                               combinations_ctr=None,
     
       
     
       
        
                               per_feature_ctr=None,
     
       
     
       
        
                               task_type=None,
     
       
     
       
        
                               device_config=None,
     
       
     
       
        
                               devices=None,
     
       
     
       
        
                               bootstrap_type=None,
     
       
     
       
        
                               subsample=None,
     
       
     
       
        
                               sampling_unit=None,
     
       
     
       
        
                               dev_score_calc_obj_block_size=None,
     
       
     
       
        
                               max_depth=None,
     
       
     
       
        
                               n_estimators=None,
     
       
     
       
        
                               num_boost_round=None,
     
       
     
       
        
                               num_trees=None,
     
       
     
       
        
                               colsample_bylevel=None,
     
       
     
       
        
                               random_state=None,
     
       
     
       
        
                               reg_lambda=None,
     
       
     
       
        
                               objective=None,
     
       
     
       
        
                               eta=None,
     
       
     
       
        
                               max_bin=None,
     
       
     
       
        
                               scale_pos_weight=None,
     
       
     
       
        
                               gpu_cat_features_storage=None,
     
       
     
       
        
                               data_partition=None
     
       
     
       
        
                               metadata=None, 
     
       
     
       
        
                               early_stopping_rounds=None,
     
       
     
       
        
                               cat_features=None, 
     
       
     
       
        
                               grow_policy=None,
     
       
     
       
        
                               min_data_in_leaf=None,
     
       
     
       
        
                               min_child_samples=None,
     
       
     
       
        
                               max_leaves=None,
     
       
     
       
        
                               num_leaves=None,
     
       
     
       
        
                               score_function=None,
     
       
     
       
        
                               leaf_estimation_backtracking=None,
     
       
     
       
        
                               ctr_history_unit=None,
     
       
     
       
        
                               monotone_constraints=None)
     
       br

CatBoostRegressor CatBoostRegressor


     
       
        
      class CatBoostRegressor(iterations=None,
     
       
     
       
        
                              learning_rate=None,
     
       
     
       
        
                              depth=None,
     
       
     
       
        
                              l2_leaf_reg=None,
     
       
     
       
        
                              model_size_reg=None,
     
       
     
       
        
                              rsm=None,
     
       
     
       
        
                              loss_function='RMSE',
     
       
     
       
        
                              border_count=None,
     
       
     
       
        
                              feature_border_type=None,
     
       
     
       
        
                              per_float_feature_quantization=None,
     
       
     
       
        
                              input_borders=None,
     
       
     
       
        
                              output_borders=None,
     
       
     
       
        
                              fold_permutation_block=None,
     
       
     
       
        
                              od_pval=None,
     
       
     
       
        
                              od_wait=None,
     
       
     
       
        
                              od_type=None,
     
       
     
       
        
                              nan_mode=None,
     
       
     
       
        
                              counter_calc_method=None,
     
       
     
       
        
                              leaf_estimation_iterations=None,
     
       
     
       
        
                              leaf_estimation_method=None,
     
       
     
       
        
                              thread_count=None,
     
       
     
       
        
                              random_seed=None,
     
       
     
       
        
                              use_best_model=None,
     
       
     
       
        
                              best_model_min_trees=None,
     
       
     
       
        
                              verbose=None,
     
       
     
       
        
                              silent=None,
     
       
     
       
        
                              logging_level=None,
     
       
     
       
        
                              metric_period=None,
     
       
     
       
        
                              ctr_leaf_count_limit=None,
     
       
     
       
        
                              store_all_simple_ctr=None,
     
       
     
       
        
                              max_ctr_complexity=None,
     
       
     
       
        
                              has_time=None,
     
       
     
       
        
                              allow_const_label=None,
     
       
     
       
        
                              one_hot_max_size=None,
     
       
     
       
        
                              random_strength=None,
     
       
     
       
        
                              name=None,
     
       
     
       
        
                              ignored_features=None,
     
       
     
       
        
                              train_dir=None,
     
       
     
       
        
                              custom_metric=None,
     
       
     
       
        
                              eval_metric=None,
     
       
     
       
        
                              bagging_temperature=None,
     
       
     
       
        
                              save_snapshot=None,
     
       
     
       
        
                              snapshot_file=None,
     
       
     
       
        
                              snapshot_interval=None,
     
       
     
       
        
                              fold_len_multiplier=None,
     
       
     
       
        
                              used_ram_limit=None,
     
       
     
       
        
                              gpu_ram_part=None,
     
       
     
       
        
                              pinned_memory_size=None,
     
       
     
       
        
                              allow_writing_files=None,
     
       
     
       
        
                              final_ctr_computation_mode=None,
     
       
     
       
        
                              approx_on_full_history=None,
     
       
     
       
        
                              boosting_type=None,
     
       
     
       
        
                              simple_ctr=None,
     
       
     
       
        
                              combinations_ctr=None,
     
       
     
       
        
                              per_feature_ctr=None,
     
       
     
       
        
                              ctr_target_border_count=None,
     
       
     
       
        
                              task_type=None,
     
       
     
       
        
                              device_config=None,                        
     
       
     
       
        
                              devices=None,
     
       
     
       
        
                              bootstrap_type=None,
     
       
     
       
        
                              subsample=None,                        
     
       
     
       
        
                              sampling_unit=None,
     
       
     
       
        
                              dev_score_calc_obj_block_size=None,
     
       
     
       
        
                              max_depth=None,
     
       
     
       
        
                              n_estimators=None,
     
       
     
       
        
                              num_boost_round=None,
     
       
     
       
        
                              num_trees=None,
     
       
     
       
        
                              colsample_bylevel=None,
     
       
     
       
        
                              random_state=None,
     
       
     
       
        
                              reg_lambda=None,
     
       
     
       
        
                              objective=None,
     
       
     
       
        
                              eta=None,
     
       
     
       
        
                              max_bin=None,
     
       
     
       
        
                              gpu_cat_features_storage=None,
     
       
     
       
        
                              data_partition=None,
     
       
     
       
        
                              metadata=None,
     
       
     
       
        
                              early_stopping_rounds=None,
     
       
     
       
        
                              cat_features=None,
     
       
     
       
        
                              grow_policy=None,
     
       
     
       
        
                              min_data_in_leaf=None,
     
       
     
       
        
                              min_child_samples=None,
     
       
     
       
        
                              max_leaves=None,
     
       
     
       
        
                              num_leaves=None,
     
       
     
       
        
                              score_function=None,
     
       
     
       
        
                              leaf_estimation_backtracking=None,
     
       
     
       
        
                              ctr_history_unit=None,
     
       
     
       
        
                              monotone_constraints=None)
     
       br

应用场景

作为GBDT框架内的算法，GBDT、XGBoost、LightGBM能够应用的场景CatBoost也都适用，并且在处理类别型特征具备独有的优势，比如广告推荐领域。

优缺点

优点

能够处理类别特征
能够有效防止过拟合
模型训练精度高
调参时间相对较多

缺点

对于类别特征的处理需要大量的内存和时间
不同随机数的设定对于模型预测结果有一定的影响

参考

https://book.douban.com/subject/26708119/
https://book.douban.com/subject/33437381/
https://catboost.ai/
https://github.com/catboost/catboost
https://papers.nips.cc/paper/7898-catboost-unbiased-boosting-with-categorical-features.pdf
http://learningsys.org/nips17/assets/papers/paper_11.pdf
https://catboost.ai/docs/concepts/python-reference_parameters-list.html

你可能感兴趣的:(一文详尽系列之CatBoost)

学习卡卡002
今天很认真地听直播，带着好奇心，推开致良知，成圣成贤的大门。今天主要是两三个主题。第一是解释什么是致良知，成圣成贤。阳明心学是王守仁提出的。在我们的观念中，成圣成贤是多么的似乎可望不可及，非常的高大。但是，通过老师的解释，有所顿悟，首先，我们要立志——立圣贤之志。志不立，天下无可成之事，有志者，事竟成。如果一个人连立志的勇气都没有，如何谈致良知这件事。圣贤很抽象，非要说与圣贤最接近的，那就是诚信。
佛法知识 cd9208e767fb
世界当代住世佛陀亲说《世法哲言》（十一）【正知正见真理真谛】欲速则不达，行慢而失获，事理如是观，正住中道参，琴弦之懈弗出和雅之音，反之过紧则易于折。不管你做什麽事，如果不切合实际，过于太急、太快，往往不能成功，因为它不符合客观事物的逻辑、法度。如果速度太慢，往往又错失良机，达不到自己的目的。所以行慢而失获。凡是世间上的一切事理，都应该注意这两个正反不同的关键。那麽，怎样做才对呢？这就要认真研究分析
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
龙岩亲字鉴定在哪里检查(附2024年最新亲子鉴定办理流程) 成之嘉_基因检测
2024年龙岩最新亲子鉴定收费标准：个人隐私亲子鉴定收费标准：￥2000-￥2400，常见用途：怀疑孩子的父亲身份，想私下偷偷检测；无创胎儿亲子鉴定收费标准：￥4500-￥5000，常见用途：孩子未出世，怀疑胎儿的父亲身份，想思想偷偷检测；司法亲子鉴定收费标准：￥2400-￥3600，常见用途：上户口、移民；成之嘉亲子鉴定优势1、全程匿名2、快速出结果3、检测更精准口号：每一次检测都是一份责任孕期
单源最短路之dijkstra 「維他檸檬茶」算法最短路
迪杰斯特拉算法主要用于解决单源最短路问题，主要有两种，朴素版和堆优化版，数据量较大时用堆优化版。迪杰斯特拉朴素版：#include#includeusingnamespacestd;#defineintlonglong//可能会超时#definePIIpairconstintINF=0x3f3f3f3f,mod=998244353;constintN=505;intn,m;intg[N][N],m
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
[数据结构]#4 用链表实现的栈结构 Marvinem13 数据结构链表学习 linux
使用链表来实现栈是一种比较常见的做法，它能够有效利用链表的动态特性来支持栈的一些基本操作，例如：1.Push（入栈）：向栈中添加一个元素。2.Pop（出栈）：从栈中移除顶部的元素。3.Peek/Top（查看栈顶元素）：返回栈顶元素但不将其移除。4.IsEmpty（判断栈是否为空）：检查栈中是否有元素。我们再来回忆一下链表，它由一系列节点组成，每个节点包含两部分：数据域和指针域（指向下一个节点）。对
今天，终于出了太阳！琴序
最爱冬日，一人窗边，捧书而坐，浴在暖和阳光下，安静平和，连时光也不禁驻足。自然而然吟出那句“偷得浮生半日闲”，想必李涉当时也是“闲”在了这醉人阳光中，才作出惹得无数后人共鸣的佳句吧！阳光不是一成不变的。细细观察，傍晚的阳光最为华美，是深邃的金黄，透过窗流进屋，给屋中陈设也镀上亮色，随带一种岁月的沧桑和静谧之美。正午的阳光生机勃勃，是鲜亮的橙黄，似成熟的麦古般健康的色彩，活泼地钻进每一丝空隙，带有一
2023-11-03 孙土焱
摸鱼儿（应荷花题）涨琉璃，湖波归棹，仙葩琼蕊生弃。轩兰榭柳颦深岸，偏又饱含情意。夕照晚，霞彩透层峦，染水天无际。鸳鸯骤起，竟回首荷陂，粉颐绿帔，似脉脉悲泣。游船远，锦苑烟林久睇。蹉跎年月飞逝。芳踪重觅红颜老，青草半芜花地。山雾细，噙热泪，香魂何处成秋碧?肢残垢腻，默默也归程，情怀滋味，全不似昔日！--新韵，录之拙作《孙土焱詩词散集》。此书耐品耐读，情文并茂。销售已接近尾声，仅京东、当当网店有销售。
“为政以德”的教育苗宝_051b
子曰：“为政以德，譬如北辰，居其所而众星拱之。”意思是以道德原则来治理国家，就像北极星一样，在他自己的位置上待着，其他所有星辰都会围绕着它来转。之前有听过关于简单体系和复杂体系的概念。简单体系一般是指一个机械体系，如制造飞机，火箭等等。对于简单体系，你只要盯住每一个环节，对每个环节不断的精进，不断的纠错，那么就可以把这个体系打造到最好。而复杂体系有一个很大的特点，就是一旦这个体系出现了问题，你很难
一文搞懂 Smali 与 Baksmali：Java 层逆向必备技能 CYRUS STUDIO java 开发语言逆向 android smali baksmali
版权归作者所有，如有转发，请注明文章出处：https://cyrus-studio.github.io/blog/smali与baksmalismali和baksmali是用于Android平台中DEX文件的汇编器和反汇编器，广泛应用于Android逆向分析与调试。smali和baksmali是一对工具，分别用于：smali：将smali代码（Java汇编语言）编译成DEX文件。baksmali：
Python 列表
列表是由一系列按特定顺序排列的元素组成。在python中用方括号（[]）来表示列表并用逗号来分隔其中的元素。例如：bicycles=['trek','cannondale','redline']。访问列表元素时，只需将该元素的索引值或位置告诉Python即可。（索引值由0开始）>>>names=['zhao','qian','sun','li']>>>print(names[0])zhao创建的大
《都市不俗人》：之460 各有各法，各马各扎，实践才能出真知；各师各教，各施各技，实际方能得正果古韵撷趣
上篇说到，曾明来到来凤村山庄建设工地，和承建者曹思汉在工棚里，又做了一次深入的沟通，双方均表现了十足的诚意，和对未来合作的信心。曹思汉听完曾明的简单畅述后，很高兴地说：曾先生，感谢你和赵先生的认可。能认识你们，能承建刘（长河）夏（天青）二老设计的建筑，我曹思汉和我曹家村这般兄弟，何其幸运啊！曾明谦虚地说：我和我兄弟算不的什么，但二老退休后，心有所属，早就不问“世事”，一心只设计自己心仪的建筑，这都
假期的变化杨小芹
假期，实在是一个很美好的字眼。上班之初，看到假期二字，脑海中不禁浮现出：蔚蓝的天空，金黄的沙滩上，插着一把太阳伞，游人躺在沙滩椅上，吹着海风，喝着饮料，好不惬意。这是我想象中的假期，我的假期生活与之相差十万八千里，丝毫不影响我对假期的热爱。放假，我基本上啥也不干，帮二姐姐（二姐家种大棚，一年到头没有闲着的时候）带带孩子，给二姐家帮忙，是假期的主旋律。后来自己有了孩子，就陪着自己的孩子玩耍。基本上不
解锁发动机潜能：深入解析现代宽域空燃比测量技术 Triv2025 高性能调校必备工具 ECU调校空燃比工具涡轮增压空燃比优化赛车发动机空燃比监测高分辨率AFR传感器
在追求极致动力与效率的发动机调校领域，精准的空燃比（AFR）数据是解锁性能潜力的核心密码。AFR500系列空燃比监测仪自问世以来，凭借其革命性的宽域测量技术，已成为改装发烧友和专业调校师不可或缺的利器。而全新的AFR500v2版本，则在性能、兼容性和应用广度上实现了全面飞跃。一、宽域测量核心价值在于其提供了真正的宽域空燃比测量能力：测量范围：标准范围覆盖9.0:1至16.0:1(0.62-1.1λ
为什么中药能治病？核心原理是什么？ 4bf825984a00
一、为什么中药能治病？中医用来治病的药物是中药，而中药大多取自于天然的植物、动物、矿物，其中尤以植物为多，所以在古代，中药也被称为“本草”。相传，中药的发现和运用，都来自起源于神农氏，自古民间有“神农尝百草”的传说。为什么草根树皮能够治疗人的疾病，中药能治病到底是什么原因呢？人得天地之全性，草木得天地之偏性。中医认为，人和万物都得天地一气而生，但人得天地之全性，草木得天地之偏性，人得病就是人体气机
Linux设备驱动之SPI驱动关于电机的一切 linux 驱动开发 arm开发
Linux下SPI驱动分成两部分：主机驱动和设备驱动。主机驱动：主机侧SPI控制器使用structspi_master描述，该结构体中包含了SPI控制器的序号（很多SoC中存在多个SPI控制器），片选数量，SPI信息传输的速率，配置SPI模式的函数指针（4种模式），实现数据传输的函数指针。structspi_master{structdevicedev;structlist_headlist;s1
从比特币到DeFi：区块链如何重塑未来社会 L星际节点指挥官区块链开发 dapp 公链开发区块链分布式账本零知识证明智能合约 web3 共识算法
引言：数字时代的信任之问在信息爆炸的数字时代，信任成为稀缺资源。从网络诈骗到数据泄露，从虚假新闻到平台垄断，传统中心化系统的脆弱性暴露无遗。当人们为支付安全焦虑、为隐私泄露愤怒、为信息真实性迷茫时，一种名为“区块链”的技术悄然崛起。它以去中心化的结构、不可篡改的账本和智能合约的自动执行，重新定义了信任的规则。区块链不仅是技术革命，更是对人类社会协作模式的深度重构。一、区块链的创世密码1.应运而生的
数据仓库是什么，一文读懂数据仓库设计步骤 Leo.yuan 数据数据仓库大数据人工智能数据库信息可视化
目录一、数据仓库：干啥用的？1.数据仓库是啥？2.数据仓库有啥大用？二、设计之前：准备啥？1.搞清楚业务要啥2.摸清数据家底3.划好仓库边界三、概念设计：搭框架1.定好主题域2.分清维度和事实3.画出概念模型四、逻辑设计：定细节1.设计维度表和事实表2.想好怎么存数据3.定好安全规矩五、物理设计：落地实施1.选好数据库软件2.优化数据库性能3.部署上线六、实施与测试：跑起来1.ETL：灌数据2.全
2023-03-21 我_4b6f
保定影像之街道（一一四三）2019年1月25日，星期五。农历戊戌年乙丑月壬戌日（狗年）十二月（腊月）二十。河北省保定市：阳光大街。保定市，古称清苑、上谷、保州、保府。因城池似靴，又称靴城。保定与北京相伴而生，保定之名取自“保卫大都、安定天下”之意。阳光大街，南北街道。原名韩村路，因韩村而得名。2003年5月21日，国务院办公厅批准修订后的《保定市城市总体规划(2001至2020年)》，规范道路命名
《论语》为政篇之2.3[刑与德]14 蜻蜓之旅
【原文】子曰：“道之以政，齐之以刑，民免而无耻。道之以德，齐之以礼，有耻且格。”【白话】孔子说：“以政令来教导，以刑罚来管束，百姓免于罪过但是不知道羞耻。以德行来教化，以礼制来约束，百姓知道羞耻，还能走上正途。”对百姓进行教育和规范。第一是德与礼，第二是政与刑。德与礼“道之以德”，用德行来引导，百姓看到上位者有德行，自然就跟着走。古代讲德，代表为政者照顾百姓，百姓都喜欢政治领袖有德行。因为这对百姓
重生之将门毒后｜谢景行 89b491201ff0
高山仰止，景行行止。谢景行之于沈妙，到底是怎么样的存在呢？救赎？我觉得有些像。两世情缘，谢景行一直都是运筹帷幄的，唯独看不透沈妙，可谢景行最让我心动之处，也就在于他明知沈妙不一般，却从不深究，给她足够的自由空间，放任他的沈娇娇做自己想做的事，而谢景行则为她铺路，在背后收拾摊子，从不邀功。颠个皇权罢了，你想要，都归你。谢景行有些霸道，却丝毫不油腻，在沈妙面前永远是个少年，意气风发，带着些挑衅意味。十
Python 处理图像并生成 JSONL 元数据文件 - 固定text版本
Python处理图像并生成JSONL元数据文件-固定text版本flyfishJSONL（JSONLines）简介JSONL（JSONLines，也称为newline-delimitedJSON）是一种轻量级的数据序列化格式，由一系列独立的JSON对象组成，每行一个有效的JSON对象，行与行之间通过换行符（\n）分隔。JSONL是传统JSON的“轻量化”变体，通过“每行一个JSON对象”的设计，解
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
postgresql之语法解析浅析 happytree001 pg postgresql
一、pg语法简介1.1语法文件结构语法.y文件和词法.l文件结构差不多，也是通过%%分成了三个部分:声明部分、语法规则部分、C代码部分。src/backend/parser/gram.y####声明部分%{C代码头文件，变量声明等（此范围内的内容原样输出到文件中）#include"postgres.h"...%}#变量声明%union{core_YYSTYPEcore_yystype;/*thes
2023-05-06 仁德上人
心中没有我我我，换来的就是清净自在安详文/仁德上人真正明心见性的菩萨，在平常生活之中会落实做到，没有事情，不会随便的找事；事情真的要来了，也不会怕事。找事与怕事都是自己心中的我我我在作怪，心中没有了我我我，没有事正好享受安详清净自在，如果该来的事情，就让事情来吧，正好利用事情来磨练自己，考验自己的内心是不是还把事情当事情，是不是为了虚幻的事再产生自我的爱憎取舍之妄心。自心不动我我我的妄心，没有谁能
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
远程连接之ssh的使用（日志监控）小朱撕码迹 ssh远程连接 linux ubuntu windows
ssh的简介ssh服务【SecureShell】：SSH为建立在应用层基础上的安全协议。SSH是较可靠，专为远程登录提供服务。解决的问题：对服务器的远程控制，远程操作。ssh服务是安全的、加密、基于S/C（服务端/客户端）的远程连接服务【运行的sshd进程会监听22号端口，提供远程登录的服务，服务的内容：远程操作服务器】OpenSSH是使用SSH协议远程登录的首选连接工具。它对所有流量进行加密，以
尚玩助手开通升级团长怎么做？升级团长收益更高吗？有何规则门槛星火执行官
尚玩助手团长招募如何参与？揭秘其背后的优势与开通条件！今年的广告赚钱项目中，尚玩助手无疑是一颗璀璨的明星。其稳定的运营和丰厚的静态收益，赢得了众多用户的喜爱。若你拥有一定的人脉资源，成为尚玩助手的团长将是明智之选。团长的身份不仅能让你的收益水涨船高，更是对你能力的肯定。快来了解团长招募的具体条件和好处，开启你的日进斗金之旅吧！一、尚玩助手APP下载:我们先扫码下载尚玩助手，这边开通团长后续会有政策
分布式之agent daisylym 人工智能 integer class string null import action
Agent的简单运用，实现卖旗子代理。这个代码实现的要求如下，这个做了很久了，突然想到，才整理出来贴出来。没法翻译，将就着看吧，看英文多了，其实觉得还不错啦。Thereisabuyerwhowantstobuyaspecificflagfromoneortwoselleragentswhoaretryingtoofferthebest(lowest)price.Youaretomodelthiss
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修