文文学霸

一文详尽解释CatBoost

CatBoost

CatBoost是俄罗斯的搜索巨头Y andex在2017年开源的机器学习库，也是Boosting族算法的一种，同前面介绍过的XGBoost和LightGBM类似，依然是在GBDT算法框架下的一种改进实现，是一种基于对称决策树（oblivious trees）算法的参数少、支持类别型变量和高准确性的GBDT框架，主要说解决的痛点是高效合理地处理类别型特征，这个从它的名字就可以看得出来，CatBoost是由catgorical和boost组成，另外是处理梯度偏差（Gradient bias）以及预测偏移（Prediction shift）问题，提高算法的准确性和泛化能力。

集成学习 CatBoost主要有以下五个特性：

无需调参即可获得较高的模型质量，采用默认参数就可以获得非常好的结果，减少在调参上面花的时间
支持类别型变量，无需对非数值型特征进行预处理
快速、可扩展的GPU版本，可以用基于GPU的梯度提升算法实现来训练你的模型，支持多卡并行
提高准确性，提出一种全新的梯度提升机制来构建模型以减少过拟合
快速预测，即便应对延时非常苛刻的任务也能够快速高效部署模型

CatBoost的主要算法原理可以参照以下两篇论文：

Anna Veronika Dorogush, Andrey Gulin, Gleb Gusev, Nikita Kazeev, Liudmila Ostroumova Prokhorenkova, Aleksandr Vorobev "Fighting biases with dynamic boosting". arXiv:1706.09516, 2017
Anna Veronika Dorogush, Vasily Ershov, Andrey Gulin "CatBoost: gradient boosting with categorical features support". Workshop on ML Systems at NIPS 2017

Categorical features

所谓类别型变量（Categorical features）是指其值是离散的集合且相互比较并无意义的变量，比如用户的ID、产品ID、颜色等。因此，这些变量无法在二叉决策树当中直接使用。常规的做法是将这些类别变量通过预处理的方式转化成数值型变量再喂给模型，比如用一个或者若干个数值来代表一个类别型特征。目前广泛用于低势（一个有限集的元素个数是一个自然数）类别特征的处理方法是 One-hot encoding ：将原来的特征删除，然后对于每一个类别加一个0/1的用来指示是否含有该类别的数值型特征。 One-hot encoding 可以在数据预处理时完成，也可以在模型训练的时候完成，从训练时间的角度，后一种方法的实现更为高效，CatBoost对于低势类别特征也是采用后一种实现。显然，在高势特征当中，比如 user ID ，这种编码方式会产生大量新的特征，造成维度灾难。一种折中的办法是可以将类别分组成有限个的群体再进行 One-hot encoding 。一种常被使用的方法是根据目标变量统计（Target Statistics，以下简称TS）进行分组，目标变量统计用于估算每个类别的目标变量期望值。甚至有人直接用TS作为一个新的数值型变量来代替原来的类别型变量。重要的是，可以通过对TS数值型特征的阈值设置，基于对数损失、基尼系数或者均方差，得到一个对于训练集而言将类别一分为二的所有可能划分当中最优的那个。在LightGBM当中，类别型特征用每一步梯度提升时的梯度统计（Gradient Statistics，以下简称GS）来表示。虽然为建树提供了重要的信息，但是这种方法有以下两个缺点：

增加计算时间，因为需要对每一个类别型特征，在迭代的每一步，都需要对GS进行计算；
增加存储需求，对于一个类别型变量，需要存储每一次分离每个节点的类别。

为了克服这些缺点，LightGBM以损失部分信息为代价将所有的长尾类别归位一类，作者声称这样处理高势特征时比起 One-hot encoding 还是好不少。不过如果采用TS特征，那么对于每个类别只需要计算和存储一个数字。如此看到，采用TS作为一个新的数值型特征是最有效、信息损失最小的处理类别型特征的方法。 TS也被广泛采用，在点击预测任务当中，这个场景当中的类别特征有用户、地区、广告、广告发布者等。接下来我们着重讨论TS，暂时将 One-hot encoding 和GS放一边。 Target statistics 一个有效和高效的处理类别型特征的方式是用一个与某些TS相等的数值型变量来代替第个训练样本的类别。通常用基于类别的目标变量的期望来进行估算：。 Greedy TS 估算最直接的方式就是用训练样本当中相同类别的目标变量的平均值。显然，这样的处理方式很容易引起过拟合。举个例子，假如在整个训练集当中所有样本的类别都互不相同，即个样本有个类别，那么新产生的数值型特征的值将与目标变量的值相同。某种程度上，这是一种目标穿越（target leakage），非常容易引起过拟合。比较好的一种做法是采用一个先验概率进行平滑处理：其中是先验概率的权重，而对于先验概率，通常的做法是设置为数据集当中目标变量的平均值。不过这样的平滑处理依然无法完全避免目标穿越：特征是通过自变量的目标计算所得。这将会导致条件偏移：对于训练集和测试集，的分布会有所不同。再举个例子，假设第个特征为类别型特征，并且特征所有取值为无重复的集合，然后对于每一个类别，对于一个分类任务，我们有。然后在训练集当中，，于是用阈值就可以仅用一次分裂就训练集完美分开。但是，对于测试集，因为还无法判断此时目标变量的类别，所以这一项，最后得到的TS值为，并且得到的模型在$p 其中，是第个训练样本。在我们的例子当中，，，显然无法满足上述条件。 Holdout TS 留出TS，就是将训练集一分为二：，然后根据下式用来计算TS，并将作为训练样本。这样处理能够满足同分布的问题，但是却大大减少了训练样本的数量。 Leave-one-out TS 初看起来，留一TS（Leave-one-out TS）能够非常好地工作：

对于训练样本：
对于测试样本：

但事实上，这并没有给预防target leakage带来多少益处。举个例子，考虑一个常数类别型特征：对于所有的样本，，在二分类的条件下，让表示的样本数量，则有：

对于测试样本：

此时，同样可以用阈值将训练集完美的分类。 Ordered TS 从在线学习按照时间序列获得样本得到的启发，CatBoost依靠排序原则，采用了一种更为有效的策略。主要有以下几个步骤：

产生一个随机排列顺序并对数据集进行编号
对于训练样本：
对于测试样本：
根据带先验概率的Greedy TS计算

这样计算得到的 Ordered TS能够满足P1，同时也能够使用所有的训练样本。且比在线学习的划窗（sliding window）处理能够进一步减小的方差。需要注意的是，CatBoost在不同的迭代上会采用不同的排列顺序。下面是Ordered TS与其它各种TS在不同数据集上面在logloss/zero-one loss上面的效果比较：

TS比较 特征组合 CatBoost的另外一项重要实现是将不同类别型特征的组合作为新的特征，以获得高阶依赖（high-order dependencies），比如在广告点击预测当中用户ID与广告话题之间的联合信息，又或者在音乐推荐引用当中，用户ID和音乐流派，如果有些用户更喜欢摇滚乐，那么将用户ID和音乐流派分别转换为数字特征时，这种用户内在的喜好信息就会丢失。然而，组合的数量会随着数据集中类别型特征的数量成指数增长，因此在算法中考虑所有组合是不现实的。为当前树构造新的分割点时，CatBoost会采用贪婪的策略考虑组合。对于树的第一次分割，不考虑任何组合。对于下一个分割，CatBoost将当前树的所有组合、类别型特征与数据集中的所有类别型特征相结合，并将新的组合类别型特征动态地转换为数值型特征。 CatBoost还通过以下方式生成数值型特征和类别型特征的组合：树中选定的所有分割点都被视为具有两个值的类别型特征，并像类别型特征一样地被进行组合考虑。

Gradient bias

CatBoost，和所有标准梯度提升算法一样，都是通过构建新树来拟合当前模型的梯度。然而，所有经典的提升算法都存在由有偏的点态梯度估计引起的过拟合问题。在每个步骤中使用的梯度都使用当前模型中的相同的数据点来估计，这导致估计梯度在特征空间的任何域中的分布与该域中梯度的真实分布相比发生了偏移，从而导致过拟合。为了解决这个问题，CatBoost对经典的梯度提升算法进行了一些改进，简要介绍如下：在许多利用GBDT框架的算法（例如，XGBoost、LightGBM）中，构建下一棵树分为两个阶段：选择树结构和在树结构固定后计算叶子节点的值。为了选择最佳的树结构，算法通过枚举不同的分割，用这些分割构建树，对得到的叶子节点中计算值，然后对得到的树计算评分，最后选择最佳的分割。两个阶段叶子节点的值都是被当做梯度或牛顿步长的近似值来计算。在CatBoost中，第二阶段使用传统的GBDT框架执行，第一阶段使用修改后的版本。既然原来的梯度估计是有偏的，那么能不能改成无偏估计呢？设为构建棵树后的模型，为构建棵树后第个训练样本上面的梯度值。为了使得无偏于模型，我们需要在没有参与的情况下对模型进行训练。由于我们需要对所有训练样本计算无偏的梯度估计，乍看起来对于的训练不能使用任何样本，貌似无法实现的样子。我们运用下面这个技巧来处理这个问题：对于每一个样本，我们训练一个单独的模型，且该模型从不使用基于该样本的梯度估计进行更新。我们使用来估计上的梯度，并使用这个估计对结果树进行评分。用伪码描述如下，其中是需要优化的损失函数，是标签值，是公式计算值。

Gradient bias 值得注意的是模型的建立并没有样本的参与，并且CatBoost中所有的树的共享同样的结构。在CatBoost中，我们生成训练数据集的个随机排列。采用多个随机排列是为了增强算法的鲁棒性，这在前面的Odered TS当中对于类别型特征的处理有介绍到：针对每一个随机排列，计算得到其梯度，为了与Ordered TS保持一致，这里的排列与用于计算Ordered TS时的排列相同。我们使用不同的排列来训练不同的模型，因此不会导致过拟合。对于每个排列，我们训练个不同的模型，如上所示。这意味着为了构建一棵树，需要对每个排列存储并重新计算，其时间复杂度近似于：对于每个模型，我们必须更新。因此，时间复杂度变成。当然，在具体实现当中，CatBoost使用了其它的技巧，可以将构建一个树的时间复杂度降低到。

Prediction shift

预测偏移（Prediction shift）是由上一节所讨论的梯度偏差造成的。本节希望用数学语言严格地对预测偏差进行描述和分析。首先来看下梯度提升的整体迭代过程：

对于梯度提升：

在这个过程当中，偏移是这样发生的：

根据进行随机计算的条件分布与测试集的分布发生偏移
这样导致基学习器与产生偏差
最后影响模型的泛化能力

下面以一个回归任务为例，从理论上分析计算偏差的值。假设以下边界条件：

损失函数：
两个相互独立的特征，随机变量，符合伯努利分布，先验概率
目标函数：
梯度提升迭代次数为2
树深度为1
学习率：

最后得到的模型为：，其中分别基于和。区分数据集是否独立，我们有以下两个推论：

如果使用了规模为的两个独立数据集和来分别估算和，则对于任意，有：
如果使用了相同的数据集来估算和，则有：

显然，偏差部分与数据集的规模成反比，与映射关系也有关系，在我们的例子当中，与成正比。

Ordered boosting

为了克服上一节所描述的预测偏移问题，我们提出了一种新的叫做Ordered boosting的算法。假设用棵树来学习一个模型，为了确保无偏，需要确保模型的训练没有用到样本。由于我们需要对所有训练样本计算无偏的梯度估计，乍看起来对于的训练不能使用任何样本，貌似无法实现的样子，但是事实上可以通过一些技巧来进行克服，具体的算法在前面已经有所描述，而且是作者较新的论文当中的描述，这里不再赘述。本节主要讲讲Ordered boosting的具体实现。 Ordered boosting算法好是好，但是在大部分的实际任务当中都不具备使用价值，因为需要训练个不同的模型，大大增加的内存消耗和时间复杂度。在CatBoost当中，我们实现了一个基于GBDT框架的修改版本。前面提到过，在传统的GBDT框架当中，构建下一棵树分为两个阶段：选择树结构和在树结构固定后计算叶子节点的值。 CatBoost主要在第一阶段进行优化。 First phase 在建树的阶段，CatBoost有两种提升模式，Ordered和Plain。 Plain模式是采用内建的ordered TS对类别型特征进行转化后的标准GBDT算法。 Ordered则是对Ordered boosting算法的优化。 Ordered boosting mode 一开始，CatBoost对训练集产生个独立的随机序列。序列用来评估定义树结构的分裂，用来计算所得到的树的叶子节点的值。因为，在一个给定的序列当中，对于较短的序列，无论是TS的计算还是基于Ordered boosting的预测都会有较大的方差，所以仅仅用一个序列可能引起最终模型的方差，这里我们会有多个序列进行学习。 CatBoost采用对称树作为基学习器，对称意味着在树的同一层，其分裂标准都是相同的。对称树具有平衡、不易过拟合并能够大大减少测试时间的特点。建树的具体算法如下伪码描述。

Building a tree in CatBoost 在Ordered boosting模式的学习过程当中，我们维持一个模型，其中表示基于在序列当中的前个样本学习得到的模型对于第个样本的预测。在算法的每一次迭代，我们从当中抽样一个随机序列，并基于此构建第步的学习树。然后，基于，计算相应的梯度。接下来，我们会用余弦相似度来近似梯度，其中对于每一个样本，我们取梯度。在候选分裂评估过程当中，第个样本的叶子节点的值由与同属一个叶子的的所有样本的前个样本的梯度值求平均得到。需要注意的是，取决于选定的序列，因为会影响第个样本的Ordered TS。当树的结构确定以后，我们用它来提升所有的模型，我们需要强调下，一个相同的树结构会被用于所有的模型，但是会根据和的不同设置不同的叶子节点的值以后应用于不同的模型。 Plain boosting mode Plain boosting模式的算法与标准GBDT流程类似，但是如果出现了类别型特征，它会基于得到的TS维持个支持模型。 Second phase 当所有的树结构确定以后，最终模型的叶子节点值的计算与标准梯度提升过程类似。第个样本与叶子进行匹配，我们用来计算这里的TS。当最终模型在测试期间应用于新的样本，我们采用整个训练集来计算TS。

GPU加速

就GPU内存使用而言，CatBoost至少与LightGBM一样有效，CatBoost的GPU实现可支持多个GPU，分布式树学习可以通过样本或特征进行并行化。

sklearn参数

sklearn 本身的文档当中并没有CatBoost的描述， CatBoost python-reference_parameters-list 上面看到主要参数如下：

iterations : 迭代次数，解决机器学习问题能够构建的最大树的数目，default=1000
learning_rate : 学习率，default=0.03
depth : 树的深度，default=6
l2_leaf_reg : 正则化数，default=3.0
model_size_reg :模型大小正则化系数，数值越到，模型越小，仅在有类别型变量的时候起作用，取值范围从0到，GPU计算时不可用， default=None
rsm : =None,
loss_function : 损失函数，字符串 (分类任务，default= Logloss ，回归任务，default= RMSE )
border_count : 数值型变量的分箱个数

CPU： 1～65535的整数，default=254
GPU： 1～255的整数，default=128

feature_border_type : 数值型变量分箱个数的初始量化模式，default=GreedyLogSum

Median
Uniform
UniformAndQuantiles
MaxLogSum
MinEntropy
GreedyLogSum

per_float_feature_quantization : 指定特定特征的分箱个数，default=None,
input_borders =None,
output_borders =None,
fold_permutation_block : 对数据集进行随机排列之前分组的block大小，default=1
od_pval : 过拟合检测阈值，数值越大，越早检测到过拟合，default=0
od_wait : 达成优化目标以后继续迭代的次数，default=20
od_type : 过拟合检测类型，default=IncToDec

IncToDec
Iter

nan_mode : 缺失值的预处理方法，字符串类型，default=Min

Forbidden : 不支持缺失值
Min : 缺失值赋值为最小值
Max : 缺失值赋值为最大值

counter_calc_method : 计算Counter CTR类型的方法，default=None
leaf_estimation_iterations : 计算叶子节点值时候的迭代次数，default=None,
leaf_estimation_method : 计算叶子节点值的方法，default=Gradient

Newton
Gradient

thread_count : 训练期间的进程数，default=-1，进程数与部件的核心数相同
random_seed : 随机数种子，default=0
use_best_model : 如果有设置 eval_set 设置了验证集的话可以设为True，否则为False
verbose : 是否显示详细信息，default=1
logging_level : 打印的日志级别，default=None
metric_period : 计算优化评估值的频率，default=1
ctr_leaf_count_limit : 类别型特征最大叶子数，default=None
store_all_simple_ctr : 是否忽略类别型特征，default=False
max_ctr_complexity : 最大特征组合数，default=4
has_time : 是否采用输入数据的顺序，default=False
allow_const_label : 使用它为所有对象用具有相同标签值的数据集训练模型，default=None
classes_count : 多分类当中类别数目上限，defalut=None
class_weights : 类别权重，default=None
one_hot_max_size : one-hot编码最大规模，默认值根据数据和训练环境的不同而不同
random_strength : 树结构确定以后为分裂点进行打分的时候的随机强度，default=1
name : 在可视化工具当中需要显示的实验名字
ignored_features : 在训练当中需要排除的特征名称或者索引，default=None
train_dir : 训练过程当中文件保存的目录
custom_loss : 用户自定义的损失函数
custom_metric : 自定义训练过程当中输出的评估指标，default=None
eval_metric : 过拟合检测或者最优模型选择的评估指标

loss-functions

bagging_temperature : 贝叶斯bootstrap强度设置，default=1
save_snapshot : 训练中断情况下保存快照文件
snapshot_file : 训练过程信息保存的文件名字
snapshot_interval : 快照保存间隔时间，单位秒
fold_len_multiplier : 改变fold长度的系数，default=2
used_ram_limit : 类别型特征使用内存限制，default=None
gpu_ram_part : GPU内存使用率，default=0.95
allow_writing_files : 训练过程当中允许写入分析和快照文件，default=True
final_ctr_computation_mode : Final CTR计算模式
approx_on_full_history : 计算近似值的原则，default=False
boosting_type : 提升模式

Ordered
Plain

simple_ctr : 单一类别型特征的量化设置

CtrType
TargetBorderCount
TargetBorderType
CtrBorderCount
CtrBorderType
Prior

combinations_ctr : 组合类别型特征的量化设置

CtrType
TargetBorderCount
TargetBorderType
CtrBorderCount
CtrBorderType
Prior

per_feature_ctr : 以上几个参数的设置具体可以细看下面的文档

Categorical features

task_type : 任务类型，CPU或者GPU，default=CPU
device_config : =None
devices : 用来训练的GPU设备号，default=NULL
bootstrap_type : 自采样类型，default=Bayesian

Bayesian
Bernoulli
MVS
Poisson
No

subsample : bagging的采样率，default=0.66
sampling_unit : 采样模式，default=Object

Object
Group

dev_score_calc_obj_block_size : =None,
max_depth : 树的最大深度
n_estimators : 迭代次数
num_boost_round : 迭代轮数
num_trees : 树的数目
colsample_bylevel : 按层抽样比例，default=None
random_state : 随机数状态
reg_lambda : 损失函数范数，default=3.0
objective : =同损失函数
eta : 学习率
max_bin : =同 border_coucnt
scale_pos_weight : 二分类任务当中1类的权重，default=1.0
gpu_cat_features_storage : GPU训练时类别型特征的存储方式，default=GpuRam

CpuPinnedMemory
GpuRam

data_partition : 分布式训练时数据划分方法

特征并行
样本并行

metadata : =None
early_stopping_rounds : 早停轮次，default=False
cat_features : =指定类别型特征的名称或者索引
grow_policy : 树的生长策略
min_data_in_leaf : 叶子节点最小样本数，default=1
min_child_samples : 叶子节点最小样本数，default=1
max_leaves : 最大叶子数，default=31
num_leaves : 叶子数
score_function : 建树过程当中的打分函数
leaf_estimation_backtracking : 梯度下降时回溯类型
ctr_history_unit : =None
monotone_constraints : =None

如果有遗漏，具体可以参阅 CatBoost python-reference_parameters-list 区分具体的机器学习任务有： CatBoostClassifier CatBoostClassifier


      
       class CatBoostClassifier(iterations=None,
      
      
                                learning_rate=None,
      
      
                                depth=None,
      
      
                                l2_leaf_reg=None,
      
      
                                model_size_reg=None,
      
      
                                rsm=None,
      
      
                                loss_function=None,
      
      
                                border_count=None,
      
      
                                feature_border_type=None,
      
      
                                per_float_feature_quantization=None,
      
      
                                input_borders=None,
      
      
                                output_borders=None,
      
      
                                fold_permutation_block=None,
      
      
                                od_pval=None,
      
      
                                od_wait=None,
      
      
                                od_type=None,
      
      
                                nan_mode=None,
      
      
                                counter_calc_method=None,
      
      
                                leaf_estimation_iterations=None,
      
      
                                leaf_estimation_method=None,
      
      
                                thread_count=None,
      
      
                                random_seed=None,
      
      
                                use_best_model=None,
      
      
                                verbose=None,
      
      
                                logging_level=None,
      
      
                                metric_period=None,
      
      
                                ctr_leaf_count_limit=None,
      
      
                                store_all_simple_ctr=None,
      
      
                                max_ctr_complexity=None,
      
      
                                has_time=None,
      
      
                                allow_const_label=None,
      
      
                                classes_count=None,
      
      
                                class_weights=None,
      
      
                                one_hot_max_size=None,
      
      
                                random_strength=None,
      
      
                                name=None,
      
      
                                ignored_features=None,
      
      
                                train_dir=None,
      
      
                                custom_loss=None,
      
      
                                custom_metric=None,
      
      
                                eval_metric=None,
      
      
                                bagging_temperature=None,
      
      
                                save_snapshot=None,
      
      
                                snapshot_file=None,
      
      
                                snapshot_interval=None,
      
      
                                fold_len_multiplier=None,
      
      
                                used_ram_limit=None,
      
      
                                gpu_ram_part=None,
      
      
                                allow_writing_files=None,
      
      
                                final_ctr_computation_mode=None,
      
      
                                approx_on_full_history=None,
      
      
                                boosting_type=None,
      
      
                                simple_ctr=None,
      
      
                                combinations_ctr=None,
      
      
                                per_feature_ctr=None,
      
      
                                task_type=None,
      
      
                                device_config=None,
      
      
                                devices=None,
      
      
                                bootstrap_type=None,
      
      
                                subsample=None,
      
      
                                sampling_unit=None,
      
      
                                dev_score_calc_obj_block_size=None,
      
      
                                max_depth=None,
      
      
                                n_estimators=None,
      
      
                                num_boost_round=None,
      
      
                                num_trees=None,
      
      
                                colsample_bylevel=None,
      
      
                                random_state=None,
      
      
                                reg_lambda=None,
      
      
                                objective=None,
      
      
                                eta=None,
      
      
                                max_bin=None,
      
      
                                scale_pos_weight=None,
      
      
                                gpu_cat_features_storage=None,
      
      
                                data_partition=None
      
      
                                metadata=None,
      
      
                                early_stopping_rounds=None,
      
      
                                cat_features=None,
      
      
                                grow_policy=None,
      
      
                                min_data_in_leaf=None,
      
      
                                min_child_samples=None,
      
      
                                max_leaves=None,
      
      
                                num_leaves=None,
      
      
                                score_function=None,
      
      
                                leaf_estimation_backtracking=None,
      
      
                                ctr_history_unit=None,
      
      
                                monotone_constraints=None)
      br

CatBoostRegressor CatBoostRegressor


      
       class CatBoostRegressor(iterations=None,
      
      
                               learning_rate=None,
      
      
                               depth=None,
      
      
                               l2_leaf_reg=None,
      
      
                               model_size_reg=None,
      
      
                               rsm=None,
      
      
                               loss_function='RMSE',
      
      
                               border_count=None,
      
      
                               feature_border_type=None,
      
      
                               per_float_feature_quantization=None,
      
      
                               input_borders=None,
      
      
                               output_borders=None,
      
      
                               fold_permutation_block=None,
      
      
                               od_pval=None,
      
      
                               od_wait=None,
      
      
                               od_type=None,
      
      
                               nan_mode=None,
      
      
                               counter_calc_method=None,
      
      
                               leaf_estimation_iterations=None,
      
      
                               leaf_estimation_method=None,
      
      
                               thread_count=None,
      
      
                               random_seed=None,
      
      
                               use_best_model=None,
      
      
                               best_model_min_trees=None,
      
      
                               verbose=None,
      
      
                               silent=None,
      
      
                               logging_level=None,
      
      
                               metric_period=None,
      
      
                               ctr_leaf_count_limit=None,
      
      
                               store_all_simple_ctr=None,
      
      
                               max_ctr_complexity=None,
      
      
                               has_time=None,
      
      
                               allow_const_label=None,
      
      
                               one_hot_max_size=None,
      
      
                               random_strength=None,
      
      
                               name=None,
      
      
                               ignored_features=None,
      
      
                               train_dir=None,
      
      
                               custom_metric=None,
      
      
                               eval_metric=None,
      
      
                               bagging_temperature=None,
      
      
                               save_snapshot=None,
      
      
                               snapshot_file=None,
      
      
                               snapshot_interval=None,
      
      
                               fold_len_multiplier=None,
      
      
                               used_ram_limit=None,
      
      
                               gpu_ram_part=None,
      
      
                               pinned_memory_size=None,
      
      
                               allow_writing_files=None,
      
      
                               final_ctr_computation_mode=None,
      
      
                               approx_on_full_history=None,
      
      
                               boosting_type=None,
      
      
                               simple_ctr=None,
      
      
                               combinations_ctr=None,
      
      
                               per_feature_ctr=None,
      
      
                               ctr_target_border_count=None,
      
      
                               task_type=None,
      
      
                               device_config=None,
      
      
                               devices=None,
      
      
                               bootstrap_type=None,
      
      
                               subsample=None,
      
      
                               sampling_unit=None,
      
      
                               dev_score_calc_obj_block_size=None,
      
      
                               max_depth=None,
      
      
                               n_estimators=None,
      
      
                               num_boost_round=None,
      
      
                               num_trees=None,
      
      
                               colsample_bylevel=None,
      
      
                               random_state=None,
      
      
                               reg_lambda=None,
      
      
                               objective=None,
      
      
                               eta=None,
      
      
                               max_bin=None,
      
      
                               gpu_cat_features_storage=None,
      
      
                               data_partition=None,
      
      
                               metadata=None,
      
      
                               early_stopping_rounds=None,
      
      
                               cat_features=None,
      
      
                               grow_policy=None,
      
      
                               min_data_in_leaf=None,
      
      
                               min_child_samples=None,
      
      
                               max_leaves=None,
      
      
                               num_leaves=None,
      
      
                               score_function=None,
      
      
                               leaf_estimation_backtracking=None,
      
      
                               ctr_history_unit=None,
      
      
                               monotone_constraints=None)
      br

应用场景

作为GBDT框架内的算法，GBDT、XGBoost、LightGBM能够应用的场景CatBoost也都适用，并且在处理类别型特征具备独有的优势，比如广告推荐领域。

优缺点

优点

能够处理类别特征
能够有效防止过拟合
模型训练精度高
调参时间相对较多

缺点

对于类别特征的处理需要大量的内存和时间
不同随机数的设定对于模型预测结果有一定的影响

参考

https://book.douban.com/subject/26708119/
https://book.douban.com/subject/33437381/
https://catboost.ai/
https://github.com/catboost/catboost
https://papers.nips.cc/paper/7898-catboost-unbiased-boosting-with-categorical-features.pdf
http://learningsys.org/nips17/assets/papers/paper_11.pdf
https://catboost.ai/docs/concepts/python-reference_parameters-list.html

你可能感兴趣的:(一文详尽解释CatBoost)

三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
如何成为段子手欣雅阅读
我是一个尬聊大师，与朋友聊天经常把话题聊死，留我一个人在群里，望着自己打下的最后一句话无语凝噎。看到风趣幽默的朋友与人聊天，很是艳羡，觉得自己何时才能成为这样的段子手呢？一、段子是什么？“段子”一词在百度百科上的解释：本是相声中的一个艺术术语，指的是相声作品中一节或一段艺术内容。我的理解：段子就是一些搞笑的故事或者笑话。二、为什么要会说段子？不知道大家有没有这样的朋友，本来很无趣的聚会，只要有他参
2019-05-13 王健_100a
【撒下18:2】大卫打发军兵出战，分为三队：一队在约押手下，一队在洗鲁雅的儿子约押兄弟亚比筛手下，一队在迦特人以太手下。大卫对军兵说：“我必与你们一同出战。”解释：大卫检阅部队，将它分成三队，每队由一位元帅统领；约押与兄弟亚比筛，并迦特人以太共同指挥。大卫想与他们一同出战！应用：作为领袖与军兵一起出战是很重要。领袖在事奉中与信徒一起，领袖在任何的环境里与信徒一起走过。我们要同心协力为主而战。祷告：
209. 长度最小的子数组（滑动窗口）追光者2020 leetcode 双指针/滑动窗口
题目描述给定一个含有n个正整数的数组和一个正整数target。找出该数组中满足其和≥target的长度最小的连续子数组[numsl,numsl+1,…,numsr-1,numsr]，并返回其长度。如果不存在符合条件的子数组，返回0。示例1：输入：target=7,nums=[2,3,1,2,4,3]输出：2解释：子数组[4,3]是该条件下的长度最小的子数组。示例2：输入：target=4,nums
209. 长度最小的子数组（中等数组滑动窗口）风雨中de宁静 leetcode 算法排序算法
209.长度最小的子数组给定一个含有n个正整数的数组和一个正整数target。找出该数组中满足其和≥target的长度最小的连续子数组[numsl,numsl+1,…,numsr-1,numsr]，并返回其长度。如果不存在符合条件的子数组，返回0。示例1：输入：target=7,nums=[2,3,1,2,4,3]输出：2解释：子数组[4,3]是该条件下的长度最小的子数组。示例2：输入：targe
厉国刚：新闻学与传播学到底有何区别微观大道
厉国刚：新闻学与传播学到底有何区别头几天，有人在知乎上问我：新闻学与传播学到底有何区别。他是一位想要跨专业考研的学生，对新闻传播学学科可谓了解甚少，甚至一头雾水，想要让我帮他解释解释。在研究生学硕层面，新闻传播学是一级学科，分成新闻学、传播学这两个二级学科。有些高校，还自设了广告学、出版发行学等其他二级学科，但从官方角度，新闻传播学一级学科下，正统的就是那两个二级学科。招生时，一般会按一级学科招，
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
209. 长度最小的子数组-滑动窗口 hequnwang10 Java LeetCode 算法
一、题目描述给定一个含有n个正整数的数组和一个正整数target。找出该数组中满足其和≥target的长度最小的连续子数组[numsl,numsl+1,…,numsr-1,numsr]，并返回其长度。如果不存在符合条件的子数组，返回0。示例1：输入：target=7,nums=[2,3,1,2,4,3]输出：2解释：子数组[4,3]是该条件下的长度最小的子数组。示例2：输入：target=4,nu
2024.8.22 Python，链表两数之和，链表快速反转，二叉树的深度，二叉树前中后序遍历，N叉树递归遍历，翻转二叉树 RaidenQ python 链表开发语言
1.链表两数之和输入：l1=[2,4,3],l2=[5,6,4]输出：[7,0,8]解释：342+465=807.示例2：输入：l1=[0],l2=[0]输出：[0]示例3：输入：l1=[9,9,9,9,9,9,9],l2=[9,9,9,9]输出：[8,9,9,9,0,0,0,1]昨天的这个题，用自己的办法写的麻烦的要死，然后刚才一看chat归类的办法，感觉自己像个智障。classListNode
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
spring如何整合druid连接池？惜.己 spring spring junit 数据库 java idea 后端 xml
目录spring整合druid连接池1.新建maven项目2.新建mavenModule3.导入相关依赖4.配置log4j2.xml5.配置druid.xml1)xml中如何引入properties2)下面是配置文件6.准备jdbc.propertiesJDBC配置项解释7.配置druid8.测试spring整合druid连接池1.新建maven项目打开IDE（比如IntelliJIDEA,Ecl
难念的经轩辕一风
今天中午从公司出来办事，站在马路旁边招手打的。不久来了一辆，路边停下，坐上，一转脸准备告诉师傅去哪的地址，惊呼，姚师傅？啊，咋是你？这也太巧了吧。在上海，出租车少说也有上万辆吧，而且地方这么大，况且在我出来的这个时间点上碰上了，有时候解释不了，就是那么巧。我和姚师傅咋认识的呢？因工作的原因，我要经常去外地出差，家住的离火车站比较远，每次都是打车过去。可能家在郊区的原因，平时门口公路上的出租车并不多
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Day777--【这届年轻人很懒，“但在你面前，我可以多受些麻烦。”】卖小妞的饼干
图片发自App中学时期，会因为朋友一句误会，手写三页信件解释来龙去脉，必须每天一起上学放学吃饭上洗手间，永远腻在一起才能彰显关系密切。而现在，相比每段关系都闹得轰轰烈烈，我们更喜欢顺其自然。懒得耗费大量时间去维护一段关系，懒得在与朋友产生矛盾后去辩解，懒得因为朋友做出背叛友谊的行为而愤怒诘问。不再把目光放在朋友的数量上，更在乎每一个还在身边的人是否饱含真心。我们都在期待着更舒服自然没有杂质的关系，
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
崩坏星穹铁道哪个角色值得培养崩坏星穹铁道新手角色优先级教学会飞滴鱼儿
崩坏星穹铁道新手角色培养攻略：哪些角色值得投资？在《崩坏星穹铁道》中，角色的强度和培养一直是玩家们关心的焦点。要想体验更爽快的游戏过程，选对角色至关重要。那么，哪些角色值得投资培养呢?本篇教学文章将针对新手玩家，从T0到T1强度的角色中为你做出详尽解析。游戏豹官网现在的手游平台很多，但是在游戏界有这么一个传说：“喜欢肝的玩家不如氪金玩家，氪金玩家不如内部福利玩家”，这就是游戏界可悲的生物链，很多平
258-各位相加不胖二十斤不改名zz
给定一个非负整数num，反复将各个位上的数字相加，直到结果为一位数。输入:38输出:2解释:各位相加的过程为：3+8=11,1+1=2。由于2是一位数，所以返回2。最简单的方法就是递归了。进阶:你可以不使用循环或者递归，且在O(1)时间复杂度内解决这个问题吗？假如一个三位数'abc'，其值大小为s1=100*a+10*b+1*c，经过一次各位相加后，变为s2=a+b+c，减小的差值为(s1-s2)
《 C++ 修炼全景指南：十》自平衡的艺术：深入了解 AVL 树的核心原理与实现 Lenyiin C++修炼全景指南技术指南 c++数据结构 stl
摘要本文深入探讨了AVL树（自平衡二叉搜索树）的概念、特点以及实现细节。我们首先介绍了AVL树的基本原理，并详细分析了其四种旋转操作，包括左旋、右旋、左右双旋和右左双旋，阐述了它们在保持树平衡中的重要作用。接着，本文从头到尾详细描述了AVL树的插入、删除和查找操作，配合完整的代码实现和详尽的注释，使读者能够全面理解这些操作的执行过程。此外，我们还提供了AVL树的遍历方法，包括中序、前序和后序遍历，
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
【数据结构-一维差分】力扣2848. 与车相交的点 hlc@ 数据结构数据结构 leetcode 算法
给你一个下标从0开始的二维整数数组nums表示汽车停放在数轴上的坐标。对于任意下标i，nums[i]=[starti,endi]，其中starti是第i辆车的起点，endi是第i辆车的终点。返回数轴上被车任意部分覆盖的整数点的数目。示例1：输入：nums=[[3,6],[1,5],[4,7]]输出：7解释：从1到7的所有点都至少与一辆车相交，因此答案为7。示例2：输入：nums=[[1,3],[5
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
《 C++ 修炼全景指南：四》揭秘 C++ List 容器背后的实现原理，带你构建自己的双向链表 Lenyiin 技术指南 C++修炼全景指南 c++list 链表 stl
本篇博客，我们将详细讲解如何从头实现一个功能齐全且强大的C++List容器，并深入到各个细节。这篇博客将包括每一步的代码实现、解释以及扩展功能的探讨，目标是让初学者也能轻松理解。一、简介1.1、背景介绍在C++中，std::list是一个基于双向链表的容器，允许高效的插入和删除操作，适用于频繁插入和删除操作的场景。与动态数组不同，list允许常数时间内的插入和删除操作，支持双向遍历。这篇文章将详细
人应该追求多少钱？还是追求自由，陪伴，互相依存？阿尚青子自由写作人
人应该追求多少钱？还是追求自由，陪伴，互相依存？（原问题）回答这样的问题应该有难度，因为此问题问的几个方面好像不属于同一个价值平台，而同一个价值平台的和钱几乎等同的概念又是什么呢？好像又没有什么标准答案，认同不同，问题不同，权当一个不妥帖的解释罢了。首先回答，人应该追求多少钱？看你到底对自己生活的要求和精神要求有多高了，精神追求也是需要定量金钱为支撑的，比如即使看电影，你也得花钱，就网络资源来讲你
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它