Rrui_739

sklearn源码解读：1.10 Decision Trees & 1.11 Ensemble methods

本文讨论sklearn源码中的树模型，其中包括 Decision Trees 与 Ensemble methods 两篇，源码文件夹在 sklearn/tree 与 sklearn/ensemble 下。

本文涉及到的模型参数解释请先自行翻阅官方文档，如非必要本文将不再列出。本文将简要介绍全部模型源码（工具源码不介绍），建议在看本文时自己打开源码对照查看，本文不再附大片源码来灌水。涉及到Cython语法细节本文将不详细讲解，因为我也看不懂，用着自己仅有的C++和Python那点知识勉强的在Cython的海洋中狗刨。

基于Cython底层架构

首先树模型的底层代码均由Cython编写，核心文件是为 _tree.pyx， _splitter.pyx，_criterion.pyx 。_utils.pyx 是源代码所使用的的工具文件，就不细说了。

sklearn源码解读：1.10 Decision Trees & 1.11 Ensemble methods_第1张图片

tree目录树

先大致看一下架构：

_tree.pyx 是树模型的主架构，负责树的level生成，由Cython类Tree封装。生成树的结点有两种方法：DepthFirstTreeBuilder类与BestFirstTreeBuilder类。它们均继承自TreeBuilder类，其实就是为了继承它的_check_input方法，检查输入类型，并转化为占用连续内存储存形式（目的是加速计算与索引）如np.asfortranarray和np.ascontiguousarray格式。
_splitter.pyx 是负责叶节点分裂的架构，有四种分裂方式，两种Sparse处理，两种Dense处理。Dense处理中分为BestSplitter和RandomSplitter两种分裂方式，其实很容易理解，一种是正常的挑最好的特征和特征点分裂，一种是像随机分裂树那样瞎分裂。他们均继承自BaseDenseSplitter，继承它的初始化方法，而BaseDense继承自Splitter类，这是基类，提供了对接分裂准则方法的方法等。
_criterion.pyx 是负责叶节点分裂准则的架构，有N多种准则计算方法，有分类ClassificationCriterion和连续RegressionCriterion两种计算准则。这两种类均继承自Criterion基类，继承他的对接Splitter接口。就拿默认的分类准则基尼指数举例子。Gini类继承自ClassificationCriterion，Gini类仅提供了自己的计算准则方法（算基尼指数）。

_tree.pyx

主要有两种构造树的方式，DepthFirstTreeBuilder和BestFirstTreeBuilder，当不限制叶子结点数的时候就会使用DepthFirstTreeBuilder，使用栈的方式递归先在左子树分裂；限制叶子结点数的时候就会BestFirstTreeBuilder，使用优先级队列的方式将得分最大叶子结点进行分裂；堆和栈都定义在util.pyx中，比较常规的定义，就不说了。

DepthFirstTreeBuilder&BestFirstTreeBuilder类

_check_input ：检查输入类型并转化为占用连续内存储存形式；
build：建立树；
_add_split_node（BestFirstTreeBuilder）：添加树节点

Tree类

_resize、_resize_c：设置内存缓冲区；
_add_node：添加树节点；
apply：返回叶子索引；
_apply_dense、_apply_sparse_csr：返回dense和sparse树叶子节点索引；
_get_value_ndarray：返回所有树节点各类别权重和；
_get_node_ndarray：返回节点；
predict：返回当前节点各类别权重和权重和；
decision_path:返回决策路径；
_decision_path_dense、_decision_path_sparse_csr：返回dense和sparse树决策路径；
compute_feature_importances：计算特征重要度，（当前节点的样本权重数*损失数-左右节点的样本权重数*损失数）/样本权重数，然后再归一化即可得，计算方法如下所示；

    cpdef compute_feature_importances(self, normalize=True):
        
        ...

        with nogil:
            while node != end_node:
                if node.left_child != _TREE_LEAF:
                    # ... and node.right_child != _TREE_LEAF:
                    left = &nodes[node.left_child]
                    right = &nodes[node.right_child]

                    importance_data[node.feature] += (
                        node.weighted_n_node_samples * node.impurity -
                        left.weighted_n_node_samples * left.impurity -
                        right.weighted_n_node_samples * right.impurity)
                node += 1

        importances /= nodes[0].weighted_n_node_samples

        if normalize:
            normalizer = np.sum(importances)

            if normalizer > 0.0:
                # Avoid dividing by zero (e.g., when root is pure)
                importances /= normalizer

        return importances

_splitter.pyx

有两类四种分裂方式，BestSplitter是最优分裂，跟正常的分裂方式一样，RandomSplitter是随机分裂。

BestSplitter&RandomSplitter类

init ：初始化，有效样本（样本权重>0）samples，所有样本权重和 weighted_n_samples，预排序特征指针X_idx_sorted_ptr，预排序特征内存间隔 X_idx_sorted_stride，有效样本标志位 sample_mask；
node_reset：初始化ClassificationCriterion类的样本区间，得到区间样本权重和 weighted_n_node_samples；
node_impurity：计算当前节点得分数；
node_split：分裂节点，使用了Fisher-Yates随机方法选取特征列，记录常量特征剔除出运算；
node_value：保存得分，将类别权重和 sum_total 复制到树的 value 内存，当做树得分；

对于稀疏类BestSparseSplitter和RandomSparseSplitter，他们相比于Dense类来说仅仅多了一个排序过程，由于稀疏类的特性，对他们进行如Dense类的预排序性能是非常差的：Python内置sort函数是基于快速排序，对于稀疏问题快排时间复杂度直接飙升到O（n方），使用插入排序效率最高，但还是O（n）的复杂度，所以sklearn源码中选择了只sort排序非0特征，时间复杂度只有O（m），其中m<

extract_nnz：提取非零特征；

extract_nnz_index_to_samples：通过样本索引值提取非零特征；

extract_nnz_binary_search：通过二分法查找提取非零特征；

sparse_swap：交换样本位置，使正特征值样本在零特征值样本之后；

_partition：分割样本；

binary_search：二分法查找当前样本行索引以确定对应特征是否为非零；

注：extract_nnz_index_to_samples 和 extract_nnz_binary_search 两函数使用的判断条件为：

(1 - is_samples_sorted[0]) * n_samples * log(n_samples) +n_samples * log(n_indices) < EXTRACT_NNZ_SWITCH * n_indices)

_criterion.pyx

ClassificationCriterion&RegressionCriterion类

init：初始化，类别权重和 sum_total ，区间样本权重和 weighted_n_node_samples，调用reset方法；

reset：初始化分裂结构，左子树为空，右子树为全部样本；

reverse_reset：初始化分裂结构，右子树为空，左子树为全部样本；

node_impurity：计算当前节点得分数；

children_impurity：计算左右子节点得分数；

update：更新分割点，计算分割点左右节点类别数与权重和；

proxy_impurity_improvement：计算节点总得分

node_value：保存得分，将类别权重和 sum_total 复制到树的 value 内存，当做树得分；

基于Python的Tree架构

在介绍完Cython底层架构后，介绍基于Python的树模型架构，主要代码位于sklearn/tree/tree.py 和 sklearn/base.py ，在sklearn对外接口有DecisionTreeClassifier，DecisionTreeRegressor，ExtraTreeClassifier，ExtraTreeRegressor四种，他们全部继承于BaseDecisionTree类和ClassifierMixin/RegressorMixin基类，具体接口内容文档上都有，业务代码比较简单，不介绍了。

BaseDecisionTree继承于BaseEstimator基类，BaseEstimator提供了所有预测器的基本操作接口，例如get_params操作等。

ClassifierMixin/RegressorMixin基类则提供了score接口。

自此1.10节的 Decision Trees 的内容就全部介绍完毕了， 1.11节的 Ensemble methods 的代码继承自sklearn/tree 文件夹下的代码。

基于Python的Ensemble架构

只要了解了Tree文件夹内的Cython代码，Ensemble架构就很好理解，本文所讲的Ensemble内使用的基学习器都是Tree模型（bagging包含其他模型），在Ensemble架构中我们需要了解的就是并行化训练操作。

Ensemble目录树

bagging.py&forest.py

RandomForest的代码和bagging的代码高度相似，本文只讲解随机森林的代码。

随机森林有4个接口（RandomTreesEmbedding忽略）：RandomForestClassifier、RandomForestRegressor、ExtraTreesClassifier、ExtraTreesRegressor；他们的基学习器都在Tree内，遂本节仅以RandomForestClassifier为主。

RandomForestClassifier继承于ForestClassifier、BaseForest和BaseEnsemble，其中BaseEnsemble提供了_make_estimator的方法，用来制作estimator。

BaseForest提供了与底层对接的基础训练接口，通过_parallel_build_trees对基学习期进行并行训练。

随机森林选择使用将所有基学习器预测概率相加，取概率和最大类别为样本输出类别（即文档中所说的平均概率），_accumulate_prediction函数定义了这一操作。

在随机性方面，bagging写的通俗易懂，在max_features和max_samples上处理的非常清晰，bagging提供了随机样本和随机特征，_generate_indices，_generate_bagging_indices两个函数直接定义了随意抽取；相反RandomForest就写的特别迷，按理说直接把bagging这一套继承来就可以了，可是这代码接口写的，特征不能随机化了，样本也跟总样本数一样不能变，唯一能变的就是靠重复提取样本来压缩不同样本数，特别特别迷。。

注：在实际使用时如果想用跟理论相同的随机森林，那就使用bagging方法，基学习器使用DecisionTree。

weight_boosting.py

AdaBoost的代码实现，只有AdaBoostClassifier和AdaBoostRegressor两个接口，都是对基础AdaBoost的扩展，使之可以进行多分类和回归；他们两个都继承于BaseWeightBoosting和BaseEnsemble。本节代码都是按照论文敲公式，没啥可说的，多分类的参考可参考论文，本文仅给出一个连接：https://www.cnblogs.com/yeluzi/p/7117075.html 。

值得注意的是，Adaboost需要保证基学习器有大于50%（二分类）的准确率，如果不能保证那么其理论推导是要出错的，所以在源代码中直接限制准确率，如果小于阈值则报错，报错提示也很简单粗暴：“你这预测器还不如瞎编来的准呢，老子不干了”。

gradient_boosting.py

梯度提升树（GBDT），来到了最重要的一节，本节将附源代码，简单讲解原理。

GBDT源自于Friedman的《GREEDY FUNCTION APPROXIMATION:A GRADIENT BOOSTING MACHINE》，GBDT与AdaBoost一同属于加法模型，GBDT是对上一轮预测器结果与真实label的残差进行梯度拟合，至于为什么不直接对残差进行拟合，网上也有观点如下：

负梯度方向可证，模型优化下去一定收敛

对于一些损失函数来说最大的残差方向，并不是梯度下降最好的方向，倒是损失函数最小与残差最小两者目标不统一

梯度可以拟合一些并不能直接最小化的复杂损失函数

个人感觉梯度拟合就像学习率一样，通过多个加法模型结合减少过拟合的发生。

在拟合一个回归树后还需要计算叶子结点得分来更新树的叶子结点权重。

接下来先看拟合过程，附备注的fit函数源代码如下：

def fit(self, X, y, sample_weight=None, monitor=None): X = check_array(X, accept_sparse=['csr', 'csc', 'coo'], dtype=DTYPE) #检查格式 n_samples, self.n_features_ = X.shape sample_weight_is_none = sample_weight is None if sample_weight_is_none: sample_weight = np.ones(n_samples, dtype=np.float32) else: sample_weight = column_or_1d(sample_weight, warn=True) sample_weight_is_none = False check_consistent_length(X, y, sample_weight) y = check_array(y, accept_sparse='csc', ensure_2d=False, dtype=None) y = column_or_1d(y, warn=True) y = self._validate_y(y, sample_weight) #重定义特征类别：original_y = [7,8,9,5,5], modify_y=[0,1,2,3,3] if self.n_iter_no_change is not None: #如设置早停，则需分离验证集 stratify = y if is_classifier(self) else None X, X_val, y, y_val, sample_weight, sample_weight_val = ( train_test_split(X, y, sample_weight, random_state=self.random_state, test_size=self.validation_fraction, stratify=stratify)) if is_classifier(self): if self.n_classes_ != np.unique(y).shape[0]: # We choose to error here. The problem is that the init # estimator would be trained on y, which has some missing # classes now, so its predictions would not have the # correct shape. raise ValueError( 'The training data after the early stopping split ' 'is missing some classes. Try using another random ' 'seed.' ) else: X_val = y_val = sample_weight_val = None self._check_params() #对参数检查赋值 if not self._is_initialized(): #如无初始化模型，则有两种选择，当 self.init_ == 'zero'时，认为预测结果全部为0 #self.init_ ！= 'zero' 时，源代码会使用dummy模型来进行预测拟合，保存预测结果 #如有初始化模型即 warm_start == True 时使用之前储存的模型进行预测 # init state self._init_state() # fit initial model and initialize raw predictions if self.init_ == 'zero': raw_predictions = np.zeros(shape=(X.shape[0], self.loss_.K), dtype=np.float64) else: # XXX clean this once we have a support_sample_weight tag if sample_weight_is_none: self.init_.fit(X, y) else: msg = ("The initial estimator {} does not support sample " "weights.".format(self.init_.__class__.__name__)) try: self.init_.fit(X, y, sample_weight=sample_weight) except TypeError: # regular estimator without SW support raise ValueError(msg) except ValueError as e: if "pass parameters to specific steps of "\ "your pipeline using the "\ "stepname__parameter" in str(e): # pipeline raise ValueError(msg) from e else: # regular estimator whose input checking failed raise raw_predictions = \ self.loss_.get_init_raw_predictions(X, self.init_) begin_at_stage = 0 # The rng state must be preserved if warm_start is True self._rng = check_random_state(self.random_state) else: # add more estimators to fitted model # invariant: warm_start = True if self.n_estimators < self.estimators_.shape[0]: raise ValueError('n_estimators=%d must be larger or equal to ' 'estimators_.shape[0]=%d when ' 'warm_start==True' % (self.n_estimators, self.estimators_.shape[0])) begin_at_stage = self.estimators_.shape[0] # The requirements of _decision_function (called in two lines # below) are more constrained than fit. It accepts only CSR # matrices. X = check_array(X, dtype=DTYPE, order="C", accept_sparse='csr') raw_predictions = self._raw_predict(X) self._resize_state() if self.presort is True and issparse(X): raise ValueError( "Presorting is not supported for sparse matrices.") presort = self.presort # Allow presort to be 'auto', which means True if the dataset is dense, # otherwise it will be False. if presort == 'auto': presort = not issparse(X) X_idx_sorted = None if presort: X_idx_sorted = np.asfortranarray(np.argsort(X, axis=0), dtype=np.int32) # fit the boosting stages n_stages = self._fit_stages( X, y, raw_predictions, sample_weight, self._rng, X_val, y_val, sample_weight_val, begin_at_stage, monitor, X_idx_sorted) # change shape of arrays after fit (early-stopping or additional ests) if n_stages != self.estimators_.shape[0]: self.estimators_ = self.estimators_[:n_stages] self.train_score_ = self.train_score_[:n_stages] if hasattr(self, 'oob_improvement_'): self.oob_improvement_ = self.oob_improvement_[:n_stages] self.n_estimators_ = n_stages return self

业务逻辑比较通俗易懂，首次拟合时会出现两种状况，备注里也都写了，在暖启动预测时会调用_gradient_boosting.pyx文件，这里面函数是预测叶子结点得分的，与Tree_.pyx内的predict功能一样，我不是很懂为什么要单独写一个，注释写着加速，可能就是加速吧，我也运行不了Cython。。。拟合fit函数会调用_fit_stages对estimator进行逐个拟合，_fit_stages函数源代码如下：

def _fit_stages(self, X, y, raw_predictions, sample_weight, random_state, X_val, y_val, sample_weight_val, begin_at_stage=0, monitor=None, X_idx_sorted=None): n_samples = X.shape[0] do_oob = self.subsample < 1.0 sample_mask = np.ones((n_samples, ), dtype=np.bool) n_inbag = max(1, int(self.subsample * n_samples)) #计算训练样本数 loss_ = self.loss_ # Set min_weight_leaf from min_weight_fraction_leaf if self.min_weight_fraction_leaf != 0. and sample_weight is not None: min_weight_leaf = (self.min_weight_fraction_leaf * np.sum(sample_weight)) else: min_weight_leaf = 0. if self.verbose: verbose_reporter = VerboseReporter(self.verbose) verbose_reporter.init(self, begin_at_stage) X_csc = csc_matrix(X) if issparse(X) else None X_csr = csr_matrix(X) if issparse(X) else None if self.n_iter_no_change is not None: loss_history = np.full(self.n_iter_no_change, np.inf) # We create a generator to get the predictions for X_val after # the addition of each successive stage y_val_pred_iter = self._staged_raw_predict(X_val) # perform boosting iterations i = begin_at_stage for i in range(begin_at_stage, self.n_estimators): # subsampling if do_oob: sample_mask = _random_sample_mask(n_samples, n_inbag, random_state) #样本标志位 # OOB score before adding this stage old_oob_score = loss_(y[~sample_mask], raw_predictions[~sample_mask], sample_weight[~sample_mask]) # fit next stage of trees raw_predictions = self._fit_stage( i, X, y, raw_predictions, sample_weight, sample_mask, random_state, X_idx_sorted, X_csc, X_csr) # track deviance (= loss) if do_oob: self.train_score_[i] = loss_(y[sample_mask], raw_predictions[sample_mask], sample_weight[sample_mask]) self.oob_improvement_[i] = ( old_oob_score - loss_(y[~sample_mask], raw_predictions[~sample_mask], sample_weight[~sample_mask])) else: # no need to fancy index w/ no subsampling self.train_score_[i] = loss_(y, raw_predictions, sample_weight) if self.verbose > 0: verbose_reporter.update(i, self) if monitor is not None: early_stopping = monitor(i, self, locals()) if early_stopping: break # We also provide an early stopping based on the score from # validation set (X_val, y_val), if n_iter_no_change is set if self.n_iter_no_change is not None: # By calling next(y_val_pred_iter), we get the predictions # for X_val after the addition of the current stage validation_loss = loss_(y_val, next(y_val_pred_iter), sample_weight_val) # Require validation_score to be better (less) than at least # one of the last n_iter_no_change evaluations if np.any(validation_loss + self.tol < loss_history): loss_history[i % len(loss_history)] = validation_loss else: break return i + 1

虽然是boosting，但由于有subsample的存在，所以是可以求oob_score的，没有注释是因为没什么好注释的，这里的_random_sample_mask就是无放回抽样，开始选样本了，GBDT的训练过程很有意思的是，subsample这个参数在bagging内是直接选择其中max_samples个样本进行分裂的，而GBDT中是用全部sample分裂，然后在计算叶子结点权重时使用subsample，很迷。。

接下来看最重要的_fit_stage函数：

def _fit_stage(self, i, X, y, raw_predictions, sample_weight, sample_mask, random_state, X_idx_sorted, X_csc=None, X_csr=None): assert sample_mask.dtype == np.bool loss = self.loss_ original_y = y # Need to pass a copy of raw_predictions to negative_gradient() # because raw_predictions is partially updated at the end of the loop # in update_terminal_regions(), and gradients need to be evaluated at # iteration i - 1. raw_predictions_copy = raw_predictions.copy() for k in range(loss.K): if loss.is_multi_class: y = np.array(original_y == k, dtype=np.float64) residual = loss.negative_gradient(y, raw_predictions_copy, k=k, sample_weight=sample_weight) # induce regression tree on residuals tree = DecisionTreeRegressor( criterion=self.criterion, splitter='best', max_depth=self.max_depth, min_samples_split=self.min_samples_split, min_samples_leaf=self.min_samples_leaf, min_weight_fraction_leaf=self.min_weight_fraction_leaf, min_impurity_decrease=self.min_impurity_decrease, min_impurity_split=self.min_impurity_split, max_features=self.max_features, max_leaf_nodes=self.max_leaf_nodes, random_state=random_state, presort=self.presort) if self.subsample < 1.0: # no inplace multiplication! sample_weight = sample_weight * sample_mask.astype(np.float64) X = X_csr if X_csr is not None else X tree.fit(X, residual, sample_weight=sample_weight, check_input=False, X_idx_sorted=X_idx_sorted) # update tree leaves loss.update_terminal_regions( tree.tree_, X, y, residual, raw_predictions, sample_weight, sample_mask, learning_rate=self.learning_rate, k=k) # add tree to ensemble self.estimators_[i, k] = tree return raw_predictions

GBDT总体业务逻辑是根据你设定的n_estimator进行循环，在每次循环中都会按照类别数n_class建立n_class个数，对每一类别用一棵树进行单独拟合。回归树拟合后再更新叶子结点权重。以分类为例，所需工具函数如下所示：

def update_terminal_regions(self, tree, X, y, residual, raw_predictions, sample_weight, sample_mask, learning_rate=0.1, k=0): # compute leaf for each sample in ``X``. terminal_regions = tree.apply(X) # mask all which are not in sample mask. masked_terminal_regions = terminal_regions.copy() masked_terminal_regions[~sample_mask] = -1 # update each leaf (= perform line search) for leaf in np.where(tree.children_left == TREE_LEAF)[0]: self._update_terminal_region(tree, masked_terminal_regions, leaf, X, y, residual, raw_predictions[:, k], sample_weight) # update predictions (both in-bag and out-of-bag) raw_predictions[:, k] += \ learning_rate * tree.value[:, 0, 0].take(terminal_regions, axis=0) def _update_terminal_region(self, tree, terminal_regions, leaf, X, y, residual, raw_predictions, sample_weight): """Make a single Newton-Raphson step. """ terminal_region = np.where(terminal_regions == leaf)[0] residual = residual.take(terminal_region, axis=0) y = y.take(terminal_region, axis=0) sample_weight = sample_weight.take(terminal_region, axis=0) numerator = np.sum(sample_weight * residual) numerator *= (self.K - 1) / self.K denominator = np.sum(sample_weight * (y - residual) * (1 - y + residual)) # prevents overflow and division by zero if abs(denominator) < 1e-150: tree.value[leaf, 0, 0] = 0.0 else: tree.value[leaf, 0, 0] = numerator / denominator

从以上两个函数可以看出叶子结点值由如下公式计算出来了：

多分类权重

然而我很困惑的是GBDT的实现跟论文中的不太一样，上面那个公式还需要乘以权重才对，可是代码实现的时候却没有写，很奇怪的说。。至此GBDT就结束了。

voting.py

投票器，只有VotingClassifier和VotingRegressor两个接口，都继承于_BaseVoting、_BaseComposition和BaseEnsemble。_BaseComposition就是对BaseEnsemble进行了一些扩展，因为投票器中的预测器是要有名称的，组合成tuple格式，所以底层处理时加了点操作，就让_BaseComposition继承BaseEnsemble来实现。而且这代码一看就不是一拨人写的，例如在tree.py内对lable处理是用的unique，而这里是用LabelEncoder；并行处理各个代码也都不一样。。。

主要方法就是软投票和硬投票两种，软投票就是各预测器输出概率的加权平均值，硬投票就是看哪个类别的数量多，最后输出的类别就是谁。

_hist_gradient_boosting

sklearn在0.21后增加了基于LightGBM的接口HistGradientBoostingClassifier和HistGradientBoostingRegressor。这个接口不稳定，随时会改，但是原理都是固定的，主要更改如下：

首先在特征分裂点上使用了integer-valued bins，具体操作代码在binning.py中的_find_binning_thresholds函数。这种机制是先定义最多256个桶（可自定义），选取最多2e5个样本，将特征按分位数分在256个桶中（如特征小于256则按特征数），并记录特征裁剪点。在树结点分裂时就会按照裁剪点分裂，而不会遍历所有特征，会使训练过程大大加速。在构建完integer-valued bins后，X的特征即以完成bin排序了（X的特征现在是记录着对应bin的序号）。

sklearn的多分类树是one-to-all类型，所以每次一棵树都是当前类别和其他类别的二分类结构；特征直方图是一个结构体，shape=(n_features,max_bins)，记录着每个特征当前类别的bin的梯度和与hessen和，再根据xgboost论文上的公式，计算loss以得到分裂得分。

分裂的操作全都在splitting.pyx中，在分裂时使用多线程查找分裂节点左右样本，并切分其样本索引值；

在看过Tree的Cython源码后这个代码就很简单了，写的特别通俗易懂，在此就不细讲了，我估计这个迟早会写成Cython版本来加速。

其他

总结一下GBDT、Xgboost和LightGBM的异同。

GBDT：基学习器是回归树，残差是损失函数一阶导数，不支持自定义损失函数，有shrink，不支持特征采样，特征切分使用预排序后贪婪切分算法，子树分裂有level-wise（深度优先）和leaf-wise（最优值优先）两种，使用全部样本。

Xgboost：基学习器是任意，残差是损失函数二阶泰勒展开，支持自定义损失函数，有shrink，支持特征采样，特征切分使用预排序后分位数算法，子树分裂有level-wise和leaf-wise两种，使用全部样本。

LightGBM：基学习器是回归树，残差是损失函数二阶泰勒展开，不支持自定义损失函数，有shrink，支持特征采样，使用Exclusive Feature Bundling（EFB）进行特征捆绑（合并），特征切分使用特征直方图算法，子树分裂是leaf-wise，使用Gradient-based One-Side Sampling (GOSS)算法进行样本选取。

总结

看源码时从接口出发，sklearn的源码普遍都是从fit出发，这样一条龙下来就都看完了，既然选择了看源码就要把底层操作都看了，否则你光看那点接口代码我觉得毫无用处，徒增“自豪感”，源码有用的东西都在底层；

在设计底层时，将需要操作的数据变换为内存中的连续内存块，这样通过指针操作会大大加快IO速度，对数据操作尽量以操作其索引为主，操作到最后再由索引读取内存块内的数据所有底层操作只对上层操作提供接口，返回原始记录数据索引，不需要进行过多处理；

在编写大型代码结构时，要充分考虑输入的规范性，同时对外接口的容错性要高，不要把麻烦都留给调用者；

在规划架构时尽量风格统一，这样在看完一节代码后其他代码都轻松很多，在基类写出可供所有子类调用的接口，这样子类就不用重复写了；

在sklearn中底层已进行了许多优化，如Tree通过特征预排序加速特征选择（在底层源码中特征得分计算并未实现XgBoost之类的并行化）、排除常特征列，在bagging中并行化训练基学习器等；

细节方面，随机选取特征是Fisher-Yates随机方法，随机样本选择是使用randint或permutation方法；

sklearn所有树模型都不支持处理None特征，使用前必须填充缺失值，而字符型特征则无需处理，底层np.unique直接就编码了；

店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
JVM源码分析之堆外内存完全解读 HeapDump性能社区
概述广义的堆外内存说到堆外内存，那大家肯定想到堆内内存，这也是我们大家接触最多的，我们在jvm参数里通常设置-Xmx来指定我们的堆的最大值，不过这还不是我们理解的Java堆，-Xmx的值是新生代和老生代的和的最大值，我们在jvm参数里通常还会加一个参数-XX:MaxPermSize来指定持久代的最大值，那么我们认识的Java堆的最大值其实是-Xmx和-XX:MaxPermSize的总和，在分代算法
html+css网页设计旅游网站首页1个页面 html+css+js网页设计 html css 旅游
html+css网页设计旅游网站首页1个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode、Sublime、Webstorm、Text、Notepad++等任意html编辑软件进行运行及修改编辑等操作）。获取源码1，访问该网站https://download.csdn.net/download/qq_42431718/897527112，点击
Istio pilot-discovery服务发现源码解析（1.13版本） xidianjiapei001 #Istio istio 云原生服务发现
Istiopilot-discovery服务发现介绍工作机制初始化初始化Config控制器初始化Service控制器controller初始化NamespaceServiceNodePodPilotDiscovery各组件启动流程DiscoveryServer接收Envoy的gRPC连接请求流程Config变化后向Envoy推送更新的流程总结参考介绍IstioPilot的代码分为Pilot-Dis
python中文版软件下载-Python中文版编程大乐趣
python中文版是一种面向对象的解释型计算机程序设计语言。python中文版官网面向对象编程，拥有高效的高级数据结构和简单而有效的方法，其优雅的语法、动态类型、以及天然的解释能力，让它成为理想的语言。软件功能强大，简单易学，可以帮助用户快速编写代码，而且代码运行速度非常快，几乎可以支持所有的操作系统，实用性真的超高的。python中文版软件介绍：python中文版的解释器及其扩展标准库的源码和编
Scanpy源码浅析之pp.normalize_total 何物昂
版本导入Scanpy,其版本为'1.9.1'，如果你看到的源码和下文有差异，其可能是由于版本差异。importscanpyasscsc.__version__#'1.9.1'例子函数pp.normalize_total用于Normalizecountspercell，其源代码在scanpy/preprocessing/_normalization.py我们通过一个简单例子来了解该函数主要功能:将一
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
【K8s】专题十一：Kubernetes 集群证书过期处理方法行者Sun1989 Kubernetes kubernetes 云原生容器
本文内容均来自个人笔记并重新梳理，如有错误欢迎指正！如果对您有帮助，烦请点赞、关注、转发、订阅专栏！专栏订阅入口Linux专栏|Docker专栏|Kubernetes专栏往期精彩文章【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法（续）【Docker】MySQL源码构建Docker镜
SAP自动化-ME12批量更新最后一行的价格小九不懂SAP 自动化 SAP python
Python源码#-Begin-----------------------------------------------------------------#-Includes--------------------------------------------------------------importsys,win32com.clientimportosimporttime#-Sub
linux gcc 格式,Linux下gcc与gdb简介神奇的战士 linux gcc 格式
gcc编译器可以将C、C++等语言源程序、汇编程序编译、链接成可执行程序。gdb是GNU开发的一个Unix/Linux下强大的程序调试工具。linux下没有后缀名的概念。但gcc根据文件的后缀来区别输入文件的类别：.cC语言源代码文件.a由目标文件构成的库文件.C、.cc、.cppC++源码文件.h头文件.i经过预处理之后的C语言文件.ii经过预处理之后的C++文件.o编译后的目标文件.s汇编源码
浅谈openresty 爱编码的钓鱼佬 nginx openresty 运维
熟悉了nginx后再来看openresty，不得不说openresty是比较优秀的。对nginx和openresty的历史等在这此就不介绍了。首先对标nginx，自然有优劣一、开发难度nginx：毫无疑问nginx的开发难度比较高，需要扎实的c/c++基础，而且还需要对nginx源码比较熟悉，开发效率慢，比如实现一个类似echo的功能，至少要上百行代码。而openresty只需要一句ngx.say
Golang Channel PandaSkr golang
Channel解析1.Channel源码分析1.1Channel数据结构typehchanstruct{qcountuint//channel的元素数量dataqsizuint//channel循环队列长度bufunsafe.Pointer//指向循环队列的指针elemsizeuint16//元素大小closeduint32//channel是否关闭0-未关闭elemtype*_type//元素类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
使用FPGA接收MIPI CSI RX信号并进行去抖动、RGB转YUV处理：FX3014 USB3.0 UVC传输与帧率控制源代码，FPGA实现MIPI CSI RX接收，去Debayer， RGB转 kVfINoSzdrt fpga开发程序人生
fpgamipicsirx接收去debayer,rgb转yuv,fx3014usb3.0uvc传输与帧率控制源代码，具体架构看图，除dphy物理层外，mipi均为源码sensorimx219mipi源码mipi4lanecsirxraw10fpgamachXO3lf-690usb3.0fx301432bityuvdatawithframesync测试模式3280*246415fps1920*108
移动订货小程序哪个好批发订货系统源码哪个好多用户商城系统订货系统源码移动订货小程序批发订货系统订货系统源码
订货小程序就是依托微信小程序的订货系统，微信小程序订货系统相较于其他终端的订货方式，能够更快进入商城，对经销商而言更为方便。今天，我们一起盘点三个主流的移动订货小程序，看看哪个移动订货小程序好。第一、核货宝订货小程序核货宝是商淘科技旗下的订货系统，可为批发企业提供不同客户不同商品、不同客户不同价格快速订货和商家账期管理。功能介绍：客户批发订货的专属数字化订货系统，可以移动端订货。与传统手写开单相比
MacOS Catalina 从源码构建Qt6.2开发库之01: 编译Qt6.2源代码捕鲸叉 QT macos c++QT
安装xcode，cmake，ninjabrewinstallnodemac下安装OpenGL库并使之对各项目可见在macOS上安装OpenGL通常涉及到安装一些依赖库，如MGL、GLUT或者是GLEW等，同时确保LLVM的OpenGL框架和相关工具链的兼容性。以下是一个基本的安装步骤，你可以在终端中执行：安装Homebrew（如果还没有安装的话）：/bin/bash-c"$(curl-fsSLht
基于Python执行lua脚本 xu-jssy Python自动化脚本 python lua 自动化 rpa
一、依赖安装pipinstalllupa二、源码将lua文件存放在base_path路径，将lua文件名称（不包含后缀名）传递给lua_runner函数即可importmultiprocessingimportlupa#lua文件存放位置base_path='D:\\test\\lua'classLuaFuncion:#创建Lua运行时环境lua=lupa.LuaRuntime(unpack_re
Python实现mysql命令行 xu-jssy python mysql adb
一、源码importosimportpymysqldefsql_shell():password=input("EnterPassword:")#访问密码ifpassword.strip()!="yyds":print("Bye")return#清空控制台输出os.system("cls"ifos.name=="nt"else"clear")try:#连接到MySQL数据库conn=pymysql
Java集合类框架源码分析之 RoleList源码解析【6】 yunzhonghefei Java集合类源码分析 RoleList源码解析
该类继承于ArrayList，针对Role进行了一些扩展。其他方法和ArrayList中基本相同，源码不做针对性分析：看一下类简介：/***代表了一个roles的列表，作为方法setRoles()的参数，去创建一个关联关系，并且尝试在同一个关系中设置多个角色。*ARoleListrepresentsalistofroles(Roleobjects).Itisusedas*parameterwhen
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

sklearn源码解读：1.10 Decision Trees & 1.11 Ensemble methods

基于Cython底层架构

_tree.pyx

DepthFirstTreeBuilder&BestFirstTreeBuilder类

Tree类

_splitter.pyx

BestSplitter&RandomSplitter类

_criterion.pyx

ClassificationCriterion&RegressionCriterion类

基于Python的Tree架构

基于Python的Ensemble架构

bagging.py&forest.py

weight_boosting.py

gradient_boosting.py

voting.py

_hist_gradient_boosting

其他

总结

你可能感兴趣的:(源码)