dby_freedom

CTR 预测理论（四）：集成学习之模型融合与随机森林(Random Forest)

集成学习与随机森林(Random Forest)

在KDD CUP、Kaggle、天池等数据挖掘比赛中，常常用到集成学习。使用了集成学习后，模型的效果往往有很大的进步。

本文将介绍常见的集成学习方法，包括但不限于：

集成学习为什么有效
Voting
Linear Blending
Stacking
Bagging
随机森林

1. 集成学习

如果硬要把集成学习进一步分类，可以分为两类，一种是把强分类器进行强强联合，使得融合后的模型效果更强，称为模型融合。另一种是将弱分类器通过学习算法集成起来变为很强的分类器，称为机器学习元算法。

这里我们把用来进行融合的学习器称为个体学习器。

模型融合的代表有：投票法(Voting)、线性混合(Linear Blending)、Stacking。

而机器学习元算法又可以根据个体学习器之间是否存在依赖关系分为两类，称为Bagging和Boosting:

Bagging: 个体学习器不存在依赖关系，可同时对样本随机采样并行化生成个体学习器。代表作为随机森林(Random Forest)
Boosting: 个体学习器存在依赖关系,基于前面模型的训练结果误差生成新的模型，必须串行化生成。代表的算法有：Adaboost、GBDT、XGBoost

其中，Boosting相关的内容将在CTR 预测理论（四）进行介绍。

1.1 个体学习器

集成学习（ensemble learning）的一般结构：先产生一组“个体学习器”（individual learner），再用某种策略将他们结合起来，如下图所示，

个体学习器通常由一个现有的学习算法从训练数据产生：

只包含同种类型的个体学习器，这样的集成是“同质”的（homogeneous）。同质集成中的个体学习器亦称为”基学习器“（base learning），相应的学习算法称为”基学习算法“（base learning algorithm）。
集成也可包含不同类型的个体学习器，这样集成是”异质“的（heterogeneous）。相应的个体学习器，常称为”组件学习器“（component learning）或直接称为个体学习器。

在一般的经验中，如果把好坏不等的东西掺到一起，那么通常结果会是比坏的好一些，比好的要坏一些。集成学习把多个学习器结合起来，如何能获得比最好的单一学习器更好的性能呢？

弱学习器：弱学习器常指泛化性能略优于随机猜测的学习期；例如在二分类问题上精度略高于50%的分类器。

要获得好的集成个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器不能太坏，并且要有“多样性”（diversity），即学习器间具有差异。

个体学习器应该至少不差于弱学习器

目前集成学习的方法大致可以分为两种：

个体学习器之间存在强依赖关系、必须串行生成的序列化方法。（Boosting）
个体学习器之间不存在强依赖关系、可同时生成的并行化方法。（Bagging和RF）

1.2 Boosting 简述

1.2.1 Boosting

Boosting是一族将弱学习器提升为强学习器的算法。工作机制如下：

先从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本进行调整，使得先前基学习器错的的训练样本在后继受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器的数目达到实现指定的值T，最终将这T个学习器进行加权结合。

具体概念可参考本博客中关于AdaBoost, GBDT与XGBoost区别章节

1.2.2 AdaBoost

Boosting 族算法最著名的代表是AdaBoost。该算法有多重推导方式，比较容易理解的是“加性模型”，即基学习器的线性组合来最小化指数损失函数。

算法基本流程如下：

初始化样本权值分布
基于分布 $D_t$ 从数据集中训练出分类器 $h_t$
估计 $h_t$ 的误差，若误差 > 0.5 则重新下一轮训练
确定分类器 $h_t$ 的权重
更新样本分布
若未达到预制的训练轮数，则继续进行训练

Boosting算法要求基学习器能对特定的数据分布进行学习，这可以通过“重赋权”实施，即在训练的每一轮中，根据样本为每个训练样本重新赋予一个权重。

对于无法接受带权样本的基学习算法，可以通过“重采样”来处理，再用重采样的样本集对基学习器进行训练。一般而言这两种算法没有优劣差别。

需要注意的是Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件（检查基分类器是否比随机猜测好），一旦条件不满足，当前基学习器被抛弃掉，学习过程停止。

在这种情形下，初始设置的学习轮数T也许还远远未达到，可能导致最终集成中只包含很少的基学习器而导致性能不佳。

若采用“重采样”，则可以获得“重启动”机会避免过早停止。即在抛弃不满足条件的当前基学习器之后，根据当前的分布重新对训练样本进行采样，再基于新的采样结果重新训练出基学习器，从而使得学习过程可以持续到预制的T轮。

从“偏差-方差”分解的角度看，Boosting主要关注降低偏差，因此基于泛化性能相当弱学习器能构建出很强的集成。

关于AdaBoost的详细推导可参考本博客中
CTR 预测理论（四）：集成学习之Boosting家族(AdaBoost+GBDT)

Bagging，Boosting的主要区别

样本选择上：Bagging采用的是Bootstrap随机有放回抽样；而Boosting每一轮的训练集是不变的，改变的只是每一个样本的权重。

样本权重：Bagging使用的是均匀取样，每个样本权重相等；Boosting根据错误率调整样本权重，错误率越大的样本权重越大。

预测函数：Bagging所有的预测函数的权重相等；Boosting中误差越小的预测函数其权重越大。

并行计算：Bagging各个预测函数可以并行生成；Boosting各个预测函数必须按顺序迭代生成。

下面是将决策树与这些算法框架进行结合所得到的新的算法：
1）Bagging + 决策树 = 随机森林
2）AdaBoost + 决策树 = 提升树
3）Gradient Boosting + 决策树 = GBDT

2. 模型融合

上面提到，模型融合是把强分类器进行强强联合，变得更强。

在进行模型融合的时候，也不是说随意的融合就能达到好的效果。进行融合时，所需的集成个体（就是用来集成的模型）应该好而不同。好指的是个体学习器的性能要好，不同指的是个体模型的类别不同。

这里举个西瓜书的例子，在介绍例子之前，首先提前介绍简单投票法，以分类问题为例，就是每个分类器对样例进行投票，哪个类别得到的票数最多的就是融合后模型的结果。

在上面的例子中，采用的就是简单的投票法。中间的图b各个模型输出都一样，因此没有什么效果。第三个图c每个分类器的精度只有33%，融合后反而更糟。也就是说，想要模型融合有效果，个体学习器要有一定的准确率，并且要有多样性，学习器之间具有差异，即”好而不同“。

如何做到好而不同呢？可以由下面几个方面：

针对输入数据：使用采样的方法得到不同的样本（比如bagging方法采用自助法进行抽样）
针对特征：对特征进行抽样
针对算法本身：
- 个体学习器 $h_t$ 来自不同的模型集合
- 个体学习器 $h_t$ 来自于同一个模型集合的不同超参数，例如学习率η不同
- 算法本身具有随机性，例如用不同的随机种子来得到不同的模型
针对输出：对输出表示进行操纵以增强多样性
- 如将多分类转化为多个二分类任务来训练单模型
- 将分类输出转化为回归输出等

那么进行模型融合为什么比较好呢？虽然有俗话说：三个臭皮匠赛过诸葛亮，但是我们还是想知道，究竟是如何“赛过诸葛亮”的。这里摘录西瓜书如下：

学习器的结合可能会从三个方面带来好处：

首先，从统计的方面来看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上达到相同的性能，此时若使用单学习器，可能因误选而导致泛化性能不佳，结合多个学习器则会减少这一风险；

第二，从计算的方面来看，学习算法往往会陷入局部极小，有的局部极小点所对应的泛化性能可能很糟糕，而通过多次运行之后进行结合，可降低陷入糟糕局部极小点的风险；

第三，从表示的方面来看，某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中，此时若使用单学习器则肯定无效，而通过结合多个学习器，由于相应的假设空间有所扩大，有可能学得更好的近似。

下面介绍模型融合常见的方法。

2.1 投票和平均 Voting and Average

2.1.1 分类

对于分类任务来说，学习器 $h_i$ 将从类别标记集合 ${c_1, c_2, \dots, c_N}$ 中预测出一个标记，最常见的结合策略是使用 投票法(voting)。为了便于讨论，我们将 $h_i$ 在样本 $x$ 上的预测输出表示为一个 $N$ 维向量 $h_i^1(x); h_i^2(x); \dots; h_i^N(x)$ ，其中 $h_i^j(x)$ 是 $h_i$ 在类别标记 $c_j$ 上的输出。

绝对多数投票法(majority voting)
$\begin{cases} c_j, & if \ \sum_{i=1}^{T}h_i^j(x) > 0.5 \\ reject, & \ otherwise. \end{cases}$
即若某标记得票过半数，则预测为该标记；否则拒绝预测。
相对多数投票法(plurality voting)
$H({\bf x}) =c_{\underset{x}{\mathrm{argmin}}}\sum_{i=1}^Th_i^j({\bf x})$
即预测为得票最多的标记，若同时有多个暴击获最高票，则从中随机选取一个。
加权投票法(weighted voting)
$H({\bf x}) =c_{\underset{x}{\mathrm{argmin}}}\sum_{i=1}^T\alpha_i\cdot h_i^j({\bf x})$
和上面的简单投票法类似，不过多了权重 $\alpha_i$ ，这样可以区分分类器的重要程度，通常 $\alpha_i \ge 0;\hspace{1ex} \sum_{i=1}^T\alpha_i = 1$

此外，个体学习器可能产生不同的 $h_i^j({\bf x})$ 的值，比如类标记和类概率。
- 类标记 $h_i^j({\bf x}) \in \{0, 1\}$ ，若 $h_i$ 将样本 x 预测为类别 $c_j$ 取值为1，否则为0。使用类标记的投票亦称“硬投票”。(其实就是多分类的输出)，使用类标记的称为硬投票
- 类概率 $h_i^j({\bf x}) \in [0, 1]$ ，即输出类别为 $c_j$ 的概率。使用类概率的投票称为软投票。对应 sklearn 中的 VotingClassifier 中voting 参数设为 soft。
Note：使用类概率进行结合往往比直接基于类标记的效果好，即使分类器估计出的概率值一般都不太准确。

标准的绝对多数投票法提供了“拒绝预测”选项，这在可靠性要求较高的学习任务中是一个很好的机制。但若学习任务要求必须提供预测结果，则绝对多数投票法将退化为相对多数投票法。详细论述可参考周志华《机器学习》 $P_183$ 页解释。
学习法
初级学习器+次级学习器，引入stacking集成架构，见下文。

2.1.2 回归

对于回归任务来说，采用的为平均法：

简单平均： $H({\bf x}) =\frac{1}{T} \sum_{i=1}^Th_i({\bf x})$
加权平均： $H({\bf x}) =\frac{1}{T} \sum_{i=1}^T\alpha_i \cdot h_i({\bf x}) ; \ \ \alpha_i \ge 0; \ \ \sum_{i=1}^T\alpha_i = 1$

由于加权平均法一般是从训练数据中学习而得，现实任务中训练样本通常不充分或者存在噪声，使得学出来的权值不可靠。同时学习的权重过多会导致过拟合，因此加权平均未必优于简单平均。

Note: 一般性能相差大学习器加权平均，相近简单平均。

2.2 线性混合 Linear Blending

前面提到过加权平均法，每个个体学习器的权重不再相等，看起来就像是对每个个体学习器做一个线性组合，这也是线性混合法名字的由来。那么最优的权重是什么呢？一个直接的想法就是最好的 $\alpha_i$ 使得 error 最小，即对应了优化问题：
$\min_{\alpha_t\ge0}\ \frac{1}{M}\sum_{i=1}^M\left(y_i – \sum_{t=1}^T \alpha_th_t({\bf x}_i)\right)^2$

这里有 T 个体学习器，每个学习器用 $h_t$ 表示，而 $\alpha_t$ 就是对应的权重。

这个优化问题很像之前讲的求解概率 SVM（Platt模型）分为两阶段求解。这里我们首先用训练数据训练出所有的 h，然后再做线性回归求出 $\alpha_t$ 。注意到这里要求 $\alpha_t \ge 0$ ，来个拉格朗日函数？其实不用，通常我们可以忽略这个条件。以二分类为例如果 $\alpha_i$ 小于0，相当于把模型反过来用。（假如给你个错误率99%的模型，你反过来用正确率不就99%了么！）

如何得到 $h_t$ 呢？这里我们将个体学习器称为初级学习器，用于结合的学习器称为次级学习器。首先从数据集中训练出初级学习器，然后”生成“一个新的数据集用于训练次级学习器。注意为了防止过拟合，我们需要在训练集上做训练得到初级学习器 $h_t$ ，而在验证集上比较不同 $\alpha$ 的好坏。最终模型则在所有的数据上进行训练（数据量多可能使得模型效果更好）

步骤如下：

从训练集 $D_{train}$ 中训练得到 $h_1^-,h_2^-,\cdots,h_t^-$ ，并对验证集** $D_{val}$ 中的数据 $({\bf x_i},y_i)$ 做转换为新的数据集 $(\Phi^-({\bf x_i}),y_i)$ ，其中 $\Phi^-({\bf x_i}) = (h_1^-({\bf x_i}),h_2^-({\bf x_i}),\cdots,h_t^-({\bf x_i}))$

用线性回归求解 $\alpha = Lin\left(\{(z_i, y_i)\}\right)$

最后，用所有的数据 D 求解得到 $h_1,h_2,\cdots,h_t$ ，组成特征变换向量 $\Phi({\bf x}) = (h_1({\bf x}),h_2({\bf x}),\cdots,h_t({\bf x}))$

对于新数据 x， $f({\bf x}) = \frac{1}{T}\sum_{t=1}^T\alpha_th_t({\bf x})$

Blending：用不相交的数据训练不同的 Base Model，将它们的输出取（加权）平均。实现简单，但对训练数据利用少了。

2.3 Stacking

Stacking 相比 Linear Blending来说，更加强大，然而也更容易过拟合。

Stacking 做法和 Linear Blending类似，首先从数据集中训练出初级学习器，然后”生成“一个新的数据集用于训练次级学习器。为了防止过拟合，采用K折交叉验证法求解。

一个直观的图如下：

假设采用5折交叉验证，每个模型都要做满5次训练和预测，对于每一次：

从 80% 的数据训练得到一个模型 $h_t$ ，然后预测训练集剩下的那 20%，同时也要预测测试集。
每次有 20% 的训练数据被预测，5 次后正好每个训练样本都被预测过了。
每次都要预测测试集，因此最后测试集被预测 5 次，最终结果取 5 次的平均。

回归问题，代码如下（get_oof就是上图的过程）：

_N_FOLDS = 5  # 采用5折交叉验证
kf = KFold(n_splits=_N_FOLDS, random_state=42)  # sklearn的交叉验证模块，用于划分数据


def get_oof(clf, X_train, y_train, X_test):
    # X_train: 1000 * 10
    # y_train: 1 * 1000
    # X_test : 500 * 10
    oof_train = np.zeros((X_train.shape[0], 1))  # 1000 * 1  Stacking后训练数据的输出
    oof_test_skf = np.empty((_N_FOLDS, X_test.shape[0], 1))  # 5 * 500 * 1，oof_test_skf[i]代表第i折交叉验证产生的模型对测试集预测结果

    for i, (train_index, test_index) in enumerate(kf.split(X_train)): # 交叉验证划分此时的训练集和验证集
        kf_X_train = X_train[train_index]  # 800 * 10 训练集
        kf_y_train = y_train[train_index]  # 1 * 800 训练集对应的输出
        kf_X_val = X_train[test_index]  # 200 * 10  验证集

        clf.fit(kf_X_train, kf_y_train)  # 当前模型进行训练

        oof_train[test_index] = clf.predict(kf_X_val).reshape(-1, 1)  # 对当前验证集进行预测， 200 * 1
        oof_test_skf[i, :] = clf.predict(X_test).reshape(-1, 1)  # 对测试集预测 oof_test_skf[i, :] : 500 * 1

    oof_test = oof_test_skf.mean(axis=0)  # 对每一则交叉验证的结果取平均
    return oof_train, oof_test  # 返回当前分类器对训练集和测试集的预测结果


# 将数据换成你的数据
X_train = np.random.random((1000, 10))  # 1000 * 10
y_train = np.random.random_integers(0, 1, (1000,))  # 1000
X_test = np.random.random((500, 10))  # 500 * 10

# 将你的每个分类器都调用get_oof函数，并把它们的结果合并，就得到了新的训练和测试数据new_train,new_test
new_train, new_test = [], []
for clf in [LinearRegression(), RandomForestRegressor()]:
    oof_train, oof_test = get_oof(clf, X_train, y_train, X_test)
    new_train.append(oof_train)
    new_test.append(oof_test)

new_train = np.concatenate(new_train, axis=1)
new_test = np.concatenate(new_test, axis=1)

# 用新的训练数据new_train作为新的模型的输入，stacking第二层
clf = RandomForestRegressor()
clf.fit(new_train, y_train)
clf.predict(new_test)

如果是分类问题，我们对测试集的结果就不能像回归问题一样直接取平均，而是分类器输出所有类别的概率，最后取平均。每个分类器都贡献了_N_CLASS(类别数)的维度。

修改get_oof函数如下即可：

_N_CLASS = 2
def get_oof(clf, X_train, y_train, X_test):
    # X_train: 1000 * 10
    # y_train: 1 * 1000
    # X_test : 500 * 10
    oof_train = np.zeros((X_train.shape[0], _N_CLASS))  # 1000 * _N_CLASS
    oof_test = np.empty((X_test.shape[0], _N_CLASS))  # 500 * _N_CLASS

    for i, (train_index, test_index) in enumerate(kf.split(X_train)):
        kf_X_train = X_train[train_index]  # 800 * 10 交叉验证划分此时的训练集和验证集
        kf_y_train = y_train[train_index]  # 1 * 800
        kf_X_test = X_train[test_index]  # 200 * 10 验证集

        clf.fit(kf_X_train, kf_y_train)  # 当前模型进行训练

        oof_train[test_index] = clf.predict_proba(kf_X_test)  # 当前验证集进行概率预测， 200 * _N_CLASS
        oof_test += clf.predict_proba(X_test)  # 对测试集概率预测 oof_test_skf[i, :] ，  500 * _N_CLASS

    oof_test /= _N_FOLDS  # 对每一则交叉验证的结果取平均
    return oof_train, oof_test  # 返回当前分类器对训练集和测试集的预测结果

上面的代码只做了两层，你想的话还可以在加几层，因此这个方法叫做stacking，堆叠。。

3. Bagging

前面的模型融合中都是得到了尽可能好而不同 $h_t$ ，然后在进一步的进行处理，这些 $h_t$ 往往是用不同的模型、同一模型的不同的超参数或者不同随机种子得到的。

要让分类器不同，还可以对训练样本进行采样，但如果采样出的每个子集都完全不同，则每个基学习器只用到了一小部分训练数据，甚至不足以进行有效学习，这就不能保证训练出的学习器好。我们可以考虑使用有重叠的采样子集。对此，Bagging 算法采用Bootstrap（也称为自助法）进行采样。

3.1 Booststrap (自助采样) 的优点

Bootstrap 为有放回的抽样，每次从 m 个样本的数据集 D 中抽取一个，重复 m 次，最终得到包含m个样本的采样集 $D\prime$ 。显然，数据集 D 中有一部分样本会在 $D\prime$ 中出现，而一部分不会。可以做一个简单的估计，样本在 m 次采样过程中始终不会被采样到的概率是 $\frac{1}{m})^m$ ，取极限得到：
$\lim_{m\rightarrow\infty} \ (1 – \frac{1}{m})^m \rightarrow \frac{1}{e} \approx 0.368$

也就是说，每个基学习器用到了初始训练集中约63.2%的样本，剩下的36.8%的样本可以用来做 ”袋外估计“(out-of-bag estimate)，即这些没有用到的样本可以来做验证集，这会在随机森林中讲解。

由于只用了原始训练集的63.2%样本进行训练，剩下的36.8%可以用作验证集来对泛化性能进行“包外估计”。
包外估计还可以辅助决策树进行剪枝，或者估计决策树中各节点的后验概率用于辅助对零训练样本节点的处理；还可以辅助神经网络早期停止减小过拟合风险。
从“偏差-方差”分解的角度看，Bagging主要关注降低方差，因此它在不剪枝的决策树、神经网络等易受样本扰动的学习器上效用更为明显。

从“偏差-方差”分解的角度看，即Bagging更适用于强分类器（如不剪枝的决策树、神经网络）集成，旨在降低方差；Boosting则更侧重于弱分类器集成，旨在降低偏差。（AdaBoost、GBDT可以算是两种不同实现类型的Boosting算法，而XGBoost可以理解为GBDT算法架构的一种扩展变体（目标函数loss function不同，加入了正则化以及贪婪法加入新的决策树等方式），具体可参考本博客中关于AdaBoost, GBDT与XGBoost区别章节，而随机森林则是Bagging的一个扩展变体）

3.2 Bagging 算法

Bagging是“并行式”集成学习方法中最著名的代表，基于我们之前介绍的自主采样法。
假设有个学习器，则我们可以描述Bagging的算法如下：

对 $t=1,2,\ldots, T$
$\quad$ 通过 bootstrap 算法抽样得到一个大小为 m 的采样集 $D\prime$ ，在该采样集 $D\prime$ 上训练得到 $h_t$

最后得到 T 个 $h_t$ ，用均匀混合法得到最后的模型。

给定包含 m 个样本的数据集，随机取出一个样本放入采样机，再将样本放回初始数据集，使得下次采样仍有可能被选中，经过 m 次随机采样，得到 m 个样本的数据集，初始数据集中约63.2%出现在采样集中。
我们采样出 T 个含 m 个 ( $\geq m$ ) 训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。
在对预测输出进行结合的时候，Bagging通常对分类任务采用简单投票法，回归任务采用简单平均法，若遇到相同票数则随机选择一个或者根据投票置信度来选择。

PS：Bagging是英文Bootstrap Aggregation的缩写。其示意图如下:

[外链图片转存失败(img-CN2CYNY9-1562418031186)(https://www.hrwhisper.me/wp-content/uploads/2018/07/bagging.png)]

训练一个Bagging集成与直接使用基学习算法训练一个学习器复杂度同阶，说明是一个高效的集成算法，与标准AdaBoost只适用于二分类任务不同，Bagging可以不经修改的用于多分类、回归等任务。

标准的AdaBoost只能处理二分类，现在已有变体能处理多分类或者回归任务。

从方差和偏差的角度看，Bagging主要降低的是方差，如果基算法对随机性比较敏感，那么bagging的结果会比较好。如不剪枝的决策树、神经网络。

3.4 随机森林（Random Forest, RF）

随机森林是Bagging的一个扩展变体。

RF在以决策树为基学习器，构建Bagging的基础上，进一步在决策树的训练过程中引入了随机属性选择。

具体来说，传统的决策树在选择划分属性的时候是在当前节点的属性集合中选择一个最优属性，而在RF中，对基决策树的每个节点，先从该节点的属性集中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。

这里的参数k控制了随机性的引入程度，若令 k = d，则基决策树的构建与传统决策树相同；
若 k = 1，则随机选择一个属性进行划分；一般情况下推荐 $k=log_{2}d$

可以看出，随机森林对Bagging只做了微小的改动，但是与Bagging中基学习器的“多样性”仅通过样本扰动（通过对初始训练集采样）而来不同，随机森林中基学习器的多样性不仅来自于样本扰动，还来自于属性扰动，这就使得最终集成的泛化性能可以通过个体学习器之间的差异度的增加而进一步提升。

Bagging中基学习器的“多样性”仅通过样本扰动（通过对初始训练集采样），而RF中基学习器的多样性不仅来自于样本扰动，还来自于属性扰动。

随机森林的收敛性与bagging相似，随机森林其实性能很差，随着个体学习器增加，会收敛到更低泛化性能。
随机森林训练效率通常优于bagging，因为在个体决策树的构建过程中，bagging使用的是“确定型”决策树，需要考虑全部属性，但是随机森林使用的是“随机型”只需要考虑一个属性集合。

3.4.1 随机森林的建立

基本就是两个步骤：随机采样与完全分裂。

（1）随机采样

首先是两个随机采样的过程，random forest对输入的数据要进行行、列的采样。

对于行采样，采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。假设输入样本为 N 个，那么采样的样本也为 N 个，这选择好了的 N 个样本用来训练一个决策树，作为决策树根节点处的样本，同时使得在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现 over-fitting。

对于列采样，从 M 个 feature 中，选择 m 个(m << M)，即：当每个样本有 M 个属性时，在决策树的每个节点需要分裂时，随机从这 M 个属性中选取出 m 个属性，满足条件 m << M。

（2）完全分裂

对采样之后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。分裂的办法是：采用上面说的列采样的过程从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。

决策树形成过程中每个节点都要按完全分裂的方式来分裂，一直到不能够再分裂为止（如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了）。

随机森林的过程为：

对 $t=1,2,\ldots, T$

通过对原始数据集 D 做 Bootstrap抽样，得到大小为m的数据集 $\tilde{D}_t$

在 $\tilde{D}_t$ 上运行基分类器学习算法 $A(\tilde{D}_t)$ ，得到基分类器 $h_t$

返回 $G={\rm Uniform}(\{h_t\})$ （就是对所有 $h_t$ 做均匀混合）

其中基分类器 $h_t$ 的训练算法 $A(\tilde{D}_t)$ 为：

可以看出：

随机森林一开始采用自助法Bootstrap抽取数据
对于每棵树，在待分裂的节点上，随机选择K个特征
每一棵树为 CART

上面的两种做法都是为了让基学习器尽可能好而不同。通常来说，K << d(原始特征个数)，随机森林的效率能进一步提升。随机森林的提出者建议，每个 $h_t$ 每次分裂时都对特征都重采样一遍，这样效果会更好。若 k=d，则与传统决策树相同，一般而言，推荐 $k = \log_2d$ 或者 $\sqrt{d}$

随机森林的生成过程相比于一般决策树生成过程多了：Bagging步骤的bootstrap sampling（自助采样）与属性集(M个)随机选择m个（由参数m控制，建议 $m = log_2 M$ ）

一般决策树的生成过程可参考本博客决策树之ID3, C4.5与CART区别与联系

3.4.2 随机森林的优点

在数据集上表现良好
在当前的很多数据集上，相对其他算法有着很大的优势
它能够处理很高维度（feature很多）的数据，并且不用做特征选择
在训练完后，它能够给出哪些feature比较重要
在创建随机森林的时候，对generlization error使用的是无偏估计
训练速度快
在训练过程中，能够检测到feature间的互相影响
容易做成并行化方法
实现比较简单
能够处理带有缺失数据的样本

3.4.3 Random Froest 小结

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

在建立每一棵决策树的过程中，有两点需要注意自助采样与完全分裂。
- 首先是两个随机采样的过程，random forest对输入的数据要进行行、列的采样。对于行采样，采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。
- 假设输入样本为N个，那么采样的样本也为N个。这样使得在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。
- 然后进行列采样，从M个feature中，选择m个(m << M)。
- 之后就是对采样之后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。
- 一般很多的决策树算法都有一个重要的步骤 - 剪枝，但是这里不这样干，由于之前的两个随机采样的过程保证了随机性，所以就算不剪枝，也不会出现over-fitting。
按这种算法得到的随机森林中的每一棵都是很弱的，但是大家组合起来就很厉害了。
- 我觉得可以这样比喻随机森林算法：每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M个feature中选择m让每一棵决策树进行学习），这样在随机森林中就有了很多个精通不同领域的专家，对一个新的问题（新的输入数据），可以用不同的角度去看待它，最终由各个专家，投票得到结果。

4. 多样性

4.1 误差-分歧分解

欲构建泛化能力强的集成，个体学习器应“好而不同”，其中，“误差-分歧分解”（error-ambiguity decomposition）是一个简单的理论分析方法。但该推导过程只适用于回归学习，难以直接推广到分类学习任务中。

4.2 多样性度量

多样性度量（diversity measure）是用于度量集成中个体分类器的多样性，即估算个体学习器的多样化程度。常用的多样性度量包括：

不合度量（disagreement measure）
相关系数（correlation coefficient）
Q-统计量（Q-statistics）
k-统计量（k-statistics）

4.3 多样性增强

在集成学习中需有效地生成多样性大的个体学习器。与简单地直接用初始数据训练出个体学习器相比，一般思路是在学习过程中引入随机性，常见的做法主要有，

数据样本扰动：数据样本扰动基于采样法。
输入属性扰动：随机子空间算法。
输出表示扰动：翻转法（随机改变一些训练样本的标记）；输出调制法（将分类输出转化为回归输出后构建学习器）…
算法参数扰动：负相关法；单一学习器通常需要交叉验证等来确定参数值。

常见的“不稳定基学习器”：决策树、神经网络，训练样本稍加变化就会导致学习器有显著变动，数据样本扰动法对这样的“不稳定基学习器”很有效；

常见的“稳定基学习器”：线性学习器、支持向量机、朴素贝叶斯、k近邻学习器，对此类基学习器进行集成往往需要使用输入属性扰动等其他几种。

5. Bagging 与 Boosting 区别

Bagging，Boosting二者之间的区别

（1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

（2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

（3）预测函数：

Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

（4）并行计算：

Bagging：各个预测函数可以并行生成
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

参考资料

我爱机器学习』集成学习（一）模型融合与Bagging
机器学习技法 – 林轩田
《机器学习》 – 周志华
模型融合：bagging、Boosting、Blending、Stacking

关于Stacking方面还可以查阅：

Stacking Learning在分类问题中的使用
Kaggle机器学习之模型融合（stacking）心得

你可能感兴趣的:(推荐系统理论进阶,Bagging,Boosting,集成学习,随机森林,集成策略)

下一代防火墙 999感冒灵. 网络安全
一.防火墙是什么1.防火墙的定义：防火墙是一个位于内部网络与外部网络之间的安全系统（网络中不同区域之间），是按照一定的安全策略建立起来的硬件或软件系统，用于流量控制的系统（隔离），保护内部网络资源免受威胁（保护）。防火墙的主要用于防止黑客对安全区域网络的攻击，保护内部网络的安全运行。2.防火墙基本性质：①安全区域和接口：一台防火墙具有多个接口每个接口属于一个安全区域，每个区域具有唯一的名称，所以防
Kali系统MSF模块暴力破解MySQL弱口令漏洞
一、实验环境1.攻击方：攻击环境使用KALI系统（使用虚拟机搭建）的Metasploit模块，msfconsole是metasploit中的一个工具，它集成了很多漏洞的利用的脚本，并且使用起来很简单的网络安全工具。这里要特别强调：被攻击的环境必须开启mysql远程登陆服务,通常MySQL开启的端口号是3306，故而一般情况下要求被攻击的服务器开启了3306端口号。2.被攻击MySQL环境：Wind
如何在YashanDB中管理数据模型变更数据库
在现代企业中，数据模型的变更管理扮演着关键角色。无论是扩展现有业务，还是应对新的需求，业务模型的改变往往需要相应的数据模型更新。如何有效地管理这些变更，确保数据的完整性、一致性及应用的高可用性，成为了数据架构师和开发者必须面对的重要问题。本文将详细探讨在YashanDB中管理数据模型变更的策略和方法，旨在提升对YashanDB数据库技术的理解及应用能力。数据模型变更管理的关键要素版本控制与变更日志
如何有效管理YashanDB的访问控制数据库
引言在当今数字化的业务环境中，数据安全性和访问控制是数据库管理的核心问题。随着数据规模的不断扩大，以及对数据隐私和合规性的要求日益增强，如何有效管理数据库的访问权限已成为企业面临的重大挑战。YashanDB作为一个高性能的数据库管理系统，具备丰富的访问控制功能，但同时也带来了复杂的管理需求。本篇文章将深入探讨YashanDB的访问控制机制，包括用户管理、角色权限、身份认证及其他相关策略，旨在为数据
如何设计基于YashanDB数据库的高效查询数据库
在当今数据驱动的业务环境中，提高数据库查询性能已经成为各类企业面临的重大挑战。随着数据量的快速增长，许多机构遭遇了性能瓶颈、数据一致性问题和查询响应延迟等一系列问题。在这样的背景下，优化数据库架构、提高查询效率迫在眉睫。本文将集中在YashanDB数据库的查询设计上，提供技术分析和操作指导，以帮助开发人员设计高效的查询策略，实现优越的性能。YashanDB的体系架构YashanDB支持多种部署形态
MySQL使用POINT类型+空间索引快速过滤区域
在MySQL中使用POINT类型和空间索引来快速过滤区域数据是一种非常有效的策略，尤其是在处理地理位置信息时。POINT类型是MySQL空间数据类型之一，用来表示二维空间中的点。通过使用空间索引（例如R-tree索引），可以显著提高查询性能，尤其是在处理大量地理数据时。1.创建空间表和空间索引首先，你需要有一个包含POINT类型字段的表，并为这个字段创建空间索引。下面是一个示例：CREATETAB
MongoDB数据库备份及恢复策略详解魑魅丶小鬼
本文还有配套的精品资源，点击获取简介：MongoDB，作为流行的开源NoSQL数据库，提供灵活、高性能和易用性的特点。为了保证数据安全和业务连续性，进行有效的备份和恢复策略至关重要。本文将介绍MongoDB的备份工具和方法，包括mongodump和mongorestore命令行工具，以及更复杂的云备份解决方案。同时，将通过一个中等规模的数据集实例来详细说明备份流程，强调备份前停止写入、执行备份、检
C++17 并行算法：std::execution::par
在多核处理器普及的今天，如何高效利用硬件资源成为提升软件性能的关键。C++17引入的并行算法库（ParallelAlgorithms）为开发者提供了一套标准化的并行编程接口，通过简单的策略切换即可将顺序算法转换为并行执行。本文将深入探讨C++17并行算法中最核心的执行策略std::execution::par，从基础概念到高级应用，全面解析其原理、用法及最佳实践。一、C++17并行算法概述1.1并
Flutter UI 测试 2401_89317650 flutter ui
在Flutter中，UI测试被称作集成测试。Flutter集成测试类似iOS的XCUITest或Android的Expresso一样来执行UI自动化测试。Flutter的集成测试在一个单独的环境运行，可以运行在真实的设备或者模拟器上面。Flutter提供了一个flutter_driver包来编写UI测试。Flutter应用程序的UI测试是如何执行UI测试:FlutterUI测试作为黑盒运行，与主应
Python高频面试题（四） Irene-HQ 测试 python 自动化测试 python 开发语言面试测试工具 github pycharm
以下是Python研发和自动化测试面试中‌更高阶的专项考点及典型问题‌一、并发与异步编程（高级）‌GIL全局解释器锁的应对策略‌问题：GIL如何影响Python多线程性能？如何绕过GIL限制？答案：GIL使同一时刻仅一个线程执行字节码，CPU密集型任务性能受限绕过方案：使用多进程（multiprocessing）、C扩展（如Cython）、异步IO（asyncio）‌46‌协程异步调用示例‌问题：
HTTP 响应头信息详解 lsx202406 开发语言
HTTP响应头信息详解引言HTTP（超文本传输协议）是互联网上应用最为广泛的网络协议之一。在HTTP协议中，响应头信息是服务器向客户端发送的重要信息之一。响应头信息包含了关于响应的元数据，如状态码、内容类型、缓存策略等。本文将详细介绍HTTP响应头信息的概念、类型、作用以及常见响应头信息的解析。HTTP响应头信息概述HTTP响应头信息是服务器在发送HTTP响应时，除了响应体之外，附加在响应体前面的
SQLite - C/C++编程环境搭建与使用指南 lsx202406 开发语言
SQLite-C/C++编程环境搭建与使用指南引言SQLite是一款轻量级的数据库管理系统，广泛应用于嵌入式系统、移动设备、Web应用等场景。其独特的架构和易用性使其成为许多开发者的首选。本文将详细介绍如何搭建SQLite的C/C++编程环境，并探讨如何在C/C++程序中集成SQLite数据库。环境搭建1.获取SQLite首先，我们需要从SQLite的官方网站（https://www.sqlite
ShardingSphere-JDBC 详解 csdn_tom_168 Apache ShardingSphere 数据库 ShardingSphere JDBC 学习
ShardingSphere-JDBC（原Sharding-JDBC）是ApacheShardingSphere的核心模块之一，定位为轻量级Java框架，在Java的JDBC层提供分库分表、读写分离、数据加密、影子库等分布式数据库增强能力。它直接操作JDBC接口，对应用透明，集成成本极低。以下是ShardingSphere-JDBC的详解：一、核心功能数据分片：分库分表：将逻辑上的大表（库）拆分成
Java 中 Maven 依赖冲突的解决策略 Java大师兄学大数据AI应用开发 AI实战 AI人工智能与大数据应用开发 java maven 网络 ai
Java中Maven依赖冲突的解决策略关键词：Java、Maven、依赖冲突、解决策略、依赖分析摘要：在Java开发中，Maven作为强大的项目管理和构建工具，极大地提高了开发效率。然而，依赖冲突是使用Maven时常见且棘手的问题，它可能导致项目编译失败、运行时出现异常等情况。本文将深入探讨Maven依赖冲突的产生原因、表现形式，并详细介绍多种有效的解决策略。通过实际案例和代码分析，帮助开发者更好
QA - RAG智能问答系统中的文档切片与实现原理 ai开发
引言在现代企业知识管理系统中，智能问答系统正发挥着越来越重要的作用。GC-QA-RAG系统作为葡萄城技术栈中的重要组成部分，其核心功能是通过对文档内容进行智能切片和向量化存储，实现对技术文档的高效检索和问答。本文将深入剖析该系统的文档切片原理，包括短文档和长文档的不同处理策略，以及如何将这些技术应用于实际场景中。正文1.原始方案及其局限性最初的GC-QA-RAG系统采用了一种直观的方法：将整个文档
学Simulink——整流器场景：基于Simulink的单相全桥可控硅整流器仿真建模 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 simulink matlab
目录手把手教你学Simulink——整流器场景：基于Simulink的单相全桥可控硅整流器仿真建模一、背景介绍二、系统结构设计三、建模过程第一步：创建新Simulink项目第二步：添加主要模块1.交流电源2.单相全桥可控硅整流器3.LC滤波器4.负载模拟5.触发脉冲生成模块6.测量模块第三步：搭建主电路拓扑第四步：搭建触发脉冲生成逻辑1.设计触发脉冲逻辑2.集成至Simulink模型四、参数设置五
OneCode技术架构深度解析：自主UI体系、注解驱动与全栈开发的协同优势低代码老李 OneCode产品介绍 OneCode实战软件行业架构 ui
引言：低代码平台的技术基石在AIGC与数字化转型的双重驱动下，企业级低代码平台已从简单的界面搭建工具演进为全栈业务开发环境。OneCode作为国内领先的低代码开发平台，其核心竞争力源于三大技术支柱：自主可控的UI体系、注解驱动的开发模式和端到端的全栈支持能力。这三大支柱形成有机整体，使OneCode在开发效率、系统集成和业务适应性方面建立起显著优势。本文将深入剖析这些技术特性的实现原理与应用价值，
OneCode UI 核心组件体系分析：继承关系与功能详解
前言在低代码开发平台蓬勃发展的今天，UI组件体系作为连接可视化设计与代码实现的核心纽带，其架构设计直接决定了平台的灵活性、扩展性与开发效率。OneCode作为专注于企业级应用构建的低代码平台，摒弃了传统第三方UI库的集成模式，自主研发了一套完整的UI组件体系。这一体系不仅实现了组件的高度可定制化，更通过创新的继承机制与状态管理，构建了层次清晰、功能完备的组件生态。本文以OneCodeUI组件体系为
Vue 开发问题：Missing required prop: “value“ 我命由我12345 vue.js javascript 前端前端框架 ecmascript 开发语言 js
在Vue项目中，出现如下警告信息[Vuewarn]:Missingrequiredprop:"value"[Vue警告]：缺少必需属性："value"问题原因这个警告表明在组件中存在一个必需的属性value没有被提供，即父组件没有传递该属性给子组件处理策略确保在使用组件时，父组件正确传递了属性给子组件
揭秘 Spring Cloud Zuul 在后端的负载均衡策略大厂资深架构师 Spring Boot 开发实战 spring cloud 负载均衡 spring ai
揭秘SpringCloudZuul在后端的负载均衡策略关键词：SpringCloudZuul、负载均衡、微服务网关、Ribbon、请求路由摘要：在微服务架构中，API网关是流量的“总调度员”，而负载均衡则是它的“智能大脑”。本文将以“小区门卫派件”为故事主线，用通俗易懂的语言揭秘SpringCloudZuul如何通过集成Ribbon实现后端负载均衡。我们将从核心概念到算法原理，从代码实战到应用场景
Prometheus系列01-Prometheus的单机版二进制部署 tinychen777 Devops linux 监控程序 centos
作为CNCF中最成功的开源项目之一，Prometheus已经成为了云原生监控的代名词，被广泛应用在Kubernetes和OpenShift等项目中，同时有很多第三方解决方案也会集成Prometheus。随着Kubernetes在容器调度和管理上确定领头羊的地位，Prometheus也成为Kubernetes容器监控的标配。考虑到k8s系统的复杂性和上手难度较高，本文将从最简单最基础的部分开始循序渐
Subversion FAQ(常见问题解答) lxt2lili Java第三方插件 subversion svn apache 工作服务器 windows
常见问题：为什么会有这样一个项目？Subversion是私有软件吗?我听说它是属于CollabNet公司的。Subversion用在我的项目上是否足够稳定？Subversion的客户端/服务器在协同工作时的策略是怎样的？Subversion可以运行在哪些操作系统上？所有它的一切是否是一种新的文件系统？比方说ext2文件系统？为了运行一个Subversion服务器，哪些硬件是我所需要的？我听说Sub
subversion安装、备份、安全认证实践笔记——宋轶聪 etune subversion svn apache tortoisesvn 工作存储
在windows上配置svn的方法在linux10.117.100.130上安装svnsvn库的导入导出查看svn服务器版本SVN备份策略Svn服务配置和维护常用命令linux下启动和停止win下启动和停止svn把svn加为系统服务配置apache通过http访问svnsvn命令行====================================在windows上的配置方法=========
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
北上广深编程语言生态与薪资全景分析（2024-2025）小李也疯狂其他 python 开发语言
目录前言一、用户数量与地域分布1.1开发者基数与城市能级1.2编程语言流行度对比二、薪资水平与行业关联2.1城市薪资梯度2.2语言薪资排名2.3行业薪资溢价三、技术趋势与影响因素3.1行业需求驱动3.2新兴技术冲击3.3政策与人才流动四、职业发展指导意见4.1开发者能力图谱4.2地域选择策略4.3企业技术选型建议结语前言在数字经济时代，编程语言的选择不仅决定技术路径，更直接影响职业发展。作为中国科
Esim：简化业务复杂度的Golang业务框架周琰策Scott
Esim：简化业务复杂度的Golang业务框架esim微服务应用框架项目地址:https://gitcode.com/gh_mirrors/esi/esim项目介绍Esim是一款专注于解决业务复杂度、测试、代码组织和扩展等问题的Golang业务框架。它不提供微服务整套技术体系，如服务治理、服务注册、服务发现等，而是将这些交给了ServiceMesh。Esim默认集成了gin和grpc两个技术框架，
企业级视频链接的技术实现与安全性策略
前言视频链接作为内容分发的关键入口，其参数设计直接影响系统安全性、用户体验和运营效率。一个标准化的视频链接应包含资源标识、访问控制和播放体验三类核心参数，同时保持结构清晰和可扩展性。视频链接的批量生成与管理策略1.高效批量生成技术针对运营场景的批量链接生成需求，实现高性能的生成方案：importcsvimportconcurrent.futuresfromtqdmimporttqdmclassBa
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
【Python】simulink与python联合仿真
1.1Simulink的边界：事件驱动、算法复杂性与AI集成瓶颈Simulink的核心优势在于其强大的微分方程求解器和对连续时间系统、离散时间系统的精确描述能力。其基于“信号流”和“框图”的建模范式，使得工程师可以直观地构建与物理现实高度对应的数学模型。然而，这种优势也带来了其天然的局限性：基于时间的驱动核心(Time-BasedCoreEngine):Simulink的“心脏”是一个时间驱动的仿
了解GC吗？什么是GC？后端java
GC是什么？为什么要GC？GC（GarbageCollection），垃圾回收，是Java与C++的主要区别之一。作为Java开发者，一般不需要专门编写内存回收和垃圾清理代码。这是因为在Java虚拟机中，存在自动内存管理和垃圾清理机制。对JVM中的内存进行标记，并确定哪些内存需要回收，根据一定的回收策略，自动的回收内存，保证JVM中的内存空间，防止出现内存泄露和溢出问题。GC是任意时候都能进行的吗
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key