阳云yy

集成学习入门与实战

文章目录

1. 什么是集成学习
2.基本思想
3.集成学习解决的问题
4.相关算法
- 4.1 Boosting
- - 4.1.1 AdaBoost算法思想
  - 4.1.2 AdaBoost算法流程
  - 4.1.3 示例
- 4.2 提升树（Boosting Tree）
- 4.3 梯度提升树(GBDT)
- 4.4 Bagging与随机森林
5. 偏差-方差分解的角度分析Boosting和Bagging

1. 什么是集成学习

集成学习(ensemble learning)是现在非常火爆的机器学习方法。它本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分问题集成回归问题集成，特征选取集成，异常点检测集成等等，可以说所有的机器学习领域都可以看到集成学习的身影。

集成学习思维导图图下所示：

2.基本思想

对于训练集数据，我们通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的。集成学习有两个主要的问题需要解决：

如何得到若干个个体学习器；
如何选择一种结合策略，将这些个体学习器集合成一个强学习器

集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。

通过图例进行简单的分析集成学习过程：

原始数据
个体学习器
不同学习器所选择分割线不同，最终的结果也具有差异性
将多个单学习器进行组合

如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决，组合后得到的结果为理想划分界限。

对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能。

在概率近似正确(PAC)学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它。

如果正确率很高，那么就称这个概念是强可学习(stronglylearnable)的。
如果正确率不高，仅仅比随即猜测略好，那么就称这个概念是弱可学习(weakly learnable)的。
后来证明强可学习与弱可学习是等价的

3.集成学习解决的问题

如上图所示，我们结合多种策略，使得分类效果较好，但是我们如何进行策略具有如下几个问题：

弱分类器之间是怎样的关系？
组合时，如何选择学习器？
怎样组合弱分类器？

问题一：弱分类器之间是怎样的关系？

个体学习器有两种选择：

第一种就是所有的个体学习器都是一个种类的或者说是同质的。比如都是决策树个体学习器或者都是神经网络个体学习器
第二种是所有的个体学习器不全是一个种类的或者说是导质的。比如我们有一个分类问题对训练集采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器来学习再通过某种结合策略来确定最终的分类强学习器

目前而言，同质个体学习器应用最广泛，一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。

同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类：

第一是个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成，代表算法是boosting系列算法。
第二个是个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成，代表算法是bagging和随机森林(RandomForest)系列算法。

问题二：组合时，如何选择学习器？

考虑准确性和多样性

准确性指的是个体学习器不能太差，要有一定的准确度；
多样性则是个体学习器之间的输出要具有差异性

考虑一个简单的例子：在二分类任务中，假定三个分类器在三个测试样本上的表现如图所示，其中 $\sqrt{ }$ 表示分类正确， $\times$ 表示分类错误，集成学习的结果通过投票法产生, 即 “少数服从多数” 。在图(a) 中，每个分类器都只有 $\%$ 的精度，但集成学习却达到了 $\%$ ；在图 (b)中，三个分类器没有差别，集成之后性能没有提高；在图©中，每个分类器的精度都只有 $\%$ ，集成学习的结果变得更糟。这个简单的例子显示出：要获得好的集成，个体学习器应 “好而不同” ，即个体学习器要有一定的 “准确性”，即学习器不能太坏，并且要有 “多样性”，即学习器间具有差异。

问题三：怎样组合弱分类器？
常见的组合策略：

平均法
投票法
学习法

(1) 平均法对于数值类的回归预测问题
思想：对于若干个弱学习器的输出进行平均得到最终的预测输出。

简单平均法 $\quad H(x)=\frac{1}{T} \sum_{i=1}^T h_i(x)$
加权平均法 $\quad H(x)=\sum_{i=1}^T w_i h_i(x)$
其中 $w_i$ 是个体学习器 $h_i$ 的权重，通常有 $w_i \geq 0, \sum_{i=1}^T w_i=1$

(2)投票法对于分类问题的预测
思想：多个基本分类器都进行分类预测，然后根据分类结果用某种投票的原则进行投票表决，按照投票原则使用不同投票法。

一票否决、一致表决、少数服少多数

阈值表决：首先统计出把实例 $x$ 划分为 $C_i$ 和不划分为 $C_i$ 的分类器数目分别是多少，然后当这两者比例超过某个阈值的时候把 $x$ 划分到 $C_i$ 。

(3)学习法（代表方法是Stacking）
之前的方法都是对弱学习器的结果做平均或者投票，相对比较简单，但是可能学习误差较大。

思想：不是对弱学习器的结果做简单的逻辑处理，而是再加上一层学习器，分为2层。
第一层是用不同的算法形成T个弱分类器，同时产生一个与原数据集大小相同的新数据集，利用这个新数据集和一个新算法构成第二层的分类器。

主要学习方法：
根据个体学习器的生成方式，目前的集成学习方法大致可分为两类：

Boosting：个体学习器间存在强依赖关系，必须串行生成的序列化方法；
串行：下一个分类器只在前一个分类器预测不够准的实例上进行训练或检验。
Bagging:个体学习器间不存在强依赖关系，可同时生成的并行化方法；
并行：所有的弱分类器都给出各自的预测结果，通过组合把这些预测结果转化为最终结果。

4.相关算法

4.1 Boosting

Boosting是一簇可将弱学习器提升为强学习器的算法。其工作机制为：先从初始训练集训练出一个基学习器，再根据基学习器的表现对样本分布进行调整，使得先前的基学习器做错的训练样本在后续收到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到实现指定的值T，或整个集成结果达到退出条件，然后将这些学习器进行加权结合。

4.1.1 AdaBoost算法思想

Adaboost 算法采用调整样本权重的方式来对样本分布进行调整，即提高前一轮个体学习器错误分类的样本的权重，而降低那些正确分类的样本的权重，这样就能使得错误分类的样本可以受到更多的关注，从而在下一轮中可以正确分类，使得分类问题被一系列的弱分类器“分而治之”。对于组合方式，AdaBoost采用加权多数表决的方法，具体地，加大分类误差率小的若分类器的权值，减小分类误差率大的若分类器的权值，从而调整他们在表决中的作用。

4.1.2 AdaBoost算法流程

输入: 训练数据集 $T=\left\{\left(x_1, y_1\right),\left(x_2, y_2\right),\left(x_3, y_3\right), \ldots\left(x_n, y_n\right)\right\}$ ，其中 $x_i \in X \subseteq {R}^n, y_i \in Y=\{-1,+1\}$ ， $Y=\{-1, \left.+1\right\}$ 是弱分类算法。

输出: 最终分类器 $G_m(x)$

初始化: 假定第一次训练时，样本均匀分布权值一样。
$D_1=\left(w_{11}, w_{12}, w_{13} \ldots \ldots w_{1 n}\right)$
其中 $w_{1 i}=\frac{1}{n}, i=1,2,3 \ldots n$
循环: $\ldots \mathrm{M}$

（a）使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器 $G_m$ (选取让误差率最低的阈值来设计基本分类器)：
$G_m(x): \chi \rightarrow\{-1,+1\}$
（b）计算 $G_m(x)$ 在训练集上的分类误差率 $e_m$
$e_m=P\left(G_m\left(x_i\right) \neq y_i\right)=\sum_{i=1}^n w_{m i} I\left(G_m\left(x_i\right) \neq y_i\right)$
$I\left(G_m\left(x_i\right) \neq y_i\right)$ : 当 $G_m\left(x_i\right)$ 与 $y_i$ 相等时，函数取值为 0 ；当 $G_m\left(x_i\right)$ 与 $y_i$ 不相等时，取值为 1 ；
由上述式子可知， $G_m(x)$ 在训练数据集上的误差率 $e_m$ 就是被 $G_m(x)$ 误分类样本的权值之和。
（c）计算 $G_m(x)$ 的系数 $\alpha_m ， \alpha_m$ 表示 $G_m(x)$ 在最终分类器中的重要程度:
$\alpha_m=\frac{1}{2} \ln \frac{1-e_m}{e_m}$
【注】显然 $e_m<=1 / 2$ 时， $\alpha_m>=0$ ，且 $\alpha_m$ 随着 $e_m$ 的减小而增大，意味着分类误差率越小的基本分类器在最终分类器中的作用越大
此时分类器为: $f_m(x)=\alpha_m G_m(x)$
（d）更新训练数据集的权值分布，用于下一轮迭代。
$\begin{gathered} D_{m+1}=\left(w_{m+1,1}, w_{m+1,2}, w_{m+1,3}, \ldots w_{m+1, n}\right) \\ w_{m+1, i}=\frac{w_{m i}}{Z_m} \exp \left(-y_i \alpha_m G_m\left(x_i\right)\right), i=1,2,3, \ldots n \end{gathered}$
其中 $Z_m$ 是规范化因子，使得 $D_{m+1}$ 成为一个概率分布。
$Z_m=\sum_{i=1}^n w_{m i} e^{\left(-y_i \alpha_m G_m\left(x_i\right)\right)}$
循环结束条件:
$e_m$ 小于某个阈值 (一般是 $\left.0.5\right)$ ，或是达到最大迭代次数。
AdaBoost 方法中使用的分类器可能很弱 (比如出现很大错误率)，但只要它的分类效果比随机好一点 (比如两类问题分类错吴率略小于 $0.5$ )，就能够改善最终得到的模型。
组合分类器:
$f(x)=\sum_{m=1}^M \alpha_m G_m(x)$
最终分类器( $Y\{+1,-1\}$ )：
$G_m(x)=\operatorname{sign}(f(x))=\operatorname{sign}\left(\sum_{i=1}^M \alpha_m G_m(x)\right)$
其中：
$\sum _ { i = 1 } ^ { N } u _ { m i } = 1$
$w_{m+1,i}= \left\{ \begin{matrix} \frac{w_{mi}}{Z_{m}}e^{- \alpha _{m}}, \quad G_{m}(x_{i})=y_{i}\\ \frac{w_{mi}}{Z_{m}}e^{\alpha _{m}}, \quad G_{m}(x_{i})\neq y_{i}\\ \end{matrix} \right.$

4.1.3 示例

假定给出下列训练样本

初始化： $\frac { 1 } { n } = 0.1 , n = 10$ （样本个数）

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值	$w_{1i}$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1

阈值猜测：观察数据，可以发现数据分为两类：-1和1，其中数据“0,1,2”对应“1”类，数据“3,4,5”对应“-1”类，数据“6,7,8”对应“1”类，数据“9”对应“"1”类。抛开单个的数据“9”，可以找到对应的数据分界点（即可能的阈值），比如：2.5、5.5、8.5（一般0.5的往上加，也可以是其他数）。然后计算每个点的误差率，选最小的那个作为阈值。
但在实际操作中，可以每个数据点都做为阈值，然后就算误差率，保留误差率最小的那个值。若误差率有大于0.5的就取反（分类换一下，若大于取1，取反后就小于取1），再计算误差率。

迭代过程 $1 : m = 1$

确定阈值的取值及误差率

当阈值取 $2.5$ 时，误差率为 $0.3$ 。即 $x < 2.5$ 时取 $1 ， x > 2.5$ 时取 $- 1$ ，则数据6、7、8分错，误差率为 $0.3$ (简单理解: 10 个里面 3 个错的，真正误差率计算看下面的表格 )
当阈值取 $5.5$ 时，误差率最低为 $0.4$ 。即 $x < 5.5$ 时取 $1 ， x > 5.5$ 时取 $- 1$ ，则数据3、4、5、6、7、8分错，错误率为 $0.6 > 0.5$ ，故反过来，令 $x > 5.5$ 取 1 ， $x < 5.5$ 时取 $- 1$ ，则数据0、1、2、9分错，误差率为 $0.4$
当阈值取 $8.5$ 时，误差率为 $0.3$ 。即 $x < 8.5$ 时取 $1, x > 8.5$ 时取 $- 1$ ，则数据3、4、5分错，错误率为 $0.3$
由上面可知，阈值取 $2.5$ 或8.5时，误差率一样，所以可以任选一个作为基本分类器。这里选2.5为例。
$G_1(x)= \begin{cases}1, & x<2.5 \\ -1, & x>2.5\end{cases}$

计算误差率:

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
分类器结果	$G_1(x)$	1	1	1	-1	-1	-1	`-1`	`-1`	`-1`	-1
分类结果		对	对	对	对	对	对	错	`错	错	对

从上可得 $G_1(x)$ 在训练数据集上的误差率（被分错类的样本的权值之和）:
$e_{1}=P(G_{1}(x_{i})\neq y_{i})= \sum _{G_{1}(x_{i})\neq y_{i}}w_{1i}=0.1+0.1+0.1=0.3$

计算 $G_1(x)$ 的系数:
$\alpha_1=\frac{1}{2} \ln \frac{1-e_1}{e_1}=\frac{1}{2} \ln \frac{1-0.3}{0.3} \approx 0.42365$
这个 $\alpha_1$ 代表 $G_1(x)$ 在最终的分类函数中所占的比重约为 $0.42365$
分类函数
$f_1(x)=\alpha_1 G_1(x)=0.42365 G_1(x)$
更新权值分布:
$\begin{aligned} Z_1=& \sum_{i=1}^n w_{1 i} \exp \left(-y_i \alpha_1 G_1\left(x_i\right)\right) \\ =& \sum_{i=1}^3 0.1 \times \exp (-[1 \times 0.4263 \times 1]) \\ &+\sum_{i=4}^{4-6,10} 0.1 \times \exp (-[(-1) \times 0.4263 \times(-1)]) \\ &+\sum_{i=7}^9 0.1 \times \exp (-[1 \times 0.4263 \times(-1)]) \\ \approx & 0.3928+0.4582+0.0655 = 0.9165\\ &w_{2 i}= \frac{w_{1 i}}{Z_1} \exp \left(-y_i \alpha_1 G_1\left(x_i\right)\right)= \begin{cases}\frac{0.1}{0.9165} \exp (-[1 \times 0.4236 \times 1]), & i=1,2,3 \\ \frac{0.1}{0.9165} \exp (-[(-1) \times 0.4236 \times(-1)]), & i=4,5,6,10 \\ \frac{0.1}{0.9165} \exp (-[1 \times 0.4236 \times(-1)]), & i=7,8,9 \\ \end{cases} \\ \approx& \begin{cases}0.07143 \quad i=1,2,3 \\ 0.07143 \quad i=4,5,6,10 \\ 0.16666 \quad i=7,8,9\end{cases} \end{aligned}$

权值更新表：

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值1	$w_{1i}$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1
更新权值2	$w_{2i}$	0.07143	0.07143	0.07143	0.07143	0.07143	0.07143	0.16666	0.16666	0.16666	0.07143

由上面可以看出，因为数据“6,7,8”被 $G_1(x)$ 分错了，所以它们的权值由初始的0.1增大到了0.16666；其他的数据由于被分对了，所以权值由0.1减小到0.07143。

迭代过程2: $m = 2$

确定阈值的取值及误差率

当阈值取2.5时，误差率为 $0.49998$ 。即 $x < 2.5$ 时取 $1 ， x > 2.5$ 时取 $- 1$ ，则数据6、7、8分错，误差率为 $0.16666^{\star} 3$ (取过，不列入考虑范围)
当阈值取 $5.5$ 时，误差率最低为 $0.28572$ 。即 $x < 5.5$ 时取 $1 ， x > 5.5$ 时取 $- 1$ ，则数据3、4、5、6、7、8分错，错误率为 $0.07143^* 3+0.16666^{\star} 3=0.71427>0.5$ ，故反过来，令 $x > 5.5$ 取 $1 ， x < 5.5$ 时取 $- 1$ ，则数据0、1、2、9分错，误差率为 $0.07143^{\star} 4=0.28572$
当阈值取8.5时，误差率为 $0.21429$ 。即 $x < 8.5$ 时取 1 ， $x > 8.5$ 时取 $- 1$ ，则数据3、4、 5 、9分错，错吴率为 $0.07143^* 3=0.21429$
由上面可知，阈值取 $8.5$ 时，误差率最小，所以:
$G_2(x)= \begin{cases}1, & x<8.5 \\ -1, & x>8.5\end{cases}$

计算误差率:

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值2	$w_{2i}$	0.07143	0.07143	0.07143	0.07143	0.07143	0.07143	0.16666	0.16666	0.16666	0.07143
分类器结果	$G_2(x)$	1	1	1	`1`	`1`	`1`	1	1	1	-1
分类结果		对	对	对	错	错	错	对	对	对	对

从上可得 $G_2(x)$ 在训练数据集上的误差率（被分错类的样本的权值之和）:
$e_2=P\left(G_2\left(x_i\right) \neq y_i\right)=\sum_{G_2\left(x_i\right) \neq y_i} w_{2 i}=0.07143+0.07143+0.07143=0.21429$

计算 $G_2(x)$ 的系数:
$\alpha_2=\frac{1}{2} \ln \frac{1-e_2}{e_2}=\frac{1}{2} \ln \frac{1-0.21429}{0.21429} \approx 0.64963$
这个 $\alpha_2$ 代表 $G_2(x)$ 在最终的分类函数中所占的比重约为 $0.649263$
分类函数
$f_2(x)=\alpha_2 G_2(x)=0.64963 G_2(x)$
更新权值分布:
$\begin{aligned} Z_2=& \sum_{i=1}^n w_{2 i} \exp \left(-y_i \alpha_2 G_2\left(x_i\right)\right) \\ =& \sum_{i=1}^3 0.07143 \times \exp (-[1 \times 0.64963 \times 1]) \\ &+\sum_{i=4}^6 0.07143 \times \exp (-[(-1) \times 0.64963 \times 1]) \\ &+\sum_{i=7}^9 0.16666 \times \exp (-[1 \times 0.64963 \times 1]) \\ &+\sum_{i=10}^{10} 0.07143 \times \exp (-[(-1) \times 0.64963 \times(-1)]) \\ \approx & 0.11191+0.41033+0.26111+0.03730 \\ =& 0.82065 \end{aligned}$
$\begin{aligned} w_{3 i}&= \frac{w_{2 i}}{Z_2} \exp \left(-y_i \alpha_2 G_2(x)\right) \\ &= \begin{cases}\frac{0.07143}{0.82065} \exp (-[1 \times 0.64963 \times 1]) \approx 0.04546, & i=1,2,3 \\ \frac{0.07143}{0.82065} \exp (-[(-1) \times 0.64963 \times 1]) \approx 0.16667, & i=4,5,6 \\ \frac{0.16666}{0.82065} \exp (-[1 \times 0.64963 \times 1]) \approx 0.10606, & i=7,8,9 \\ \frac{0.07143}{0.82065} \exp (-[(-1) \times 0.64963 \times(-1)]) \approx 0.04546, & i=10\end{cases} \end{aligned}$

权值更新表：

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值1	$w_{1i}$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1
更新权值2	$w_{2i}$	0.07143	0.07143	0.07143	0.07143	0.07143	0.07143	0.16666	0.16666	0.16666	0.07143
更新权值3	$w_{3i}$	0.04546	0.04546	0.04546	0.16667	0.16667	0.16667	0.10606	0.10606	0.10606	0.04546

迭代过程 $3 : m = 3$

确定阈值的取值及误差率

当阈值取 $2.5$ 时，误差率为 $0.31818$ 。即 $x < 2.5$ 时取 $1 ， x > 2.5$ 时取 $- 1$ ，则数据6、7、 8分错，误差率为 $0.10606^* 3=0.31818$ (取过，不列入考虑范围)
当阈值取 $5.5$ 时，误差率最低为 $0.18184$ 。即 $x < 5.5$ 时取 1 ， $x > 5.5$ 时取 $- 1$ ，则数据3、4、5、6、7、8分错，错娱率为 $0.16667 * 3+0.10606^* 3=0.81819>0.5$ ，故反过来，令 $x > 5.5$ 取 $1 ， x < 5.5$ 时取 $- 1$ ，则数据 $0 、 1 、 2 、 9$ 分错，误差率为 $0.04546^* 4=0.18184$
当阈值取8.5时，误差率为 $0.13638$ 。即 $x < 8.5$ 时取 $1 ， x > 8.5$ 时取 $- 1$ ，则数据3、4、5分错，铂误率为 $0.04546^* 3=0.13638$ (取过，不列入考虑范围)
由上面可知，阈值取8.5时，误差率最小，但 $8.5$ 取过了，所以取 $5.5$ :
$G_3(x)= \begin{cases}-1, & x<5.5 \\ 1, & x>5.5\end{cases}$

计算误差率:

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
权值3	$w_{3i}$	0.04546	0.04546	0.04546	0.16667	0.16667	0.16667	0.10606	0.10606	0.10606	0.04546
分类器结果	$G_3(x)$	`-1`	`-1`	`-1`	-1	-1	-1	1	1	1	`1`
分类结果		错	错	错	对	对	对	对	对	对	错

从上可得 $G_3(x)$ 在训练数据集上的误差率（被分错类的样本的权值之和）：
$e_3=P\left(G_3\left(x_i\right) \neq y_i\right)=\sum_{G_3\left(x_i\right) \neq y_i} w_{3 i}=0.04546+0.04546+0.04546+04546=0.18184$

计算 $G_3(x)$ 的系数：
$\alpha_3=\frac{1}{2} \ln \frac{1-e_3}{e_3}=\frac{1}{2} \ln \frac{1-0.18188}{0.18184} \approx 0.75197$
这个 $\alpha_3$ 代表 $G_3(x)$ 在最终的分类函数中所占的比重约为 $0.75197$
分类函数
$f_3(x)=\alpha_3 G_3(x)=0.75197 G_3(x)$
更新权值分布:
$\begin{aligned} Z_3&=\sum_{i=1}^n w_{3 i} \exp \left(-y_i \alpha_3 G_3\left(x_i\right)\right) = \sum_{i=1}^3 0.04546 \times \exp (-[1 \times 0.75197 \times(-1)]) \\ &+\sum_{i=4}^6 0.16667 \times \exp (-[(-1) \times 0.75197 \times(-1)]) \\ &+\sum_{i=7}^9 0.10606 \times \exp (-[1 \times 0.75197 \times 1]) \\ &+\sum_{i=10}^{10} 0.04546 \times \exp (-[(-1) \times 0.75197 \times 1]) \\ &\approx 0.28929+0.23572+0.15000+0.09643\\ &=0.77144 \end{aligned}$
$w_{4 i}=\frac{w_{3 i}}{Z_3} \exp \left(-y_i \alpha_3 G_3(x)\right)= \begin{cases}\frac{0.04546}{0.77144} \exp (-[1 \times 0.75197 \times(-1)]) \approx 0.12500, & i=1,2,3 \\ \frac{0.16667}{0.77144} \exp (-[(-1) \times 0.75197 \times(-1)]) \approx 0.10185, & i=4,5,6 \\ \frac{0.10606}{0.77144} \exp (-[1 \times 0.75197 \times 1]) \approx 0.06481, & i=7,8,9 \\ \frac{0.04546}{0.77144} \exp (-[(-1) \times 0.75197 \times 1]) \approx 0.12500, & i=10\end{cases}$

权值更新表

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值1	$w_{1i}$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1
更新权值2	$w_{2i}$	0.07143	0.07143	0.07143	0.07143	0.07143	0.07143	0.16666	0.16666	0.16666	0.07143
更新权值3	$w_{3i}$	0.04546	0.04546	0.04546	0.16667	0.16667	0.16667	0.10606	0.10606	0.10606	0.04546
更新权值4	$w_{4i}$	0.125	0.125	0.125	0.10185	0.10185	0.10185	0.06481	0.06481	0.06481	0.125

迭代过程4：m=4

此时观察数据，每次迭代被分错的数据都已经重新分配过权值，按其他参考资料来说，此时的误差率为0，所以迭代可以到此结束。

最终分类器：

$G_m(x)=sign(0.42365G_1(x)+0.64963G_2(x)+0.75197G_3(x))$

4.2 提升树（Boosting Tree）

xxx后续更新

4.3 梯度提升树(GBDT)

xxx单独更新

4.4 Bagging与随机森林

xxx单独更新

5. 偏差-方差分解的角度分析Boosting和Bagging

偏差(bias)：述的是预测值的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。
方差(variance):描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散：如下图右列所示。

Boosting主要关注降低偏差
偏差刻画了学习算法本身的拟合能力
Boosting思想，对判断错误的样本不停的加大权重，为了更好地拟合当前数据，所以降低了偏差，因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。Boosting是把许多弱的分类器组合成一个强的分类器。
Bagging主要是降低方差
度量了同样大小的数据集的变动所导致的学习性能的变化。刻画了数据扰动所造成的影响。
Bagging思想，随机选择部分样本来训练处理不同的模型，再综合来减小防方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显。Bagging是对许多强（甚至过强）的分类器求平均。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

集成学习入门与实战

文章目录

1. 什么是集成学习

2.基本思想

3.集成学习解决的问题

4.相关算法

4.1 Boosting

4.1.1 AdaBoost算法思想

4.1.2 AdaBoost算法流程

4.1.3 示例

4.2 提升树（Boosting Tree）

4.3 梯度提升树(GBDT)

4.4 Bagging与随机森林

5. 偏差-方差分解的角度分析Boosting和Bagging

你可能感兴趣的:(机器学习,机器学习,算法,人工智能,集成学习)