连理o

ML (Chapter 8): 集成学习

本文为《机器学习》(周志华) 的读书笔记

参考南瓜书

个体与集成
Boosting: AdaBoost
- 加性模型 (additive model)
- 指数损失函数 (exponential loss function)
- 系统分析指数损失函数
- 分类器权重更新公式
- 调整训练样本分布
- AdaBoost 算法
- Discussion
Bagging 与随机森林
- Bagging
- 随机森林 (Random Forest, RF)
结合策略
- 平均法 (averaging)
- 投票法 (voting)
- 学习法: Stacking
多样性

个体与集成

集成学习 (ensemble learning) 通过 构建并结合多个个体学习器 (individual learner) 来完成学习任务
- 同质 (homogeneous) 集成: 集成中只包含同种类型的个体学习器 (基分类器，base learner)，例如 “决策树集成” 中全是决策树，"神经网络集成"中全是神经网络
- 异质 (homogeneous) 集成: 集成包含不同类型的个体学习器 (component learner)，例如同时包含决策树和神经网络
集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能 ; 这对 “弱学习器" (weak learner) 尤为明显，因此集成学习的很多理论研究都是针对弱学习器进行的
- 要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定准确性，并且要有"多样性" (diversity) ，即学习器间具有差异

弱学习器常指泛化性能略优于随机猜测的学习器，例如在二分类问题上精度略高于 50% 的分类器

关于集成学习性能的简单分析

考虑二分类问题 $y\in \{-1,+1\}$ 和真实函数 $f$ , 假定基分类器的错误率为 $\epsilon$ ，集成通过简单投票法结合 $T$ 个基分类器且基分类器的错误率相互独立，则由 Hoeffding 不等式可知，集成的错误率为
上式显示出，随着集成中个体分类器数目 $T$ 的增大，集成的错误率将指数级下降，最终趋向于零. 然而我们必须注意到，上面的分析有一个关键假设 :基学习器的误差相互独立.在现实任务中，个体学习器是为解决同一个问题训练出来的，它们显然不可能相互独立!
事实上，个体学习器的"准确性"和"多样性"本身就存在冲突. 一般的，准确性很高之后，要增加多样性就需牺牲准确性. 事实上，如何产生并结合"好而不同"的个体学习器，恰是集成学习研究的核心

根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类：
- 个体学习器间存在强依赖关系、必须串行生成的序列化方法：Boosting
- 个体学习器间不存在强依赖关系、可同时生成的并行化方法：Bagging，“随机森林” (Random Forest)

Boosting: AdaBoost

Boosting 是一族可将弱学习器提升为强学习器的算法. 这族算法的工作机制类似:
- 先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器; 如此重复进行，直至基学习器数目达到事先指定的值 $T$ ，最终将这 $T$ 个基学习器进行加权结合
- Boosting 族算法最著名的代表是 AdaBoost，下面介绍 AdaBoost
  - AdaBoost 算法有多种推导方式，比较容易理解的是基于"加性模型"

默认为二分类问题： $y_i\in \{-1, + 1 \}$ ； $f$ 是真实函数； $\epsilon_t$ 为错误率； $h_i$ 为基分类器； $H(\boldsymbol x)$ 为分类结果； $\textrm{sign}$ 为符号函数： $\textrm{sign}(x)=\left\{\begin{aligned}&1\ \ \ \ \ x>0\\&-1\ \ \ \ \ x<0 \end{aligned}\right.$ (这里忽略了 $x = 0$ 的情况)

加性模型 (additive model)

加性模型：基学习器的线性组合
加性模型不采用梯度下降的思想，而是 $=\sum_{t=1}^{T−1}α_t h_t(\boldsymbol x)+α_Th_T(\boldsymbol x)$ 每次更新求解一个理论上最优的 $h_T$ （见式 8.18）和 $α_T$ （见式 8.11）

指数损失函数 (exponential loss function)

首先我们定义指数损失函数作为分类任务的损失函数，我们的目标就是最小化指数损失函数
感性理解：由式 (8.4) 知
又由式 (8.11) 可知
由 $\ln$ 函数的单调性可知，该分类器的权重只与分类器的错误率负相关(即错误率越大，权重越低)，下面解释指数损失函数的意义：
- (1) 先考虑指数损失函数 $e^{−f(\boldsymbol x)H(\boldsymbol x)}$ 的含义： $f$ 为真实函数，只能取 $+ 1$ 和 $- 1$ ，而 $H (x)$ 是一个实数；当 $H (x)$ 的符号与 $f (x)$ 一致时， $f (x) H (x) > 0$ ，因此 $e^{−f(\boldsymbol x)H(\boldsymbol x)}=e^{-|H(x)|}$ ，且 $∣ H (x) ∣$ 越大指数损失函数越小（这很合理：此时 $∣ H (x) ∣$ 越大意味着分类器本身对预测结果的信心越大，损失应该越小；若 $∣ H (x) ∣$ 在零附近，虽然预测正确，但表示分类器本身对预测结果信心很小，损失应该较大；当 $H (x)$ 的符号与 $f (x)$ 不一致时， $f (x) H (x) < 0$ ，因此 $e^{−f(\boldsymbol x)H(\boldsymbol x)}=e^{|H(x)|}> 1$ ，且 $∣ H (x) ∣$ 越大指数损失函数越大（这很合理：此时 $∣ H (x) ∣$ 越大意味着分类器本身对预测结果的信心越大，但预测结果是错的，因此损失应该越大）
- (2) 符号 $\mathbb E_{x\sim\mathcal D}[·]$ 的含义： $\mathcal D$ 为概率分布，可简单理解为在数据集 $D$ 中进行一次随机抽样，每个样本被取到的概率；因此 $\mathbb E_{x\sim\mathcal D}[·]$ 表示在概率分布 $\mathcal D$ 上的期望，可简单理解为对数据集 $D$ 以概率 $\mathcal D$ 进行加权后的期望。即

系统分析指数损失函数

若 $H (x)$ 能令指数损失函数最小化，则考虑式 (8.5) 对 $H (x)$ 的偏导
- 解析：
令式 (8.6) 为零可解得
因此，有
这意味着 $\textrm{sign} (H(x))$ 达到了贝叶斯最优错误率 (厉害！). 换言之，若指数损失函数最小化，则分类错误率也将最小化; 这说明指数损失函数是分类任务原本 0/1 损失函数的一致的 (consistent) 替代损失函数. .由于这个替代函数有更好的数学性质，例如它是连续可微函数，因此我们用它替代 0/1 损失函数作为优化目标

分类器权重更新公式

在 AdaBoost 算法中，第一个基分类器 $h_1$ 是通过直接将基学习算法用于初始数据分布而得; 此后迭代地生成 $h_t$ 和 $α_t$ ，当基分类器 $h_t$ 基于分布 $\mathcal D_t$ 产生后，该基分类器的权重 $α_t$ 应使得 $α_th_t$ 最小化指数损失函数
其中 $\epsilon_t = P_{x\sim\mathcal D_t} (h_t(\boldsymbol x)\neq f(\boldsymbol x))$ 为 $h_tx)$ 分类的错误率
考虑指数损失函数的导数
令上式为零可得到分类器权重更新公式：

调整训练样本分布

AdaBoost 算法在获得 $H_{t- 1}$ 之后样本分布将进行调整，使下一轮的基学习器 $h_t$ 能纠正且 $H_{t-1}$ 的一些错误. 理想的 $h_t$ 能纠正 $H_{t-1}$ 的全部错误，即最小化
- 因为理想的 $h_t$ 可以纠正 $H_{t−1}$ 的全部错误，所以这里指定其权重系数为 $1$ 。如果权重系数 $α_t$ 是个常数的话，对后续结果也没有影响
注意到 $f^2(\boldsymbol x) = h_t^2(\boldsymbol x) = 1$ ，上式可使用 $e^{- f(\boldsymbol x)h_t(\boldsymbol x)}$ 的泰勒展式近似为 ( $e^x$ 的二阶泰勒展开为 $\frac{x^2}{2} + o(x^2)$ ):
于是，理想的基学习器为
注意到 $\mathbb E_{x\sim\mathcal D}[e^{-f(x)H_{t-1}(x)}]$ 是一个常数．
令 $\mathcal D_t$ 表示一个分布
则
由 $\in \{-1, +1\}$ , 有
则理想的基学习器
由此可见，理想的 $h_t$ 将在分布 $\mathcal D_t$ 下最小化分类误差．因此，弱分类器将基于分布 $\mathcal D_t$ 来训练，且针对 $\mathcal D_t$ 的分类误差应小于 0.5. 这在一定程度上类似 “残差逼
考虑到 $\mathcal D_t$ 和 $\mathcal D_{t+1}$ 的关系，有

注意，上式中两个期望只差为常数，因此在实现时只要把它们同意看作一个规范化因子即可

AdaBoost 算法

标准 AdaBoost 只适用于二分类任务

Discussion

Boosting 算法要求基学习器能对特定的数据分布进行学习，这可通过“重赋权法"(re-weighting)实施，即在训练过程的每一轮中，根据样本分布为每个训练样本重新赋予一个权重
- 对无法接受带权样本的基学习算法，则可通过"重采样法"(re-sampling)来处理，即在每一轮学习中，根据样本分布对训练集重新进行采样，再用重采样而得的样本集对基学习器进行训练
需注意的是，Boosting 算法在训练的每一轮都要检查当前生成的基学习器是否满比随机猜测好，一旦条件不满足，则当前基学习器即被抛弃，且学习过程停止
- 在此种情形下，初始设置的学习轮数 $T$ 也许还远未达到，可能导致最终集成中只包含很少的基学习器而性能不佳．
- 若采用“重采样法”，则可获得“重启动”机会以避免训练过程过早停止, 即在抛弃不满足条件的当前基学习器之后，可根据当前分布重新对训练样本进行采样，再基于新的采样结果重新训练出基学习器，从而使得学习过程可以持续到预设的 $T$ 轮完成

从偏差-方差分解的角度看，Boosting 主要关注降低偏差，因此 Boosting 能基于泛化性能相当弱的学习器构建出很强的集成

Bagging 与随机森林

欲得到泛化性能强的集成，集成中的个体学习器应尽可能相互独立；虽然 “独立” 在现实任务中无法做到，但可以设法使基学习器尽可能具有较大的差异
- 给定一个训练数据集，一种可能的做法是对训练样本进行采样，产生出若干个不同的子集，再从每个数据子集中训练出一个基学习器
- 然而，为获得好的集成，我们同时还希望个体学习器不能太差．如果采样出的每个子集都完全不同，则每个基学习器只用到了一小部分训练数据，甚至不足以进行有效学习，这显然无法确保产生出比较好的基学习器
- 为解决这个问题，我们可考虑使用相互有交叠的采样子集

Bagging

Bootstrap AGGregatING

它直接基于 Chapter2 介绍过的自助采样法 (bootstrap sampling).
- 给定包含 $m$ 个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过 $m$ 次随机采样操作，我们得到含 $m$ 个样本的采样集，初始训练集中有的样本在采样集里多次出现有的则从未出现. 由式 (2.1) 可知，初始训练集中约有 $63.2\%$ 的样本出现在采样集中．
- 照这样，我们可采样出 $T$ 个含 $m$ 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合.
- 在对预测输出进行结合时，Bagging 通常对分类任务使用简单投票法，对回归任务使用简单平均法 (即每个基学习器使用相同权重的投票, 平均)．若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选择一个，也可进一步考察学习器投票的置信度来确定最终胜者

$\mathcal D_{bs}$ 是自助采样产生的样本分布

假定基学习器的计算复杂度为 $O (m)$ , 则 Bagging 的复杂度大致为 $T (O (m) + O (s))$ , 考虑到采样与投票/平均过程的复杂度 $O (s)$ 很小，而 $T$ 通常是一个不太大的常数，因此，训练一个 Bagging 集成与直接使用基学习算为处理多分类或回归任法训练一个学习器的复杂度同阶，这说明 Bagging 是一个很高效的集成学习算务
另外，与标准 AdaBoost 只适用于二分类任务不同，Bagging 能不经修改地用于多分类、回归等任务
值得一提的是，自助采样过程还给 Bagging 带来了另一个优点：由于每个基学习器只使用了初始训练集中约 63.2% 的样本，剩下约 36.8% 的样本可用作验证集来对泛化性能进行"包外估计" (out-of-bag estimate). 为此需记录每个基学习器所使用的训练样本．
- 不妨令 $D_t$ 表示 $h_t$ 实际使用的训练样本集，令 $H^{oob}(x)$ 表示对样本 $x$ 的包外预测，即仅考虑那些未使用 $x$ 训练的基学习器在 $x$ 上的预测： (即用“投票法”选择包外估计的结果)
- 则 Bagging 泛化误差的包外估计为
事实上，包外样本还有许多其他用途
- 例如当基学习器是决策树时，可使用包外样本来辅助剪枝，或用于估计决策树中各结点的后验概率以辅助对零训练样本结点的处理
- 当基学习器是神经网络时，可使用包外样本来辅助早期停止以减小过拟合风险
从偏差-方差分解的角度看，Bagging 主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显 (关于样本扰动，参见 8.5.3节)

随机森林 (Random Forest, RF)

RF 在以决策树为基学习器构建 Bagging 集成的基础上，进一步在决策树的训练过程中引入了随机属性选择，这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升 (样本扰动 + 属性扰动)
- 具体来说，传统决策树在选择划分属性时是在当前结点的属性集合（假定有 $d$ 个属性）中选择一个最优属性；而在 RF 中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含 $k$ 个属性的子集，然后再从这个子集中选择一个最优属性用于划分
- 这里的参数 $k$ 控制了随机性的引入程度．若令 $k = d$ , 则基决策树的构建与传统决策树相同，若令 $k = 1$ , 则是随机选择一个属性用于划分，一般情况下，推荐值 $k = \log_2 d$

值得一提的是，随机森林的训练效率常优于 Bagging, 因为在个体决策树的构建过程中，Bagging 使用的是 “确定型 ” 决策树，在选择划分属性时要对结点的所有属性进行考察，而随机森林使用的 “随机型” 决策树则只需考察一个属性子集

结合策略

学习器结合可能会从三个方面带来好处:
- 首先，从统的方面来看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上达到同等性能，此时若使用单学习器可能因误选而导致泛化性能不佳，结合多个学习器则会减小这一风险
- 第二，从计算的方面来看，学习算法往往会陷入局部极小，有的局部极小点所对应的泛化性能可能很槽糕，而通过多次运行之后进行结合，可降低陷入糟糕局部极小点的风险
- 第三，从表示的方面来看，某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中，此时若使用单学习器则肯定无效，而通过结合多个学习器，由于相应的假设空间有所扩大，有可能学得更好的近似

假定集成包含 $T$ 个基学习器 ${h_1,...,h_T\}$ ，其中 $h_i$ 在示例 $x$ 上的输出为 $h_i(x)$

平均法 (averaging)

适用于数值型输出 $h_i(x)\in\R$

简单平均法 (simple averaging)
加权平均法 (weighted averaging)
通常要求 $w_i\geq0$ ， $\sum_{i=1}^Tw_i=1$
- 对给定的基学习器，不同的集成学习方法可视为通过不同的方式来确定加权平均法中的基学习器权重
加权平均法的权重一般是从训练数据中学习而得 (例如估计出个体学习器的误差，然后令权重大小与误差大小成反比.)，现实任务中的训练样本通常不充分或存在噪声，这将使得学出的权重不完全可靠.尤其是对规模比较大的集成来说，要学习的权重比较多，较容易导致过拟合. 因此，实验和应用均显示出，加权平均法未必一定优于简单平均法.
- 一般而言，在个体学习器性能相差较大时宜使用加权平均法，而在个体学习器性能相近时宜使用简单平均法

投票法 (voting)

适用于分类任务
- 为便于讨论，我们将 $h_i$ 在样本 $x$ 上的预测输出表示为一个 $N$ 维向量 $h_i^1(x);...;h_i^N(x))$ , 其中 $h_i^j(x)$ 是 $h_i$ 在类别标记 $c_j$ 上的输出

绝对多数投票法 (majority voting)
即若某标记得票过半数，则预测为该标记；否则拒绝预测

若学习任务要求必须提供预测结果，则绝对多数投票法将退化为相对多数投票法．因此，在不允许拒绝预测的任务中，绝对多数、相对多数投票法统称为“多数投票法".

相对多数投票法 (plurality voting)
即预测为得票最多的标记，若同时有多个标记获最高票，则从中随机选取一个
加权投票法 (weighted voting)
通常要求 $w_i\geq0$ ， $\sum_{i=1}^Tw_i=1$

Note: 不同类型个体学习器可能产生不同类型的 $h_i^j(x)$ 值，常见的有：
- 硬投票 (hard voting)： $h_i^j(x)\in\{0,1\}$
- 软投票 (soft voting): $h_i^j(x)\in[0,1]$ , 相当于对后验概率 $P(c_j|x)$ 的一个估计
不同类型的 $h_i^j(x)$ 值不能混用. 同时，若基学习器的类型不同则其类概率值不能直接进行比较；在此种情形下，通常可将类概率输出转化为类标记输出，然后再投票
有趣的是，虽然分类器估计出的类概率值一般都不太准确，但基于类概率进行结合却往往比直接基于类标记进行结合性能更好

学习法: Stacking

当训练数据很多时，一种更为强大的结合策略是使用 “学习法” ，即通过另一个学习器来进行结合. 这里我们把个体学习器称为初级学习器，用于结合的学习器称为次级学习器或元学习器(meta-learner).
- Stacking 是学习法的典型代表

Stacking 算法

Stacking 先从初始数据集训练出初级学习器，然后"生成"一个新数据集用于训练次级学习器. 在这个新数据集中，初级学习器的输出被当作样例输入特征，而初始样本的标记仍被当作样例标记

生成次级学习器的训练数据

在训练阶段次级训练集是利用初级学习器产生的，若直接用初级学习器的训练集来产生次级训练集，则过拟合风险会比较大；因此，一般是通过使用交叉验证或留一法这样的方式，用训练初级学习器未使用的样本来产生次级学习器的训练样本
- 以 $k$ 折交叉验证为例，首先划分出初始训练集 $D$ ( $m$ 个训练数据) 与初始测试集 $T$ ( $n$ 个测试数据)
- 初始训练集 $D$ 被随机划分为 $k$ 个大小相似的集合 $D_1, ... , D_k$ . 令 $D_j$ 和 $\ D j \overline D_j= D\backslash D_j$ 分别表示第 $j$ 折的测试集和训练集. 给定 $T$ 个初级学习算法，初级学习器 $h_t^{(j)}$ 通过在 $\overline D_j$ 上使用第 $t$ 个学习算法而得．对 $D_j$ 中每个样本 $x_i$ ，令 $z_{it}=h_t^{(i)}(x_i)$ ，则由 $x_i$ 所产生的次级训练样例的示例部分为 $z_i=(z_{i1};...;z_{iT})$ ，标记部分为 $y_i$ . 也就是说，由第 $j$ 折的测试集生成了次级学习器的一部分训练样本 (共 $m / k$ 个，也就是下图中一个橙色的小块)；同时用训练好的 $T$ 个初级学习器对初始测试集进行预测，生成一个次级测试集 (共 $n$ 个，也就是下图中一个绿色的块)
- 于是，在整个交叉验证过程结束后，从这 $T$ 个初级学习器产生的次级训练集是 $D'= \{ (z_i, y_i)\}_{i=1}^m$ , 然后 $D^{'}$ 将用于训练次级学习器；同时可以得到 $k$ 个次级测试集，对它们取平均之后就得到了最后的次级测试集

多样性

to be continued…

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

ML (Chapter 8): 集成学习

目录

个体与集成

Boosting: AdaBoost

加性模型 (additive model)

指数损失函数 (exponential loss function)

系统分析指数损失函数

分类器权重更新公式

调整训练样本分布

AdaBoost 算法

Discussion

Bagging 与 随机森林

Bagging

随机森林 (Random Forest, RF)

结合策略

平均法 (averaging)

投票法 (voting)

学习法: Stacking

多样性

你可能感兴趣的:(机器学习)

Bagging 与随机森林