金鸡湖最后的张万森

XGBoost理论推导+论文解读-下篇

确定树结构

通常采用贪心法，每次尝试分裂一个叶节点，计算分裂后的增益，选增益最大的。这个方法在之前的决策树算法中大量被使用。而增益的计算方式比如ID3的信息增益，C4.5的信息增益率，CART的Gini系数等。

而在XGBoost中，计算增益的公式：
$\text { Gain }=\frac{1}{2}[\underbrace{\frac{G_L^2}{H_L+\lambda}}_{\text {左子树分数 }}+\underbrace{\frac{G_R^2}{H_R+\lambda}}_{\text {右子树分数 }}-\underbrace{\frac{\left(G_L+G_R\right)^2}{H_L+H_R+\lambda}}_{\text {分裂前分数 }}]-\underbrace{\gamma}_{\text {新叶节点复杂度 }}$

证明：

$Obj^{(t)}-\frac{1}{2} \sum_{j=1}^T\left(\frac{G_j^2}{H_j+\lambda}\right)+\gamma$

我们希望损失函数越小越好，也就希望以下式子越大越好： $\frac{(\sum_{i \in j} g_i)^2}{\sum_{i \in j} h_i + \lambda}$ ，而它正是XGBoost用于分枝时的指标“结构分数”（Structure Score）。

要让目标函数下降，则需要分裂节点来增加模型的复杂度，从而更好地拟合数据

接下来对单个叶子节点进行分析：只对一个节点进行分裂

分裂前： $Obj_{前}=-\frac{1}{2} \sum_{j=1}^{T} \frac{G_j^2}{H_j+\lambda}+\gamma T$

分裂后： $Obj_后=-\frac{1}{2} \sum_{j=1}^{T-1} \frac{G_j^2}{H_j+\lambda}+\gamma (T-1)-\frac{1}{2}\frac{G_L^2}{H_L+\lambda}-\frac{1}{2}\frac{G_R^2}{H_R+\lambda}+2\gamma$

注释：

等号右边前两项是分裂前除了需要分析的父节点以外的其他T-1个节点的损失值， $2\gamma是由于由一个父节点分裂成左右两个节点（二叉树）$ ，而目标是让obj最小化，也就是 $obj_后-obj_前 \le 0$

$obj_后-obj_前=\frac{1}{2}\left[\frac{G_L^2}{H_{L_L}+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{G^2}{H+\lambda}\right]-\gamma \\=\frac{1}{2}\left[\frac{G_L^2}{H_{L}+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{\left(G_L+G_R\right)^2}{H_L+H_R+\lambda}\right]-\gamma$

此时一开始的优化目标也就变为max $obj_后-obj_前)$ ，即

$\left[\frac{G_L^2}{H_{L}+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{\left(G_L+G_R\right)^2}{H_L+H_R+\lambda}\right]-2\gamma$

由于每一个结点每一次分裂都会多产生一个节点（二叉树），从而会导致损失函数多一个 $\gamma$ ,每一个节点都会存在这个现象，所以 $\gamma$ 可以忽略不计。

解释父节点的结构分数是 $\frac{\left(G_L+G_R\right)^2}{H_L+H_R+\lambda}$ ?

首先每个节点的结构计算公式 $Score_j = \frac{(\sum_{i \in j}g_i)^2}{\sum_{i \in j}h_i + \lambda}$ ，而父节点上的样本相当于左子节点的样本加上右子节点上的样本，再遵循最终的求导结果可以转化为各个样本的求导结果之和，所以最终的结果是 $\frac{\left(G_L+G_R\right)^2}{H_L+H_R+\lambda}$ 。

结构分数的意义

$Score_j = \frac{节点j上所有样本的一阶导数之和的平方}{节点j上所有样本的二阶导数之和 + \lambda}\\= \frac{(\sum_{i \in L}g_i)^2}{\sum_{i \in L}h_i + \lambda} + \frac{(\sum_{i \in R}g_i)^2}{\sum_{i \in R}h_i + \lambda} - \frac{(\sum_{i \in P}g_i)^2}{\sum_{i \in P}h_i + \lambda}$

与信息熵、基尼系数等可以评价单一节点的指标不同，结构分数只能够评估结构本身的优劣，不能评估节点的优劣，分数越高则说明树结构质量越高。

例子：

样本 y y_hat

1 1 0.5

2 -2 0.5

3 -2 0.5

分割方案1:（1,23）

左子节点 y y_hat 右子节点 y y_hat

1 1 0.5 2 -2 0.5

3 -2 0.5

分割方案2:（12,3）

左子节点 y y_hat 右子节点 y y_hat

1 1 0.5 3 -2 0.5

2 -2 0.5

假设现在执行的是XGBoost回归，损失函数为0.5倍MSE，公式为 $\frac{1}{2}(y - \hat{y})^2$ ，假设lambda=1。那基于MSE的一阶导数为：

$\begin{align} l&= \frac{1}{2}(y_i - \hat{y_i})^2 \\ \\ l' &= \frac{\partial}{\partial \hat{y_i}} \frac{1}{2}(y_i - \hat{y_i})^2\\ \\ &= - (y_i - \hat{y_i})\\ \\ &= \hat{y_i} - y_i\\ \\ \end{align}$

基于MSE的二阶导数为：

$\begin{align} l'' &= \frac{\partial}{\partial \hat{y_i}} (\hat{y_i} - y_i)\\ \\ &= 1 \end{align}$

方案左侧结构分数右侧结构分数父节点结构分数增益

(1,23) 0.125 8.333 5.0625 3.3958

(12,3) 1.333 3.125 5.0625 -0.6041

样本	y	y_hat
1	1	0.5
2	-2	0.5
3	-2	0.5

左子节点	y	y_hat		右子节点	y	y_hat
1	1	0.5		2	-2	0.5
				3	-2	0.5

左子节点	y	y_hat		右子节点	y	y_hat
1	1	0.5		3	-2	0.5
2	-2	0.5

方案	左侧结构分数	右侧结构分数	父节点结构分数	增益
(1,23)	0.125	8.333	5.0625	3.3958
(12,3)	1.333	3.125	5.0625	-0.6041

因此，每次分裂，枚举所有可能的分裂方案，就和CART中回归树进行划分一样，要枚举所有特征和特征的取值。该算法称为Exact Greedy Algorithm，如下图所示：

Exact Greedy Algorithm的复杂度：

设树的高度为H，特征数d，则复杂度为 O(Hdnlogn)。其中，排序为O(nlogn)，每个特征都要排序所以乘以d，每一层都要这样一遍，所以乘以高度H（每一层第一次分裂就已经对特征的信息增益排序好了，同层的后续分类直接用排序信息就可以直接检索特征进行分裂）

证明O(nlogn)

决策树是一棵二叉树，每个叶子节点表示元素之间的一组可能排序。若决策树的深度为d，则这棵树最多有 $2^d$ 个叶子节点，相反地，如果L个叶子节点的决策树，他的深度至少是 $log_2L$ ( $2^T≥L$ )

所以，对n个元素排序的决策树必然有n!片树叶（因为n个数有n!种不同的大小关系），所以决策树的深度至少是log(n!)，即至少需要log(n!)次比较

而
$\begin{align} log(n!)&=logn+log(n-1)+log(n-2)+...log2+log1\\ &\ge logn+log(n-1)+log(n-2)+...+log(n/2)\\ &\ge (n/2)log(n/2)(忽略常数)\\ &=O(nlogn) \end{align}$

停止生长

一棵树不会一直生长下去，下面是一些常见的限制条件。

(1) 当新引入的一次分裂所带来的增益Gain<0时，放弃当前的分裂。这是训练损失和模型结构复杂度的博弈过程。

(2) 当树达到最大深度时，停止建树，因为树的深度太深容易出现过拟合，这里需要设置一个超参数max_depth。

(3) 当引入一次分裂后，重新计算新生成的左、右两个叶子结点的样本权重和。如果任一个叶子结点的样本权重低于某一个阈值，也会放弃此次分裂。这涉及到一个超参数:最小样本权重和，是指如果一个叶子节点包含的样本数量太少也会放弃分裂，防止树分的太细，这也是过拟合的一种措施。

每个叶子结点的样本权值和计算方式如下： $w_j=-\frac{b}{2a}=-\frac{G_j}{H_j+ \lambda},则此时目标函数取到最小值$

XGBoost的一些trick

步长 step-size

XGBoost也可以加入步长η（有的也叫收缩率Shrinkage），通常步长 η 取值为0.1，这也是防止过拟合的好方法：

$\hat{y}_i^t=\hat{y}_i^{(t-1)}+\eta f_t\left(x_i\right)$

行列抽样

XGBoost借鉴随机森林也使用了列抽样(在每一次分裂中使用特征抽样)，进一步防止过拟合，并加速训练和预测过程。此外，在实现中还有行抽样（样本抽样）

树节点划分算法 - Approximate Algorithm

当数据量十分庞大，以致于不能全部放入内存时，Exact Greedy 算法就会很慢。因此XGBoost引入了近似的算法。简单的说，就是根据特征k的分布来确定l个候选切分点 $S_k={s_{k1},s_{k2},...,s_{kl}}$ ，然后根据这些候选切分点把相应的样本放入对应的桶中，对每个桶的G,H进行累加。最后在候选切分点集合上贪心查找，和Exact Greedy Algorithm类似。该算法描述如下：

给定了候选切分点后，一个例子为：

那么，现在有两个问题：

如何选取候选切分点 $S_k={s_{k1},s_{k2},...,s_{kl}}$ 呢？
什么时候进行候选切分点的选取？

切分点的选取 - Weighted Quantile Sketch

基于此，XGBoost提出了一系列加快寻找最佳分裂点的方案：

**特征预排序+缓存+并行查找：**XGBoost在训练之前，预先对每个特征按照特征值大小（排序依据：hi）进行排序，然后保存为block结构，后面的迭代中会重复地使用这个结构，使计算量大大减小。XGBoost支持利用多个线程并行地计算每个特征的最佳分割点，这不仅大大提升了结点的分裂速度，也极利于大规模训练集的适应性扩展。
**分位点近似法：**对每个特征按照特征值排序后，采用类似分位点选取的方式，仅仅选出常数个特征值作为该特征的候选分割点，在寻找该特征的最佳分割点时，从候选分割点中选出最优的一个。

分位数（先把数值进行排序，然后根据你采用的几分位数把数据分为几份即可）：即把概率分布划分为连续的区间，每个区间的概率相同。

以统计学常见的四分位数为例：

第一四分位数(Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字；

第二四分位数(Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字；

第三四分位数(Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。

而XGBoost不单单是采用简单的分位数的方法，而是对分位数进行加权（使用二阶梯度h），称为：Weighted Quantile Sketch。PS:上面的那个例子采用的是没有使用二阶导加权的分位数。

对特征k构造multi-set 的数据集： $D_k=(x_{1k},h_1),(x_{2k},h_2),...,(x_{nk}，h_n)$ , 其中 $x_{ik}$ 表示样本i的特征k的取值，而 $h_i$ 则为对应的二阶梯度。

可以定义一个rank function为：

$r_k(z)=\frac{1}{\sum_{(x, h) \in D_k} h} \sum_{(x, h) \in D_k, xrk(z)=∑(x,h)∈Dkh1∑(x,h)∈Dk,x<zh$

rank function表达了第 $k$ 个特征小于z的样本比例，和之前的分位数挺相似，不过这里是按照二阶梯度进行累计。而候选切分点 $\left\{s_{k 1}, s_{k 2}, \cdots, s_{k l}\right\}$ 要求:
$r_k\left(s_{k, j}\right)-r_k\left(s_{k, j+1}\right) \mid<\varepsilon, \quad s_{k 1}=\min _i x_{i k}, s_{k l}=\max _i x_{i k}$
用大白话说就是让相邻两个候选分裂点相差不超过某个值ε。因此，总共会得到1/ε个切分点。

一个例子如下：

要切分为3个，总和为1.8，因此第1个在0.6处，第2个在1.2处。

那么，为什么要用二阶梯度加权？将前面我们泰勒二阶展开后的目标函数2-4进行配方：

$\begin{aligned} & \sum_{i=1}^N\left(g_i f_t\left(\mathbf{x}_{\mathbf{i}}\right)+\frac{1}{2} h_i f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \\ = & \sum_{i=1}^N \frac{1}{2} h_i\left(2 \frac{g_i}{h_i} f_t\left(\mathbf{x}_{\mathbf{i}}\right)+f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \\ = & \sum_{i=1}^N \frac{1}{2} h_i\left(\frac{g_i^2}{h_i^2}+2 \frac{g_i}{h_i} f_t\left(\mathbf{x}_{\mathbf{i}}\right)+f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \\ = & \sum_{i=1}^N \frac{1}{2} h_i\left(f_t\left(\mathbf{x}_{\mathbf{i}}\right)-\left(-\frac{g_i}{h_i}\right)\right)^2+\Omega\left(f_t\right)\end{aligned}$

注释：

推导第三行可以加入 $\frac{g_i^2}{h_i^2}$ 是因为 $g_i$ 和 $h_i$ 是上一轮的损失函数求导，是常量。上式就像是标签为 $-\frac{g_i}{h_i}$ ，权重为 $h_i$ 的平方损失.在建立第i棵树的时候已经知道数据集在前面i−1棵树的误差，因此采样的时候是需要考虑误差，对于误差大的特征值采样粒度要加大，误差小的特征值采样粒度可以减小，也就是说采样的样本是需要权重的。

采样粒度加大是指在抽样或数据采集过程中，选择的数据间隔变得更小，即每次采样包括的数据范围更小。在机器学习和数据处理领域，这通常意味着用于训练模型的数据点之间的距离减小了（要保证每个分位点之间的差值一样）。如果我们将数据想象成一个连续的序列，较大的采样粒度意味着我们从这个序列中选择点的步长更小。

XGBoost中，对于误差较大的特征值，增加采样粒度可以帮助模型更加集中于这些区域的重要变化，从而可能提高模型对这些区域的学习和泛化能力。

二阶导数h为权重的解释

如果损失函数是Square loss，即 $Loss(y,\hat y)=(y−\hat y)^2$ ，则h=2，那么实际上是不带权。如果损失函数是Log loss，则h=pred∗(1−pred). 这是个开口朝下的一元二次函数，所以最大值在0.5。当pred在0.5附近，这个值是非常不稳定的，很容易误判，h作为权重则因此变大，那么直方图划分，这部分就会被切分的更细。

注解：

分界点选取时机

XGBoost有两种策略，全局策略（Global）和局部策略(Local)

Global： 学习每棵树前，即开始之前为整颗树做一次提取即可，在每次的节点划分时都使用已经提取好的候选切分点
Local： 每次分裂前， local方式是在每次节点切分时才进行，需要很多次的提取

注释：

global方式需要更多的候选点，即对候选点提取数量比local更多，因为没有像local方式一样每次节点划分时(前面父节点划分过的可以不用考虑），对当前节点的样本进行细化，local方式更适合树深度较大的情况。

稀疏值处理 - Sparsity-aware Split Finding

在真实世界中，我们的特征往往是稀疏的，可能的原因有：

数据缺失值；
大量的0值（比如统计出现的）；
进行了One-hot 编码。

XGBoost能对缺失值自动进行处理，其思想是对于缺失值自动学习出它该被划分的方向（左子树or右子树）:

注意:

上述的算法只遍历非缺失值(缺失值只是确实特征值，label是不会缺失的，不影响叶子节点的值，该值可能是该叶子节点的所有样本的label值的均值，也就不影响后面计算一阶导和二阶导)。划分的方向怎么学呢？很naive但是很有效的方法：

让特征k的所有缺失值的都到右子树，然后和之前的一样，枚举划分点，计算最大的gain;

让特征k的所有缺失值的都到左子树，然后和之前的一样，枚举划分点，计算最大的gain.

这样最后求出最大增益的同时，也知道了缺失值的样本应该往左边还是往右边。使用了该方法，相当于比传统方法多遍历了一次，但是它只在非缺失值的样本上进行迭代，因此其复杂度与非缺失值的样本成线性关系.

分块并行 - Column Block for Parallel Learning

在建树的过程中，最耗时是找最优的切分点，而这个过程中，最耗时的部分是将数据排序。为了减少排序的时间，提出Block结构存储数据。

Block中的数据以稀疏格式CSC进行存储
介绍稀疏格式CSC：

CSC格式通常包含三个主要数组：
1. 数值数组 (Values)：存储所有非零元素的数值，按列顺序排列。
2. 行索引数组 (Row Indices)：存储每个非零元素的行索引。这个数组的长度与数值数组相同。
3. 列指针数组 (Column Pointers)：存储每列非零元素在数值数组中的开始位置。此外，最后一个元素是非零元素的总数。
假设我们有以下 4×4稀疏矩阵：

$\left[\begin{array}{cccc}10 & 0 & 0 & 0 \\ 0 & 20 & 0 & 0 \\ 0 & 0 & 30 & 0 \\ 0 & 40 & 0 & 50\end{array}\right]$

在CSC格式中，这个矩阵将被存储为：
- 数值数组：10,20,40,30,50
- 行索引数组：0,1,3,2,3（从0开始索引）
- 列指针数组：0,1,3,4,5（第二列中有两个元素20、40，第一个元素20在数值数组中的开始位置索引是1，只记录开始位置，40的索引可以不记录）
Block中的特征进行排序（不对缺失值排序）
Block 中特征还需存储指向样本的索引，这样才能根据特征的值来取梯度。
一个Block中存储一个或多个特征的值

注意：

可以看出，只需在建树前排序一次，后面节点分裂时可以直接根据索引得到梯度信息。

在Exact greedy算法中，将整个数据集存放在一个Block中。这样，复杂度从原来的 $O(Hd||x||_0logn)$ 降为 $O(Hd||x||_0+||x||_0logn)$ ，其中 $x||_0$ 为训练集中非缺失值的个数。这样，Exact greedy算法就省去了每一步中的排序开销。

分析：

原始的稀疏贪心算法不使用块存储。因此，为了找到每个节点的最优分割，你需要在每一列上重新排序数据。这样在每一层会产生一个时间复杂度，可以非常粗略地近似为 $O\left(\|x\|_0 \log n\right)$ : 比方说你有 $x\|_{0 i}$ 个非零条目对于每一个特征 $\leq i \leq m$ ；然后在每一层你都在排序列表，每个列表最多有 $n$ 个长度，这些列表的长度总和为 $\sum_{i=1}^m\|x\|_{0 i}=\|x\|_0$ ，排序时间不会超过 $O\left(\|x\|_0 \log n\right)$ 。乘以 $K$ 棵树和每棵树 $d$ 层，就得到了原始的 $O\left(K d\|x\|_0 \log n\right)$ 时间复杂度。

$\begin{align} &对所有特征进行排序的时间复杂度:\\ \sum_{i=1}^mlog(n!)&=\sum_{i=1}^m[logn+log(n-1)+log(n-2)+...log2+log1]\\&\ge \sum_{i=1}^m[logn+log(n-1)+log(n-2)+...+log(n-||x||_{oi}+1)]\\&\ge \sum_{i=1}^m(||x||_{0i})log(n-||x||_{oi}+1)(忽略常数)\\&=O(||x||_0logn)\end{align}$

另一方面，使用块结构，因为数据已经预先按照每一列排序了，所以你不需要在每个节点重新排序，只要你在每个节点(余下哪些特征)跟踪哪些特征到达了那个节点。正如作者所指出的，这将复杂度降低到 $O(Kd||x||_0)$ （因为现在可以通过在块上单次扫描找到每一层的最优分割,所有特征进行排序结果都实现存储在block中，只需根据csc格式索引来读取信息，需要将行索引和列索引结合与稀疏数组进行比对，数值数组、行索引和列索引中最多的数组是 $x||_0$ 个元素）加上任何预处理的成本（作者声称这是 $O(||x||_0logn)$ ，这是有意义的）。
在近似算法中，使用多个Block，每个Block（一个Block中存储一个或多个特征的值）对应原来数据的子集。不同的Block可以在不同的机器上计算。该方法对Local策略尤其有效，因为Local策略每次分支都重新生成候选切分点。
在树生成过程中，需要花费大量的时间在特征选择与切分点选择上，并且这部分时间中大部分又花费在了对特征值得排序上。那么怎么样减小这个排序时间开销呢？

作者提出通过按特征进行分块并排序，在块里面保存排序后的特征值及对应样本的引用，以便于获取样本的一阶、二阶导数值。具体方式如图：

通过顺序访问排序后的块，遍历样本特征的特征值，方便进行切分点的查找。此外分块存储后多个特征之间互不干涉，可以使用多线程同时对不同的特征进行切分点查找，即特征的并行化处理。注意到，在顺序访问特征值时，访问的是一块连续的内存空间，但通过特征值持有的索引（样本索引）访问样本获取一阶、二阶导数时，这个访问操作访问的内存空间并不连续(左图是左边第一个对应右边，而右图第一个箭头并不是指向右边第一个），这样可能造成cpu缓存命中率低，影响算法效率。那么怎么解决这个问题呢？
解释不连续的内存访问？

不连续的内存访问，也称为非顺序或随机内存访问，是指对计算机内存的访问模式，其中数据访问的位置在内存中不是按照连续的、顺序的方式进行的。这与连续的内存访问形成对比，连续访问是指数据被顺序地、一个接一个地存储和访问。以下是一些详细解释：
1. 连续内存访问：在连续的内存访问中，数据元素被顺序地存储在内存中。例如，在处理数组时，数组的元素通常存储在连续的内存位置中。当程序访问数组的一个元素后，下一个被访问的元素就是物理上紧接着的那个。这种访问模式对CPU缓存非常友好，因为一次内存读取可以将多个连续的数据元素带入缓存。
2. 不连续内存访问：在不连续的内存访问中，数据元素在内存中的位置是分散的。例如，在处理链表或者跳跃访问数组时，接下来要访问的数据元素可能位于内存中完全不同的位置。这种访问模式对CPU缓存不友好，因为缓存无法有效地预加载即将访问的数据，导致缓存未命中的概率增加。
3. 对CPU缓存的影响：多数现代CPU都采用某种形式的预取策略，即基于当前访问的数据来预测下一次可能访问的数据。在连续内存访问模式中，预取器可以轻松预测下一个数据块的位置，因为它通常紧随当前数据块。然而，在不连续内存访问中，下一个数据块的位置可能随机分散在内存中，使得预取变得复杂和不可靠。
4. 缓存行和内存块：CPU缓存以缓存行的形式工作，通常一次加载整个缓存行的数据。在连续内存访问中，一次缓存行加载可能包含多个即将被访问的数据项。但在不连续访问中，加载的缓存行可能只包含单个有用数据项，其余部分可能无关或不会被立即访问。
5. 缓存未命中的开销：每当CPU尝试从缓存中读取数据但未找到时，就会发生缓存未命中。这迫使CPU等待较慢的主内存加载数据，从而增加了延迟并降低了性能。
xgboost中会存在cpu缓存命中率低的原因：
1. 特征和数据集的大小：处理具有大量特征的大型数据集时，数据量可能远远超出CPU缓存的容量，导致高缓存低命中率（缓存放不下这么多数据）。特别是在并行处理特征时，每个核心可能需要访问不同的数据集部分，这进一步增加了缓存未命中的可能性。
2. 大量数据访问和不规则内存访问模式：XGBoost在训练过程中需要处理大量数据。特别是在并行计算特征分割点时，算法会访问大量分散在内存中的数据点。由于数据访问模式可能是不规则的（即不连续的内存访问），这可能导致CPU缓存命中率低。
3. 计算与内存访问的比例：在XGBoost的训练过程中，计算与内存访问的比例可能导致缓存效率问题。如果算法的计算强度较低（即每次内存访问所进行的计算较少），则更多的时间会花在等待数据从内存加载到CPU上，而不是进行实际的计算。这会增加缓存未命中的机会

Block结构还有其它好处，数据按列存储，可以同时访问所有的列，很容易实现并行的寻找分裂点算法。此外也可以方便实现之后要讲的out-of score计算。

缓存优化 - Cache-aware Access

使用Block结构的一个缺点是取梯度的时候，是通过索引来获取的，而这些梯度的获取顺序是按照特征的大小顺序的。这将导致非连续的内存访问，可能使得CPU cache缓存命中率低，从而影响算法效率。

因此，对于exact greedy算法中, 使用缓存预取。具体来说，对每个线程分配一个连续的buffer，读取梯度信息并存入Buffer中（这样就实现了非连续到连续的转化），然后再统计梯度信息。该方式在训练样本数大的时候特别有用。

在approximate 算法中，对Block的大小进行了合理的设置。定义Block的大小为Block中最多的样本数。设置合适的大小是很重要的，设置过大则容易导致命中率低，过小则容易导致并行化效率不高

核外计算 Blocks for Out-of-core Computation

XGBoost的其中一个目标是，充分利用机器资源来达到scalable learning。除了处理器和内存外，很重要的一点是，使用磁盘空间来处理不能完全装载进主存的数据。当数据量太大不能全部放入主内存的时候，为了使得out-of-core计算称为可能，将数据划分为多个Block并存放在磁盘上。计算的时候，使用独立的线程预先将Block放入主内存，因此可以在计算的同时读取磁盘。但是由于磁盘IO速度太慢，通常跟不上计算的速度。因此，减小开销和增加磁盘IO吞吐很重要，Xgboost采用了2个策略：

Block压缩（Block Compression）：将Block按列压缩，读取的时候用另外的线程解压。对于行索引，只保存第一个索引值，然后只保存该数据与第一个索引值之差(offset)，一共用16个bits来保存offset，因此，一个block一般有2的16次方个样本。

解释一个block一般有2的16次方个样本？

16位二进制数的表示范围：一个二进制位（bit）可以表示两个值（0或1）。因此，16位二进制数可以表示的不同值的数量是 $2^{16}$ ，即65536。这是因为每增加一个比特，表示的值的数量就翻倍。

偏移量的存储：在这种方法中，每个行索引的偏移量被限制为16位，这意味着每个偏移量可以表示从0到65535的范围（最大的偏移量为65535，也就是 $2^{16}+0(第一个元素的索引为0)$ ）。这些偏移量是相对于第一个索引值的，所以偏移量0表示第一个索引本身。

Block拆分（Block Sharding）：将数据划分到不同磁盘上，为每个磁盘分配一个**预取（pre-fetcher）**线程，并将数据提取到内存缓冲区中。然后，训练线程交替地从每个缓冲区读取数据。这有助于在多个磁盘可用时增加磁盘读取的吞吐量。

总结

读到这里，相信你对XGBoost已经很有了解。下面总结几个问题：

XGBoost为什么快

当数据集大的时候使用近似算法
Block与并行
CPU cache 命中优化
Block预取、Block压缩、Block Sharding等

XGBoost与传统GBDT的不同

传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。
传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。
xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。
Shrinkage（缩减），相当于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（补充：传统GBDT的实现也有学习速率）
列抽样（column subsampling）。xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost异于传统gbdt的一个特性。
对缺失值的处理。对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向。
xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

特征的粒度：在机器学习中，特征是数据集中的属性或变量，用于描述每个样本的不同方面。例如，在房价预测问题中，特征可以包括房子的面积、卧室数量、浴室数量等。这些特征是用来训练和测试机器学习模型的输入。

在特征的粒度上的并行：XGBoost中的并行计算是针对每个特征的。具体来说，XGBoost可以同时处理数据集中的不同特征，而不是按照顺序逐个处理。这意味着在训练或预测时，XGBoost可以并行计算每个特征的信息增益（或梯度），然后将这些结果合并以更新模型的状态。这种特征级别的并行计算使XGBoost能够高效地处理大量特征，尤其是在大规模数据集上。
可并行的近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。

XGBoost Scalable的体现

XGBoost的paper在KKD上发表，名为：《Xgboost: A scalable tree boosting system》，那么scalable体现在哪?

模型的scalability：弱分类器可以支持cart也可以支持lr和linear，但其实这是Boosting算法做的事情，XGBoost只是实现了而已。
目标函数的scalability：支持不同的loss function, 支持自定义loss function，只要一、二阶可导。有这个特性是因为泰勒二阶展开，得到通用的目标函数形式。
学习方法的scalability：Block结构支持并行化，支持 Out-of-core计算

XGBoost 防止过拟合的方法

目标函数的正则项，叶子节点数+叶子节点数输出分数的平方和 $\Omega\left(f_t\right)=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^T w_j^2$
行抽样和列抽样：训练的时候只用一部分样本和一部分特征
可以设置树的最大深度
η: 可以叫学习率、步长或者shrinkage
Early stopping：使用的模型不一定是最终的ensemble，可以根据测试集的测试情况，选择使用前若干棵树

XGBoost的创新点

第一，实现精确性与复杂度之间的平衡

树的集成模型是机器学习中最为强大的学习器之一，这一族学习器的特点是精确性好、适用于各种场景，但运行缓慢、且过拟合风险很高，而剪枝策略的目的就是为了降低各种树模型的模型复杂度，从而控制住过拟合。树模型的学习能力与过拟合风险之间的平衡，就是预测精确性与模型复杂度之间的平衡，也是经验风险与结构风险之间的平衡，这一平衡对决策树以及树的集成模型来说是永恒的议题。

在过去，我们总是先建立效果优异的模型，再依赖于手动剪枝来调节树模型的复杂度，但在XGBoost中，精确性与复杂度会在训练的每一步被考虑到。主要体现在：

1. XGBoost为损失函数 $L(y,\hat{y})$ 加入结构风险项，构成目标函数 $O(y,\hat{y})$

在AdaBoost与GBDT当中，我们的目标是找到损失函数 $L(y,\hat{y})$ 的最小值，也就是让预测结果与真实结果差异最小，这一流程只关心精确性、不关心复杂度和过拟合情况。为应对这个问题，XGBoost从决策树的预剪枝流程、逻辑回归、岭回归、Lasso等经典算法的抗过拟合流程吸取经验，在损失函数中加入了控制过拟合的结构风险项，并将【 $L(y,\hat{y})$ + 结构风险】定义为目标函数 $O(y,\hat{y})$ 。

这一变化让XGBoost在许多方面都与其他Boosting算法不同：例如，XGBoost是向着令目标函数最小化的目标进行训练，而不是令损失函数最小化的方向。再比如，XGBoost会优先利用结构风险中的参数来控制过拟合，而不像其他树的集成模型一样依赖于树结构参数（例如max_depth，min_impurity_decrease等）。

2. 使用全新不纯度衡量指标，将复杂度纳入分枝规则

在之前学过的算法当中，无论Boosting流程如何进化，建立单棵决策树的规则基本都遵循我们曾经学过的CART树流程，在分类树中，我们使用信息增益（information gain）来衡量叶子的质量，在回归树中，我们使用MSE或者弗里德曼MSE来衡量叶子的质量。这一流程有成熟的剪枝机制、预测精度高、能够适应各种场景，但却可能建立复杂度很高的树。

为实现精确性与复杂度之间的平衡，XGBoost重新设定了分枝指标**【结构分数】（原论文中写作Structure Score，也被称为质量分数Quality Score），以及基于结构分数的【结构分数增益】**（Gain of structure score），结构分数增益可以逼迫决策树向整体结构更简单的方向生长。

这一变化让XGBoost使用与传统CART略有区别的建树流程，同时在建树过程中大量使用残差（Residuals）或类残差对象作为中间变量，因此XGBoost的数学过程比其他Boosting算法更复杂。

第二，极大程度地降低模型复杂度、提升模型运行效率，将算法武装成更加适合于大数据的算法

在任意决策树的建树过程中，都需要对每一个特征上所有潜在的分枝节点进行不纯度计算，当数据量巨大时，这一计算将消耗巨量的时间，因此树集成模型的关键缺点之一就是计算缓慢，而这一缺点在实际工业环境当中是相当致命的。为了提升树模型的运算速度、同时又不极大地伤害模型的精确性，XGBoost使用多种优化技巧来实现效率提升：

1. 使用估计贪婪算法、平行学习、分位数草图算法等方法构建了适用于大数据的全新建树流程

2. 使用感知缓存访问技术与核外计算技术，提升算法在硬件上的运算性能

3. 引入Dropout技术，为整体建树流程增加更多随机性、让算法适应更大数据
不仅在数学方法上有所改进，XGBoost正式拉开了Boosting算法工程优化的序幕。后续更多的Boosting算法，包括LightGBM，CatBoost等也都是在工程方法上做出了大量的优化。

除此之外，XGBoost还保留了部分与梯度提升树类似的属性，包括：

弱评估器的输出类型与集成算法输出类型不一致

对于AdaBoost或随机森林算法来说，当集成算法执行的是回归任务时，弱评估器也是回归器，当集成算法执行分类任务时，弱评估器也是分类器。但对于GBDT以及基于GBDT的复杂Boosting算法们而言，无论集成算法整体在执行回归/分类/排序任务，弱评估器一定是回归器。GBDT通过sigmoid或softmax函数输出具体的分类结果，但实际弱评估器一定是回归器，XGBoost也是如此。

拟合负梯度，且当损失函数是0.5倍MSE时，拟合残差

任意Boosting算法都有自适应调整弱评估器的步骤。在GBDT当中，每次用于建立弱评估器的是样本 $X$ 以及当下集成输出 $H(x_i)$ 与真实标签 $y$ 之间的伪残差（也就是负梯度）。当损失函数是 $\frac{1}{2}MSE$ 时，负梯度在数学上等同于残差（Residual），因此GBDT是通过拟合残差来影响后续弱评估器结构。XGBoost也是依赖于拟合残差来影响后续弱评估器结构，但是与GBDT一样，这一点需要通过数学来证明。

抽样思想

GBDT借鉴了大量Bagging算法中的抽样思想，XGBoost也继承了这一属性，因此在XGBoost当中，我们也可以对样本和特征进行抽样来增大弱评估器之间的独立性

XGBoost实例（copy的知乎的一个例子，目的是熟悉算法流程）

注意：logloss： $y_i log(1+e^{-\hat y_i})+(1-y_i)*log(1+e^{\hat y_i}))$ （下面图片的中 $L(y_i,\hat y_{i})$ 错了)

相比于GBDT，XGBoost的优点？

解释：XGBoost拟合的也是残差?

当目标函数为 $\frac{1}{2}MSE$ ，负梯度 $g_i$ 就等于残差，而 $h_i = 1$ ，因此拟合项 $-\frac{g_i}{h_i}$ 自然也是残差本身了。因此，XGBoost也是拟合负梯度的算法，并且在特定损失函数下，XGBoost也拟合残差。

参考资料

https://www.matongxue.com/madocs/7/
https://www.matongxue.com/madocs/126/
菜菜九天机器学习课程
https://www.hrwhisper.me/machine-learning-xgboost/
Chen, Tianqi, and Carlos Guestrin. “Xgboost: A scalable tree boosting system.” Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. ACM, 2016.
https://zhuanlan.zhihu.com/p/92837676
http://t.csdnimg.cn/mTL0h
XGBoost 与 Boosted Tree - 陈天奇：https://pan.baidu.com/s/10NWfRM9qimswGxPsF9VlDw 密码:v3y6

你可能感兴趣的:(集成学习,机器学习,集成学习,机器学习)

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb