秦刚刚

秦刚刚的机器学习成长之路之SVM原理（SMO算法详解）

SMO算法详解（Sequential Minimal Optimization）

写作背景：最近在学SVM算法，在看了一些资料后，发现：很多书籍（例如：《机器学习》）或资料在讲解SVM算法时，都只是讲到了为了计算方便，可以将SVM算法需要求解的原始问题转化为它的对偶问题，然后使用SMO算法求解对偶问题，但是却没有详细解释SMO算法的具体解法。在我苦恼之际，实验室师兄分享给我一篇讲得很好的博客，因此，我将在这里总结一下用于求解对偶问题的SMO算法的具体解法。

参考论文：Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines

该论文是Microsoft Research的John C.Platt在1998年针对对偶问题提出的解法：即SMO算法。
这一方法很快就成为最快的二次规划优化算法，特别是针对线性SVM和数据稀疏时性能更优。

参考博客1：支持向量机通俗导论（理解SVM的三层境界）

在该博客中，作者July对SVM算法进行了由浅入深的详细讲解。用作者自己的话说就是：
全文宏观上整体认识支持向量机（SVM）的概念和用处，
微观上深究部分定理的来龙去脉，证明及原理细节，力保逻辑清晰 & 通俗易懂。
在讲解SVM算法那一部分时，就是参考的上面的论文。

参考博客2：机器学习实战教程（八）：支持向量机原理篇之手撕线性SVM

在该博客中，作者Jack Cui将SVM的原理讲解得很清楚，推荐大家都看看

1. 为什么要将原始问题转化为对偶问题？

主要有3个原因：
1.对偶问题将原始问题中的约束转为了对偶问题中的等式约束。
2.方便核函数的引入。
3.改变了问题的复杂度。由求特征向量w转化为求比例系数a。
在原始问题下，求解的复杂度与样本的维度有关，即w的维度。在对偶问题下，只与样本数量有关。

2. 怎么将原始问题转化为对偶问题？

2.1 背景

支持向量机（SVM）的基本数学模型为：
$min\frac{1}{2}||w||^T\\s.t. \ y_i(w^Tx_i+b)\geq1,i=1,2,...,n$

这里 $n$ 是样本点的总个数，缩写s.t.表示"Subject to"，是"使得满足"的意思。上述公式描述的是一个典型的不等式约束条件下的二次型函数优化问题，同时也是支持向量机的基本数学模型。

2.2 准备知识

我们已经得到支持向量机的基本数学模型，接下来的问题就是如何根据数学模型，求得我们想要的最优解（即最优决策超平面）。在学习求解方法之前，我们得知道一点，想用我下面讲述的求解方法有一个前提，就是我们的目标函数必须是凸函数。理解凸函数，我们还要先明确另一个概念，凸集。在凸几何中，凸集(convex set)是在凸组合下闭合的放射空间的子集。凸集的定义是：如果集合中任意2个元素连线上的点也在集合中，那么这个集合就是凸集。看下图可能更容易理解：

左右两图分别是两个不同的集合。
显然，上图中的左图是一个凸集，上图中的右图是一个非凸集。
凸函数的定义也是如此，其几何意义表示为：函数任意两点连线上的值大于对应自变量处的函数值。若这里凸集 $C$ 即某个区间 $L$ ，那么，设函数 $f$ 为定义在区间 $L$ 上的函数，若对 $L$ 上的任意两点 $x_1$ ， $x_2$ 和任意的实数 $\lambda$ ， $\lambda$ $\in$ (0,1)，总有：
$f(\lambda x_1+(1-\lambda)x_2)\leq\lambda f(x_1)+(1-\lambda)f(x_2)$
则函数 $f$ 称为 $L$ 上的凸函数，当且仅当其上镜图（在函数图像上方的点集）为一个凸集。再看一幅图，也许更容易理解：

像上图这样的函数，它整体就是一个非凸函数，我们无法获得全局最优解的，只能获得局部最优解。比如红框内的部分，如果单独拿出来，它就是一个凸函数。对于我们的目标函数：
$min\frac{1}{2}||w||^T$
很显然，它是一个凸函数。所以，可以使用我接下来讲述的方法求取最优解。
通常我们需要求解的最优化问题有如下3类：

(1)无约束优化问题，可以写为：
$m i n f (x)$
(2)有等式约束的优化问题，可以写为：
$minf(x)\\ s.t. \ h_i{(x)}=0,i=1,2,...,n$
(3)有不等式约束的优化问题，可以写为：
$minf(x)\\ s.t.\ g_i(x)\leq0,i=1,2,...,n\\ h_j(x)=0,j=1,2,...,m$

对于第(1)类的优化问题，常常使用的方法就是费马大定理(Fermat)，即使用求取函数f(x)的导数，然后令其为零，可以求得候选最优值，再在这些候选值中验证；如果是凸函数，可以保证是最优解。这也就是我们高中经常使用的求函数的极值的方法。

对于第(2)类的优化问题，常常使用的方法就是拉格朗日乘子法（Lagrange Multiplier) ，即把等式约束 $h_i(x)$ 用一个系数与 $f (x)$ 写为一个式子，称为拉格朗日函数，而系数称为拉格朗日乘子。通过拉格朗日函数对各个变量求导，令其为零，可以求得候选值集合，然后验证求得最优值。

对于第(3)类的优化问题，常常使用的方法就是 $K K T$ 条件。同样地，我们把所有的等式、不等式约束与 $f (x)$ 写为一个式子，也叫拉格朗日函数，系数也称拉格朗日乘子，通过一些条件，可以求出最优值的必要条件，这个条件称为 $K K T$ 条件。

必要条件和充要条件如果不理解，可以看下面这句话：

A的必要条件就是A可以推出的结论
A的充分条件就是可以推出A的前提

显然，由于SVM的数学模型中有不等式约束条件，所以属于第(3)类优化问题。因此，在学习如何求解最优化问题之前，需先学习拉格朗日函数和KKT条件。

2.3 拉格朗日函数和KKT条件

2.3.1 拉格朗日函数

首先，我们先要从宏观的视野上了解一下拉格朗日对偶问题出现的原因和背景。

我们知道我们要求解的是最小化问题，所以一个直观的想法是如果我能够构造一个函数，使得该函数在可行解区域内与原目标函数完全一致，而在可行解区域外的数值非常大，甚至是无穷大，那么这个没有约束条件的新目标函数的优化问题就与原来有约束条件的原始目标函数的优化问题是等价的问题。这就是使用拉格朗日方程的目的，它将约束条件放到目标函数中，从而将有约束优化问题转换为无约束优化问题。

随后，人们又发现，使用拉格朗日获得的函数，使用求导的方法求解依然困难。进而，需要对问题再进行一次转换，即使用一个数学技巧：拉格朗日对偶。

所以，显而易见的是，我们在拉格朗日优化我们的问题这个道路上，需要进行下面两个步骤：

(第一步)将有约束的原始目标函数转换为无约束的新构造的拉格朗日目标函数
(第二步)使用拉格朗日对偶性，将不易求解的优化问题转化为易求解的优化问题

下面，进行第一步：将有约束的原始目标函数转换为无约束的新构造的拉格朗日目标函数。
公式变形如下：

其中 $\alpha_i$ 是拉格朗日乘子， $\alpha_i \geq 0$ ，是我们构造新目标函数时引入的系数变量(我们自己设置)。现在我们令：

当样本点不满足约束条件时，即在可行解区域外：

此时，我们将 $\alpha_i$ 设置为+ $\infty$ ，此时 $θ (w)$ 显然也是+ $\infty$ 。
当样本点满足约束条件时，即在可行解区域内：

此时，显然 $θ (w)$ 为原目标函数本身。我们将上述两种情况结合一下，就得到了新的目标函数：

此时，再看我们的初衷，就是为了建立一个在可行解区域内与原目标函数相同，在可行解区域外函数值趋近于无穷大的新函数，现在我们做到了。

现在，我们的问题变成了求新目标函数的最小值，即：

这里用 $p^*$ 表示这个问题的最优值，且和最初的问题是等价的。

接下来，我们进行第二步：将不易求解的优化问题转化为易求解的优化问题。

我们看一下我们的新目标函数，先求最大值，再求最小值。这样的话，我们首先就要面对带有需要求解的参数 $w$ 和 $b$ 的方程，而 $\alpha_i$ 又是不等式约束，这个求解过程不好做。所以，我们需要使用拉格朗日函数对偶性，将最小和最大的位置交换一下，这样就变成了：

交换以后的新问题是原始问题的对偶问题，这个新问题的最优值用 $d^*$ 来表示。而且 $d^*\leq p^*$ 。我们关心的是 $d = p$ 的时候，这才是我们要的解。需要满足以下两个条件才能让 $d = p$ 。

首先必须满足这个优化问题是凸优化问题。
其次，需要满足KKT条件

凸优化问题的定义是：求取最小值的目标函数为凸函数的一类优化问题。目标函数是凸函数我们已经知道，这个优化问题又是求最小值。所以我们的最优化问题就是凸优化问题，即第一个条件已经满足。

接下里，就是探讨是否满足KKT条件了。

2.3.2 KKT条件

$K K T$ 条件的全称是 $K a r u s h - K u h n - T u c k e r$ 条件， $K K T$ 条件是说对于以下数学模型：

它的最优值条件必须满足以下条件：

条件一：经过拉格朗日函数处理之后的新目标函数L(w,b,α)对x求导为零：
条件二：h(x) = 0；
条件三：α*g(x) = 0；

对于SVM中求解的优化问题：显然满足以上三个条件，具体证明见：深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

从而，可以通过求解它的对偶问题来学习模型参数。
求解它的对偶学习问题，可以分为三个步骤：首先要让 $L (w, b, α)$ 关于 $w$ 和 $b$ 最小化，然后求对 $\alpha$ 的极大，最后利用SMO算法求解对偶问题中的拉格朗日乘子。

至此，使用SMO算法的背景以及准备知识已经讲解完毕，下面将会详细讲解SMO算法。

3. SMO算法的求解思路是什么？

思路：将大优化问题分解成多个小优化问题来求解。

步骤一
通过上面的推导，我们知道要求解的大优化问题，即对偶问题，为：

首先固定 $\alpha$ ，要让 $L (w, b, α)$ 关于 $w$ 和 $b$ 最小化，我们分别对 $w$ 和 $b$ 偏导数，令其等于0，即：

将上述结果带回 $L (w, b, α)$ 得到：

从上面的最后一个式子，我们可以看出，此时的 $L (w, b, α)$ 函数只含有一个变量，即 $\alpha_i$ 。

步骤二
现在内侧的最小值求解完成，我们求解外侧的最大值，从上面的式子得到：

如上形式即为我们需要求解的最优化问题。
对于这个问题，我们用高效的优化算法，即SMO算法进行求解。通过SMO算法，首先得到 $\alpha$ ，再根据 $\alpha$ ，就可以求解出 $w$ 和 $b$ ，进而求得最初的目的：找到超平面，即"决策平面"。

具体地，SMO算法的工作原理为：每次循环中选择两个alpha进行优化处理。一旦找到了一对合适的alpha，那么就增大其中一个同时减小另一个。这里所谓的"合适"就是指两个alpha必须符合以下两个条件，条件之一就是两个alpha必须要在间隔边界之外，而且第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。（后面会进行解释）

4. SMO的求解过程是怎样的？

将上一节中最后推导出的最优化问题，即目标函数前面加一个负号，将最大值问题转换成最小值问题：

实际上，对于上述目标函数，是存在一个假设的，即数据100%线性可分。但是，目前为止，我们知道几乎所有数据都不那么"干净"。这时我们就可以通过引入所谓的松弛变量 $\xi$ (slack variable)和惩罚参数 $C$ ，来允许有些数据点可以处于超平面的错误的一侧。此时我们的约束条件有所改变：

同时，考虑到松弛变量和松弛变量 $\xi$ 和惩罚参数 $C$ ，目标函数变为：

原始问题的拉格朗日函数变为：

对偶问题拉格朗日函数的极大极小问题，得到以下等价优化问题：

则，原始问题的解对偶问题的解相同需要满足KKT对偶互补条件，即：

对样本点 $x_i$ ，记SVM的输出结果为：

Platt在序列最小优化（SMO）方法1中提到，对正定二次优化问题（a positive definite QP problem）的优化点的充分必要条件为KKT条件（Karush-Kuhn-Tucker conditions）。
对于所有的 $i$ ，若满足以下条件，QP问题可解。KKT条件如下：

其中 $y_iu_i$ 就是每个样本点的函数间隔。

KKT条件推导

因此推出：

而最优解需要满足KKT条件，即上述3个条件都得满足，如果存在不能满足KKT条件的 $\alpha_i$ ，那么需要更新这些 $\alpha_i$ ，这是第一个约束条件。此外，更新的同时还要受到第二个约束条件的限制，即：

因为这个条件，我们同时更新两个 $\alpha$ 值，因为只有成对更新，才能保证更新之后的值仍然满足和为0的约束，假设我们选择的两个乘子为 $\alpha_1$ 和 $\alpha_2$ ：

其中， $\zeta$ 为常数。因为两个因子不好同时求解，所以可以先求第二个乘子 $\alpha_2$ 的解（ $\alpha_2^{new}$ ），得到 $\alpha_2$ 的解（ $\alpha_2^{new}$ ）之后，再用 $\alpha_2$ 的解（ $\alpha_2^{new}$ ）表示 $\alpha_1$ 的解（ $\alpha_1^{new}$ ）。为了求解 $\alpha_2^{new}$ ，得先确定 $\alpha_2^{new}$ 的取值范围。假设它的上下边界分别为 $H$ 和 $L$ ，那么有：

接下来，综合下面两个条件：

当 $y_1\neq y_2$ 时，即一个为+1，一个为-1的时候，可以得到：

所以有：

此时，取值范围如下图所示：

当 $y_1= y_2$ 时，即两个都为+1或者都为-1，可以得到：

所以有：

此时，取值范围如下图所示：

如此，根据 $y_1$ 和 $y_2$ 异号或同号，可以得出 $\alpha_2^{new}$ 的上下界分别为：

这个界限就是编程的时候需要用到的。已经确定了边界，接下来，就是推导迭代式，用于更新 $\alpha$ 值。

我们已经知道，更新 $\alpha$ 的边界，接下来就是讨论如何更新 $\alpha$ 值。我们依然假设选择的两个乘子为 $\alpha_1$ 和 $\alpha_2$ 。固定这两个乘子，进行推导。于是目标函数变成了：

为了描述方便，我们定义如下符号：

最终目标函数变为：

我们不关心 $c o n s t a n t$ 的部分，因为对于 $\alpha_1$ 和 $\alpha_2$ 来说，它们都是常数项，在求导的时候，直接变为0。对于这个目标函数，如果对其求导，还有个未知数 $\alpha_1$ ，所以要推导出 $\alpha_1$ 和 $\alpha_2$ 的关系，然后用 $\alpha_2$ 代替 $\alpha_1$ ，这样目标函数就剩一个未知数了，我们就可以求导了，推导出迭代公式。所以现在继续推导 $\alpha_1$ 和 $\alpha_2$ 的关系。注意第一个约束条件：

我们在求 $\alpha_1$ 和 $\alpha_2$ 的时候，可以将 $\alpha_3$ , $\alpha_4$ ,…, $\alpha_n$ 和 $y_3$ , $y_4$ ,…, $y_n$ 看作常数项。因此有：

我们不必关心常数 $B$ 的大小，现在将上述等式两边同时乘以 $y_1$ ，得到( $y_1y_1=1$ )：

其中 $γ$ 为常数 $B*y_1$ ，我们不关心这个值， $s=y_1y_2$ 。接下来，我们将得到的 $\alpha_1$ 带入 $W(\alpha_2)$ 公式得：

这样目标函数中就只剩下 $\alpha_2$ 了，我们对其求偏导（注意： $s=y_1y_2$ ，所以 $s$ 的平方为1， $y_1$ 的平方和 $y_2$ 的平方均为1）

继续化简，将 $s=y_1y_2$ 带入方程得：

我们令：

$E_i$ 为误差项， $η$ 为学习速率。

再根据我们已知的公式：

将 $α{_2}{^{new}}$ 继续化简得：

这样，我们就得到了最终需要的迭代公式。这个是没有经过剪辑的解，需要考虑约束：

根据之前推导的 $\alpha_i$ 取值范围，我们得到最终的解析解为：

又因为：

消去 $γ$ 得：

这样，我们就知道了怎样计算 $\alpha_1$ 和 $\alpha_2$ 了，也就是如何对选择的 $\alpha$ 进行更新。

当我们更新了 $\alpha_1$ 和 $\alpha_2$ 之后，需要重新计算阈值 $b$ ，因为 $b$ 关系到了我们 $f (x)$ 的计算，也就关系到了误差 $E_i$ 的计算。

我们要根据 $\alpha$ 的取值范围，去更正 $b$ 的值，使间隔最大化。当 $\alpha_1^{new} \in (0,C)$ 的时候，根据KKT条件可知，这个点是支持向量上的点。因此，满足下列公式：

公式两边同时乘以 $y_1$ 得( $y_1y_1=1$ )：

因为我们是根据 $\alpha_1$ 和 $\alpha_2$ 的值去更新 $b$ ，所以单独提出 $i = 1$ 和 $i = 2$ 的时候，整理可得：

其中前两项为：

将上述两个公式，整理得：

同理可得 $b_2^{new}$ 为：

当 $b_1$ 和 $b_2$ 都有效的时候，它们是相等的，即：

当两个乘子都在边界上，则 $b$ 阈值和KKT条件一致。当不满足的时候， $S M O$ 算法选择他们的中点作为新的阈值：

最后，更新所有的 $\alpha$ 和 $b$ ，这样模型就出来了，从而即可求出我们的分类函数。

5. SMO算法的步骤总结

步骤1：计算误差 $E_i$ ：

步骤2：计算上下界 $L$ 和 $H$ ：

步骤3：计算 $η$ ：

步骤4：更新 $\alpha_j$ ：

步骤5：根据取值范围修剪 $\alpha_j$ ：

步骤6：更新 $\alpha_i$ ：

步骤7：更新 $b_1$ 和 $b_2$ ：

步骤8：根据 $b_1$ 和 $b_2$ 更新 $b$ ：

最后的最后（作者的话）

如果你看到了这里，那么你一个是一个很优秀的人（能这么有耐心地看完我写的这篇博客^_）。由于我也是参考了很多博客后才写的这篇博客，所以地方我可能没有讲得很清楚，如果有任何问题留言，或者直接邮箱（[email protected]）与我私信交流。

常见机器学习算法总结婉妃
基本算法总结正面.jpeg图的左半部分列出了常用的机器学习算法与它们之间的演化关系，分为有监督学习，无监督学习，强化学习3大类。右半部分列出了典型算法的总结比较，包括算法的核心点如类型，预测函数，求解的目标函数，求解算法。理解和记忆这张图，对你系统化的掌握机器学习与深度学习会非常有帮助！基本公式反面.jpeg
机器学习算法总结 doverxu
回归算法线性回归算法：支持向量机&向前逐步回归&惩罚线性回归（岭回归/套索回归/ElasticNet/最小角度回归LARS/Glmnet）非线性回归算法二元决策树：分割点评价标准是基尼不纯性度量和信息增益自举集成（Bagging）：从训练数据集获得一系列的自举样本，对每一个自举样本训练一个基学习器，将基学习器的均值作为结果。梯度提升算法：与Bagging和随机森林的不同之处在于它在减少方差的同时，
【深入探究人工智能】：常见机器学习算法总结 .小智小智带你闲聊人工智能机器学习算法
文章目录1、前言1.1机器学习算法的两步骤1.2机器学习算法分类2、逻辑回归算法2.1逻辑函数2.2逻辑回归可以用于多类分类2.3逻辑回归中的系数3、线性回归算法3.1线性回归的假设3.2确定线性回归模型的拟合优度3.3线性回归中的异常值处理4、支持向量机（SVM）算法4.1优点4.2缺点小结博客主页：小智_x0___0x_欢迎关注：点赞收藏✍️留言系列专栏：小智带你闲聊代码仓库：小智的代码仓库1
Lime算法总结--可解释性机器学习算法总结南京比高IT 可解释性分析算法人工智能
一.引言前面我们进行了CAM、GRAD-CAM算法的介绍，本文我们继续介绍一种算法:Lime（LocalInterpretableModel-AgnosticExplanations）二.算法介绍Lime算法是基于局部代理模型来对单个样本进行解释。假设对于需要解释的黑盒模型，取关注的实例样本，在其附近进行扰动生成新的样本点，并得到黑盒模型的预测值，基于新的数据集训练可解释的模型来得到对黑盒模型良好
机器学习算法总结 Yngxiao123 机器学习
朴素贝叶斯：有以下几个地方需要注意：只能做分类1.如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位置是该单词出现的次数。2.计算公式如下：其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法，而由朴素贝叶斯的前提假设可知，=，因此一般有两种，一种是在类别为ci的那些样本集中，找到wj出现次
机器学习算法总结程序汪赵可乐 cv nlp 算法机器学习人工智能
机器学习两个核心任务：任务一：如何优化训练数据—>主要用于解决欠拟合问题任务二：如何提升泛化性能—>主要用于解决过拟合问题KNN定义：给定一个训练集，对新输入的未知样本，通过计算与每个训练样本的距离，找到与该实例最邻近的K个实例，这K个实例大多属于某个类，该样本就属于某个类应用场景：分类/回归问题算法流程：计算已知类别数据集中的点与当前点之间的距离按照距离值进行排序选取最小的k个距离，并统计这k个
机器学习算法总结正在思考中机器学习机器学习
机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。严格的定义：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里所说的“机器”，指的就是计算机，电子计算机，中子计算机、光子计算机或神经计算
十大常用机器学习算法总结（持续完善）二哥不像程序员数据挖掘机器学习算法 python 机器学习人工智能新星计划
前言之前二哥连载了各类常用的机器学习算法的原理与具体推倒过程，本文我们对常用的十大机器学习算法进行总结。记得收藏+点赞+评论呦！目录前言一、线性回归二、K近邻算法（KNN）三、朴素贝叶斯（NB）四、逻辑回归（LR）五、支持向量机（SVM）六、决策树（DT）七、随机森林（RF）八、GBDT九、XGBoost十、K-Means一、线性回归思路：线性回归假设目标值与特征之间线性相关，即满足一个多元一次方
【机器学习算法总结】XGBoost y430 Kaggle Machine learning
目录1.XGBoost2.CART树2.1优缺点2.2分裂依据2.2.1分类2.2.2回归2.3总结2.4参考3.算法原理3.1定义树的复杂度3.2打分函数计算示例3.3分裂结点3.3.1贪心法3.3.2近似算法3.3.3分布式加权直方图算法（WeightedQuantileSketch）4.损失函数（指定grad、hess）4.1参考5.缺失值6.其他优化6.1正则化6.2计算速度提升6.2.1
机器学习算法总结(六)——EM算法与高斯混合模型 weixin_30291791 人工智能
极大似然估计是利用已知的样本结果，去反推最有可能（最大概率）导致这样结果的参数值，也就是在给定的观测变量下去估计参数值。然而现实中可能存在这样的问题，除了观测变量之外，还存在着未知的隐变量，因为变量未知，因此无法直接通过最大似然估计直接求参数值。EM算法是一种迭代算法，用于含有隐变量的概率模型的极大似然估计，或者说是极大后验概率估计。1、经典的三硬币模型引入一个例子来说明隐变量存在的问题。假设有3
机器学习总结一：Bagging之决策树、随机森林原理与案例想考个研机器学习决策树随机森林
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means一、Bagging之决策树、随机森林原理与案例1.决策树1.1简介决策树(DecisionTree)是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据种总结出决策规则，并利用树状图结构呈现这些规则
机器学习总结三：SVM原理推导与案例想考个研机器学习支持向量机算法
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means三、SVM1.原理推导（硬间隔）1.1分类问题代数化**svm原理一句话概括：找出一个最优的直线(或超平面)去隔离不同类别样本数据，达到分类目的。**图1图2图1:找出一条直线将样本完美地划分成两类（注意这样
机器学习总结四：逻辑回归与反欺诈检测案例想考个研机器学习逻辑回归算法
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means四、逻辑回归1、概述由线性回归变化而来的，应用于分类问题中的广义回归算法。组成：回归函数z=w1x1+w2x2+...+wnxn+b=[w1w2wnb]∗[x1x2⋮xn1]=wTXz=w_1x_1+w_2x
机器学习算法总结--朴素贝叶斯 spearhead_cai 机器学习算法总结机器学习算法朴素贝叶斯
这次需要总结的是朴素贝叶斯算法，参考文章：《统计学习方法》机器学习常见算法个人总结（面试用）朴素贝叶斯理论推导与三种常见模型朴素贝叶斯的三个常用模型：高斯、多项式、伯努利简介朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。贝叶斯定理是基于条件概率来计算的，条件概率是在已知事件B发生的前提下，求解事件A发生的概率，即P(A|B)=P(AB)P(B)，而贝叶斯定理则可以通过P(A|B)来求解P
机器学习算法总结 ZQ_ZHU Machine Learning 秋招机器学习算法
转自：https://blog.csdn.net/weixin_40411446/article/details/81836322~~~~~·个人整理，如需转载，请说明并备注，不甚感激~~~~~~（这篇文章我很早发布在简书上，不用简书好多年了，哈哈哈，居然上了热搜，特复制在CSDN上供大家参考，为秋招攒点人品）suxuer简书原文地址BAT机器学习面试系列1.请简要介绍下SVM。SVM，全称是su
机器学习算法总结 #叫啥名字呢机器学习机器学习算法
~~~~~·个人整理，如需转载，请说明并备注，不甚感激~~~~~~（这篇文章我很早发布在简书上，不用简书好多年了，哈哈哈，居然上了热搜，特复制在CSDN上供大家参考，为秋招攒点人品）suxuer简书原文地址BAT机器学习面试系列1.请简要介绍下SVM。SVM，全称是supportvectormachine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不
机器学习期末练习题 unseven 机器学习机器学习期末练习题
目录KNN决策树朴素贝叶斯SVMadaboost梯度下降法KmeansAprioriSVD重要的评估指标（注意F1score）机器学习算法总结过拟合和欠拟合产生的原因：解决欠拟合(高偏差)的方法解决过拟合(高方差)的方法：KNN决策树朴素贝叶斯SVMadaboost这个题的答案给的有问题，推荐看完这个解析41、AdaBoost算法原理的举例推演梯度下降法KmeansAprioriSVD重要的评估指
梯度提升决策树（GBDT）与XGBoost、LightGBM weixin_ry5219775 决策树机器学习算法
20211224【机器学习算法总结】XGBoost_yyy430的博客-CSDN博客_xgboostxgboost参数默认：auto。XGBoost中使用的树构造算法。可选项：auto，exact，approx，hist，gpu_exact，gpu_hist。分布式和外部存储器版本仅支持tree_method=approx。auto：使用启发式方法选择最快的方法。（1）对于中小型数据集，将使用精确
支持向量机SVM 余生最年轻机器学习
关键字：vector,support,machine,核函数，支持向量机由于自然语言分类总结：SVM是一个分类问题，在学习复杂的非线性方程时效果很好，是监督式学习（详见前面的微博：机器学习算法总结）。例子：from吴恩达的机器学习视频，肿瘤大小与是否患病的例子1.定义找到一条直线，使得直线可以划分两类，并且到两类的距离（就是图上的垂线长度）一样，这是一条最佳的直线。离直线最近的点叫vector，直
机器学习算法总结之聚类：K-means kaiyuan_sjtu ML算法总结
写在前面在前面学习的ML算法中，基本都是有监督学习类型，即存在样本标签。然而在机器学习的任务中，还存在另外一种训练样本的标签是未知的，即“无监督学习”。此类任务中研究最多、应用最广泛的是“聚类”（clustering），常见的无监督学习任务还有密度估计、异常检测等。本文将首先介绍聚类基本概念，然后具体地介绍几类细分的聚类算法。参考资料：K-Means聚类算法原理1.聚类简介聚类试图将数据集中的样本
机器学习算法总结知识点索引光英的记忆算法 tensorflow NLP
百面机器学习算法总结索引（声明：以下所有内容及其链接内容来自于百面机器学习一书，仅供自己方便学习和复习，不做任何商业用途，所有链接内容继承本声明）第一节：特征归一化1.为什么需要对数值类型的特征做归一化？2.在对数据进行预处理时，应该怎样处理类别型特征？3.如何处理高纬度组合特征？什么是组合特征？4.5.有哪些文本表示模型？它们各有什么优缺点？6.Word2vec是如何工作的？它和LDA有什么区别
机器学习算法总结--决策树 spearhead_cai 机器学习算法
简介定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。决策树学习本质上是从训练数据集中归纳出一组分类规则，也可以说是由训练数据集估计条件概率模型。它使用的损失函数通常是正则化的极大似然函数，其策略是以损失函数为目标函数的最
使用Python语言进行机器学习工作流的实例分析冬之晓东 python 机器学习数据处理数据挖掘
最近，在kaggle上找到一位大牛写的机器学习算法总结，感觉流程清晰，内容详实，因此翻译并分享下，由于作者不明原因将原文删除了，所以没法放上原文地址，文中主要以代码实践的方式展开各种算法，原理方面参考文中的地址连接（这是自己加上的），以便随时查阅~目录目录使用Python语言进行机器学习工作流的实例分析1.介绍2.机器学习工作流程3问题定义3.1问题特征3.2目标3.3变量4.输入输出5.安装工具
机器学习算法总结11:XGBoost 小颜学人工智能机器学习
XGBoost(eXtremeGradientBoosting)是于2015年提出的GradientBoosting实现算法，在速度和精度较GBDT有显著提升。XGBoost以类似牛顿法的方式进行优化。任何机器学习问题都可以从目标函数出发，目标函数分为两部分：损失函数+正则化项，其中，损失函数用于描述模型拟合数据的程度，正则化项用于控制模型的复杂度。与GDBT一样，XGBoost采用加法模型，设基
机器学习算法总结12:LightGBM 小颜学人工智能机器学习
LightGBM是一个梯度(GradientBoosting，GB)框架，可用于分类、回归、排序等机器学习任务。相比于XGBoost，LightGBM在不降低准确率的前提下，速度提升了10倍左右，占用内存下降了3倍左右。直方图算法(HistogramAlgorithm)的基本思想是将连续的特征离散化为k个离散特征，同时构造一个宽度为k的直方图，用于统计信息(含有k个bin)即将连续值映射到对应bi
机器学习算法总结9:k-means聚类算法小颜学人工智能机器学习
无监督学习：训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。聚类是典型无监督学习任务，它试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇。距离度量：通过距离来定义相似度度量，距离越大，相似度越小。最常用的距离度量是闵可夫斯基距离，其中，当p=2时，称为欧氏距离；当p=1时，称为曼哈顿距离。详见我的博客：机器学
机器学习算法总结10:Bagging及随机森林小颜学人工智能机器学习
Bagging是并行式集成学习方法最著名的代表，可以用于分类任务，也可以用于回归任务，被誉为“代表集成学习技术水平的方法”。不同于Boosting方法对训练数据集赋予不同的权重训练基学习器，Bagging采用“重采样法”，将训练数据集进行采样，进而产生若干个不同的子集，再从每个数据子集中训练出一个基学习器，然后使用结合策略得到强学习器。为得到不同的采样集，使用自助采样法进行采样：给定包含m个样本的
机器学习算法总结6:线性回归与逻辑回归小颜学人工智能机器学习
线性回归(LinearRegression)：线性回归是回归模型，y=f(x)：表明自变量x和因变量y的关系。1.模型2.策略损失函数(平方损失函数)：注：平方误差代价函数是解决回归问题最常用的代价函数。3.算法最小二乘法：注意：要求X是满秩的！逻辑回归(LogisticRegression)：逻辑回归是统计学习中的经典分类方法，属于对数线性模型。1.模型逻辑回归实际上是处理二类分类问题的模型，输
基于scikit-learn的随机森林调参实战 kaiyuan_sjtu ML算法总结
写在前面在之前一篇机器学习算法总结之Bagging与随机森林中对随机森林的原理进行了介绍。还是老套路，学习完理论知识需要实践来加深印象。在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor。当然RF的变种ExtraTrees也有，分类类ExtraTreesClassifier，回归类ExtraTreesRegr
【机器学习算法总结】GBDT y430 Machine learning Kaggle
目录1、GBDT2、GBDT思想3、负梯度拟合4、损失函数4.1、分类4.2、回归5、GBDT回归算法6、GBDT分类算法6.1、二分类6.2、多分类7、正则化8、RF与GBDT之间的区别与联系9、优缺点优点缺点10、应用场景11、主要调参的参数12、sklearn.ensemble.GradientBoostingClassifier参数及方法说明参考1、GBDTGBDT(GradientBoo
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round