支持向量机通俗导论（理解SVM的三层境界）

本文转自http://blog.csdn.net/v_july_v/article/details/7624837

作者：July、pluskid；致谢：白石。
出处：结构之法算法之道blog。

前言
第一层、了解SVM
1.0、什么是支持向量机SVM
1.1、线性分类
1.2、线性分类的一个例子
1.3、函数间隔Functional margin与几何间隔Geometrical margin
1.3.1、函数间隔Functional margin
1.3.2、点到超平面的距离定义：几何间隔Geometrical margin
1.4、最大间隔分类器Maximum Margin Classifier的定义
1.5、到底什么是Support Vector
第二层、深入SVM
2.1、从线性可分到线性不可分
2.2、核函数Kernel
2.2.1、如何处理非线性数据
2.2.2、特征空间的隐式映射：核函数
2.3、使用松弛变量处理 outliers 方法
2.4、小结
第三层、证明SVM
3.1、线性学习器
3.1.1、感知机算法
3.1.2、松弛变量
3.2、最小二乘法
3.3、核函数特征空间
3.4、SMO算法
3.5、SVM的应用
3.5.1、文本分类
参考文献及推荐阅读
预告

前言

动笔写这个支持向量机(support vector machine)是费了不少劲和困难的，从5月22日凌晨两点在微博上说我要写了，到此刻真正动笔要写此文，中间竟然隔了近半个月(而后你会发现，我写完此文得花一个半月，修改完善又得再花一个月，故前后加起来至8月底，写这个SVM便要花足足近3个月)。原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有朋友已经写得不错了(见文末参考链接)，但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明，我还是想尝试写一下，希望本文在兼顾通俗易懂的基础上，真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。

本文作为Top 10 Algorithms in Data Mining系列第二篇文章，将主要结合支持向量机导论、数据挖掘导论及网友Free Mind的支持向量机系列而写(于此，还是一篇学习笔记，只是加入了自己的理解，有任何不妥之处，还望海涵)，宏观上整体认识支持向量机的概念和用处，微观上深究部分定理的来龙去脉，证明及原理细节，力求深入浅出 & 通俗易懂。

在本文中，你将看到，理解SVM分三层境界，

第一层、了解SVM(你只需要对SVM有个大致的了解，知道它是个什么东西便已足够)；
第二层、深入SVM(你将跟我一起深入SVM的内部原理，通宵其各处脉络，以为将来运用它时游刃有余)；
第三层、证明SVM(当你了解了所有的原理之后，你会有大笔一挥，尝试证明它的冲动)；

以此逐层深入，从而照顾到水平深浅度不同的读者，在保证浅显直白的基础上尽可能深入，还读者一个较为透彻清晰的SVM。

同时，阅读本文之前，请读者注意以下两点：

若读者用IE6浏览器阅读本文，将有大部分公式无法正常显示(显示一半或者完全无法显示)，故若想正常的阅读本文请尽量使用chrome等浏览器，谢谢大家。
本文中出现了诸多公式，若想真正理解本文之内容，我希望读者，能拿张纸和笔出来，把本文所有定理.公式都亲自推导一遍或者直接打印下来，在文稿上演算（读本blog的最好办法便是直接把某一篇文章打印下来，随时随地思考.演算.讨论）。

Ok，还是那句原话，有任何问题，欢迎任何人随时不吝指正 & 赐教，谢谢。

第一层、了解SVM

1.0、什么是支持向量机SVM

然在进入第一层之前，你只需了解什么是支持向量机SVM就够了，而要明白什么是SVM，便得从分类说起。

分类作为数据挖掘领域中一项非常重要的任务，目前在商业上应用最多(比如分析型CRM里面的客户分类模型，客户流失模型，客户盈利等等，其本质上都属于分类问题)。而分类的目的则是学会一个分类函数或分类模型(或者叫做分类器)，该模型能吧数据库中的数据项映射到给定类别中的某一个，从而可以用于预测未知类别。

其实，若叫分类，可能会有人产生误解，以为凡是分类就是把一些东西或样例按照类别给区分开来，实际上，分类方法是一个机器学习的方法，分类也成为模式识别，或者在概率统计中称为判别分析问题。

你甚至可以想当然的认为，分类就是恰如一个商场进了一批新的货物，你现在要根据这些货物的特征分门别类的摆放在相关的架子上，这一过程便可以理解为分类，只是它由训练有素的计算机程序来完成。
说实话，上面这么介绍分类可能你不一定内心十分清楚。我来举个例子吧，比如心脏病的确诊中，如果我要完全确诊某人得了心脏病，那么我必须要进行一些高级的手段，或者借助一些昂贵的机器，那么若我们没有那些高科技医疗机器怎么办？还怎么判断某人是否得了心脏病呢？

当然了，古代中医是通过望、闻、问、切“四诊”，但除了这些，我们在现代医学里还是可以利用一些比较容易获得的临床指标进行推断某人是否得了心脏病。如作为一个医生，他可以根据他以往诊断的病例对很多个病人(假设是500个)进行彻底的临床检测之后，已经能够完全确定了哪些病人具有心脏病，哪些没有。因为，在这个诊断的过程中，医生理所当然的记录了他们的年龄，胆固醇等10多项病人的相关指标。那么，以后，医生可以根据这些临床资料，对后来新来的病人通过检测那10多项年龄、胆固醇等指标，以此就能推断或者判定病人是否有心脏病，虽说不能达到100%的标准，但也能达到80、90%的正确率，而这一根据以往临场病例指标分析来推断新来的病例的技术，即成为分类classification技术。

OK，既然讲到了病例诊断这个例子，接下来咱们就以这个例子来简单分析下SVM。
假定是否患有心脏病与病人的年龄和胆固醇水平密切相关，下表对应10个病人的临床数据(年龄用[x1]表示，胆固醇水平用[x2]表示)：

这样，问题就变成了一个在二维空间上的分类问题，可以在平面直角坐标系中描述如下：根据病人的两项指标和有无心脏病，把每个病人用一个样本点来表示，有心脏病者用“+”形点表示，无心脏病者用圆形点，如下图所示：

如此我们很明显的看到，是可以在平面上用一条直线把圆点和“+”分开来的。当然，事实上，还有很多线性不可分的情况，下文将会具体描述。

So，本文将要介绍的支持向量机SVM算法便是一种分类方法。

所谓支持向量机，顾名思义，分为两个部分了解，一什么是支持向量(简单来说，就是支持 or 支撑平面上把两类类别划分开来的超平面的向量点，下文将具体解释)，二这里的“机”是什么意思。我先来回答第二点：这里的“机（machine,机器）”便是一个算法。在机器学习领域，常把一些算法看做是一个机器，如分类机(当然，也叫做分类器)，而支持向量机本身便是一种监督式学习的方法(什么是监督学习与非监督学习，请参见第一篇)，它广泛的应用于统计分类以及回归分析中。

支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。

对于不想深究SVM原理的同学(比如就只想看看SVM是干嘛的)，那么，了解到这里便足够了，不需上层。而对于那些喜欢深入研究一个东西的同学，甚至究其本质的，咱们则还有很长的一段路要走，万里长征，咱们开始迈第一步吧(相信你能走完)。

1.1、线性分类

OK，在讲SVM之前，咱们必须先弄清楚一个概念：线性分类器(也可以叫做感知机，这里的机表示的还是一种算法，本文第三部分、证明SVM中会详细阐述)。

这里我们考虑的是一个两类的分类问题，数据点用 x 来表示，这是一个 n 维向量，而类别用 y 来表示，可以取 1 或者 -1 ，分别代表两个不同的类。一个线性分类器就是要在 n 维的数据空间中找到一个超平面，其方程可以表示为：

w T x + b = 0

不过，看过支持向量机导论或统计学习方法一书的读者都知道，我们所熟知的感知机即是一种线性分类模型，如下图所示(来源：统计学习方法第2章)：

1.2、线性分类的一个例子

来理论可能读者看不懂，咱们来直接举一个例子吧，且举最简单的例子，一个二维平面(一个超平面，在二维空间中的例子就是一条直线)，如下图所示，平面上有两种不同的点，分别用两种不同的颜色表示，一种为红颜色的点，另一种则为蓝颜色的点，红颜色的线表示一个可行的超平面。

从上图中我们可以看出，这条红颜色的线把红颜色的点和蓝颜色的点分开来了。而这条红颜色的线就是我们上面所说的超平面，也就是说，这个所谓的超平面的的确确便把这两种不同颜色的数据点分隔开来，在超平面一边的数据点所对应的 y 全是 -1 ，而在另一边全是 1 。

接着，我们可以令分类函数（下文将一直用蓝色表示分类函数）

f(x)= wTx+b ，

显然，如果 f(x)=0 ，那么 x 是位于超平面上的点。我们不妨要求对于所有满足 f(x)<0 的点，其对应的 y 等于 -1 ，而 f(x)>0 则对应 y=1 的数据点。

（有一朋友飞狗来自Mare_Desiderii，看了上面的定义之后，问道：请教一下SVM functional margin 为 γˆ=y(wTx+b)=yf(x)中的Y是只取1和-1 吗？y的唯一作用就是确保functional margin的非负性？真是这样的么？当然不是，详情请见本文评论下第43楼）

当然，有些时候（或者说大部分时候）数据并不是线性可分的，这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲)，这里先从最简单的情形开始推导，就假设数据都是线性可分的，亦即这样的超平面是存在的。

更进一步，我们在进行分类的时候，将数据点 x 代入 f(x) 中，如果得到的结果小于 0 ，则赋予其类别 -1 ，如果大于 0 则赋予类别 1 。如果 f(x)=0 ，则很难办了，分到哪一类都不是(后续会说明此种情况)。

1.3、函数间隔Functional margin与几何间隔Geometrical margin

一般而言，一个点距离超平面的远近可以表示为分类预测的确信或准确程度。在超平面w*x+b=0确定的情况下，|w*x+b|能够相对的表示点x到距离超平面的远近，而w*x+b的符号与类标记y的符号是否一致表示分类是否正确，所以，可以用量y*(w*x+b)的正负性来判定或表示分类的正确性和确信度，于此，我们便引出了函数间隔functional margin的概念。

1.3.1、函数间隔Functional margin

我们定义函数间隔functional margin 为：

γˆ=y(wTx+b)=yf(x) ，

接着，我们定义超平面(w，b)关于训练数据集T的函数间隔为超平面(w，b)关于T中所有样本点(xi，yi)的函数间隔最小值，即：

γˆ=minγˆi (i=1，...n)

然与此同时，问题就出来了。上述定义的函数间隔虽然可以表示分类预测的正确性和确信度，但在选择分类超平面时，只有函数间隔还远远不够，因为如果成比例的改变w和b，如将他们改变为2w和2b，虽然此时超平面没有改变，但函数间隔的值f(x)却变成了原来的改变(代进去一眼便看出来了)。其实，我们可以对法向量w加些约束条件，使其表面上看起来规范化，如此，我们很快又将引出真正定义点到超平面的距离--几何间隔geometrical margin的概念。

1.3.2、点到超平面的距离定义：几何间隔Geometrical margin

在给出几何间隔的定义之前，咱们首先来看下，如上图所示，对于一个点 x ，令其垂直投影到超平面上的对应的为 x0 ，由于 w 是垂直于超平面的一个向量，我们有

x = x 0 + γ w ∥ w ∥

（||w||表示的是范数，关于范数的概念参见：http://baike.baidu.com/view/637132.htm）

又由于 x0 是超平面上的点，满足 f(x0)=0 ，代入超平面的方程即可算出(别忘了，上面ˆγ的定义，ˆγ=y(wTx+b)=yf(x))： γ

γ = w T x + b ∥ w ∥ = f ( x ) ∥ w ∥

（有的书上会写成把||w|| 分开相除的形式，如本文参考文献及推荐阅读条目9，其中，||w||为w的二阶泛数）

不过，这里的 γ 是带符号的，我们需要的只是它的绝对值，因此类似地，也乘上对应的类别 y 即可，因此实际上我们定义 几何间隔geometrical margin 为：

γ ˜ = y γ = γ ˆ ∥ w ∥

（代人相关式子可以得出：yi*(w/||w|| + b/||w||)）

正如本文评论下读者popol1991留言：函数间隔y*(wx+b)=y*f(x)实际上就是|f(x)|，只是人为定义的一个间隔度量；而几何间隔|f(x)|/||w||才是直观上的点到超平面距离。
想想二维空间里的点到直线公式：假设一条直线的方程为ax+by+c=0,点P的坐标是(x0,y0)，则点到直线距离为|ax0+by0+c|/sqrt(a^2+b^2)。如下图所示：

那么如果用向量表示，设w=(a,b),f(x)=wx+c,那么这个距离不正是|f(p)|/||w||么？OK，下图中xi，和xj分别到超平面的距离：

1.4、最大间隔分类器Maximum Margin Classifier的定义

于此，我们已经很明显的看出，函数间隔functional margin 和几何间隔geometrical margin 相差一个 ∥w∥ 的缩放因子。按照我们前面的分析，对一个数据点进行分类，当它的 margin 越大的时候，分类的 confidence 越大。对于一个包含 n 个点的数据集，我们可以很自然地定义它的 margin 为所有这 n 个点的 margin 值中最小的那个。于是，为了使得分类的 confidence 高，我们希望所选择的超平面hyper plane 能够最大化这个 margin 值。

通过上节，我们已经知道：

1、functional margin 明显是不太适合用来最大化的一个量，因为在 hyper plane 固定以后，我们可以等比例地缩放 w 的长度和 b 的值，这样可以使得 f(x)=wTx+b 的值任意大，亦即 functional margin γˆ 可以在 hyper plane 保持不变的情况下被取得任意大，

2、而 geometrical margin 则没有这个问题，因为除上了 ∥w∥ 这个分母，所以缩放 w 和 b 的时候 γ˜ 的值是不会改变的，它只随着 hyper plane 的变动而变动，因此，这是更加合适的一个 margin 。

这样一来，我们的 maximum margin classifier 的目标函数可以定义为：

max γ ˜ ˜ ˜ ˜

当然，还需要满足一些条件，根据 margin 的定义，我们有

其中 γˆ=γ˜∥w∥ (等价于 ˜γ = ˆγ / ∥w∥，故有稍后的 γˆ =1 时， ˜γ = 1 / ||w||)，处于方便推导和优化的目的，我们可以令 γˆ=1 (对目标函数的优化没有影响，至于为什么，请见本文评论下第42楼回复) ，此时，上述的目标函数 ˜γ转化为(其中，s.t.，即subject to的意思，它导出的是约束条件)：

通过求解这个问题，我们就可以找到一个 margin 最大的 classifier ，如下图所示，中间的红色线条是 Optimal Hyper Plane ，另外两条线到红线的距离都是等于

γ˜ 的( γ˜ 便是上文所定义的geometrical margin，当令 γˆ=1 时， γ˜ 便为1/||w||，而我们上面得到的目标函数便是在相应的约束条件下，要最大化这个1/||w||值)：

通过最大化 margin ，我们使得该分类器对数据进行分类时具有了最大的 confidence 。但，这个最大分类间隔器到底是用来干嘛的呢？很简单，SVM 通过使用最大分类间隙Maximum Margin Classifier 来设计决策最优分类超平面，而为何是最大间隔，却不是最小间隔呢？因为最大间隔能获得最大稳定性与区分的确信度，从而得到良好的推广能力(超平面之间的距离越大，分离器的推广能力越好，也就是预测精度越高，不过对于训练数据的误差不一定是最小的.2012.08.21updated)。

So，对于什么是Support Vector Machine ，我们可以先这样理解，如上图所示，我们可以看到 hyper plane 两边的那个 gap 分别对应的两条平行的线（在高维空间中也应该是两个 hyper plane）上有一些点，显然两个超平面hyper plane 上都会有点存在，否则我们就可以进一步扩大 gap ，也就是增大 γ˜ 的值了。这些点，就叫做 support vector。下文1.5节将更为具体描述。

1.5、到底什么是Support Vector

上节，我们介绍了Maximum Margin Classifier，但并没有具体阐述到底什么是Support Vector，本节，咱们来重点阐述这个概念。咱们不妨先来回忆一下上节1.4节最后一张图：

可以看到两个支撑着中间的 gap 的超平面，它们到中间的纯红线separating hyper plane 的距离相等，即我们所能得到的最大的 geometrical margin γ˜ 。而“支撑”这两个超平面的必定会有一些点，而这些“支撑”的点便叫做支持向量Support Vector。

很显然，由于这些 supporting vector 刚好在边界上，所以它们是满足 y(wTx+b)=1 （还记得我们把 functional margin 定为 1 了吗？上节中：“处于方便推导和优化的目的，我们可以令 γˆ=1 ”），而对于所有不是支持向量的点，也就是在“阵地后方”的点，则显然有 y(wTx+b)>1 。当然，通常除了 K-Nearest Neighbor 之类的 Memory-based Learning 算法，通常算法也都不会直接把所有的点记忆下来，并全部用来做后续 inference 中的计算。不过，如果算法使用了 Kernel 方法进行非线性化推广的话，就会遇到这个问题了。Kernel 方法在下文第二部分2.2节中介绍）。

OK，到此为止，算是了解到了SVM的第一层，对于那些只关心怎么用SVM的朋友便已足够，不必再更进一层深究其更深的原理。

第二层、深入SVM

2.1、从线性可分到线性不可分

当然，除了在上文中所介绍的从几何直观上之外，支持向量的概念也可以从其优化过程的推导中得到。虽然上文1.4节给出了目标函数，却没有讲怎么来求解。现在就让我们来处理这个问题。回忆一下之前得到的目标函数（subject to导出的则是约束条件）：

这个问题等价于（w由分母变成分子，从而也有原来的max问题变为min问题，很明显，两者问题等价）：

到这个形式以后，就可以很明显地看出来，它是一个凸优化问题，或者更具体地说，它是一个二次优化问题——目标函数是二次的，约束条件是线性的。这个问题可以用任何现成的 QP (Quadratic Programming) 的优化包进行求解。所以，我们的问题到此为止就算全部解决了。
虽然这个问题确实是一个标准的 QP 问题，但是它也有它的特殊结构，通过 Lagrange Duality 变换到对偶变量 (dual variable) 的优化问题之后，可以找到一种更加有效的方法来进行求解，而且通常情况下这种方法比直接使用通用的 QP 优化包进行优化要高效得多。

也就说，除了用解决QP问题的常规方法之外，还可以应用拉格朗日对偶性，通过求解对偶问题得到最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题。
ok，接下来，你将看到“对偶变量dual variable的优化问题”等类似的关键词频繁出现，便是解决此凸优化问题的第二种更为高效的解--对偶变量的优化求解.

至于上述提到，关于什么是Lagrange duality，简单地来说，通过给每一个约束条件加上一个 Lagrange multiplier(拉格朗日乘值)：α，我们可以将约束条件融和到目标函数里去(也就是说把条件融合到一个函数里头，现在只用一个函数表达式便能清楚的表达出我们的问题)：

然后我们令

容易验证，当某个约束条件不满足时，例如 yi(wTxi+b)<1 ，那么我们显然有 θ(w)=∞ （只要令 αi=∞ 即可）。而当所有约束条件都满足时，则有 θ(w)=12∥w∥2 ，亦即我们最初要最小化的量。因此，在要求约束条件得到满足的情况下最小化 12∥w∥2 实际上等价于直接最小化 θ(w) （当然，这里也有约束条件，就是 αi≥0,i=1,…,n ），因为如果约束条件没有得到满足， θ(w) 会等于无穷大，自然不会是我们所要求的最小值。具体写出来，我们现在的目标函数变成了：

这里用 p∗ 表示这个问题的最优值，这个问题和我们最初的问题是等价的。不过，现在我们来把最小和最大的位置交换一下（稍后，你将看到，当下面式子满足了一定的条件之后，这个式子d 便是上式P 的对偶形式表示）：

当然，交换以后的问题不再等价于原问题，这个新问题的最优值用 d∗ 来表示。并，我们有 d∗≤p∗ ，这在直观上也不难理解，最大值中最小的一个总也比最小值中最大的一个要大吧！总之，第二个问题的最优值 d∗ 在这里提供了一个第一个问题的最优值 p∗ 的一个下界，在满足某些条件的情况下，这两者相等，这个时候我们就可以通过求解第二个问题来间接地求解第一个问题。

上段说“在满足某些条件的情况下”，这所谓的“满足某些条件”就是要满足KKT条件。而什么是KKT条件呢？据网上给的资料介绍是(更多见维基百科：KKT 条件)，一般地，一个最优化数学模型能够表示成下列标准形式：

所谓 Karush-Kuhn-Tucker 最优化条件，就是指上式的最小点 x* 必须满足下面的条件：

我这里先，直接给结论，后续会证明：我们这里的问题是满足 KKT 条件的，因此现在我们便转化为求解第二个问题。也就是说，现在，咱们的原问题通过满足一定的条件，已经转化成了对偶问题。而求解这个对偶学习问题，分为两个步骤，首先要让L(w，b，a) 关于 w 和 b 最小化，然后求对α的极大。

（1）、要让 L 关于 w 和 b 最小化，我们分别对w，b求偏导数，即令 ∂L/∂w 和 ∂L/∂b 等于零（对w求导结果的解释请看本文评论下第45楼回复）：

\partial L \partial w = 0 \partial L \partial b = 0 \Rightarrow w = \sum i = 1 n α i y i x i \Rightarrow \sum i = 1 n α i y i = 0

带回上述的 L 得到：

L (

使用拉格朗日定理解凸最优化问题可以使用一个对偶变量表示，用对偶问题表示之后，通常比原问题更容易处理，因为直接处理不等式约束是困难的，而对偶问题通过引入拉格朗日乘子(又称为对偶变量)来解。

（2）、求对α的极大，即是关于对偶变量dual variable α （下文将一直用粗体+下划线表示）的优化问题(没有了变量w，b，只有a，反过来，求得的a将能导出w，b的解，最终得出分离超平面和分类决策函数)：

如前面所说，这个问题有更加高效的优化算法，不过具体方法在这里先不介绍，让我们先来看看推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ，对于一个数据点 x 进行分类，实际上是通过把 x 带入到 f(x)=wTx+b 算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到

w=∑ni=1αiyixi ，

因此分类函数为：

这里的形式的有趣之处在于，对于新点 x的预测，只需要计算它与训练数据点的内积即可（⋅,⋅表示向量内积），这一点至关重要，是之后使用 Kernel 进行非线性推广的基本前提。此外，所谓 Supporting Vector 也在这里显示出来——事实上，所有非 Supporting Vector 所对应的系数 α 都是等于零的，因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

为什么非支持向量对应的 α 等于零呢？直观上来理解的话，就是这些“后方”的点——正如我们之前分析过的一样，对超平面是没有影响的，由于分类完全有超平面决定，所以这些无关的点并不会参与分类问题的计算，因而也就不会产生任何影响了。这个结论也可由刚才的推导中得出，回忆一下我们刚才通过 Lagrange multiplier 得到的目标函数：

注意到如果 xi 是支持向量的话，上式中红颜色的部分是等于 0 的（因为支持向量的 functional margin 等于 1 ），而对于非支持向量来说，functional margin 会大于 1 ，因此红颜色部分是大于零的，而 αi 又是非负的，为了满足最大化， αi 必须等于 0 。这也就是这些非 Supporting Vector 的点的局限性。

从1.5节到上述所有这些东西，便得到了一个maximum margin hyper plane classifier，这就是所谓的支持向量机（Support Vector Machine）。当然，到目前为止，我们的 SVM 还比较弱，只能处理线性的情况，不过，在得到了对偶dual 形式之后，通过 Kernel 推广到非线性的情况就变成了一件非常容易的事情了(相信，你还记得本节开头所说的：通过求解对偶问题得到最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题)。

2.2、核函数Kernel

咱们首先给出核函数的来头：

在上文中，我们已经了解到了SVM处理线性可分的情况，而对于非线性的情况，SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。由于核函数的优良品质，这样的非线性扩展在计算量上并没有比原来复杂多少，这一点是非常难得的。当然，这要归功于核方法——除了 SVM 之外，任何将计算表示为数据点的内积的方法，都可以使用核方法进行非线性扩展。

也就是说，Minsky和Papert早就在20世纪60年代就已经明确指出线性学习器计算能力有限。为什么呢？因为总体上来讲，现实世界复杂的应用需要有比线性函数更富有表达能力的假设空间，也就是说，目标概念通常不能由给定属性的简单线性函数组合产生，而是应该一般地寻找待研究数据的更为一般化的抽象特征。

而下文我们将具体介绍的核函数则提供了此种问题的解决途径，从下文你将看到，核函数通过把数据映射到高维空间来增加第一节所述的线性学习器的能力，使得线性学习器对偶空间的表达方式让分类操作更具灵活性和可操作性。我们知道，训练样例一般是不会独立出现的，它们总是以成对样例的内积形式出现，而用对偶形式表示学习器的优势在为在该表示中可调参数的个数不依赖输入属性的个数，通过使用恰当的核函数来替代内积，可以隐式得将非线性的训练数据映射到高维空间，而不增加可调参数的个数(当然，前提是核函数能够计算对应着两个输入特征向量的内积)。

1、简而言之：在线性不可分的情况下，支持向量机通过某种事先选择的非线性映射(核函数)将输入变量映射到一个高维特征空间，在这个空间中构造最优分类超平面。我们使用SVM进行数据集分类工作的过程首先是同预先选定的一些非线性映射将输入空间映射到高维特征空间(下图很清晰的表达了通过映射到高维特征空间，而把平面上本身不好分的非线性数据分了开来)：

使得在高维属性空间中有可能最训练数据实现超平面的分割，避免了在原输入空间中进行非线性曲面分割计算。SVM数据集形成的分类函数具有这样的性质：它是一组以支持向量为参数的非线性函数的线性组合，因此分类函数的表达式仅和支持向量的数量有关，而独立于空间的维度，在处理高维输入空间的分类时，这种方法尤其有效，其工作原理如下图所示：

2、具体点说：在我们遇到核函数之前，如果用原始的方法，那么在用线性学习器学习一个非线性关系，需要选择一个非线性特征集，并且将数据写成新的表达形式，这等价于应用一个固定的非线性映射，将数据映射到特征空间，在特征空间中使用线性学习器，因此，考虑的假设集是这种类型的函数：

这里 ϕ：X->F是从输入空间到某个特征空间的映射，这意味着建立非线性学习器分为两步：

首先使用一个非线性映射将数据变换到一个特征空间F，
然后在特征空间使用线性学习器分类。

在上文我提到过对偶形式，而这个对偶形式就是线性学习器的一个重要性质，这意味着假设可以表达为训练点的线性组合，因此决策规则可以用测试点和训练点的内积来表示：

如果有一种方式可以 在特征空间中直接计算内积〈φ(x_i · φ(x) 〉，就像在原始输入点的函数中一样，就有可能将两个步骤融合到一起建立一个非线性的学习器，这样直接计算法的方法称为核函数方法，于是，核函数便横空出世了。

这里我直接给出一个定义：核是一个函数K，对所有x，z(-X，满足

，这里φ是从X到内积特征空间F的映射。

3、总而言之，举个简单直接点的例子，则是如果不是用核技术，就会先计算线性映射phy(x1)和phy(x2),然后计算这两个特征的内积，使用了核技术之后，先把phy(x1)和phy(x2)的通用表达式子：< phy(x1)，phy(x2) >=k( <x1,x2> )计算出来，注意到这里的< ， >表示内积，k( , )就是对应的核函数，这个表达往往非常简单，所以计算非常方便。

....

OK，接下来，咱们就进一步从外到里，来探探这个核函数的真面目。

2.2.1、如何处理非线性数据

在2.1节中我们介绍了线性情况下的支持向量机，它通过寻找一个线性的超平面来达到对数据进行分类的目的。不过，由于是线性方法，所以对非线性的数据就没有办法处理了。举个例子来说，则是如下图所示的两类数据，分别分布为两个圆圈的形状，这样的数据本身就是线性不可分的，你准备如何把这两类数据分开呢(下文将会有一个相应的三维空间图)？

上图所述的这个数据集，就是用两个半径不同的圆圈加上了少量的噪音生成得到的，所以，一个理想的分界应该是一个“圆圈”而不是一条线（超平面）。如果用 X1 和 X2 来表示这个二维平面的两个坐标的话，我们知道一条二次曲线（圆圈是二次曲线的一种特殊情况）的方程可以写作这样的形式：

a 1 X 1 + a 2 X 21 + a 3 X 2 + a 4 X 22 + a 5 X 1 X 2 + a 6 = 0

注意上面的形式，如果我们构造另外一个五维的空间，其中五个坐标的值分别为 Z1=X1 , Z2=X21 , Z3=X2 , Z4=X22 , Z5=X1X2 ，那么显然，上面的方程在新的坐标系下可以写作：

\sum i = 1 5 a i Z i + a 6 = 0

关于新的坐标 Z ，这正是一个 hyper plane 的方程！也就是说，如果我们做一个映射 ϕ:R2→R5 ，将 X 按照上面的规则映射为 Z ，那么在新的空间中原来的数据将变成线性可分的，从而使用之前我们推导的线性分类算法就可以进行处理了。这正是 Kernel 方法处理非线性问题的基本思想。

2.2.2、特征空间的隐式映射：核函数

再进一步描述 Kernel 的细节之前，不妨再来看看这个例子映射过后的直观例子。当然，你我可能无法把 5 维空间画出来，不过由于我这里生成数据的时候就是用了特殊的情形，具体来说，我这里的超平面实际的方程是这个样子（圆心在 X2 轴上的一个正圆）：

a 1 X 21 + a 2 (X 2 - c) 2 + a 3 = 0

因此我只需要把它映射到 Z1=X21 , Z2=X22 , Z3=X2 这样一个三维空间中即可，下图即是映射之后的结果，将坐标轴经过适当的旋转，就可以很明显地看出，数据是可以通过一个平面来分开的(pluskid：下面的gif 动画，先用 Matlab 画出一张张图片，再用 Imagemagick 拼贴成)：

现在让我们再回到 SVM 的情形，假设原始的数据时非线性的，我们通过一个映射 ϕ(⋅) 将其映射到一个高维空间中，数据变得线性可分了，这个时候，我们就可以使用原来的推导来进行计算，只是所有的推导现在是在新的空间，而不是原始空间中进行。当然，推导过程也并不是可以简单地直接类比的，例如，原本我们要求超平面的法向量 w ，但是如果映射之后得到的新空间的维度是无穷维的（确实会出现这样的情况，比如后面会提到的高斯核Gaussian Kernel ），要表示一个无穷维的向量描述起来就比较麻烦。于是我们不妨先忽略过这些细节，直接从最终的结论来分析，回忆一下，我们上一次2.1节中得到的最终的分类函数是这样的：

现在则是在映射过后的空间，即：

而其中的 α 也是通过求解如下 dual 问题而得到的：

这样一来问题就解决了吗？似乎是的：拿到非线性数据，就找一个映射，然后一股脑把原来的数据映射到新空间中，再做线性 SVM 即可。不过事实上没有这么简单！其实刚才的方法稍想一下就会发现有问题：在最初的例子里，我们对一个二维空间做映射，选择的新空间是原始空间的所有一阶和二阶的组合，得到了五个维度；如果原始空间是三维，那么我们会得到 19 维的新空间，这个数目是呈爆炸性增长的，这给的计算带来了非常大的困难，而且如果遇到无穷维的情况，就根本无从计算了。所以就需要 Kernel 出马了。

不妨还是从最开始的简单例子出发，设两个向量和，而即是到前面2.2.1节说的五维空间的映射，因此映射过后的内积为：

（公式说明：上面的这两个推导过程中，所说的前面的五维空间的映射，这里说的前面便是文中2.2.1节的所述的映射方式，仔细看下2.2.1节的映射规则，再看那第一个推导，其实就是计算x1，x2各自的内积，然后相乘相加即可，第二个推导则是直接平方，去掉括号，也很容易推出来）

另外，我们又注意到：

二者有很多相似的地方，实际上，我们只要把某几个维度线性缩放一下，然后再加上一个常数维度，具体来说，上面这个式子的计算结果实际上和映射

之后的内积的结果是相等的。区别在于什么地方呢？

一个是映射到高维空间中，然后再根据内积的公式进行计算；
而另一个则直接在原来的低维空间中进行计算，而不需要显式地写出映射后的结果。

（公式说明：上面之中，最后的两个式子，第一个算式，是带内积的完全平方式，可以拆开，然后，通过凑一个得到，第二个算式，也是根据第一个算式凑出来的）

回忆刚才提到的映射的维度爆炸，在前一种方法已经无法计算的情况下，后一种方法却依旧能从容处理，甚至是无穷维度的情况也没有问题。

我们把这里的计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数 (Kernel Function) ，例如，在刚才的例子中，我们的核函数为：

核函数能简化映射空间中的内积运算——刚好“碰巧”的是，在我们的 SVM 里需要计算的地方数据向量总是以内积的形式出现的。对比刚才我们上面写出来的式子，现在我们的分类函数为：

其中由如下 dual 问题计算而得：

（细心的读者读至此处，对于：“转换成求maxL(w,b,α)后怎么求α的值呢？”，可能依然心存疑惑，没关系，我告诉你，在本文文末的参考文献及推荐阅读的条目9：统计学习方法[李航著]，中的第7章第7.4节、SMO-序列最小最优化算法的内有提到关于a的求解过程，读者有兴趣可以参考之）

这样一来计算的问题就算解决了，避开了直接在高维空间中进行计算，而结果却是等价的！当然，因为我们这里的例子非常简单，所以我可以手工构造出对应于的核函数出来，如果对于任意一个映射，想要构造出对应的核函数就很困难了。

最理想的情况下，我们希望知道数据的具体形状和分布，从而得到一个刚好可以将数据映射成线性可分的，然后通过这个得出对应的进行内积计算。然而，第二步通常是非常困难甚至完全没法做的。不过，由于第一步也是几乎无法做到，因为对于任意的数据分析其形状找到合适的映射本身就不是什么容易的事情，所以，人们通常都是“胡乱”选择映射的，所以，根本没有必要精确地找出对应于映射的那个核函数，而只需要“胡乱”选择一个核函数即可——我们知道它对应了某个映射，虽然我们不知道这个映射具体是什么。由于我们的计算只需要核函数即可，所以我们也并不关心也没有必要求出所对应的映射的具体形式。

当然，也并不是任意的二元函数都可以作为核函数，所以除非某些特殊的应用中可能会构造一些特殊的核（例如用于文本分析的文本核，注意其实使用了 Kernel 进行计算之后，其实完全可以去掉原始空间是一个向量空间的假设了，只要核函数支持，原始数据可以是任意的“对象”——比如文本字符串），通常人们会从一些常用的核函数中选择（根据问题和数据的不同，选择不同的参数，实际上就是得到了不同的核函数），例如：

多项式核，显然刚才我们举的例子是这里多项式核的一个特例（）。虽然比较麻烦，而且没有必要，不过这个核所对应的映射实际上是可以写出来的，该空间的维度是，其中是原始空间的维度。
高斯核，这个核就是最开始提到过的会将原始空间映射为无穷维空间的那个家伙。不过，如果选得很大的话，高次特征上的权重实际上衰减得非常快，所以实际上（数值上近似一下）相当于一个低维的子空间；反过来，如果选得很小，则可以将任意的数据映射为线性可分——当然，这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。不过，总的来说，通过调控参数，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。下图所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间：
线性核，这实际上就是原始空间中的内积。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了(意思是说，咱们有的时候，写代码，或写公式的时候，只要写个模板或通用表达式，然后再代入不同的核，便可以了，于此，便在形式上统一了起来，不用再分别写一个线性的，和一个非线性的)。

OK，下面是本人根据上文内容做的推导(点击查看：大图地址)，

读者来信，向我提出了一个问题：

In a SVM without using slack variables, if we remove one of the support vectors from the training set, what will happen to the maximal margin? List all the possibilities and give a sample for each possible situation, i.e., generate a training set, indicate which point is to be removed and clarify the change of the maximal margin.

大意是：在没有松弛变量的svm中，如果我们移去训练集中的一个支持向量，那最大margin会怎么变化呢？列举出所有的可能，每种情况给出一个例子。也就是，举出一个训练集，指出移去哪个点，并指明最大margin怎么变。

解答：你可能会说最终的maximal margin会变大，会变小，或不变？但一切依据呢？与其胡乱猜测，不如实际推导.计算.证明！接下来，咱们回顾下上文「所有图片截取自上文」：

maximum margin就是

remove后(w,b)变了，w一变，maximum margin自然也就会变了，至于如何变，请读者继续计算看具体结果。此外，还可以看看这里的分析： http://www.cs.berkeley.edu/~russell/classes/cs194/f11/assignments/a2/a2-solution.pdf。

与此同时，读者自会发现到：上文中很大一部分篇幅都是在阐述怎么求及优化这个最大间隔分类超平面，包括后面的

下面，就是这两个步骤，第一步：

第二步、对α求极大如下所示：

再到后来，有了核函数，也不过是为了方便对对偶因子 α的求解

自此，你看到，上文中各个知识点是可以联系起来的，每一个步骤也都是一步一步推导下来的。

2.3、使用松弛变量处理 outliers 方法

在本文第一节最开始讨论支持向量机的时候，我们就假定，数据是线性可分的，亦即我们可以找到一个可行的超平面将数据完全分开。后来为了处理非线性数据，在上文2.2节使用 Kernel 方法对原来的线性 SVM 进行了推广，使得非线性的的情况也能处理。虽然通过映射将原始数据映射到高维空间之后，能够线性分隔的概率大大增加，但是对于某些情况还是很难处理。例如可能并不是因为数据本身是非线性结构的，而只是因为数据有噪音。对于这种偏离正常位置很远的数据点，我们称之为 outlier ，在我们原来的 SVM 模型里，outlier 的存在有可能造成很大的影响，因为超平面本身就是只有少数几个 support vector 组成的，如果这些 support vector 里又存在 outlier 的话，其影响就很大了。例如下图：

用黑圈圈起来的那个蓝点是一个 outlier ，它偏离了自己原本所应该在的那个半空间，如果直接忽略掉它的话，原来的分隔超平面还是挺好的，但是由于这个 outlier 的出现，导致分隔超平面不得不被挤歪了，变成途中黑色虚线所示（这只是一个示意图，并没有严格计算精确坐标），同时 margin 也相应变小了。当然，更严重的情况是，如果这个 outlier 再往右上移动一些距离的话，我们将无法构造出能将数据分开的超平面来。

为了处理这种情况，SVM 允许数据点在一定程度上偏离一下超平面。例如上图中，黑色实线所对应的距离，就是该 outlier 偏离的距离，如果把它移动回来，就刚好落在原来的超平面上，而不会使得超平面发生变形了。具体来说，原来的约束条件

现在变成

其中称为松弛变量 (slack variable) ，对应数据点允许偏离的 functional margin 的量。当然，如果我们运行任意大的话，那任意的超平面都是符合条件的了。所以，我们在原来的目标函数后面加上一项，使得这些的总和也要最小：

其中是一个参数，用于控制目标函数中两项（“寻找 margin 最大的超平面”和“保证数据点偏差量最小”）之间的权重。注意，其中是需要优化的变量（之一），而是一个事先确定好的常量。完整地写出来是这个样子：

用之前的方法将限制或约束条件加入到目标函数中，得到新的拉格朗日函数，如下所示：

分析方法和前面一样，转换为另一个问题之后，我们先让针对、和最小化：

将带回并化简，得到和原来一样的目标函数：

不过，由于我们得到，而又有（作为 Lagrange multiplier 的条件），因此有，所以整个 dual 问题现在写作：

你可能感兴趣的:(支持向量机通俗导论（理解SVM的三层境界）)

C++编程学习笔记：函数相关特性、引用与编译流程共享家9527 C++c++
目录一、函数的缺省参数（一）全缺省参数（二）半缺省参数二、函数重载（一）参数类型不同（二）参数个数不同（三）参数类型顺序不同三、引用相关问题（一）引用的基本概念与初始化（二）引用在函数中的应用-以Swap函数为例1.普通变量交换（值传递方式存在问题）2.使用指针引用实现交换3.使用普通引用实现交换（更简洁常用）四、C++编译流程（一）预处理（二）编译（三）汇编（四）链接在深入学习C++编程的过程中
[推荐了解]各类游戏引擎入门选择说明 CodeCaptain Cocos Creator 经验分享游戏
开发一款属于自己的游戏其实是很多人的梦想，但市面上如此多的引擎如何选择却是很多人入门前的难题。因此，简单做了关于Godot、CocosCreator、Unity以及其他几类游戏引擎的学习曲线、未来发展趋势等信息的总结，以供参考。1.Godot•学习曲线：•初学者友好：Godot的学习曲线较为平缓，适合初学者和中级开发者。它使用GDScript作为主要的脚本语言，与Python语法相似，易于上手。•
《ZooKeeper Zab协议深度剖析：构建高可用分布式系统的基石》猿享天开人工智能数学基础专讲 java 开发语言
《ZooKeeperZab协议深度剖析：构建高可用分布式系统的基石》一、分布式协调的挑战与ZooKeeper的解决方案1.1分布式系统一致性难题
【SpringBoot苍穹外卖】debugDay03.5 m0_72696598 spring boot 后端 java
1、AOP面向切面编程1.@Target(ElementType.METHOD)作用：指定自定义注解可以应用的目标范围。参数：ElementType是一个枚举类，定义了注解可以应用的目标类型。ElementType.METHOD表示该注解只能用于方法上。其他常见的ElementType值：TYPE：类、接口、枚举等。FIELD：字段（包括枚举常量）。PARAMETER：方法参数。CONSTRUCT
Android笔记【17】返回数据的两种方法 m0_72696598 Android开发 android 笔记
目录一、问题二、具体分析1、代码2、区别1.目的和使用场景resultLauncherstartActivity2.数据传递方式3.返回结果的管理4.代码示例对比使用resultLauncher启动活动并处理返回结果：使用startActivity启动活动（不处理返回）：总结3、使用startActivity启动活动，也可以返回信息。因为有putExtra区别总结示例对比1.使用startActi
Match-Case，Python中if-elif-else的最大竞争对手橙色小博 python的学习之旅 python 数据库开发语言
目录1.前言2.if-elif-else？switch-case？match-case！3.MatchCase基础语法4.MatchCase模式匹配的高级特性4.1字面量模式：精确匹配特定值4.2变量模式：捕获值并赋值给变量4.3序列模式：匹配序列中的元素4.4映射模式：匹配字典中的键值对4.5类模式：匹配对象的属性5.MatchCase的实际应用5.1简化命令（两个例子）1）处理用户输入2）处理
【lesson10】高并发内存池细节优化 (unstoppable) 项目高并发内存池高并发内存池 C++多线程细节优化
文章目录大于256KB的大块内存申请问题大于256KB的大块释放申请问题使用定长内存池脱离使用new释放对象时优化为不传对象大小完整版代码Common.hObjectPool.hThreadCache.hThreadCache.cppConcurrentAlloc.hCentralCache.hCentralCache.cppPageCache.hPageCache.cpp大于256KB的大块内存
从零开始学AI——2 人工智能
前言比我想得要难得多……主要是数理统计基本都忘光了……写的也比较乱，希望大家能斧正我的问题。第二章当我们训练出一个模型之后，我们自然希望它能够在新的数据上也有良好的表现，这个能力被称为泛化，我们把模型在新数据上的误差称为泛化误差。泛化误差小的模型自然是我们更喜欢的模型，他也说明了模型的泛化能力强，本章主要介绍了用什么标准来评估模型的泛化误差如何可靠的计算评估能力值并进行比较2.1评估标准：性能度量
突破数据迁移瓶颈！AWS Snowball如何让PB级数据“瞬间”上云？ AWS官方合作商 aws 云计算
“一次100TB数据迁移耗时30天，网络成本超预算5倍…”这是某生物基因公司的真实困境。当企业数字化转型进入深水区，海量数据迁移成为上云的第一道拦路虎。AWSSnowball以「物理设备」重新定义数据传输，如何用“反直觉”方案破解行业难题？本文将深度解析其技术逻辑与落地场景。一、为什么传统方案无法破解海量数据困局？1.1算一笔数据经济账公式：传输时间（天）=数据量（TB）/（带宽（Mbps）×0.
Linux压缩指令在地球表面艰难爬行 linux 服务器
Linux系统提供了多种压缩指令，用于将文件和目录打包成压缩文件，以节省存储空间和方便传输。以下是一些常用的Linux压缩指令及其详细介绍：1.gzipgzip是最常用的压缩工具之一，它通常用于压缩单个文件。压缩后的文件名会以.gz结尾。基本用法:gzipfilename这将压缩filename并生成filename.gz，原文件被删除。解压缩:gunzipfilename.gz这将解压缩file
开发环境详解：那么多教搭建环境的文章视频，你有没有想过编程为什么要搭建环境？搭建环境一套操作下来究竟干了什么？北子ALF Python pytorch tensorflow python c语言 c++青少年编程开发语言
1.初识"环境"概念1.狭义理解：一个环境就是一个解释器或编译器搭建环境这件事，可能大部分人开始学python时才会注意到，而之前学C或C++的时候不太理会这回事，这是由于python语言的新颖性和特殊性，使得“环境”似乎更被强调了，具体我们后面细说。大部分学校计算机专业会从C开始，为的就是能对编程概念如编译、解释、调试、IDE这些基本概念以及程序从人写代码到机器执行的过程有个大体的认识，便于后面
如何学习并使用C++ 北子ALF C/C++学习
首先可以给出一个论断：C++的语法和各种组件的原理及使用可以说是所有编程语言里面比较难的那么如何掌握所有东西，比如网络编程，文件读写，STL。不要对语法记各种笔记，比如vector容器有什么什么方法什么什么属性，如果你看了某篇博客或者看了某本书然后就把上面的所有东西自己劈里啪啦达到笔记里，这是没有任何用的，因为你打完仍然啥都不会。所以allyouneedisC/C++参考文档.chm,去网上找这个
大模型Agent发展的五重境界、Agent四要素大模型面试人工智能自然语言处理 agi 大模型 ai Agent
一、Agent发展的五重境界第一阶段：工具型agent框架(Tool-basedAgentFrameworks)工具型agent框架是在ChatGPT横空出世后同时期出现的，当时LLM刚刚展现出强大的文本生成能力，但其应用仍局限于纯文本环境，promptengineering初步发展。为了实现语言模型与外部工具的基础连接机制，开发者们采用了预定义工具集、简单决策树、基本记忆管理实现了有限的自主性，
大模型 | 三大智能体平台Dify、Coze、FastGPT对比分析大模型面试人工智能 AI大模型语言模型 LLM ai Dify Agent
AI智能体技术发展太快，各种搭建和使用智能体的平台也是层出不穷。有很多平台都配备了一大堆实用的工具和框架，让每个人都可以轻轻松松地打造出厉害的智能体。今天给大家介绍3个最主流的智能体平台：一、DifyDify是一个开源的大语言模型应用开发平台，支持GPT、Mistral、Llama3等数百种模型。平台提供声明式开发环境（通过YAML定义应用）、模块化设计、LLMOps功能（监控和优化应用性能）以及
AWS EC2 容量块使用指南：预留高性能GPU实例的完整攻略 ivwdcwso 运维与云原生 aws 云计算 ec2 GPU
AWSEC2容量块（CapacityBlocks）是一项专为需要临时访问大规模GPU计算资源的客户设计的服务。它允许用户预先预留特定数量的高性能GPU实例，确保在需要时能够获得所需的计算能力。本文将详细介绍EC2容量块的使用方法、最佳实践和注意事项。什么是EC2容量块？EC2容量块是AWS提供的一种预留特定类型GPU实例的机制，允许用户在未来1天到182天的时间范围内预留计算资源。这项服务特别适合
编译原理课设工作日志北子ALF 编译原理笔记
在过去的四天里，我弄清楚了flex和bison的用法，知道了他们如何协作并联合编译，做到了不关注c代码只看.l和.y就能知道生成程序做了什么同时掌握了makefile的编写和使用现在是2025/3/29Sat12:19我们需要搞定目标代码生成32位MIPS汇编固定长度指令：每条指令都用固定的32位长度，每条指令都是四个字节，所以内存数据的访问必须以32位严格对齐寻址方式支持基址寻址、立即数寻址、寄
Token是做什么用的？海姐软件测试软件测试面试通关秘籍 http 网络协议 https 网络测试工具
Token的核心用途解析Token（令牌）是网络通信中用于身份验证和授权的凭证，其核心目的是在客户端与服务端之间安全传递用户身份信息，确保请求的合法性。以下是Token的核心功能及典型应用场景：1.身份验证（Authentication）作用：验证用户是谁。流程：用户登录成功后，服务端生成Token（如JWT）并返回给客户端。客户端后续请求携带Token（通常放在HTTPHeader的Author
Vue 3 自定义指令：实现自动滚动效果朝阳581 vue.js 前端 javascript
Vue3自定义指令：实现自动滚动效果的深度解析在前端开发中，尤其是在使用Vue3框架构建用户界面时，自定义指令为我们提供了一种强大且灵活的方式来扩展HTML元素的行为。今天，我们将深入探讨一个实用的Vue3自定义指令——v-auto-scroll，它能够实现文本内容在固定宽度容器中的自动滚动效果，特别适用于展示较长的文本内容而空间有限的场景。指令功能概述v-auto-scroll指令的主要功能是监
利用 @eslint/eslintrc 实现 ESLint9的适配朝阳581 vue.js javascript 前端
深度解析：利用@eslint/eslintrc实现ESLint的高效配置管理在前端开发领域，代码质量和一致性是至关重要的。ESLint作为一款流行的代码检查工具，帮助开发者发现代码中的潜在问题并保持代码风格的一致性。而随着项目的复杂度增加和团队规模的扩大，如何高效地管理和定制ESLint配置成为了一个关键问题。今天，我们将深入探讨如何利用@eslint/eslintrc插件结合实际的ESLint配
Tauri 2.0.0-rc 安装全局快捷方式插件朝阳581 rust javascript
Tauri2.0.0-rc安装全局快捷方式插件Tauri2.0.0-rc引入了全局快捷方式插件允许你在你的应用中注册全局快捷方式，并在用户按下这些快捷方式时触发JavaScript回调。首先，你需要在你的Rust项目中安装全局快捷方式插件。在Cargo.toml文件中添加依赖。tauri-plugin-global-shortcut={git="https://github.com/tauri-a
更新PowerShell后无法使用conda：usage: conda-script.py [-h] [-v] [--no-plugins] [-V] COMMAND ... weixin_53136387 conda
我更新后遇到的问题如图。附解决方法：1、首先确定环境变量与powershell都配置完毕2、编辑powershell的配置文件：notepad$PROFILE3、将下列代码放到上述文件结尾，注意将conda.exe的文件路径换为自己的安装路径Write-Host"Running4th:CurrentUserCurrentHost"-ForegroundColorMagentaWrite-Host"
beats耳机红白交替闪烁三次_beats耳机红白灯交替闪如何解决龐先生 beats耳机红白交替闪烁三次
大家好，我是时间财富网智能客服时间君，上述问题将由我为大家进行解答。以BeatsStudio3Wireless为例，其beats耳机红白灯交替闪的解决方法是：1、首先要确认是否用的原机充电线，或者手机充电线也是可以的，但一定要是原装的。其次不能用移动电源充电，因为耳机伏数太小，移动电源不会放电出来的。2、如果用的是原装充电线，又是用的电脑或者手机的充电插头还是充不进去电，那代表有短路现象，如果在质
beats耳机红白交替闪烁三次_beats耳机红白灯交替闪怎么解决凶猪下山 beats耳机红白交替闪烁三次
大家好，我是时间财富网智能客服时间君，上述问题将由我为大家进行解答。beats耳机红白灯交替闪的解决方法是：1、首先要确认是否用的原机充电线，或者手机充电线也是可以的，但一定要是原装的。其次不能用移动电源充电，因为耳机伏数太小，移动电源不会放电出来的。2、如果用的是原装充电线，又是用的电脑或者手机的充电插头还是充不进去电，那代表有短路现象，如果在质保期内，建议找商家维修或调换。beats耳机是Be
QML输入控件：Dial联动、音频均衡器的实现 (3) Quz Qt6 QML 开发进阶之旅 qt
目录示例1：带数显的Dial代码说明适用场景运行效果示例2：多组Dial控件联动代码说明运行效果示例3：音频均衡器界面代码说明运行效果完整工程下载在上篇中介绍了Dial控件与鼠标事件的应用，本文主要介绍Dial与其它控件的联动，以及音频均衡器界面的实现。相关阅读：QML输入控件:Dial基本用法与样式定制（1）-CSDN博客QML输入控件:Dial与事件(2)-CSDN博客最终展示效果:示例1：带
Redmi Buds 5 pro连接Win11卡顿问题解决办法 qq_45836941 笔记本电脑
这耳机连手机没问题，有时候连电脑声音总是断断续续的，重连也没用。在站内看到这位高手发的方法确实有效，@原讠京我扌丁字忄曼我把详细方法发出来方便和我一样的小白看到这个方法，解决问题1.右键开始菜单找到设备管理器2.找到蓝牙3.右击RedmiBuds5pro点击禁用设备，这样就好了
ESLint报错：Could not find config file. kart jim eslint vscode
如果你的ESLint的版本大于8，同时使用.eslinrc.js和.eslintignore作为配置文件，且目前用的是VSCODE，就有可能遇到报错：Couldnotfindconfigfile.这个是因为VSCode中ESLint插件的配置eslint.useFlatConfig的问题，其默认值是空值导致ESLint默认使用flat的配置方式，在VSCode的配置文件里加上：{"eslint.u
移动WiFi设备品牌推荐与选购指南 MingDong523 服务器运维
在2025年，移动WiFi设备的选择需根据使用场景、网络需求及预算综合考量。以下是结合市场热度和用户口碑的推荐品牌及具体型号：一、主流品牌推荐华为（HUAWEI）优势：技术成熟、稳定性强，支持多设备连接，覆盖4G/5G全网通，适合差旅、家庭备用等场景。热门型号：华为移动路由Pro：支持4G全网通和双频WiFi，插卡即用，适合旅行或临时网络需求，价格约439元12。随行WiFi3：便携设计，4G网络
VS Code中如何扩大控制台输出行？ MingDong523 vscode
在VSCode中扩大控制台（终端或输出面板）的显示区域，可以通过以下几种方式实现：手动调整控制台高度（最直接）操作步骤：将鼠标移动到控制台（终端或输出面板）与代码编辑器的分界线上。当光标变成↕上下箭头时，按住左键向上拖动即可扩大控制台区域。向下拖动则缩小控制台区域。VSCode控制台拖拽示意图快捷键快速切换（推荐）展开/隐藏控制台：Windows/Linux：Ctrl+``（反引号键）macOS：
AirPods 4(主动降噪版本) 和老版的AirPods Pro2对比 MingDong523 ios
一、核心功能对比特性新款AirPods（主动降噪版）AirPodsPro2主动降噪(ANC)基础降噪（环境声抑制约20dB）自适应降噪（环境声抑制达35dB+）通透模式支持（基础版）支持（自适应通透，可动态调节）音质表现改进低音，空间音频支持定制驱动单元+个性化空间音频佩戴设计半入耳式（无耳塞）入耳式（附带硅胶耳塞）续航时间6小时（降噪开启）6小时（降噪开启）芯片H2芯片（推测）H2芯片（支持动态
如何提升 Java 开发能力？ MingDong523 java
如何提升Java开发能力？要系统提升Java开发能力，需从基础巩固、技术拓展、实战经验、持续学习四个维度入手。以下是详细的进阶路径和具体建议：一、夯实Java核心基础深入理解语言特性必学内容：JVM原理：类加载机制、内存模型（堆/栈/方法区）、垃圾回收算法（CMS、G1、ZGC）。并发编程：synchronized底层原理、volatile可见性与有序性、ThreadPoolExecutor线程池
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">