卖山楂啦prss

sklearn_支持向量机SVM（1）

菜菜的scikit-learn课堂——sklearn中的支持向量机SVM（上）

文章目录

1 概述

1.1 支持向量机分类器是如何工作的
1.2 支持向量机原理的三层理解
1.3 sklearn中的支持向量机

2 sklearn.svm.SVC

2.1 线性SVM用于分类的原理

2.1.1 线性SVM的损失函数
2.1.2 函数间隔与几何间隔
2.1.3 线性SVM的拉格朗日对偶函数和决策函数

2.1.3.1 将损失函数从最初形态转换为拉格朗日乘数形态
2.1.3.2 将拉格朗日函数转换为拉格朗日对偶函数
2.1.3.3 求解拉格朗日对偶函数极其后续过程

2.1.4 线性SVM决策过程的可视化

2.2 非线性SVM与核函数

2.2.1 SVC在非线性数据上的推广
2.2.2 重要参数kernel
2.2.3 探索核函数在不同数据集上的表现
2.2.4 探索核函数的优势和缺陷
2.2.5 选取与核函数相关的参数：degree & gamma & coef0

2.3 硬间隔与软间隔：重要参数C

2.3.1 SVM在软间隔数据上的推广
2.3.2 重要参数C

1 概述

支持向量机（support vector machines），简称SVM（也称为支持向量网络），是机器学习中获得关注最多的算法没有之一。

SVM是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解，是一个强学习器。

传统的统计模式识别方法只有在样本趋向于无穷大时，其性能才有理论的保证。统计学习理论(STL)研究有限样本情况下的机器学习问题。

SVM的理论基础就是统计学习理论。

	功能
有监督学习	线性二分类与多分类（Linear Support Vector Classification）非线性二分类与多分类（Support Vector Classification, SVC）普通连续型变量的回归（Support Vector Regression）概率型连续变量的回归（Bayesian SVM）
无监督学习	支持向量聚类（Support Vector Clustering，SVC）异常值检测（One-class SVM）
半监督学习	转导支持向量机（Transductive Support Vector Machines，TSVM）

从分类效力来讲，SVM在无论线性还是非线性分类中，都是明星般的存在：

1.1 支持向量机分类器是如何工作的

SVM从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0)，且使分类间隔最大。

SVM考虑寻找一个满足分类要求的超平面，并且使训练集中的点距离分类面尽可能的远，也就是寻找一个分类面使它两侧的空白区域(margin)最大。

这两类样本中离分类面最近，且平行于最优分类面的超平面上的点，就叫做支持向量（下图中红色的点）。

例如在一组两种标签的数据中，两种标签分别由圆和方块代表。

支持向量机的分类方法，就是在这组分布中找出一个超平面作为决策边界，使模型在数据上的分类误差尽量接近于小，尤其是在未知数据集上的分类误差（泛化误差）尽量小。

关键概念：超平面
在几何中，超平面是一个空间的子空间，它是维度比所在空间小一维的空间。如果数据空间本身是三维的，则其超平面是二维平面，而如果数据空间本身是二维的，则其超平面是一维的直线。在二分类问题中，如果一个超平面能够将数据划分为两个集合，其中每个集合中包含单独的一个类别，我们就说这个超平面是数据的“决策边界”。

关键概念：超平面

在几何中，超平面是一个空间的子空间，它是维度比所在空间小一维的空间。
如果数据空间本身是三维的，则其超平面是二维平面，而如果数据空间本身是二维的，则其超平面是一维的直线。在二分类问题中，如果一个超平面能够将数据划分为两个集合，其中每个集合中包含单独的一个类别，我们就说这个超平面是数据的“决策边界”。

决策边界一侧的所有点在分类为属于一个类，而另一侧的所有点分类属于另一个类。

如果能够找出决策边界，分类问题就可以变成探讨每个样本对于决策边界而言的相对位置。比如上面的数据分布，我们很容易就可以在方块和圆的中间画出一条线，并让所有落在直线左边的样本被分类为方块，在直线右边的样本被分类为圆。

如果把数据当作训练集，只要直线的一边只有一种类型的数据，就没有分类错误，训练误差就会为0。

但是，对于一个数据集来说，让训练误差为0的决策边界可以有无数条。

但在此基础上，无法保证这条决策边界在未知数据集（测试集）上的表现也会优秀。

对于现有的数据集来说，有 $B_1$ 和 $B_2$ 两条可能的决策边界。

我们可以把决策边界 $B_1$ 向两边平移，直到碰到离这条决策边界最近的样本（最近的方块和圆圈后）停下，形成两个新的超平面，分别是 $b_{11}$ 和 $b_{12}$ ，并且将原始的决策边界移动到 $b_{11}$ 和 $b_{12}$ 的中间，确保 $B_1$ 到 $b_{11}$ 和 $b_{12}$ 的距离相等。在 $b_{11}$ 和 $b_{12}$ 中间的距离，叫做 $B_1$ 这条决策边界的边际(margin)，通常记作 $d$ 。为了简便，称 $b_{11}$ 和 $b_{12}$ 为“虚线超平面”。

对 $B_2$ 也执行同样的操作，然后来对比一下两个决策边界。

现在两条决策边界右边的数据都被判断为圆，左边的数据都被判断为方块，两条决策边界在现在的数据集上的训练误差都是0，没有一个样本被分错。

引入和原本的数据集相同分布的测试样本（红色所示），平面中的样本变多了，此时我们可以发现，对于 $B_1$ 而言，依然没有一个样本被分错，这条决策边界上的泛化误差也是0。但是对于 $B_2$ 而言，却有三个方块被误分类成圆，二有两个圆被误分类成了方块，这条决策边界上的泛化误差就远远大于 $B_1$ 了。

也就是说，拥有更大边际的决策边界在分类中的泛化误差更小，这一点可以由结构风险最小化定律来证明（SRM）。

如果边际很小，则任何轻微扰动都会对决策边界的分类产生很大的影响。边际很小的情况，是一种模型在训练集上表现很好，却在测试集上表现糟糕的情况，所以会“过拟合”。所以我们在找寻决策边界的时候，希望边际越大越好。

支持向量机，就是通过找出边际最大的决策边界，来对数据进行分类的分类器。也因此，支持向量分类器又叫做最大边际分类器。这个过程在二维平面中看起来十分简单，但将上述过程使用数学表达出来，就不是一件简单的事情了。

1.2 支持向量机原理的三层理解

目标是"找出边际最大的决策边界"，听起来是一个十分熟悉的表达，这是一个最优化问题，而最优化问题往往和损失函数联系在一起。和逻辑回归中的过程一样，SVM也是通过最小化损失函数来求解一个用于后续模型使用的重要信息：决策边界。

1.3 sklearn中的支持向量机

2 sklearn.svm.SVC

class  sklearn.svm.SVC (
						C=1.0,
						kernel='rbf', 
						degree=3, 
						gamma='auto_deprecated', 
						coef0=0.0, 
						shrinking=True,
						probability=False, 
						tol=0.001, 
						cache_size=200, 
						class_weight=None, 
						verbose=False, 
						max_iter=-1,
						decision_function_shape=’ovr’, 
						random_state=None)

2.1 线性SVM用于分类的原理

2.1.1 线性SVM的损失函数

要理解SVM的损失函数，我们先来定义决策边界。

假设现在数据中总计有 $N$ 个训练样本，每个训练样本 $i$ 可以被表示为 $(x_i,y_i)(i=1,2,\cdots ,N)$ ，其中 $x_i$ 是 $\left( x_{1i},x_{2i},\cdots ,x_{ni} \right) ^T$ 这样的一个特征向量，每个样本总共含有 $n$ 个特征。

二分类标签 $y_i$ 的取值是{-1, 1}。

如果 $n$ 等于2，则有 $i=\left( x_{1i},x_{2i},y_i \right) ^T$ ，分别由我们的特征向量和标签组成。此时我们可以在二维平面上，以 $x_2$ 为横坐标， $x_1$ 为纵坐标， $y$ 为颜色，来可视化所有的 $N$ 个样本：

让所有紫色点的标签为1，红色点的标签为-1。我们要在这个数据集上寻找一个决策边界，在二维平面上，决策边界（超平面）就是一条直线。二维平面上的任意一条线可以被表示为：
$x_1=ax_2+b$

表达式变换一下：

其中 [a, -1] 为参数向量 $\omega$ ， $\boldsymbol{x}$ 为特征向量， $b$ 为截距。

注意，这个表达式长得非常像我们线性回归的公式：

$y\left( x \right) =\boldsymbol{\theta }^{\boldsymbol{T}}\boldsymbol{x}+\theta _0$

线性回归中等号的一边是标签，回归过后会拟合出一个标签，而决策边界的表达式中却没有标签的存在，全部是由参数，特征和截距组成的一个式子，等号的一边是0。

在一组数据下，

给定固定的 $\omega$ 和 $b$ ，这个式子就可以是一条固定直线，在 $\omega$ 和 $b$ 不确定的状况下，这个表达式就可以代表平面上的任意一条直线。

如果在 $\omega$ 和 $b$ 固定时，给定一个唯一的 $\boldsymbol{x}$ 的取值，这个表达式就可以表示一个固定的点。

在SVM中使用这个表达式来表示决策边界。我们的目标是求解能够让边际最大化的决策边界，所以我们要求解参数向量 $\omega$ 和截距 $b$ 。

如果在决策边界上任意取两个点 $\boldsymbol{x}_{\boldsymbol{a}}$ ， $\boldsymbol{x}_{\boldsymbol{b}}$ ，并带入决策边界的表达式，则有：

$\left| \begin{array}{l} \boldsymbol{\omega }^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{a}}+b=0\\ \\ \boldsymbol{\omega }^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{b}}+b=0\\ \end{array} \right.$

将两式相减，可以得到：
$\boldsymbol{\omega }^{\boldsymbol{T}}\left( \boldsymbol{x}_{\boldsymbol{a}}-\boldsymbol{x}_b \right) =0$

一个列向量的转至乘以另一个列向量，可以获得两个向量的点积(dot product)，表示为 $\left< \omega \cdot \left( x_a-x_b \right) \right>$ 。

两个向量的点击为0表示两个向量的方向式互相垂直的。 $\boldsymbol{x}_{\boldsymbol{a}}$ 与 $\boldsymbol{x}_{\boldsymbol{b}}$ 是一条直线上的两个点，相减后的得到的向量方向是由 $\boldsymbol{x}_{\boldsymbol{b}}$ 指向 $\boldsymbol{x}_{\boldsymbol{a}}$ ，所以 $\boldsymbol{x}_{\boldsymbol{a}}-\boldsymbol{x}_{\boldsymbol{b}}$ 的方向是平行于他们所在的直线——决策边界。而 $\boldsymbol{\omega }$ 与 $\boldsymbol{x}_{\boldsymbol{a}}-\boldsymbol{x}_{\boldsymbol{b}}$ 相互垂直，所以参数向量 $\boldsymbol{\omega }$ 的方向必然是垂直于决策边界。

此时，我们有了我们的决策边界。任意一个紫色的点 $\boldsymbol{x}_{\boldsymbol{p}}$ 就可以被表示为（不在直线上，所以不等于0）：

$\boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{p}}+b=p$

由于紫色的点所代表的标签y是1，所以规定，p>0。

同样的，对于任意一个红色的点 $\boldsymbol{x}_{\boldsymbol{r}}$ 而言，我们可以将它表示为：
$\boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{r}}+b=r$

由于红色点所表示的标签y是-1，所以规定，r<0。

由此，如果我们有新的测试数据 $\boldsymbol{x}_{\boldsymbol{t}}$ ，则 $\boldsymbol{x}_{\boldsymbol{t}}$ 的标签就可以根据以下式子来判定：

$y=\left\{ \begin{array}{l} -1\text{，}if\,\,\boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{t}}+b>0\\ \\ 1\text{，}if\,\,\boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{t}}+b<0\\ \end{array} \right.$

注意，在这里， $p$ 和 $r$ 的符号是我们人为规定的。

为了推导和计算的简便，规定

标签是{-1,1}
决策边界以上的点，标签都为正，并且通过调整 $\boldsymbol{\omega }$ 和 $b$ 的符号，让这个点在 $\boldsymbol{\omega }\cdot \boldsymbol{x}+b$ 上得出的结果为正。
决策边界以下的点，标签都为负，并且通过调整 $\boldsymbol{\omega }$ 和 $b$ 的符号，让这个点在 $\boldsymbol{\omega }\cdot \boldsymbol{x}+b$ 上得出的结果为负。

结论：决策边界以上的点都为正，以下的点都为负，是为了计算简便而人为规定的。这种规定，不会影响对参数向量 $\boldsymbol{\omega }$ 和截距 $b$ 的求解。

之前说过，决策边界的两边要有两个超平面，这两个超平面在二维空间中就是两条平行线（就是虚线超平面），而它们之间的距离就是边际 $d$ 。而决策边界位于这两条线的中间，所以这两条平行线必然是对称的。

令这两条平行线被表示为：

$\boldsymbol{\omega }\cdot \boldsymbol{x}+b=k\text{，}\boldsymbol{\omega }\cdot \boldsymbol{x}+b=-k$

两个表达式同时除以 k，则可以得到：

$\boldsymbol{\omega }\cdot \boldsymbol{x}+b=1\text{，}\boldsymbol{\omega }\cdot \boldsymbol{x}+b=-1$
这就是我们平行于决策边界的两条线的表达式，表达式两边的1和-1分别表示了两条平行于决策边界的虚线到决策边界的相对距离。

例如

这两类样本中离分类面最近，且平行于最优分类面的超平面上的点，就叫做支持向量（下图中红色的点）。

此时，可以让这两条线分别过两类数据中距离我们的决策边界最近的点，这些点就被称为“支持向量”，而决策边界永远在这两条线的中间，所以可以被调整。

我们令紫色类的点为 $\boldsymbol{x}_{\boldsymbol{p}}$ ，红色类的点为 $\boldsymbol{x}_{\boldsymbol{r}}$ ，则可以得到：

$\boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{p}}+b=1\text{，}\boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{r}}+b=-1$

两个式子相减，则有：
$\boldsymbol{\omega }\cdot \left( \boldsymbol{x}_{\boldsymbol{p}}-\boldsymbol{x}_{\boldsymbol{r}} \right) =2$

如下图所示， $\boldsymbol{x}_{\boldsymbol{p}}-\boldsymbol{x}_{\boldsymbol{r}}$ 可表示为两点之间的连线，而边际 $d$ 是平行于 $\boldsymbol{\omega }$ 的，所以相当于是得到了三角型中的斜边，并且知道一条直角边的方向。

所以，将上述式子两边同时除以 $\lVert \omega \rVert$ ，则可以得到：
$\frac{\boldsymbol{\omega }\cdot \left( \boldsymbol{x}_{\boldsymbol{p}}-\boldsymbol{x}_{\boldsymbol{r}} \right)}{\lVert \omega \rVert}=\frac{2}{\lVert \omega \rVert}\Rightarrow d=\frac{2}{\lVert \omega \rVert}$

要最大化 $d$ ，就求解 $\boldsymbol{\omega }$ 的最小值。

极值问题可以相互转化，可以把求解 $\boldsymbol{\omega }$ 的最小值转化为，求解以下函数的最小值：

$f\left( \omega \right) =\frac{\lVert \omega \rVert ^2}{2}$

在模长上加上平方是因为模长的本质是一个距离，所以它是一个带根号的存在，对它取平方是为了消除根号

我们的两条虚线表示的超平面，是数据边缘所在的点。所以对于任意样本 $i$ ，我们可以把决策函数写作：

$\left\{ \begin{array}{l} \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b\ge 1\text{，}if\ y_i=1\\ \\ \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b\le -1\text{，}if\ y_i=-1\\ \end{array} \right.$

整理一下，可以把两个式子整合成：

$y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1\text{，}i=1,2,\cdots ,N$
这个式子被称为“函数间隔”。

将函数间隔作为条件附加到我们的 $f\left( \omega \right)$ 上，我们就得到了SVM的损失函数最初形态：

$\underset{\omega ,b}{\min}\frac{\lVert \omega \rVert ^2}{2}$

$subject\ to\ y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1\text{，}i=1,2,\cdots ,N$

2.1.2 函数间隔与几何间隔

重要定义：函数间隔与几何间隔
对于给定的数据集T和超平面 $\left( \omega ,b \right)$ ，定义超平面 $\left( \omega ,b \right)$ 关于样本点 $\left( x_i,y_i \right)$ 的函数间隔为： $\gamma _i=y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right)$ 函数间隔可以表示分类预测的正确性以及确信度。再在这个函数间隔的基础上除以 $\boldsymbol{\omega }$ 的模长 $\lVert \omega \rVert$ 来得到几何间隔： $\gamma _i=y_i\left( \frac{\omega}{\lVert \omega \rVert}\cdot \boldsymbol{x}_{\boldsymbol{i}}+\frac{b}{\lVert \omega \rVert} \right)$ 几何间隔的本质其实是点 $x_i$ 到超平面 $\left( \omega ,b \right)$ ，即到我们的决策边界的带符号的距离(signed distance)。

重要定义：函数间隔与几何间隔

对于给定的数据集T和超平面

\left( \omega ,b \right)

，定义超平面

\left( \omega ,b \right)

关于样本点

\left( x_i,y_i \right)

的函数间隔为：

\gamma _i=y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right)

函数间隔可以表示分类预测的正确性以及确信度。再在这个函数间隔的基础上除以

\boldsymbol{\omega }

的模长

\lVert \omega \rVert

来得到几何间隔：

\gamma _i=y_i\left( \frac{\omega}{\lVert \omega \rVert}\cdot \boldsymbol{x}_{\boldsymbol{i}}+\frac{b}{\lVert \omega \rVert} \right)

几何间隔的本质其实是点

x_i

到超平面

\left( \omega ,b \right)

，即到我们的决策边界的带符号的距离(signed distance)。

几何间隔中， $y_i$ 的取值是{-1, 1}，所以并不影响整个表达式的大小，只影响方向。

而 $\omega x+b=0$ 是决策边界，所以直线带入 $x_i$ 后再除以参数向量的模长，就可以得到点 $x_i$ 到决策边界的距离。

2.1.3 线性SVM的拉格朗日对偶函数和决策函数

有了损失函数过后，就需要对损失函数进行求解。

之前得到了线性SVM损失函数的最初形态：

$\underset{\omega ,b}{\min}\frac{\lVert \omega \rVert ^2}{2}$

$subject\ to\ y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1\text{，}i=1,2,\cdots ,N$

这个损失函数分为两部分：需要最小化的函数，以及参数求解后必须满足的约束条件。这是一个最优化问题。

2.1.3.1 将损失函数从最初形态转换为拉格朗日乘数形态

为什么要进行转换？

我们的目标是求解让损失函数最小化的 $\boldsymbol{\omega }$ ，但其实很容易看得出来，如果 $\lVert \omega \rVert$ 为0， $f\left( \omega \right)$ 必然最小了，但是，这是一个无效的值。

单纯让 $f\left( \omega \right) =\frac{\lVert \omega \rVert ^2}{2}$ 为0，是不能求解出合理的 $\boldsymbol{\omega }$ 的，我们希望能够找出一种方式，能够让我们的条件 $y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1$ 在计算中也被纳入考虑，一种业界认可的方法是使用拉格朗日乘数法(standard Lagrange multiplier method)。

我们的损失函数是二次的(quadratic)，并且我们损失函数中的约束条件在参数 $\omega$ 和 $b$ 下是线性的，求解这样的损失函数被称为“凸优化问题”(convex optimization problem)。拉格朗日乘数法正好可以用来解决凸优化问题，这种方法也是业界常用的，用来解决带约束条件，尤其是带有不等式的约束条件的函数的数学方法。

首先第一步，需要使用拉格朗日乘数来将损失函数改写为考虑了约束条件的形式：

$L\left( \omega ,b,\alpha \right) =\frac{1}{2}\lVert \omega \rVert ^2-\sum_{i=1}^N{\alpha _i\left( y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1 \right)}\left( \alpha _i\ge 0 \right)$

称为拉格朗日函数，其中 $\alpha _i$ 就叫做拉格朗日乘数。

此时此刻，我们要求解的就不只有参数向量 $\omega$ 和截距 $b$ 了，我们也要求解拉格朗日乘数 $\alpha _i$ ，而我们的 $x_i$ 和 $y_i$ 都是已知的特征矩阵和标签。

拉格朗日函数也分为两部分。

第一部分和我们原始的损失函数一样，第二部分呈现了带有不等式的约束条件。

我们希望， $L\left( \omega ,b,\alpha \right)$ 不仅能够代表原有的损失函数 $f\left( \omega \right)$ 和约束条件，还能够表示我们想要最小化损失函数来求解 $\omega$ 和 $b$ 的意图，所以我们要先以 $\alpha$ 为参数，求解 $L\left( \omega ,b,\alpha \right)$ 的最大值，再以 $\omega$ 和 $b$ 为参数，求解 $L\left( \omega ,b,\alpha \right)$ 的最小值。

因此，我们的目标可以写作：

$\underset{\omega ,b}{\min}\underset{\alpha _i\ge 0}{\ \max}\ L\left( \omega ,b,\alpha \right) \ \left( \alpha _i\ge 0 \right)$

首先，我们第一步先执行max，即最大化 $L\left( \omega ,b,\alpha \right)$ ，那就有两种情况：

当 $y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) >1$ ，函数的第二部分 $\sum_{i=1}^N{\alpha _i\left( y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1 \right)}$ 就一定为正，式子 $\frac{1}{2}\lVert \omega \rVert ^2$ 就要减去一个正数，此时若要最大化 $L\left( \omega ,b,\alpha \right)$ ，则 $\alpha$ 必须取到0。
当 $y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) <1$ ，函数的第二部分 $\sum_{i=1}^N{\alpha _i\left( y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1 \right)}$ 就一定为负，式子 $\frac{1}{2}\lVert \omega \rVert ^2$ 就要减去一个负数，相当于加上一个正数，此时若要最大化 $L\left( \omega ,b,\alpha \right)$ ，则 $\alpha$ 必须取到正无穷。

若把函数第二部分当作一个惩罚项来看待，则

$y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) >1$ 时函数没有受到惩罚，

$y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) <1$ 时函数受到了极致的惩罚，即加上了一个正无穷项，函数整体永远不可能取到最小值。

所以第二步，我们执行min的命令，求解函数整体的最小值，我们就永远不能让 $\alpha$ 必须取到正无穷的状况出现，即是说永远不让 $y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) <1$ 的状况出现，从而实现了求解最小值的同时让约束条件被满足。

现在， $L\left( \omega ,b,\alpha \right)$ 就是新的损失函数，我们的目标是要通过先最大化，再最小化它来求解参数向量 $\omega$ 和截距 $b$ 的值。

2.1.3.2 将拉格朗日函数转换为拉格朗日对偶函数

为什么要进行转换？

要求极值，最简单的方法还是对参数求导后让一阶导数等于0。

先来试试看对拉格朗日函数求极值，在这里对参数向量 $\omega$ 和截距 $b$ 分别求偏导并且让其等于0。这个求导过程比较简单：

由于两个求偏导结果中都带有未知的拉格朗日乘数，因此我们还是无法求解出参数向量 $\omega$ 和截距 $b$ ，必须想出一种方法来求解拉格朗日乘数。

幸运地是，拉格朗日函数可以被转换成一种只带有 $\alpha$ ，而不带有参数向量 $\omega$ 和截距 $b$ 的形式，这种形式被称为拉格朗日对偶函数。

在对偶函数下，就可以求解出拉格朗日乘数 $\alpha$ ，然后带入到上面推导出的(1)和(2)式中来求解参数向量 $\omega$ 和截距 $b$ 。

为什么能够进行转换？

对于任何一个拉格朗日函数 $L\left( x,\alpha \right) =f\left( x \right) +\sum_{i=1}^q{\alpha _ih_i\left( x \right)}$ 都存在一个与它对应的对偶函数 $g\left( \alpha \right)$ ，只带有拉格朗日乘数 $\alpha$ 作为唯一的参数。

如果 $L\left( x,\alpha \right)$ 的最优解存在并可以表示为 $\underset{x}{\min}L\left( x,\alpha \right)$ ，并且对偶函数的最优解也存在并可以表示为 $\underset{\alpha}{\max}g\left( \alpha \right)$ ，

则可以定义对偶差异(dual gap)，即拉格朗日函数的最优解与其对偶函数的最优解之间的差值：
$\varDelta =\underset{x}{\min}L\left( x,\alpha \right) -\underset{\alpha}{\max}g\left( \alpha \right)$

如果 $\varDelta =0$ ，则称 $L\left( x,\alpha \right)$ 与其对偶函数之间存在强对偶关系(strong duality property)，此时我们就可以通过求解其对偶函数的最优解来替代求解原始函数的最优解。

那强对偶关系什么时候存在呢？

拉格朗日函数必须满足KKT(Karush-Kuhn-Tucker)条件：

这里的条件其实都比较好理解。首先是所有参数的一阶导数必须为0，然后约束条件中的函数本身需要小于等于0，拉格朗日乘数需要大于等于0，以及约束条件乘以拉格朗日乘数必须等于0，即不同 $i$ 的取值下，两者之中至少有一个为0。

当所有限制都被满足，则拉格朗日函数 $L\left( x,\alpha \right)$ 的最优解与其对偶函数的最优解相等，我们就可以将原始的最优化问题转换成为对偶函数的最优化问题。

而不难注意到，对于损失函数 $L\left( \omega ,b,\alpha \right)$ 而言，KKT条件都是可以操作的。如果我们能够人为让KKT条件全部成立，就可以求解出的对偶函数来解出 $L\left( \omega ,b,\alpha \right)$ 。

之前我们已经让拉格朗日函数上对参数w和b的求导为0，得到了式子：

$\sum_{i=1}^N{\alpha _iy_i\boldsymbol{x}_{\boldsymbol{i}}=\boldsymbol{\omega \ \ }\left( 1 \right)}$
$\sum_{i=1}^N{\alpha _iy_i=0\ \ \left( 2 \right)}$

并且在函数中，通过先求解最大值再求解最小值的方法使得函数天然满足：
$-\left( y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1 \right) \le 0\ \ \left( 3 \right) \ \ \boldsymbol{\alpha }_{\boldsymbol{i}}\ge 0\ \ \left( 4 \right)$
所以接下来，只需要再满足一个条件：

$\alpha _i\left( y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1 \right) =0$

这个条件其实很容易满足，能够让 $y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1=0$ 的就是落在虚线的超平面上的样本点，即支持向量。

所有不是支持向量的样本点则必须满足 $\alpha _i=0$ 。满足这个式子说明求解的参数参数向量 $\omega$ 和截距 $b$ 以及求解的超平面的存在，只与支持向量相关，与其他样本点都无关。

现在KKT的五个条件都得到了满足，可以使用 $L\left( \omega ,b,\alpha \right)$ 的对偶函数来求解 $\alpha$ 。

…

怎样进行转换？

首先让拉格朗日函数对参数 $\omega$ 和截距 $b$ 求导后的结果为0，本质是在探索拉格朗日函数的最小值。然后：

整理

$\sum_{i=1}^N{\alpha _iy_i\boldsymbol{x}_{\boldsymbol{i}}=\boldsymbol{\omega \ \ }\left( 1 \right)}$
$\sum_{i=1}^N{\alpha _iy_i=0\ \ \left( 2 \right)}$

函数 $L_d$ 就是我们的对偶函数。对所有存在对偶函数的拉格朗日函数我们有对偶差异如下表示：

$\varDelta =\underset{x}{\min}L\left( x,\alpha \right) -\underset{\alpha}{\max}g\left( \alpha \right)$
对于 $L\left( \omega ,b,\alpha \right)$ 和 $L_d$ ，则有：

$\varDelta =\underset{\omega ,b}{\min}\underset{\alpha _i\ge 0}{\max}L\left( \omega ,b,\alpha \right) -\underset{\alpha _i\ge 0}{\max}L_d$

求解对偶函数的过程其实是在求解 $L\left( \omega ,b,\alpha \right)$ 的最小值，所以又可以把公式写成：

最终，目标函数变化为：

$\underset{\alpha _i\ge 0}{\max}\left( \sum_{i=1}^N{\alpha _i}-\frac{1}{2}\sum_{i,j=1}^N{\alpha _i\alpha _jy_iy_j\boldsymbol{x}_{\boldsymbol{i}}\cdot \boldsymbol{x}_{\boldsymbol{j}}} \right)$

2.1.3.3 求解拉格朗日对偶函数极其后续过程

到了这一步，我们就需要使用梯度下降，SMO或者二次规划来求解 $\alpha$

一旦求得了 $\alpha$ 值，就可以使用求导后得到的(1)式求解 $\omega$ ，并可以使用(1)式和决策边界的表达式结合，得到下面的式子来求解 $b$ ：

$\sum_{i=1}^N{\alpha _iy_i\boldsymbol{x}_{\boldsymbol{i}}*x}+b=0$

当求得特征向量 $\omega$ 和 $b$ ，我们就得到了决策边界的表达式，也就可以利用决策边界和其有关的超平面来进行分类了，决策函数就可以被写作：
$f\left( x_{test} \right) =sign\left( \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{test}}+b \right) =sign\left( \sum_{i=1}^N{\alpha _iy_i\boldsymbol{x}_{\boldsymbol{i}}\cdot \boldsymbol{x}_{\boldsymbol{test}}+b} \right)$

其中 $x_{test}$ 是任意测试样本， $s i g n$ 是 $h > 0$ 时返回1， $h < 0$ 时返回-1的符号函数。

2.1.4 线性SVM决策过程的可视化

可以使用sklearn中的式子来为可视化决策边界，支持向量，以及决策边界平行的两个超平面。

1. 导入需要的模块

from sklearn.datasets import make_blobs
from sklearn.svm import SVC
import matplotlib.pyplot as plt
import numpy as np

2. 实例化数据集，可视化数据集

X,y = make_blobs(n_samples=50, centers=2, random_state=0,cluster_std=0.6)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plt.xticks([])
plt.yticks([])
plt.show()

3. 画决策边界：理解函数contour

matplotlib.axes.Axes.contour([X, Y,] Z, [levels], **kwargs)

Contour是专门用来绘制等高线的函数。

等高线，本质上是在二维图像上表现三维图像的一种形式，其中两维 X 和 Y 是两条坐标轴上的取值，而 Z 表示高度。

Contour就是将由 X 和 Y 构成平面上的所有点中，高度一致的点连接成线段的函数，在同一条等高线上的点一定具有相同的 Z 值。可以利用这个性质来绘制我们的决策边界。

我们的决策边界是 $\boldsymbol{\omega }\cdot \boldsymbol{x}+b=0$ ，并在决策边界的两边找出两个超平面，使得超平面到决策边界的相对距离为1。

那其实，只需要在样本构成的平面上，把所有到决策边界的距离为0的点相连，就是我们的决策边界，而把所有到决策边界的相对距离为1的点相连，就是两个平行于决策边界的超平面了。此时，Z就是平面上的任意点到达超平面的距离。

那首先，我们需要获取样本构成的平面，作为一个对象。

#首先要有散点图
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
ax = plt.gca() #获取当前的子图，如果不存在，则创建新的子图

有了这个平面，我们需要在平面上制作一个足够细的网格，来代表我们“平面上的所有点”。

计算每一个网格数据点到决策边界的距离，这样就不用在两处样本点中去找满足条件的两个点来构成这个直线，解决没有两个点到这个直线的距离一致的话，就画不出这条等高线的问题

画决策边界：制作网格，理解函数meshgrid

两两组合

理解函数meshgrid和vstack的作用

a = np.array([1,2,3])
b = np.array([7,8])
#两两组合，会得到多少个坐标？
#答案是6个，分别是 (1,7),(2,7),(3,7),(1,8),(2,8),(3,8)

v1,v2 = np.meshgrid(a,b)
v1
'''
array([[1, 2, 3],
       [1, 2, 3]])
'''
v2
'''
array([[7, 7, 7],
       [8, 8, 8]])
'''
v = np.vstack([v1.ravel(), v2.ravel()]).T
v
'''
array([[1, 7],
       [2, 7],
       [3, 7],
       [1, 8],
       [2, 8],
       [3, 8]])
'''

#获取平面上两条坐标轴的最大值和最小值
xlim = ax.get_xlim() # (-0.7425578984849813, 3.3721920271976598)
ylim = ax.get_ylim() # (-0.41872382476349596, 5.754870487889891)


#在最大值和最小值之间形成30个规律的数据
axisx = np.linspace(xlim[0],xlim[1],30)
'''
array([-0.7425579 , -0.60066997, -0.45878204, -0.31689411, -0.17500618,
       -0.03311826,  0.10876967,  0.2506576 ,  0.39254553,  0.53443346,
        0.67632139,  0.81820931,  0.96009724,  1.10198517,  1.2438731 ,
        1.38576103,  1.52764896,  1.66953689,  1.81142481,  1.95331274,
        2.09520067,  2.2370886 ,  2.37897653,  2.52086446,  2.66275238,
        2.80464031,  2.94652824,  3.08841617,  3.2303041 ,  3.37219203])
'''
axisy = np.linspace(ylim[0],ylim[1],30)
'''
array([-0.41872382, -0.20584126,  0.0070413 ,  0.21992386,  0.43280643,
        0.64568899,  0.85857155,  1.07145411,  1.28433668,  1.49721924,
        1.7101018 ,  1.92298436,  2.13586693,  2.34874949,  2.56163205,
        2.77451461,  2.98739718,  3.20027974,  3.4131623 ,  3.62604486,
        3.83892743,  4.05180999,  4.26469255,  4.47757511,  4.69045768,
        4.90334024,  5.1162228 ,  5.32910536,  5.54198793,  5.75487049])
'''

axisy,axisx = np.meshgrid(axisy,axisx)
#我们将使用这里形成的二维数组作为我们contour函数中的X和Y
#使用meshgrid函数将两个一维向量转换为特征矩阵
#核心是将两个特征向量广播，以便获取y.shape * x.shape这么多个坐标点的横坐标和纵坐标
axisx
'''
array([[-0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 ,
        -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 ,
        -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 ,
        -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 ,
        -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 ,
        -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 , -0.7425579 ],
       [-0.60066997, -0.60066997, -0.60066997, -0.60066997, -0.60066997,
        -0.60066997, -0.60066997, -0.60066997, -0.60066997, -0.60066997,
        -0.60066997, -0.60066997, -0.60066997, -0.60066997, -0.60066997,
        -0.60066997, -0.60066997, -0.60066997, -0.60066997, -0.60066997,
        -0.60066997, -0.60066997, -0.60066997, -0.60066997, -0.60066997,
        -0.60066997, -0.60066997, -0.60066997, -0.60066997, -0.60066997],
       [-0.45878204, -0.45878204, -0.45878204, -0.45878204, -0.45878204,
        -0.45878204, -0.45878204, -0.45878204, -0.45878204, -0.45878204,
        ....
'''
# 也就是
'''
-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558	-0.742558
-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067	-0.60067
-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782	-0.458782
                ....
'''

axisx.shape # (30, 30)


xy = np.vstack([axisx.ravel(), axisy.ravel()]).T
#其中ravel()是降维函数，vstack能够将多个结构一致的一维数组按行堆叠起来
#xy就是已经形成的网格，它是遍布在整个画布上的密集的点
xy.shape # (900, 2)  30*30=900  两两组合

有了网格后，我们需要计算网格所代表的“平面上所有的点”到我们的决策边界的距离。

所以需要模型和决策边界。

5. 建模，计算决策边界并找出网格上每个点到决策边界的距离

#建模，通过fit计算出对应的决策边界
clf = SVC(kernel = "linear").fit(X,y)
Z = clf.decision_function(xy).reshape(axisx.shape) # # 900个点计算出的到决策边界的所有距离
#重要接口decision_function，返回每个输入的样本所对应的到决策边界的距离
#然后再将这个距离转换为axisx的结构，这是由于画图的函数contour要求Z的结构必须与X和Y保持一致

plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
ax = plt.gca() #获取当前的子图，如果不存在，则创建新的子图
#画决策边界和平行于决策边界的超平面
ax.contour(
    axisx,
    axisy,
    Z,
    colors="k",
    levels=[-1,0,1] #画三条等高线，分别是Z为-1，Z为0和Z为1的三条线
    ,alpha=0.5, # 透明度
    linestyles=["--","-","--"])

ax.set_xlim(xlim)  # (-0.7425578984849813, 3.3721920271976598)
ax.set_ylim(ylim) # (-0.41872382476349596, 5.754870487889891)

记得Z的本质么？是输入的样本到决策边界的距离，而contour函数中的level其实是输入了这个距离

随便用一个点来试试看

plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
# 取第10的个点，让其为黑色
plt.scatter(X[10,0],X[10,1],c="black",s=50,cmap="rainbow")
# 计算这个点到决策边界的距离
clf.decision_function(X[10].reshape(1,2)) # array([-3.33917354])

plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
ax = plt.gca()
ax.contour(
    axisx,
    axisy,
    Z,
    colors="k",
    levels=[-3.33917354],
    alpha=0.5,
    linestyles=["--"])

将绘图过程包装成函数

#将上述过程包装成函数：
def plot_svc_decision_function(model,ax=None):
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    
    x = np.linspace(xlim[0],xlim[1],30)
    y = np.linspace(ylim[0],ylim[1],30)
    Y,X = np.meshgrid(y,x)
    xy = np.vstack([X.ravel(), Y.ravel()]).T
    P = model.decision_function(xy).reshape(X.shape)
    
    ax.contour(X, Y, P,colors="k",levels=[-1,0,1],alpha=0.5,linestyles=["--","-","--"])
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)
    
#则整个绘图过程可以写作：
clf = SVC(kernel = "linear").fit(X,y)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plot_svc_decision_function(clf)

7. 探索建好的模型

clf.predict(X)
#根据决策边界，对X中的样本进行分类，返回的结构为n_samples
'''
array([1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1,
       0, 1, 1, 0, 1, 0])
'''

clf.score(Xtest,ytest)
# 返回给定测试数据和标签的平均准确度

clf.support_vectors_
#返回支持向量
# 这里是三个点
'''
array([[0.44359863, 3.11530945],
       [2.33812285, 3.43116792],
       [2.06156753, 1.96918596]])
'''

clf.n_support_
#返回每个类中支持向量的个数

# array([2, 1]) 第一个类中有两个支持向量，第二个中有两个支持向量

8. 推广到非线性情况

from sklearn.datasets import make_circles
X,y = make_circles(100, factor=0.1, noise=.1)
X.shape # (100, 2)
y.shape # (100,)

plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plt.show()

用之前的函数

clf = SVC(kernel = "linear").fit(X,y)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plot_svc_decision_function(clf)

clf.score(X,y)
# 0.7

明显，现在线性SVM已经不适合于我们的状况了，无法找出一条直线来划分我们的数据集，让直线的两边分别是两种类别。

这个时候，如果我们能够在原本的X和y的基础上，添加一个维度r，变成三维，我们可视化这个数据，来看看添加维度让我们的数据如何变化。

9. 为非线性数据增加维度并绘制3D图像

#定义一个由x计算出来的新维度r
r = np.exp(-(X**2).sum(1))
rlim = np.linspace(min(r),max(r),100)


from mpl_toolkits import mplot3d
#定义一个绘制三维图像的函数
#elev表示上下旋转的角度
#azim表示平行旋转的角度
def plot_3D(elev=30,azim=30,X=X,y=y):
    ax = plt.subplot(projection="3d")
    ax.scatter3D(X[:,0],X[:,1],r,c=y,s=50,cmap='rainbow')
    ax.view_init(elev=elev,azim=azim)
    ax.set_xlabel("x")
    ax.set_ylabel("y")
    ax.set_zlabel("r")
    plt.show()
plot_3D()

可以看见，此时此刻我们的数据明显是线性可分的了：我们可以使用一个平面来将数据完全分开，并使平面的上方的所有数据点为一类，平面下方的所有数据点为另一类。

将上述过程放到Jupyter Notebook中运行

from ipywidgets import interact,fixed
interact(plot_3D,elev=[0,30],azip=(-180,180),X=fixed(X),y=fixed(y))
plt.show()

此时数据在三维空间中，超平面就是一个二维平面。

明显我们可以用一个平面将两类数据隔开，这个平面就是我们的决策边界了。我们刚才做的，计算r，并将r作为数据的第三维度来将数据升维的过程，被称为“核变换”，即是将数据投影到高维空间中，以寻找能够将数据完美分割的超平面，即是说寻找能够让数据线性可分的高维空间。

引入SVM中的核心概念：核函数

2.2 非线性SVM与核函数

2.2.1 SVC在非线性数据上的推广

为了能够找出非线性数据的线性决策边界，需要将数据从原始的空间 $x$ 投射到新空间中 $\varPhi \left( x \right)$ 。

$\varPhi$ 是一个映射函数，它代表了某种非线性的变换，如同我们之前所做过的使用 $r$ 来升维一样，这种非线性变换看起来是一种非常有效的方式。使用这种变换，线性SVM的原理可以被很容易推广到非线性情况下，其推导过程和逻辑都与线性SVM一模一样，只不过在定义决策边界之前，我们必须先对数据进行升维度，即将原始的 $x$ 转换成 $\varPhi \left( x \right)$ 。

如此，非线性SVM的损失函数的初始形态为：

$\underset{\omega ,b}{\min}\ \frac{1}{2}\lVert \omega \rVert ^2$

$st.\ y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{\Phi }\left( \boldsymbol{x}_{\boldsymbol{i}} \right) +b\ge 1 \right) \ ,\ i=1,2,\cdots ,N$

同理，非线性SVM的拉格朗日函数和拉格朗日对偶函数也可得：

$L\left( \omega ,b,\alpha \right) =\frac{1}{2}\lVert \omega \rVert ^2-\sum_{i=1}^N{\alpha _i}\left( y_i\left( \boldsymbol{\omega }\cdot \boldsymbol{\Phi }\left( \boldsymbol{x}_{\boldsymbol{i}} \right) +b \right) -1 \right)$
$L_d=\sum_{i=1}^N{\alpha _i}-\frac{1}{2}\sum_{i,j}{\alpha _i\alpha _jy_iy_j\boldsymbol{\Phi }\left( \boldsymbol{x}_{\boldsymbol{i}} \right) \boldsymbol{\Phi }\left( \boldsymbol{x}_{\boldsymbol{j}} \right)}$

使用同样的推导方式，让拉格朗日函数满足KKT条件，并在拉格朗日函数上对每个参数求导，经过和线性SVM相同的变换后，就可以得到拉格朗日对偶函数。同样使用梯度下降或SMO等方式对 $\alpha$ 进行求解，最后可以求得决策边界，并得到最终的决策函数：

2.2.2 重要参数kernel

这种变换非常巧妙，但也带有一些实现问题。

首先，我们可能不清楚应该什么样的数据应该使用什么类型的映射函数来确保可以在变换空间中找出线性决策边界。极端情况下，数据可能会被映射到无限维度的空间中，这种高维空间可能不是那么友好，维度越多，推导和计算的难度都会随之暴增。

其次，即使已知适当的映射函数，我们想要计算类似于 $\boldsymbol{\Phi }\left( \boldsymbol{x}_{\boldsymbol{i}} \right) \cdot \boldsymbol{\Phi }\left( \boldsymbol{x}_{\boldsymbol{test}} \right)$ 这样的点积，计算量可能会无比巨大，要找出超平面所付出的代价是非常昂贵的。

关键概念：核函数

而解决这些问题的数学方式，叫做“核技巧”(Kernel Trick)，是一种能够使用数据原始空间中的向量计算来表示升维后的空间中的点积结果的数学方式。具体表现为， $K\left( \boldsymbol{u,v} \right) =\boldsymbol{\Phi }\left( \boldsymbol{u} \right) \cdot \boldsymbol{\Phi }\left( \boldsymbol{v} \right)$ 。而这个原始空间中的点积函数，就被叫做“核函数”(Kernel Function)。

核函数能够解决三个问题：

第一，有了核函数之后，无需去担心 $\varPhi$ 究竟应该是什么样，因为非线性SVM中的核函数都是正定核函数，它们都满足美世定律(Mercer’s theorem)，确保了高维空间中任意两个向量的点积一定可以被低维空间中的这两个向量的某种计算来表示（多数时候是点积的某种变换）。

第二，使用核函数计算低维度中的向量关系比计算原本的 $\boldsymbol{\Phi }\left( \boldsymbol{x}_{\boldsymbol{i}} \right) \cdot \boldsymbol{\Phi }\left( \boldsymbol{x}_{\boldsymbol{test}} \right)$ 要简单太多了。

第三，因为计算是在原始空间中进行，所以避免了维度诅咒的问题。

选用不同的核函数，就可以解决不同数据分布下的寻找超平面问题。

在SVC中，这个功能由参数“kernel”和一系列与核函数相关的参数来进行控制。参数“kernel"在sklearn中可选以下几种选项：

可以看出，除了选项"linear"之外，其他核函数都可以处理非线性问题。多项式核函数有次数d，

当d为1的时候，它就是在处理线性问题；
当d为更高次项的时候，它就是在处理非线性问题。

我们来看看模型找出的决策边界时什么样：

# 1. 导入需要的模块
from sklearn.datasets import make_blobs
from sklearn.svm import SVC
import matplotlib.pyplot as plt
import numpy as np

# 2. 实例化数据集，可视化数据集
X,y = make_blobs(n_samples=50, centers=2, random_state=0,cluster_std=0.6)

def plot_svc_decision_function(model,ax=None):
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    
    x = np.linspace(xlim[0],xlim[1],30)
    y = np.linspace(ylim[0],ylim[1],30)
    Y,X = np.meshgrid(y,x)
    xy = np.vstack([X.ravel(), Y.ravel()]).T
    P = model.decision_function(xy).reshape(X.shape)
    
    ax.contour(X, Y, P,colors="k",levels=[-1,0,1],alpha=0.5,linestyles=["--","-","--"])
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)

clf = SVC(kernel = "rbf").fit(X,y)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plot_svc_decision_function(clf)

from sklearn.datasets import make_circles
X,y = make_circles(100, factor=0.1, noise=.1)
X.shape # (100, 2)
y.shape # (100,)

def plot_svc_decision_function(model,ax=None):
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    
    x = np.linspace(xlim[0],xlim[1],30)
    y = np.linspace(ylim[0],ylim[1],30)
    Y,X = np.meshgrid(y,x)
    xy = np.vstack([X.ravel(), Y.ravel()]).T
    P = model.decision_function(xy).reshape(X.shape)
    
    ax.contour(X, Y, P,colors="k",levels=[-1,0,1],alpha=0.5,linestyles=["--","-","--"])
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)

clf = SVC(kernel = "rbf").fit(X,y)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plot_svc_decision_function(clf)

2.2.3 探索核函数在不同数据集上的表现

除了"linear"以外的核函数都能够处理非线性情况，那究竟什么时候选择哪一个核函数呢？

通过一个例子，来探索一下不同数据集上核函数的表现。我们现在有一系列线性或非线性可分的数据，我们希望通过绘制SVC在不同核函数下的决策边界并计算SVC在不同核函数下分类准确率来观察核函数的效用。

1. 导入所需要的库和模块

import numpy as np
import matplotlib.pyplot as plt
# 色彩块
from matplotlib.colors import ListedColormap
from sklearn import svm
from sklearn.datasets import make_circles, make_moons, make_blobs,make_classification

2. 创建数据集，定义核函数的选择

n_samples = 100
 
datasets = [
    # 月亮
    make_moons(n_samples=n_samples, noise=0.2, random_state=0),
    # 环
    make_circles(n_samples=n_samples, noise=0.2, factor=0.5, random_state=1),
    # 簇
    make_blobs(n_samples=n_samples, centers=2, random_state=5),#分簇的数据集
    # 分类
    make_classification(n_samples=n_samples,n_features = 2,n_informative=2,n_redundant=0, random_state=5)
                #n_features：特征数，n_informative：带信息的特征数，n_redundant：不带信息的特征数
    ]
 
Kernel = ["linear","poly","rbf","sigmoid"]
 
#四个数据集分别是什么样子呢？
for X,Y in datasets:
    plt.figure(figsize=(5,4))
    plt.scatter(X[:,0],X[:,1],c=Y,s=50,cmap="rainbow")

3. 构建子图

总共有四个数据集，四种核函数，我们希望观察每种数据集下每个核函数的表现。以核函数为列，以图像分布为行，我们总共需要16个子图来展示分类结果。而同时，我们还希望观察图像本身的状况，所以我们总共需要20个子图，其中第一列是原始图像分布，后面四列分别是这种分布下不同核函数的表现。

nrows=len(datasets)
ncols=len(Kernel) + 1
 # 创建子图
fig, axes = plt.subplots(nrows, ncols,figsize=(20,16))

4. 开始进行子图循环

a = np.array([1,2,3])
b = np.array([7,8])
#两两组合，会得到多少个坐标？
#答案是6个，分别是 (1,7),(2,7),(3,7),(1,8),(2,8),(3,8)

v1,v2 = np.meshgrid(a,b)
v1
'''
array([[1, 2, 3],
       [1, 2, 3]])
'''
v2
'''
array([[7, 7, 7],
       [8, 8, 8]])
'''

v1.ravel() # array([1, 2, 3, 1, 2, 3])
v2.ravel() # array([7, 7, 7, 8, 8, 8])
v = np.vstack([v1.ravel(), v2.ravel()]).T
v
'''
array([[1, 7],
       [2, 7],
       [3, 7],
       [1, 8],
       [2, 8],
       [3, 8]])

nrows=len(datasets)
ncols=len(Kernel) + 1
 
fig, axes = plt.subplots(nrows, ncols,figsize=(20,16))


#第一层循环：在不同的数据集中循环
# datasetsj结构
[*enumerate(datasets)] #  enumerate、map、zip都可以使用 *+[] 展开
# index，(X,Y) = [(索引, array([特矩阵征X],[标签Y]))]
# 特矩阵征X （100.2）
# 标签Y （100，）

for ds_cnt, (X,Y) in enumerate(datasets):
    
    #在图像中的第一列，放置原数据的分布
    # ds_cnt 取0,1,2,3
    ax = axes[ds_cnt, 0]
    if ds_cnt == 0:
        ax.set_title("Input data")
    ax.scatter(X[:, 0], X[:, 1], c=Y, zorder=10, cmap=plt.cm.Paired,edgecolors='k')
    ax.set_xticks(())
    ax.set_yticks(())
    
    #第二层循环：在不同的核函数中循环
    #从图像的第二列开始，一个个填充分类结果
    #  enumerate(Kernel) 就是 索引+Kernel
    for est_idx, kernel in enumerate(Kernel):
        
        #定义子图位置
        ax = axes[ds_cnt, est_idx + 1]  # 行不动，列从第二列开始
        
        #建模
        clf = svm.SVC(kernel=kernel, gamma=2).fit(X, Y)
        score = clf.score(X, Y)
        
        #绘制图像本身分布的散点图
        ax.scatter(X[:, 0], X[:, 1], c=Y
                   ,zorder=10
                   ,cmap=plt.cm.Paired,edgecolors='k')
        #绘制支持向量
        ax.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=50,
                    facecolors='none', zorder=10, edgecolors='k')# facecolors='none':透明的
        
        #绘制决策边界 ——网格 多一点点
        x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
        y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
        
        #np.mgrid，合并了我们之前使用的np.linspace和np.meshgrid的用法
        #一次性使用最大值和最小值来生成网格
        #表示为[起始值：结束值：步长]   j值把结束值包含在内
        #如果步长是复数，则其整数部分就是起始值和结束值之间创建的点的数量，并且结束值被包含在内
        # 网格
        XX, YY = np.mgrid[x_min:x_max:200j, y_min:y_max:200j]
        #np.c_，类似于np.vstack的功能 # ravel拉平 np.c_ 组合配对
        Z = clf.decision_function(np.c_[XX.ravel(), YY.ravel()]).reshape(XX.shape)
        #填充等高线不同区域的颜色
        ax.pcolormesh(XX, YY, Z > 0, cmap=plt.cm.Paired)
        #绘制等高线
        ax.contour(XX, 
                   YY, 
                   Z, 
                   colors=['k', 'k', 'k'], 
                   linestyles=['--', '-', '--'],
                   levels=[-1, 0, 1])
        
        #设定坐标轴为不显示
        ax.set_xticks(())
        ax.set_yticks(())
        
        #将标题放在第一行的顶上
        if ds_cnt == 0:
            ax.set_title(kernel)
            
        #为每张图添加分类的分数   
        ax.text(0.95, 0.06, ('%.2f' % score).lstrip('0')
                , size=15
                , bbox=dict(boxstyle='round', alpha=0.8, facecolor='white')
                    #为分数添加一个白色的格子作为底色
                , transform=ax.transAxes #确定文字所对应的坐标轴，就是ax子图的坐标轴本身
                , horizontalalignment='right' #位于坐标轴的什么方向
               )
 
plt.tight_layout() # 图像间隔紧缩
plt.show()

可以观察到，线性核函数和多项式核函数在非线性数据上表现会浮动，如果数据相对线性可分，则表现不错，如果是像环形数据那样彻底不可分的，则表现糟糕。

在线性数据集上，线性核函数和多项式核函数即便有扰动项也可以表现不错，可见多项式核函数是虽然也可以处理非线性情况，但更偏向于线性的功能。

Sigmoid核函数就比较尴尬了，它在非线性数据上强于两个线性核函数，但效果明显不如rbf，它在线性数据上完全比不上线性的核函数们，对扰动项的抵抗也比较弱，所以它功能比较弱小，很少被用到。

rbf，高斯径向基核函数基本在任何数据集上都表现不错，属于比较万能的核函数。

2.2.4 探索核函数的优势和缺陷

看起来，除了Sigmoid核函数，其他核函数效果都还不错。但其实rbf和poly都有自己的弊端，我们使用乳腺癌数据集作为例子来展示一下：

from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np
from time import time
import datetime

data = load_breast_cancer()
X = data.data
y = data.target
 
X.shape # (569, 30)
np.unique(y) # array([0, 1])

plt.scatter(X[:,0],X[:,1],c=y)
plt.show()

在不同核函数下的得分情况以及运行时间

for kernel in Kernel:
    time0 = time()
    # 建模 实例化
    clf= SVC(kernel = kernel
             , gamma="auto"
            # , degree = 1
             , cache_size=10000#使用计算的内存，单位是MB，默认是200MB
            ).fit(Xtrain,Ytrain)
    print("The accuracy under kernel %s is %f" % (kernel,clf.score(Xtest,Ytest)))
    print(time()-time0)

多项式核函数此时此刻要消耗大量的时间，运算非常的缓慢。让我们在循环中去掉多项式核函数，再试试看能否跑出结果：

Kernel = ["linear","rbf","sigmoid"]
 
for kernel in Kernel:
    time0 = time()
    clf= SVC(kernel = kernel
             , gamma="auto"
            # , degree = 1
             , cache_size=5000
            ).fit(Xtrain,Ytrain)
    print("The accuracy under kernel %s is %f" % (kernel,clf.score(Xtest,Ytest)))
    print(time()-time0)


The accuracy under kernel linear is 0.929825
0.8275289535522461
The accuracy under kernel rbf is 0.596491
0.07195615768432617
The accuracy under kernel sigmoid is 0.596491
0.007994651794433594

有两个发现。

首先，乳腺癌数据集是一个线性数据集，线性核函数跑出来的效果很好。rbf和sigmoid两个擅长非线性的数据从效果上来看完全不可用。

其次，线性核函数的运行速度远远不如非线性的两个核函数。如果数据是线性的，那如果我们把degree参数调整为1，多项式核函数应该也可以得到不错的结果：

Kernel = ["linear","poly","rbf","sigmoid"]
 
for kernel in Kernel:
    time0 = time()
    clf= SVC(kernel = kernel
             , gamma="auto"
             , degree = 1
             , cache_size=5000
            ).fit(Xtrain,Ytrain)
    print("The accuracy under kernel %s is %f" % (kernel,clf.score(Xtest,Ytest)))
    print(time()-time0)


The accuracy under kernel linear is 0.929825
0.7765562534332275
The accuracy under kernel poly is 0.923977
0.1239321231842041
The accuracy under kernel rbf is 0.596491
0.058963775634765625
The accuracy under kernel sigmoid is 0.596491
0.007994413375854492

多项式核函数的运行速度立刻加快了，并且精度也提升到了接近线性核函数的水平。

但是，之前的实验中，rbf 在线性数据上也可以表现得非常好，那在这里，为什么跑出来的结果如此糟糕呢？

其实，这里真正的问题是数据的量纲问题。

回忆一下如何求解决策边界，如何判断点是否在决策边界的一边？
是靠计算”距离“，虽然我们不能说SVM是完全的距离类模型，但是它严重受到数据量纲的影响。让我们来探索一下乳腺癌数据集的量纲：

import pandas as pd
data = pd.DataFrame(X)
data.describe([0.01,0.05,0.1,0.25,0.5,0.75,0.9,0.99]).T#描述性统计
'''
    count        mean         std  ...          90%          99%         max
0   569.0   14.127292    3.524049  ...    19.530000    24.371600    28.11000
1   569.0   19.289649    4.301036  ...    24.992000    30.652000    39.28000
2   569.0   91.969033   24.298981  ...   129.100000   165.724000   188.50000
3   569.0  654.889104  351.914129  ...  1177.400000  1786.600000  2501.00000
4   569.0    0.096360    0.014064  ...     0.114820     0.132888     0.16340
5   569.0    0.104341    0.052813  ...     0.175460     0.277192     0.34540
6   569.0    0.088799    0.079720  ...     0.203040     0.351688     0.42680
7   569.0    0.048919    0.038803  ...     0.100420     0.164208     0.20120
8   569.0    0.181162    0.027414  ...     0.214940     0.259564     0.30400
                                    ....
'''
#从mean列和std列可以看出严重的量纲不统一
#从1%的数据和最小值相对比，90%的数据和最大值相对比，查看是否是正态分布或偏态分布，如果差的太多就是偏态分布，谁大方向就偏向谁
#可以发现数据大的特征存在偏态问题
#这个时候就需要对数据进行标准化

数据存在严重的量纲不一的问题。使用数据预处理中的标准化的类，对数据进行标准化：

from sklearn.preprocessing import StandardScaler
X = StandardScaler().fit_transform(X)#将数据转化为0,1正态分布
data = pd.DataFrame(X)
data.describe([0.01,0.05,0.1,0.25,0.5,0.75,0.9,0.99]).T#均值很接近，方差为1了
'''
    count          mean      std  ...       90%       99%        max
0   569.0 -3.162867e-15  1.00088  ...  1.534446  2.909529   3.971288
1   569.0 -6.530609e-15  1.00088  ...  1.326975  2.644095   4.651889
2   569.0 -7.078891e-16  1.00088  ...  1.529432  3.037982   3.976130
3   569.0 -8.799835e-16  1.00088  ...  1.486075  3.218702   5.250529
                ...
'''

标准化完毕后，再次让SVC在核函数中遍历，此时我们把degree的数值设定为1，观察各个核函数在去量纲后的数据上的表现：


Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3,random_state=420)
 
Kernel = ["linear","poly","rbf","sigmoid"]
 
for kernel in Kernel:
    time0 = time()
    clf= SVC(kernel = kernel
             , gamma="auto"
             , degree = 1
             , cache_size=5000
            ).fit(Xtrain,Ytrain)
    print("The accuracy under kernel %s is %f" % (kernel,clf.score(Xtest,Ytest)))
    print(time()-time0)
    
    
The accuracy under kernel linear is 0.976608
0.01799154281616211
The accuracy under kernel poly is 0.964912
0.006995201110839844
The accuracy under kernel rbf is 0.970760
0.011993169784545898
The accuracy under kernel sigmoid is 0.953216
0.0059967041015625

量纲统一之后，可以观察到，所有核函数的运算时间都大大地减少了，尤其是对于线性核来说，而多项式核函数居然变成了计算最快的。其次，rbf表现出了非常优秀的结果。经过我们的探索，我们可以得到的结论是：

线性核，尤其是多项式核函数在高次项时计算非常缓慢
$r b f$ 和多项式核函数都不擅长处理量纲不统一的数据集

这两个缺点都可以由数据无量纲化来解决。因此，SVM执行之前，非常推荐先进行数据的无量纲化！到了这一步，我们是否已经完成建模了呢？虽然线性核函数的效果是最好的，但它是没有核函数相关参数可以调整的，rbf和多项式却还有着可以调整的相关参数，接下来我们就来看看这些参数。

2.2.5 选取与核函数相关的参数：degree & gamma & coef0

在知道如何选取核函数后，还要观察一下除了kernel之外的核函数相关的参数。

对于线性核函数，"kernel"是唯一能够影响它的参数，但是对于其他三种非线性核函数，还受到参数gamma，degree以及coef0的影响。

参数 gamma 就是表达式中的 $\gamma$
参数 degree 就是多项式核函数的次数 $d$
参数 coef0 就是常数项 $r$

其中，高斯径向基核函数受到 gamma 的影响，而多项式核函数受到全部三个参数的影响。

往往避免去真正探究这些参数如何影响了核函数，而直接使用学习曲线或者网格搜索来帮助我们查找最佳的参数组合。

对于高斯径向基核函数，调整 gamma 的方式其实比较容易，那就是画学习曲线。我们来试试看高斯径向基核函数 rbf 的参数 gamma 在乳腺癌数据集上的表现：

score = []
gamma_range = np.logspace(-10, 1, 50) #返回在对数刻度上均匀间隔的数字
for i in gamma_range:
    clf = SVC(kernel="rbf",gamma = i,cache_size=5000).fit(Xtrain,Ytrain)
    score.append(clf.score(Xtest,Ytest))
print(max(score), gamma_range[score.index(max(score))])
plt.plot(gamma_range,score)
plt.show()

通过学习曲线，很容就找出了 rbf 的最佳 gamma 值。

但对于多项式核函数来说，一切就没有那么容易了，因为三个参数共同作用在一个数学公式上影响它的效果，因此，我们往往使用网格搜索来共同调整三个对多项式核函数有影响的参数。依然使用乳腺癌数据集。

from sklearn.model_selection import StratifiedShuffleSplit#用于支持带交叉验证的网格搜索
from sklearn.model_selection import GridSearchCV#带交叉验证的网格搜索
 
time0 = time()
 
gamma_range = np.logspace(-10,1,20)
coef0_range = np.linspace(0,5,10)
 
param_grid = dict(gamma = gamma_range
                  ,coef0 = coef0_range)
cv = StratifiedShuffleSplit(n_splits=5, test_size=0.3, random_state=420)#将数据分为5份，5份数据中测试集占30%
grid = GridSearchCV(SVC(kernel = "poly",degree=1,cache_size=5000
                        ,param_grid=param_grid
                        ,cv=cv)
grid.fit(X, y)
 
print("The best parameters are %s with a score of %0.5f" % (grid.best_params_, 
grid.best_score_))
print(time()-time0)


The best parameters are {'coef0': 0.0, 'gamma': 0.18329807108324375} with a score of 0.96959
13.360332727432251

可以发现，网格搜索返回了参数 coef0=0，gamma=0.18329807108324375，但整体的分数是0.96959，虽然比调参前略有提高，但依然没有超过线性核函数核rbf的结果。可见，如果最初选择核函数的时候，你就发现多项式的结果不如 rbf 和线性核函数，那就不要挣扎了，试试看调整 rbf 或者直接使用线性。

2.3 硬间隔与软间隔：重要参数C

2.3.1 SVM在软间隔数据上的推广

目前已经了解了线性SVC的基本原理，以及SVM如何被推广到非线性情况下，还了解了核函数的选择和应用。

但实际上，依然没有完全了解sklearn当中的SVM用于二分类的全貌。

我们之前在理论推导中使用的数据都有一个特点，那就是它们或是完全线性可分，或者是非线性的数据。在对比核函数时，实际上用到了一种不同的数据，那就是不完全线性可分的数据集。比如说如下数据集：

这个数据集和最开始介绍SVM如何工作的时候的数据集一模一样，除了多了P和Q两个点。

注意到，虽然决策边界 $B_1$ 的间隔已经非常宽了，然而点 P 和 Q 依然被分错了类别，相反，边际比较小的 $B_2$ 却正确地分出了点 P 和 Q 的类别。

这里并不是说 $B_2$ 此时此刻就是一条更好的边界了，与之前的论述中一致，如果我们引入更多的训练数据，或引入测试数据， 更加宽敞的边界可以帮助它又更好的表现。但是，和之前不一样，现在即便是让边际最大的决策边界 $B_1$ 的训练误差也不可能为0了。此时，需要引入“软间隔”的概念：

关键概念：硬间隔与软间隔

当两组数据是完全线性可分，我们可以找出一个决策边界使得训练集上的分类误差为0，这两种数据就被称为是存在”硬间隔“的。
当两组数据几乎是完全线性可分的，但决策边界在训练集上存在较小的训练误差，这两种数据就被称为是存在”软间隔“。

可以通过调整对决策边界的定义，将硬间隔时得出的数学结论推广到软间隔的情况上，让决策边界能够忍受一小部分训练误差。这个时候决策边界就不是单纯地寻求最大边际了，因为对于软间隔地数据来说，边际越大被分错的样本也就会越多，因此我们需要找出一个”最大边际“与”被分错的样本数量“之间的平衡。

在上图，原始的决策边界 $\boldsymbol{\omega }\cdot \boldsymbol{x}+b=0$ 原本的平行于决策边界的两个虚线超平面 $\boldsymbol{\omega }\cdot \boldsymbol{x}+b=1$ 和 $\boldsymbol{\omega }\cdot \boldsymbol{x}+b=-1$ 都依然有效。

原始判别函数为：

$\left\{ \begin{array}{l} \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b\ge 1\text{，}if\ \ y_i=1\\ \\ \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b\le -1\text{，}if\ \ y_i=-1\\ \end{array} \right.$

不过，这些超平面现在无法让数据上的训练误差等于0了，因为此时存在了一个混杂在红色点中的紫色点。

因此，需要放松原始判别函数中的不等条件，来让决策边界能够适用于异常点，于是引入松弛系数 $\zeta$ 来帮助我们优化原始的判别函数：

$\left\{ \begin{array}{l} \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b\ge 1-\zeta _i\text{，}if\,\,\,\,y_i=1\\ \\ \boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b\le -1+\zeta _i\text{，}if\,\,\,\,y_i=-1\\ \end{array} \right.$

其中 $\zeta _i>0$ 。可以看得出，这其实是将原本的虚线超平面向图像的上方和下方平移，其符号的处理方式和原本的把符号放入 $\boldsymbol{\omega }$ 是一模一样的方式。

$\boldsymbol{\zeta }$ 可以作为点 $x_p$ 在原始的决策边界上的分类错误的程度的表示，隔得越远，分得越错。但 $\boldsymbol{\zeta }$ 并不是点到决策超平面的距离本身。

不难注意到，让 $\boldsymbol{\omega }\cdot \boldsymbol{x}_{\boldsymbol{i}}+b\ge 1-\boldsymbol{\zeta }$ 作为新决策超平面，是由一定的问题的，虽然我们把异常的紫色点分类正确了，但同时也分错了一系列红色的点。

所以，必须在我们求解最大边际的损失函数中加上一个惩罚项，用来惩罚具有巨大松弛系数的决策超平面。拉格朗日函数，拉格朗日对偶函数，也因此都被松弛系数改变。现在，损失函数为：

其中C是用来控制惩罚项的惩罚力度的系数。

拉格朗日函数为（其中 $\mu$ 是第二个拉格朗日乘数）：

需要满足的KKT条件为：

拉格朗日对偶函数为：

以上所有的公式，是以线性硬间隔数据为基础，考虑了软间隔存在的情况和数据是非线性的状况而得来的。

而这些公式，就是sklearn类SVC背后使用的最终公式。公式中现在唯一的新变量，松弛系数的惩罚力度C，由参数C来进行控制。

2.3.2 重要参数C

参数C用于权衡”训练样本的正确分类“与”决策函数的边际最大化“两个不可同时完成的目标，希望找出一个平衡点来让模型的效果最佳。

参数	含义
C	浮点数，默认1，必须大于等于0，可不填松弛系数的惩罚项系数。如果C值设定比较大，那SVC可能会选择边际较小的，能够更好地分类所有训练点的决策边界，不过模型的训练时间也会更长。如果C的设定值较小，那SVC会尽量最大化边界，决策功能会更简单，但代价是训练的准确度。换句话说，C在SVM中的影响就像正则化参数对逻辑回归的影响。

在实际使用中，C和核函数的相关参数（gamma，degree等等）们搭配，往往是SVM调参的重点。与gamma不同，C没有在对偶函数中出现，并且是明确了调参目标的，所以我们可以明确我们究竟是否需要训练集上的高精确度来调整C的方向。默认情况下C为1，通常来说这都是一个合理的参数。

如果数据很嘈杂，那往往减小C。当然，也可以使用网格搜索或者学习曲线来调整C的值。

#调线性核函数
score = []
C_range = np.linspace(0.01,30,50)
for i in C_range:
    clf = SVC(kernel="linear",C=i,cache_size=5000).fit(Xtrain,Ytrain)
    score.append(clf.score(Xtest,Ytest))
print(max(score), C_range[score.index(max(score))])
plt.plot(C_range,score)
plt.show()

#换 rbf
score = []
C_range = np.linspace(0.01,30,50)
for i in C_range:
    clf = SVC(kernel="rbf",C=i,gamma = 0.012742749857031322,cache_size=5000).fit(Xtrain,Ytrain)
    score.append(clf.score(Xtest,Ytest))
    
print(max(score), C_range[score.index(max(score))])
plt.plot(C_range,score)
plt.show()

#进一步细化  5-7
score = []
C_range = np.linspace(5,7,50)
for i in C_range:
    clf = SVC(kernel="rbf",C=i,gamma = 
0.012742749857031322,cache_size=5000).fit(Xtrain,Ytrain)
    score.append(clf.score(Xtest,Ytest))
    
print(max(score), C_range[score.index(max(score))])
plt.plot(C_range,score)
plt.show()

你可能感兴趣的:(机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。