我是天才很好

支持向量机SVM

文章目录

1. 支持向量学习机

1.1 直观例子
1.2 用数学理解直观
1.3 从几何直观到最优化问题
1.4 损失项
1.5 损失函数与惩罚项
1.6 Hard margin与soft margin比较
1.7 支持向量学习机与逻辑回归：隐藏的假设

2. 核函数

2.1 空间变换：从非线性到线性
2.2 拉格朗日对偶
2.3 支持向量
2.4 核函数的定义：优化运算
2.5 常用的核函数
2.6 Scale variant

注：本文节选自《精通数据科学：从线性回归到深度学习》一书，如有侵权，请联系删除。
联系邮箱：[email protected]

1. 支持向量学习机

支持向量学习机（Support Vector Machine，SVM）是一款非常强大的分类模型。它曾经是最好的（不少人相信它现在仍是最好的）监督式机器学习模型，甚至被称为“万能分类器”。在数学上，支持向量学习机的模型处理较为复杂，涉及的知识也较为深奥，常常让人觉得难以理解。因此，本节先略过这些难以理解的数学推导，从直观上和实际操作上来讨论这个模型。
与讨论逻辑回归模型不同，本节只讨论如何用支持向量学习机模型解决二元分类问题。对于多元分类问题，支持向量学习机常使用one-vs.-all策略将其拆分为多个二元分类问题解决。

1.1 直观例子

先来看一个简单的例子。假设面对的二元分类问题有两个自变量，分别为 $x_1$ 和 $x_2$ 。将数据集里的数据表现在图上，可以得到图1，其中圆点表示类别1，三角形表示类别0。

图1

从图像上来看，这两个类别能够被一条直线完美地分开，比如图1(a)中的A、B、C三条直线。这样的数据在学术上被称为线性可分（linearly separable），而分开它们的直线叫作分离超平面（separating hyperplane）。

如果将直线A上方的数据预测为类别1，直线A下方的数据预测为类别0，可以得到一个百分之百准确的分类模型。对直线B、C结论也同样成立。那么，哪一条直线代表的是更加完美的模型呢？从直观上来讲，直线B所代表的模型更好，因为它跟每个数据点都离得比较远，而且离两个类别的距离大致相同。换句话说，直线B的倾斜度更加合理，而且位置更加“居中”。相比之下，其他两条直线的倾斜度显得不太合理，而且直线A与类别1贴得太近，直线C又距离类别0太近。

除了图图1(a)中画出的A、B、C三条直线外，其实还存在着无数条直线可以将不同类别的数据完全分开。为了从中选出最优的直线，需要将上面提到的倾斜度和位置“居中”做更加量化的解释。

在解决这个问题之前，先来看看数据点到分离直线的距离代表了什么。从之前的讨论可知，作为分离超平面的直线其实是解决分类问题的标准线。落在它上方的点被归为一类，落在它下方的点被归为另一类。那么极端一些，如果某个数据点刚好落在直线上，那么它被归为任何一类都是同样有道理的。因此在支持向量学习机模型里，一个数据点离分离直线的距离代表了模型对这一点预测结果的“自信程度”（在学术上称为置信度），离得越近，模型对预测结果越没有把握。这个结论其实有比较严谨的数学依据，具体的细节将在下节中详细讨论。

基于上面对距离（点到直线）的讨论，支持向量学习机会按照如下的两个原则寻找最优的分离直线。

对于一条分离直线，定义它到某一类别的距离等于这个类别中的所有点到这条直线距离的最小值。比如对于图1(b)中的实线，虚线（它与实线平行）经过的圆点到实线的距离就是分离直线到类别1的距离。支持向量学习机想要最大化分离直线到两个类别的距离之和，在学术上称之为间隔（margin），如图1(b)所示。值得注意的是，一旦分离直线的倾斜度确定了，间隔其实也就确定了。因此，最大化间隔这个目标就确定分离直线的倾斜度。
在默认情况下，所有数据点的权重都是一样的。所以分离直线到每个类别的距离应该相等。因此如图1(b)所示，分离直线应该在两条平行虚线的中间，这样就确定了分离直线的位置。

1.2 用数学理解直观

本节的任务是将上面讨论的直观原则转换为严谨的数学定义。在开始这项艰巨的任务之前，先来简单回顾一下有关线性几何的基础知识，这些数学知识是理解后面讨论的关键。需要注意的是，在支持向量学习机的数学讨论中，我们将大量使用向量的内积运算（dot production）。这与前面章节讨论过的线性回归和逻辑回归有所不同，这两个模型的数学推导主要使用向量的矩阵乘法。在数学上，矩阵乘法与欧式空间内的向量内积在本质上是一样的，也可以互相推导。前面章节使用矩阵乘法来推导模型，是为了和学术主流表达方式保持一致，以免读者在阅读其他相关文献时，由于数学符号的不同而感到不解。

先从最直观的二维线性空间谈起，如图2所示。

图2

对于二维空间中的一条直线，假设原点到这条直线的投影为向量 $\beta$ ，也就是说向量 $\beta$ 与直线垂直。那么，对于直线上的任意一点 $T$ ，向量 $T-\beta$ 与向量 $\beta$ 的内积等于0。因此，直线可以用一个线性方程来表示，具体的公式如下：

$\beta\cdot(T-\beta)=0$ （1-1）

反过来，对于任意一个二元线性函数，不妨设为 $f(X)=\gamma\cdot X$ ，则二元线性方程 $f (X) = 0$ 在空间中表示一条直线。事实上，假设点 $X_0$ 使得 $f(X_0)=0$ ，对于满足 $f (X) = 0$ 的任意一点，公式（1-2）成立。

$\gamma\cdot(X-X_0)=0-0=0$ （1-2）

也就是说，向量 $X-X_0$ 与向量 $\gamma$ 垂直，这表明所有的点都在同一条直线上。而且显然这条直线上的所有点也都满足 $f (X) = 0$ ，所以任意一个二元线性方程在空间中表示一条直线。

现在再次回到直线，为了表示简单，不妨设它的代数表示为公式（1-1）。那么空间中的任意一点到这条直线的垂直距离应该如何表示呢？分两种情况来讨论，如图2所示。

如果点在直线上方，比如 $X_1$ ，假设它到直线的距离为 $\mid\mid k \mid\mid$ ，那么根据内积的定义，可以得到：
$\beta\cdot(X_1-\beta)= \mid\mid \beta \mid\mid \mid\mid k \mid\mid cos0= \mid\mid \beta \mid\mid \mid\mid k \mid\mid$ (1-3)
如果点在直线下方，比如 $X_2$ ，假设它到直线的距离为 $\mid\mid l \mid\mid$ ，那么类似地可以得到：

$\beta\cdot(X_2-\beta)= \mid\mid \beta \mid\mid \mid\mid l \mid\mid cos\pi= -\mid\mid \beta \mid\mid \mid\mid l \mid\mid$ (1-4)

将上面的讨论总结一下，对于一个给定的线性方程 $f(X)=\gamma\cdot X$ ，绝对值 $\mid f(X) \mid$ 与点 $X$ 到直线 $f (X) = 0$ 的距离成正比，而 $f (X)$ 的符号表示点到直线的垂线方向。这个结论不仅仅针对二维空间，在高维空间同样成立。只不过在高维空间里，直线要变成超平面。

有了上面的代数知识，让我们稍稍离题一下，再次讨论逻辑回归模型。逻辑回归模型同样也是一个分类模型，不妨设模型所用的自变量为 $X$ ，需要预测的因变量为 $Y$ ，其中， $Y = 1$ 表示一类， $Y = 0$ 表示另一类，则它的预测公式如下：

$P(Y=1)=1/(1+e^{-X \beta} )$ (1-5)

公式（2-5）中的线性部分记为函数 $f(X)=X\cdot \beta$ ，当 $f (X) > 0$ 时， $f (X)$ 越大，模型预测的概率就越接近于1。根据上面的讨论可以知道，当 $f (X) > 0$ 时， $f (X)$ 与 $X$ 到超平面 $f (X) = 0$ 的距离成正比。这用几何直观的语言表示出来就是：**若一个点在超平面正向一侧，它离超平面越远，逻辑回归模型就越有把握预测它的标签等于1。**类似地，可以得到当 $f (X) < 0$ 时的几何直观解释：若一个点在超平面反向一侧，它离超平面越远，逻辑回归模型就越有把握预测它的标签等于0。
将上述内容总结一下，从几何直观上，逻辑回归模型的分类原理可描述为：模型的线性部分 $\beta =0$ 定义了分类的分离超平面，离这个超平面越远，模型对相应的预测结果把握越大。而这与第1节中讨论的支持向量学习机的分类思路非常相近。因此，支持向量学习机可以被看作逻辑回归的一种“基因突变”。虽然两者外表看起来相差很大，但其数学本质在很大程度上是一致的。

1.3 从几何直观到最优化问题

现在回来看在数据线性可分的情况下，用数学语言描述支持向量学习机模型，或者讲得直接一些，我们将找出这个模型对应的最优化问题。在下面的讨论中，假设训练数据 $i$ 的自变量为 $X_i$ ，被预测量为 $y_i$ 。

如图3所示，分离直线记为 $\beta\cdot X +b=0$ ，而虚线穿过的点分别表示两者类别中到分离直线最近的点，记为点 $m$ 和点 $n$ 。根据模型分类的第二点原则，直线是居中的，因此 $m$ 和 $n$ 到分离直线的距离都为 $\mid\mid l \mid\mid$ 。

图3

同公式（1-3）和公式（1-4）类似，图2-3中的两边虚线分别可以表示为 $\beta\cdot X +b=\mid\mid \beta \mid\mid \mid\mid l \mid\mid$ 和 $\beta\cdot X +b= - \mid\mid \beta \mid\mid \mid\mid l \mid\mid$ 。

对于类别1中的任意一点 $X_i$ ，它到分离直线的距离大于 $\mid\mid l \mid\mid$ ，因此， $\beta\cdot X_i +b>\mid\mid \beta \mid\mid \mid\mid l \mid\mid$ 。类似地，对于类别0中的任意一点 $X_i$ ，它到分离直线的距离也大于 $\mid\mid l \mid\mid$ ，而且它在直线的下方，因此， $\beta\cdot X_i +b< -\mid\mid \beta \mid\mid \mid\mid l \mid\mid$ 。

支持向量学习机的目的是最大化两条虚线之间的距离（也就是之前提到的margin）。那么模型的最优化问题可以表示为公式（1-6）。

$2\mid\mid l \mid\mid$

任一 $X$ 属于类别1， $\beta\cdot X +b\geq\mid\mid \beta \mid\mid \mid\mid l \mid\mid$

任一 $X$ 属于类别0， $\beta\cdot X +b\leq -\mid\mid \beta \mid\mid \mid\mid l \mid\mid$ (1-6)

为了后面的计算更加方便，记 $w=\beta / \mid\mid l \mid\mid \mid\mid \beta \mid\mid$ ， $\mid\mid l \mid\mid \mid\mid \beta \mid\mid$ 可以得到。因此将公式（1-6）改写为更为标准的公式（1-7）。之后的讨论都将基于后者。

$\frac 2{\mid\mid w \mid\mid}$

任一 $X$ 属于类别1， $w\cdot X +c\geq1$

任一 $X$ 属于类别0， $w\cdot X +c\leq -1$ (1-7)

同时，我们用 $y_i=1$ 表示类别1， $y_i=-1$ 表示类别0。那么在公式（1-7）中的限制条件两边同时乘以$y_i $，可以将两条限制条件合并为一条。同时注意到， $\frac 2{\mid\mid w \mid\mid}$ 等价于 $\frac 12{\mid\mid w \mid\mid}^2$ 。这样就得到了支持向量学习机最简洁也是最常用的数学表示（在数据线性可分的情况下）。

$\frac 12{\mid\mid w \mid\mid}^2$

$y_i (w\cdot X_i +c)\geq1$ (1-8)

求解公式（1-8）所描述的最优化问题，就可以得到支持向量学习机模型参数的估计值，不妨设为 $\hat{w}$ ， $\hat{c}$ 。模型的预测公式如下，其中， $\hat{y_i}$ 表示模型的预测结果，而 $s i g n$ 表示数字的符号，当 $x > 0$ 时， $s i g n (x) = 1$ ；否则 $s i g n (x) = - 1$ 。

$\hat{y_i}=sign(\hat{w}\cdot X_i +\hat{c})$ (1-9)

值得注意的是，公式（ 1-8）是带有限制条件的最优化问题（限制条件为 $y_i (w\cdot X_i +c)\geq1$ ）。这和之前接触到线性回归和逻辑回归不同，它们对应的最优化问题是没有限制条件的，比如针对线性回归模型，参数估算公式为 $\hat{\beta}=argmin\sum_{i}(y_i-X_i \beta)^2$ 。
在数学上，求解有限制条件的最优化问题比没有限制条件的更加困难，所用的数学工具也有所差异。

1.4 损失项

到目前为止，我们都在数据线性可分的情况下，讨论支持向量学习机的分类方法。但如果仅限于此，支持向量学习机这个模型几乎没有实用价值。因为在现实生活中，需要处理的数据集绝大多数都是线性不可分的，也就是说不存在一个超平面使得不同类别的数据分别落在平面的不同两侧。以图4为例，图中的点 $a$ 是类别0，但它更靠近类别1的中心。针对这份数据，就没有办法像之前一样，用一条直线将两个类别完全分开。那在这种情况下，支持向量学习机会如何处理呢？答案就是加入损失项。

图4

在数学上，支持向量学习机通过公式（1-8）中的条件 $y_i (w\cdot X_i +c)\geq1$ 来保证分类结果的准确。比如在图4中，这个条件将保证数据表示的点都落在两条虚线的外面，这也是模型的分类假设。现在由于数据线性不可分，所以将这个条件稍稍放松一点，改为 $y_i (w\cdot X_i +c)\geq1 -\xi_i$ 。其中 $\xi_i > 0$ ，它与点 $i$ 离相应虚线的距离成正比。比如图4中点 $a$ ，可以计算得到它到下方虚线的距离为 $\xi_a/ \mid\mid w \mid\mid$ ，到分离超平面（实线）的距离为 $(\xi_a-1)/ \mid\mid w \mid\mid$ 。需要注意的是，这里计算的距离是空间的实际欧式距离。但在机器学习中（比如第三方模型库scikit-learn），针对一个支持向量学习机模型，常把函数值 $\xi_a-1=w\cdot X_a +c$ （注意到图中的 $a$ 点有 $y_a=-1$ ）称为数据到分离超平面的“距离” 。

因此， $\xi_i$ 可以被看作模型在数据 $i$ 这一点违反自身分类原则的程度，也就是模型在这一点的损失。 那么它们的和 $\sum_{i}\xi_i$ 当然是越小越好。这个目标和模型本身的目标（最大化margin）相矛盾，比如在图4中，模型原本的目标是最大化两条虚线之间的距离，但如果两条虚线离得越远，显然，模型“错误” 的损失 $\sum_{i}\xi_i$ 也越大。也就是说，从数学上来看函数 $\frac 12{\mid\mid w \mid\mid}^2$ 和函数 $\sum_{i}\xi_i$ 是负相关关系，就像跷跷板的两头一样。

为了兼顾上面提到的两个模型目标，我们通过线性函数来折中。具体地，支持向量学习机的最优化问题被改为公式（1-10) 。其中， $C > 0$ 为模型的损失系数，是一个超参数，它对模型结果的影响将在后面讨论。

$\frac 12{\mid\mid w \mid\mid}^2+C\sum_{i}\xi_i$

$y_i (w\cdot X_i +c)\geq1 - \xi_i; \xi_i \geq0$ (1-10)

在实际应用中，不管数据是否线性可分，都会根据公式（1-10）来估计支持向量学习机的模型参数。公式（1-8）更多地只是为了展示模型的建模思路。

1.5 损失函数与惩罚项

接下来，我们将支持向量学习机对应的最优化问题（公式（1-10）) 转换为不带限制条件的最优化问题。首先只考虑目标函数中的损失部分 $\sum_{i}\xi_i$ 。在不影响其他参数的情况下， $\xi_i$ 越接近于0越好。由此可以得到 $\xi_i$ 的表达式 :

$\xi_i=max(0,1-y_i(w\cdot X_i +c))$ (1-11)

事实上，公式（ 1-11）已经包含了公式（ 1-10）中的限制条件。理由如下：

$\xi_i=max(0,1-y_i(w\cdot X_i +c))\geq1-y_i(w\cdot X_i +c)$ (1-12)

那么支持向量学习机的参数估计公式可改写为，其中， $C > 0$ 是模型给定的超参数。

$min_{w,c} (\frac 12{\mid\mid w \mid\mid}^2+C\sum_{i}max(0,1-y_i(w\cdot X_i +c)))$ (1-13)

公式（ 1-13）其实定义了支持向量学习机的损失函数： $\frac 12{\mid\mid w \mid\mid}^2+C\sum_{i}max(0,1-y_i(w\cdot X_i +c))$ ，将它分为如下两部分。

模型的预测损失 $\sum_{i}max(0,1-y_i(w\cdot X_i +c))$ ，学术上称这个函数为hinge loss。由此可以看到支持向量学习机的预测损失，其实是由一个线性损失函数外套一个非线性变换构成的。这再一次印证了在前面重复过很多次的一个观点：复杂模型都是由线性模型和非线性变换一层层嵌套构成的。在支持向量学习机中，非线性变换部分 $f (x) = m a x (0, x)$ 是所谓的线性整流函数（ReLU）。它是深度学习中非常重要的一个函数，我们将在后面的章节中详细讨论这个函数的细节。
惩罚项 $\frac 12{\mid\mid w \mid\mid}^2$ 。为了解决模型过拟合的问题，讨论了惩罚项这个概念，而这里的 $\frac 12{\mid\mid w \mid\mid}^2$ 正是 $L 2$ 惩罚项。虽然在支持向量学习机中，这一项的初衷是最大化margin，使得分离超平面尽量远离边缘数据点，但这样会在分类分界面和数据之间留出一道空隙，在某种程度上的确防止了模型出现过拟合，因此符合惩罚项的定义。与其他模型不同的是，支持向量学习机的惩罚项是并不可少的，而其他模型在理论上并没有这样的要求（虽然在实际应用中，不管使用什么模型，在损失函数中加入惩罚项几乎是一定的）。

综合上面的分析，支持向量学习机的场景类型和损失函数如图5所示。

图5

1.6 Hard margin与soft margin比较

在支持向量学习机的损失函数中，有一个很重要的超参数——模型的损失系数 $C$ 。这个超参数的取值将极大地影响模型的分类结果。为了说明这个问题，再来看看模型的损失函数：

$\frac 12{\mid\mid w \mid\mid}^2+C\sum_{i}max(0,1-y_i(w\cdot X_i +c))$ （1-14）

超参数 $C$ 其实是模型预测损失的权重，它的值很大表示模型将更加在意分类“错误” 而轻视margin的大小。下面用一个具体的例子来展示这种影响，具体实现如程序清单1所示。

（ 1）公式（1-14）所表示的模型其实是线性支持向量学习机（非线性支持向量学习机将在后面讨论）。对于这种模型，第三方库scikit-learn提供了两种实现方式：一种是sklearn.svm.SVC，如第1行代码所示；另一种是sklearn.svm.LinearSVC。虽然使用后一种实现，可以为线性SVM选择其他种类的损失函数和惩罚项，但在实际中，更加常用的是第一种实现（因为可以方便地更换核函数）。

（ 2）类SVC里有参数“C”，这个参数就是公式（1-14）里的。因此如第11行代码所示，对同一数据集使用不同的损失系数 $C$ 训练模型，然后将这些不同模型的结果可视化。值得注意的是， SVC里的参数“kernel”表示支持向量学习机所使用的核函数，这里使用“linear”（线性核函数）。

（ 3）对于训练好的模型“re” ，它有一个函数：decision_function。将数据 $i$ 的自变量部分（即 $X_i$ ）传给它，可以得到该数据到分离超平面的“距离” 。但值得注意的是，正如前面提到的，这里所指的“距离” 并非空间中的欧式距离，而是函数值 $w\cdot X_i +c$ 。因此， “decision_function=±1”刚好对应着图6a中的虚线。

图6

运行完整的代码，可以得到如图6所示的结果。从整体上来看，随着参数 $C$ 的增大， margin width（两条虚线之间的距离）会减小，如图6b所示。
从分类结果上来看，当 $C$ 的取值比较小时，比如 $C = 0.1$ ，有比较多的点落在相应的虚线之间，甚至有的越过了实线，换句话说，模型更注重的是靠近类别中心的数据点。在学术上，这种情况被形象地称为soft margin；当 $C$ 的取值比较大时，比如 $C = 10000$ ，几乎没有点落在相应的虚线之间，也就是说，模型对靠近分离超平面的“异常点” 更加重视。类似地，这种情况在学术上被称为hard margin，如图6a所示。

在实际应用中，参数 $C$ 可以被当作模型的超参数来使用：通过网点搜寻（ grid search）来找到使预测效果最好的取值。也可以根据实际需要，人为地选择合适的值，比如对于搭建模型的数据，如果已知其中有比较多的随机扰动，那么就应该选择较小的 $C$ 值，也就是soft margin，使模型结果少受数据噪声的影响。

1.7 支持向量学习机与逻辑回归：隐藏的假设

支持向量学习机和逻辑回归都是分类模型，那么这两个模型有什么不同呢？在实际应用中，针对一个具体的问题，应该如何选择它们呢？我们先通过一个简单的例子来看这两个模型的差异。
（1）首先生成一批较少的，离得比较近的数据集。如图7a所示，数据分为两个类别，图形符号与之前的例子保持一致。对这批数据分别使用支持向量学习机和逻辑回归建模，并将得到的模型结果也表现在图上。其中实线表示支持向量学习机的分离超平面，点线表示逻辑回归的分离超平面。

（2）在第（1）步数据集的基础上，增加一批数量比较多，离得比较远的新数据，如图7b所示。两幅图中用方框圈起来的数据是一样的。针对这个新的数据集，同样分别使用两种模型建模，并将相应结果表现在图上。

图7

对比图7a和图7b中的实线会发现虽然训练模型的数据是不一样的，但支持向量学习机（模型的损失系数 $C = 1$ ）的模型结果是一模一样的。换句话说，新加入的数据对模型结果没有影响。从数据的角度来讲，由于新加入的数据远离分离超平面，所以它们在支持向量学习机这个模型里的权重等于0。这正是支持向量学习机的隐含假设：每个数据点权重其实并不一样，越靠近分离超平面，数据的权重也就越大。而且损失系数 $C$ 越大（hard margin），数据权重不一样的现象也就越严重，如图8所示， hard margin在两组数据里的模型结果是一样的，而soft margin的结果则有较大变化。支持向量学习机的这个隐含假设其实有严谨的数学证明。

图8

对这种模型隐含假设的理解是至关重要的。毫不夸张地说，这是区分优秀数据科学家的标准之一。这种隐含假设与模型的其他假设不同，在搭建模型时并没有被明确地提出，所以往往被大家忽略，但它们对模型结果的影响又是巨大的。建模时，如果忽略或者没能正确地处理这种假设，会导致模型结果较差甚至完全错误，而且会让人产生错误的幻觉：数据满足模型的每一个假设，但模型的效果就是不好。
而逻辑回归则没有这样的隐含假设，除非特殊处理，模型对每个数据点的权重都是一样的。因此当加入新数据后，模型的结果发生了比较大的改变，如图7a和图7b中的点线所示。
总结一下，这两个模型对数据权重的隐含假设并不相同。这也给了我们选择模型的一个依据，如果希望模型对数据中靠近“边缘” 的点更加敏感，则推荐使用hard margin支持向量学习机。如果需要综合考虑每一个点，则需要使用逻辑回归或者soft margin支持向量学习机。

2. 核函数

核函数（ kernel function或者kernel trick）是机器学习中十分重要的数据处理技巧。 通过核函数，我们可以将原空间中非线性的数据映射为高维或无限维空间中近似线性关系的数据。 既然在新的空间里，数据是近似线性关系，那么就可以使用线性模型对其建模分析。这和本书一直强调的建模思路是一致的：通过某种数学变换，将非线性问题转换为线性问题解决。

在实际生产中，核函数常常结合支持向量学习机一起使用，使得模型能够解决各类非线性分类问题。当然，几乎所有的机器学习模型都可以搭配核函数使用，比如线性回归模型加上核函数得到所谓的核岭回归（Kernel Ridge Regression，KRR）。虽然机器学习的模型繁多，差异很大，但它们搭配核函数的方法大体上是一致的，因此本节以支持向量学习机为例，讨论核函数的使用。

2.1 空间变换：从非线性到线性

在第1节中，我们讨论了经典的支持向量学习机。它也被称为线性支持向量学习机，因为它建模的思路就是用一个线性的分离超平面去解决数据的分类问题。虽然对于线性不可分的数据， 1.4节提供了所谓的soft margin解决方案，但这种方法只是部分（很少的一部分）解决了非线性数据的分类问题。对于绝大部分的非线性分类问题，它是无法很好解决的。以二维空间为例，从直观上来讲， soft margin的模型结果依然是一条直线。那如果数据本身就是按一条曲线来区分类别的呢？在这种情况下，数据不再满足soft margin的模型假设，因此最后的模型效果一定不好。

用一个具体的例子来展现上面描述的问题。如图9a所示，沿用之前的表示方式，圆点表示类别1，三角形表示类别0。直观上，对于图中表示的数据，无论怎么画直线，都没有办法将两种类别的数据很好地分开，因为类别1的数据好像被类别0的数据紧紧地“包围” 住。事实上如果对这批数据使用线性支持向量学习机模型，得到的结果就是所有数据都被预测为类别0。

图9

但如果换个角度，在图中画一个以原点为中心，半径为1的圆圈，则刚好可以很完美地将两个类别的数据分开，如图9a所示，三角形全部落在圆圈外的灰色区域。这么看来，为了解决这个问题，需要重新设计一款“圆圈版” 的支持向量学习机，但事情并没有想象中那么复杂。从空间变换的角度重新梳理一下“画圆圈” 这件事情，假设图9a的横纵坐标为 $x_1,x_2$ ，如图9b所示，将坐标系的横坐标改为 $x_1^2$ 、纵坐标改为。 $x_2^2$ 那么图9a中的圆圈就变成了图9b中的直线，而圆圈内的圆点会落在新坐标系下的左下角三角区域内。这样，原本非线性的分类问题在新的坐标系下就变成了线性的分类问题，而后者可以用支持向量学习机完美地解决。将上面的整个过程抽象为严格的数学语言。

假设分类问题的原始数据为 ${X_i,y_i\}$ ，其中， $X_i$ 为自变量， $y_i$ 为被预测量。
找到一个非线性的空间变换 $\phi$ ，将数据转换为 $\{\phi(X_i),y_i\}$ 。比如上面的例子中， $X_i=(x_{1,i},x_{2,i})$ 、 $\phi(X_i)=X_i=(x_{1,i}^2,x_{2,i}^2)$ 。
使用转换后的新数据训练模型，并得到如下的预测公式，它与公式（18-9）（线性支持向量学习机的预测公式）非常相似。

$\hat{y_i}=sign(\hat{w}\cdot \phi(X_i) +\hat{c})$ （2-1）

这个方法在理论上很完美，但实际上很难直接使用，原因主要有两个。首先，很难得到转换函数 $\phi$ 的具体表达式。在上面的例子中，数据只是二维的，我们通过将其可视化才联想到相应的转换函数。在实际产生中，数据是高维的，很难将其可视化。即使能将数据直观地呈现出来，也很难从中联想到要如何做高维空间之间的变换。其次，对于非线性分类问题，往往要将原始数据转换到高维空间才能达到近似线性可分的目的（这其实相当于从原始数据中提取更多特征来搭建模型）。因此，如果直接使用 $\{\phi(X_i),y_i\}$ 训练模型，则常常导致模型的运算复杂度过高，工程上几乎无法实现。

这两个难题可以被核函数很好地解决。核函数是一个比较复杂的数学概念，涉及向量空间的内积和无限维向量空间。为了更好地理解这个概念，先回到支持向量学习机的最优化问题，讨论这个问题的另一种求解方法——拉格朗日对偶。

2.2 拉格朗日对偶

我们在1.4节中介绍了支持向量学习机对应的最优化问题，具体的公式如下：

$\frac 12{\mid\mid w \mid\mid}^2+C\sum_{i}\xi_i$

$y_i (w\cdot X_i +c)\geq1 - \xi_i; \xi_i \geq0$ (2-2)

随后的1.5节讨论了如何将公式（2-2）转换为没有限制条件的最优化问题，但提供的解决方法并不具备普遍性，也没有触及问题的本质。现在，我们将讨论对于这类问题更加简便也更加工程化的解决方法，这就是在机器学习中应用非常广泛的拉格朗日对偶。当然这个方法涉及很多深刻的数学知识，比较复杂，对数学细节不感兴趣的读者可以跳过其中的数学证明，记住结论即可（见图10）。

将公式（2-2）泛化为更加抽象的最优化问题，如公式（2-3）所示：

$minf(\theta)$

$g_i(\theta)\leq0,i=1,...,k$

$h_i(\theta)=0,i=1,...,l$ (2-3)

上面的这个问题在学术上被称为原始问题（primal optimization problem）。基于它定义相应的拉格朗日函数（ Lagrangian或者generalized Lagrangian），其中， $\alpha_i,\beta_i$ 在学术上被称为拉格朗日乘数（Lagrange multiplier）。

$L(\theta,\alpha,\beta)=f(\theta)+\sum_{i}\alpha_ig_i(\theta)+\sum_{i}\beta_ih_i(\theta)$ (2-4)

接下来，违反常规将问题搞得“更复杂” 。不妨设 $P(\theta)=max_{\alpha\geq0,\beta}L(\theta,\alpha,\beta)$ 。当 $\theta$ 的值满足公式（2-3）中的限制条件时，可以得到 $P(\theta)=f(\theta)$ ；当 $\theta$ 的取值不满足限制条件时，也容易得到 $P(\theta)=\infty$ 。因此，公式（2-3）等价于公式（2-5）这个更复杂的双重最优化问题。

$min_{\theta}P(\theta)=min_{\theta}max_{\alpha\geq0,\beta}L(\theta,\alpha,\beta)$ (2-5)

现在定义所谓的对偶问题（dual optimization problem）。不妨设 $D(\alpha,\beta)=min_{\theta}L(\theta,\alpha,\beta)$ ，则公式（ 2-5）的对偶问题为：

$max_{\alpha\geq0,\beta}D(\alpha,\beta)=max_{\alpha\geq0,\beta}min_{\theta}L(\theta,\alpha,\beta)$ (2-6)

在一定条件下（这些条件，当然公式（2-2）都满足，原始问题和对偶问题是等价的。也就是说，求解公式（2-3）可以转换为求解公式（2-6）。而且更重要的一点，这两个问题的最优解一定存在，并满足所谓的卡罗需-库恩-塔克条件（Karush-Kuhn-Tucker conditions， KKT条件）。

不妨设 $\hat{\theta}$ , $\hat{\alpha}$ , $\hat\beta$ 是达到最值时的参数值，即 $L(\hat{\theta},\hat{\alpha},\hat\beta)=min_{\theta}P(\theta)= max_{\alpha\geq0,\beta}D(\alpha,\beta)$ ，那么KKT条件如公式（2-7）所示：

$\frac {\partial L} {\partial \theta}(\hat{\theta},\hat{\alpha},\hat\beta)=0$

$\frac {\partial L} {\partial \beta}(\hat{\theta},\hat{\alpha},\hat\beta)=0$

$\hat{\alpha_i}g_i{(\hat\theta)}=0$

$g_i{(\hat\theta)}\leq0$

$\hat{\alpha_i}\geq0$ （2-7）

有了上面的数学基础，现将公式（2-2）转换为相应的对偶问题。需要注意的是，公式（ 2-2）里只有 $g_i{(\hat\theta)}\leq0$ 这一类限制条件。首先定义相应的拉格朗日函数：

$L(w,c,\xi,\alpha,\gamma)=\frac 12{\mid\mid w \mid\mid}^2+C\sum_{i}\xi_i-\sum_{i}\alpha_i[y_i (w\cdot X_i +c)-1 + \xi_i]-\sum_{i}\gamma_i\xi_i$ （2-8）

于是对偶函数为 $D(\alpha,\gamma)=min_{w,c,\xi} L(w,c,\xi,\alpha,\gamma)$ ，应用公式（2-7）中的第一个等式可以得到：

$\frac {\partial L} {\partial w}=0=>\hat w=\sum_{i}\hat\alpha_iy_iX_i$

$\frac {\partial L} {\partial \xi}=0=>C-\hat\alpha_i-\hat\gamma_i=0$

$\frac {\partial L} {\partial c}=0=>\sum_{i}y_i \hat\alpha_i=0$ （2-9）

注意到 $\hat w=\sum_{i}\hat\alpha_iy_iX_i$ ，于是模型的预测公式可以写为公式（2-10），其中 $X_i \cdot X_j$ 表示两个向量之间的内积。

$\hat y_j=sign(\sum_{i}\hat\alpha_iy_i(X_i \cdot X_j)+ \hat c)$ （2-10）

经过一些比较复杂的计算，可以得到支持向量学习机的对偶形式（公式（ 2-11）），整个过程如图10所示。

$max_\alpha\sum_{i}\alpha_i-\frac 12\sum_{i,j}y_iy_j\alpha_i\alpha_j(X_i \cdot X_j)$

$0\leq\alpha_i \leq C ，\sum_{i}\alpha_iy_i =0$ （2-11）

图10

2.3 支持向量

将模型转换成相应的对偶问题能帮助我们更深刻地理解模型。比如公式（2-10）就清楚地展示了支持向量学习机是如何使用训练数据的，以及后者是如何影响预测结果的。

首先，分别计算被预测点 $X_j$ 和训练数据里各点 $X_i$ 的内积，即 $X_i \cdot X_j$ 。
然后，将这些得到的内积作为权重去加权平均训练数据里的因变量 $\hat\alpha_iy_i$ ，得到最终的预测值。

事实上，由于向量内积 $X_i \cdot X_j$ 在某种程度上可以度量 $X_j$ 和 $X_i$ 的相似度，因此支持向量学习机（几乎所有的算法模型也都这样）做模型的思路可以理解为： 寻找与被预测数据相似的训练数据，并将相应的因变量加权平均得到最后的预测值。 由此可以看到，模型在本质上是训练数据的一种数学组合（常常是线性组合），数据质量在很大程度上决定了最后效果的好坏。因此在机器学习领域有这样一个共识： 数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

回到公式（2-10），从表面上来看，每一个训练数据都会对预测结果产生影响，但实际上并非如此。不妨假设训练数据 $i$ 满足 $y_i (\hat w\cdot X_i +\hat c)>1$ ，相应的约束条件为 $g_i=1-y_i (\hat w\cdot X_i +\hat c)-\hat \xi_i$ 。根据KKT条件，可得 $\hat{\alpha_i}g_i=0$ ，而 $g_i=1-y_i (\hat w\cdot X_i +\hat c)-\hat \xi_i<0$ ，这说明 $\hat{\alpha_i} =0$ 。

以二维空间为例，直观理解这一结论：对于如图11所示的模型结果，若数据落在两条虚线外，则它的权重肯定等于0；只有落在虚线上或两条虚线内的点，它的权重才有可能不等于0。这些点在学术上被称为支持向量（support vectors），这也是支持向量学习机这个名字的来源。

图11

2.4 核函数的定义：优化运算

在研究了支持向量学习机的对偶问题后，接下来就将讨论什么是核函数以及如何使用它解决非线性分类问题。

与2.1节中的记号一致，不妨假设原始数据为 ${X_i,y_i\}$ 以及非线性的空间变换为 $\phi$ ，那么支持向量学习机的实际训练数据是 $\{\phi(X_i),y_i\}$ 。如果借助模型的对偶问题（事实上，只需将图10中的内积运算 $X_i \cdot X_j$ 替换为 $\phi(X_i) \cdot \phi(X_j)$ 就可以得到空间变换后的最优化问题），完成模型训练其实并不需要 $\phi$ 的具体表达式，只需知道内积 $\phi(X_i) \cdot \phi(X_j)$ 。这就是所谓的核函数，记为 $K(X_i \cdot X_j)$ 。
$K(X_i \cdot X_j)=\phi(X_i) \cdot \phi(X_j)$ （2-12）

通过一个简单的例子来直观感受一下核函数。在2.1节中，我们通过坐标的平方来做空间变换，现在将它稍稍复杂化一点。定义 $\phi(X_i)=(x_{1,i}^2,x_{2,i}^2,\sqrt2 x_{1,i}x_{2,i})$ ，则可以证明它的核函数如下：

$\phi(X_i) \cdot \phi(X_j)= x_{1,i}^2x_{1,j}^2+x_{2,i}^2x_{2,j}^2+\sqrt2 x_{1,i}x_{2,i}x_{1,j}x_{2,j}$

$\phi(X_i) \cdot \phi(X_j)= (X_i \cdot X_j) ^2=K(X_i \cdot X_j)$ （2-13）

对于一个已知的空间变换 $\phi$ ，使用核函数比直接计算向量内积 $\phi(X_i) \cdot \phi(X_j)$ 更加高效。特别是当数据 $\phi(X_i)$ 的维度很高时，核函数能极大地减少模型的运算量。反过来，当在模型里使用某个核函数 $K(X_i \cdot X_j)$ 时，我们在不知不觉间完成了原始空间到某个新空间的映射（通常并不知道空间变换的具体形式），并在此过程中，将原本几乎无法解决的非线性问题转换为容易解决的线性问题，整个过程就像变魔法一样。
虽然核函数在理论上十分完美，但在实际应用中，常常面临如下的两大难题：第一，如何知道一个函数是否为核函数；第二，对于当前的建模数据，哪个核函数是最合适的。
对于第一个问题，核函数的证明是比较困难的。但好在数学家们已经找到了一些对大多数场景都适用的核函数，具体的细节请参考2.5节。对于第二个问题，并没有一个特别完美的解决方法。如果对核函数隐含的空间变换有足够深刻的理解，可以通过分析问题场景，选择合适的核函数。但在实际生产中，最常用的方法还是将常用的核函数当成超参数（hyperparameter），使用网格搜寻（gridsearch）的方法找到效果最好的核函数。

2.5 常用的核函数

常用的核函数被列举在图12中。由于本章使用scikit-learn搭建模型，为了便于读者使用开源算法，在介绍核函数时，将使用同算法API相同的参数记号。

图12

借助scikit-learn，在支持向量学习机中使用核函数非常简单。具体的代码如程序清单2所示。

（1）可以通过类SVC的“kernel”参数选择使用的核函数。既可以传入核函数名字符串，如1.6节中的“SVC(kernel='linear')”，也可以传入算法库里定义好的核函数类，如第9～ 12行代码所示。这两种方法的差别在于，前者支持的核函数选项较少，比如它不支持Laplacian kernel，但后者支持。

（2）对于核函数， SVC还有一些其他的常用参数，比如“gamma” “coef0”以及“degree”等。它们对核函数的影响请参考图12。正如2.4节中讨论的，这些参数其实都是模型的超参数，常使用网格搜寻的方法来找到它们最合适的取值。

运行上面的代码，对图9里的“圆圈” 数据做分类，可以得到如图13所示的结果。图中的圆点表示类别1，三角形表示类别0；灰色区域表示预测结果等于类别0，而白色区域为预测结果等于类别1。图中的实线是分离超平面，而虚线表示支持向量所在的范围。

模型的结果显示，线性支持向量学习机的效果很差，而多项式核函数（ polynomial kernel），高斯核函数（RBF kernel）和拉普拉斯核函数（Laplacian kernel）都能比较好地解决这个非线性分类问题。

图13

我们能够比较好地理解为什么多项式核函数对这个问题的效果很好：因为变换后的空间里恰好包含 $x_{1}^2,x_{2}^2)$ 。但为什么高斯核函数和拉普拉斯核函数的效果也不错呢？要很严谨地解释这个问题的原因需要比较深厚的数学功底。因此，这里只提供一个不太严谨的直观解释。高斯核函数对应着将数据映射到无限维空间，虽然这个空间并不包含 $x_{1}^2,x_{2}^2)$ ，但数据在变换后的空间里分布得非常“光滑” 。而“光滑” 的新数据使得很多问题（包括图13所示的分类问题）变得简单，模型的效果也很好。这也是为什么说高斯核函数是魔力十足的核函数。对于拉普拉斯核函数，虽然它也将数据映射到无限维空间，但变换后的数据不如高斯核函数那样的“光滑” ，所以模型效果也通常不如后者。

2.6 Scale variant

前面的章节中主要讨论了支持向量学习机的理论细节。本节作为介绍这个模型的最后一部分，将讨论在实际使用支持向量学习机时，常碰到但又经常被人忽略的一点：支持向量学习机与线性回归和逻辑回归不同，它对特征（自变量）的线性变换不稳定。在学术上，这一点被称为scale variant。

为了便于理解，先从一个具体的例子开始讲起。我们沿用2.1节中的非线性分类数据，这份数据的自变量有两个 $x_1,x_2$ 。这两个变量的中心位置和变化幅度一样的，即它们的期望相同，方差也相等。使用支持向量学习机对数据建模，得到的预测结果来不错，如图14中的标记1所示。

图14

现在对数据的自变量做线性变换得到新的数据集，新数据的自变量为 $z_1.z_2$ ，具体的定义如公式（2-14）所示。在实际生产中，类似的线性变换是经常发生的，比如更换变量 $x_2$ 的计数单位。
$z_1=x_1,z_2=x_2/4$ （2-14）

从直观上来讲，上面的变换并没有改变数据的相对位置，只是从整体上将数据“压扁” 了一些， 如图14中的标记2所示。按理来说，这个线性变换并不影响分类问题的解决。但事实上，对于新的数据集，支持向量学习机的模型效果很差，比如使用高斯核函数时，所有数据的预测结果都是类别0。

上面的例子说明，特征的线性变换（放大或缩小）将极大地影响模型的效果，也就是本节开头所提到的，支持向量学习机对特征的线性变换不稳定。这是因为从数学上来讲，支持向量学习机的预测公式为 $\hat y_j=sign(\sum_{i}\hat\alpha_iy_i(\phi(X_i) \cdot \phi(X_j))+ \hat c)$ ，其中参数的估计值依赖于公式（2-15）。

$max_\alpha\sum_{i}\alpha_i-\frac 12\sum_{i,j}y_iy_j\alpha_i\alpha_j[\phi(X_i) \cdot \phi(X_j)]$

$0\leq\alpha_i \leq C ， \sum_{i}\alpha_iy_i =0$ （2-15）

可以看到，无论是参数估计还是做预测都只涉及向量的内积运算，而后者本身对线性变换是不稳定的。以二维空间里的线性缩放为例，假设 $X_i=(x_{1,i},x_{2,i} )$ 以及 $X_j=(x_{1,j},x_{2,j} )$ ，则这两个向量之间的内积为 $X_i\cdot X_j=x_{1,i}x_{1,j}+x_{2,i}x_{2,j}$ 。若将第二个变量扩大10倍，则相应的数据点变为 $X_i=(x_{1,i},10x_{2,i} )$ 以及 $X_j=(x_{1,j},10x_{2,j} )$ ，它们的内积为 $X_i\cdot X_j=x_{1,i}x_{1,j}+100x_{2,i}x_{2,j}$ 。也就是说，第二个变量的权重是第一个变量的100倍，而且模型无法修正这种变量间的权重差异。类似地，可以证明线性平移，比如第二个变量加上某个常数，也有相似地效应。因此，线性变换会极大地影响模型的预测结果。
从模型的角度来看这个问题，上面的例子说明，如果变量 $A$ 的变化幅度（标准差）是变量 $B$ 的10倍，则对于支持向量学习机而言， $A$ 的重要性是 $B$ 的100倍。这样的隐含假设显然是不合理的，会极大地损害模型效果。为了去掉这个干扰因素，需要将各个变量归一化后使用。即针对变量 $x$ ，通过如公式（2-16）所示的线性变换生成期望为0，方差为1的新变量 $x x$ ，然后使用新变量 $x x$ 搭建模型。
$xx=(x-\overline{x})/std(x)$ （2-16）
图14的标记2到标记1就表示：通过变量归一化，可以提升模型的预测效果。

你可能感兴趣的:(机器学习)

计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&