ZhShy23

【机器学习原理】SVM支持向量机分类算法

文章目录

一、支持向量机：线性分类器的“王者”
1. 距离
- 2. 支持向量
- 3. 从更高维度看“线性不可分”
二、支持向量机分类的算法原理
- 1. 基本思路
- - (1) 最大间隔
  - (2) 高维映射
  - (3) 核函数
  - (4) 支持向量机的真正运行机制
  - (5) 核技巧
- 2. 数学解析
- - (1) 点到超平面的距离
- (2) 间隔最大化
- - (3) 核函数
- 3. 具体步骤
三、在Python中使用支持向量机分类算法
四、支持向量机分类算法的使用场景

一、支持向量机：线性分类器的“王者”

最大间隔
高维映射
核方法

1. 距离

我们已经从用线性回归套S型马甲（logistic回归）、物以类聚（K近邻）、统计（朴素贝叶斯）和if-else（决策树）等角度思考了分类问题。
回想一下就知道，对数据点的分类实际并不涉及任何“移动”操作，原因也不难想见。数据点的“位置”实质是在不同维度有着不同现实含义的信息，我们当然不可能为了分类而改变这些信息的值。
譬如很常见的中国象棋，我们知道棋子分为红色和黑色两种，开局都要整整齐齐地排列在棋盘上。棋盘中央有一道“楚河汉界”，正好把这两种不同颜色的棋子分开。如果我们的任务是画一条直线把不同颜色的棋子分类，显然轻而易举。既然楚河汉界是红黑两种棋子之间的分割地带，只要找到这条空白地带，然后沿着其中轴画一条线，就一定能把两类棋子分开。
能够对当前数据点进行正确分隔的直线有许多，可是选择哪条最好呢？也许我们本能地就会选择沿中轴画线，可是为什么呢？我们中国人做事都是讲究留有余地的，数据分类也是如此。虽然棋盘上的棋子摆得整齐，但我们说过，自然中的数据可是会随机波动的，如果分隔线不留余地，那么它将对噪声非常敏感。数据出现一点点扰动泛化则误差会变得很大，无法有效进行正确分类，学术上称“鲁棒性很差”。那么怎么提高鲁棒性呢？也很简单，即尽可能地多留点儿余地，而且是要给正负类两边都多留点，使得分割线距离两边都达到最大间隔。

2. 支持向量

支持向量机是一种机器学习算法，其中涉及一个很重要的角色叫“支持向量”，这也是该算法的名字由来。

支持向量机还有一个重要概念叫“间隔（margin）”。回顾刚才的分类，我们的目的是要把两堆不同类的棋子用一条直线隔开，而对这条直线我们也有要求，就是要距离最远。不过，这条空白地带怎么找呢？我们可以俯视整个棋盘，可机器只能进行数值计算，没有这种几何成像能力，必须得先数值化了才能运作。不过好办，我们知道，红色棋子和黑色棋子之间既然有空白地带，那就说明棋子与棋子之间有距离。不过这也有讲究，红色的棋子距离黑色棋子有远有近，就拿黑色的“卒”作为参照物吧，红色的“兵”肯定是离它最近的，而相比之下，红色的“帅”则要远很多。这就是间隔。不难想象，在任何分类任务中，只要找到两种不同的类之间的间隔，就能把两个类分开。如图8-1所示。

让间隔最大化，或者形象一点，让间隔变得“最胖”，就是支持向量机的目标。间隔分为两种，一种叫硬间隔，一种叫软间隔。特别顽固、一点也不通融的是硬间隔，知道会有划错但希望尽可能少的则是软间隔。

3. 从更高维度看“线性不可分”

高维映射是支持向量机最让人注目的部分，也是数学在机器学习算法里能够达到的巅峰。数学上有一种思路，即遇到新的难题时通常分两步解决。第一步，将新问题转化成已经解决的旧问题；第二步，完成转化后，通过老方法加以解决。我们要解决的问题就是，怎样将线性不可分变得线性可分，然后再按老办法寻找最大间隔。

让线性不可分变为线性可分，这不是矛盾吗？不矛盾。线性不可分只是在当前的维度下线性不可分，但如果增加了维度，原本不可分也就可分了。还是以刚才的围棋为例，顾名思义，围棋棋子都是黑白子互相包围在一起，属于线性不可分。但假设有一个武林高手暗运掌力，忽然快速往棋盘上一拍，让白子黑子都垂直往上飞起，同时让黑子飞高一点，白子则相对低一些，这样，平面无法线性区分的黑白子在进入立体空间，多了高度这个维度之后就体现出了区别。这时，只要往飞升的黑白子之间塞入一张薄纸，就把两种棋子分开了（见图8-2）。二维称“线”，三维称“面”，超过三维的就不另外改名字了，统一称“超平面”。
这个解释不但未说清楚，反而引入了两个很让人困扰的问题。一个理论层面的质疑——为什么映射到高维就能保证正负类能够上下分开？一个是应用层面的问题——这个高维空间要怎么找？变成高维空间容易，增加一个维度就能达到提升空间维度，一直增加下去也就成为高维空间，可是肯定不是简单地增加维度就能分开，还得给原有数据点在新的空间安排位置吧，那么怎么安排才合适呢？
我们把问题形象化，为这个“你中有我，我中有你”想象一个具体的样子。不如就想象为一根铁丝，上面串了三枚五角星，我们的目标是用一条直线分出中间的五角星。显然这是一个线性不可分问题。无论直线怎么摆放，中间的五角星一定都会至少与一枚侧边的五角星在一起，从而无法正确区分。不过，对于这个看似不可能的任务，只要稍微弯一下铁丝，使铁丝形成一个U型，这时中间的五角星处在了低端，而两边的五角星被抬高，再往中间插入一条直线，就能正确区分二者了。见图8-3。
既然是线性不可分，那么可以推想需要区别的两类数据点处于一种“你中有我或者我中有你”的状态，最极端的就是一类数据被另一类“包围”，如果用红色和绿色区分这两类数据，图像就变成了“万绿丛中一点红”，在这种情况下显然不可能用任何一条直线来划分二者，也就是无法使用线性方法进行分类（如图8-4左图）。现在我们进行高维映射。高维映射其实是非常具体和实在的方法，没必要神秘化，这里我们选择肉眼可见的方法，即把高维映射想象成在二维空间中倒扣上一只肚子朝上的漏斗，二维空间就变成了三维空间，我们把漏斗移动到红色类（正方形）的数据上方，这时两种颜色的数据就出现了高度差，这时就可以通过插入一块平板分隔二者，也就是可以采用线性的方式进行非线性数据的区分了（如图8-4右图所示）。

总结一下，非线性数据之所以可以用线性方法区分，是因为给原本只有“左右”区别的五角星增加了“上下”维度，出现了线性可分的差别。从另一个角度看，这也是一种用映射方法来解决问题的案例。直线有直线方程，弧线有弧线方程，只需要通过一个映射，就能使得原本线性排列的数据呈弧线排列。对于机器学习用映射来解决问题我们并不陌生，回忆一下，Logistics回归里的“S型马甲”所用的就是这种手法。这就是增加维度来解决线性不可分问题的关键，知道当前分布是什么样子，也知道想要达到的分布是什么样子的，那么，就只要选择合适的映射函数了，也就解决了第二个问题。

二、支持向量机分类的算法原理

1. 基本思路

(1) 最大间隔

支持向量机说到底就是一种“线性分类器”，它以“间隔”作为损失的度量，目标通过不断调整多维的“直线”——超平面，使得间隔最大化。所谓“支持向量”，就是所有数据点中直接参与计算使得间隔最大化的几个数据点，这是支持向量机的得名由来，也是支持向量机的全部核心算法。

(2) 高维映射

其核心就是通过映射，把线性不可分的数据变成线性可分，具体来说就是增加维度，如把原本排成一条直线的正负样本点“掰弯”，或者给原本平铺在同一平面上互相包围的正负样本点添加一个“漏勺”，也就是加了一维高度值，使得非线性分布出现了线性可分的差异，从而最终达到分离正负类的目的，实现用线性分类器对非线性可分样本点进行分类的效果。

(3) 核函数

核函数不是一种函数，而是一类功能性函数，能够在支持向量机中完成高维映射这种功能的函数都称为核函数，也就是说，只要数学函数满足要求，就都可以被用作核函数。不过，无论哪种核函数，其最根本的目的就是完成高维映射，具体完成两项工作，一是增加空间的维度，二是完成对现有数据从原空间到高维空间的映射。
也就是说，核函数和高维映射虽然在讲解时拆分成两个概念，其实都是一个过程，二者可以看作因和果的关系。我们必须首先选定一款核函数，才能通过核函数将数据集进行映射，从而得到高维映射的结果。

(4) 支持向量机的真正运行机制

真正的支持向量机是由间隔最大化和高维映射两大部件组成。间隔最大化是目标，支持向量机的损失函数依靠间隔计算，能让间隔达到最大的就是支持向量机要“学习”的过程。
高维映射用于解决线性不可分问题，可以理解为对数据的“预处理”。对于那些你中有我、间不容发的非线性分布数据，首先通过核函数映射至高维，映射后的数据集呈线性分布，为使用线性方法分类创造了条件。

使用支持向量机进行分类经过三个步骤：

选取一个合适的数学函数作为核函数。
使用核函数进行高维映射，数据点在映射后由原本的线性不可分变为线性可分。
间隔最大化，用间隔作为度量分类效果的损失函数，最终找到能够让间隔最大的超平面，分类也就最终完成了。

(5) 核技巧

在支持向量机中，涉及“核”的术语实际上有三个，分别是核函数、核方法（KernelMethod）和核技巧（Kernel Trick）。核方法和核技巧就是提出需求，核函数则是给出解答。换而言之，核函数是一石二鸟，实际上是完成了两项独立的任务。

任务一是完成核方法提出的要求，就是如何将低维非线性数据映射成高维数据，从而变成线性可分。
任务二是完成核技巧提出的要求，之所以称为“技巧”，是因为核技巧主要是提高核方法的计算效率。
计算间隔涉及向量点积运算，如果先进行高维映射再进行向量点积运算，这会导致运算量激增，尤其是高维向量运算，由于参加运算的维度增加了，运算量也会显著增加。
核技巧简化了这个过程：只需要输入原始向量就能通过核技巧计算直接得到正确的点积结果，而不用把两个向量分别完成高维映射，再进行点积运算，即将两项工作用数学技巧一次就完成。由于无论是目标函数还是决策函数都只涉及输入样本与样本之间的内积，这一运算特点使得我们在实际使用支持向量机算法进行学习时，不需要显式地完成高维映射操作，只需要事先定义核函数即可得到等价的结果，还避免了高维向量的运算，明显提高了运算效果。能够同时满足核方法和核技巧两项要求，才是核函数完整的工作内容。

2. 数学解析

(1) 点到超平面的距离

支持向量机以“间隔”作为损失函数，支持向量机的学习过程就是使得间隔最大化的过程，想了解支持向量机的运转机制，首先就得知道间隔怎么计算。而支持向量机对间隔的定义其实很简单，就是作为支持向量的点到超平面的距离的和，这里的距离就是最常见的几何距离。我们用wx+b来表示超平面，点到三维平面的距离有现成的公式可以套用：
$d=\frac{|Ax_0+By_0+Cz_0+D|}{\sqrt{A^2+B^2+C^2}}\tag{8-1}$

类似的，对于点到N维超平面的距离r，可以用以下公式计算：

$\gamma^{(i)}=\frac{(w^Tx^{(i)}+b)}{\|w\|}\tag{8-2}$

其中被除数 $wx^{(i)}+b$ 是超平面的表达式，除数 $\|w\|$ 就是我们前面所讲的L2范式的简略写法。点到N维超平面的距离的公式计算很简单，形式上与点到三维平面的公式类似，其实当w是三维向量时，二者就是等价的。支持向量机就使用这条公式来计算点到超平面的距离。

(2) 间隔最大化

支持向量机使用y=1表示正类的分类结果，使用y=-1表示负类的分类结果，既然y=wx+b要么大于或等于1，要么小于或等于-1，间隔是由正负类最近的两个数据点，也就是支持向量决定，因此间隔距离也就可以表示为 $\frac{2}{\|w\|}$ （见图8-5）。

我们的目的就是间隔最大化。2是一个常数，所以最大化间隔距离可以表示如下：
$max\frac{1}{\|w\|}\ s.t.,y_i(w^Tx_i+b)\geq1,i=1,\cdots,n\tag{8-3}$
右边的s.t．表示suject to，意思是受到约束，我们把之前的条件写上，相当于“在……的条件下”，使得左边式子最大。分母越小，分数越大，所以左式也可以表示如下：
$min\frac{1}{2}\|w\|^2\tag{8-4}$
这个式子看起来计算很简单，就是求极值，但要注意后面多了个约束条件，问题就稍微变复杂了。这里不具体展开，只需要记得可以用拉格朗日乘子法转化成如下拉格朗日函数：
$L(w,b,a)=\frac{1}{2}\|w\|^2+\sum^m_{i=1}\alpha_i[1-y_i(w^Tx_i+b)]\tag{8-5}$
其中α被称为“拉格朗日乘子”。上式分别对w和b求导，并令导数为0，右式可转化为下式：
$\sum^m_{i=1}\alpha_i - \sum^m_{i=1}\sum^m_{j=1}\alpha_i\alpha_jy_iy_jx^T_ix_j\tag{8-6}$
这时问题就变成了：
$\underset{\alpha}{max}\sum^m_{i=1}\alpha_i - \sum^m_{i=1}\sum^m_{j=1}\alpha_i\alpha_jy_iy_jx^T_ix_j\tag{8-7}$
约束条件为：
$\begin{aligned}& s.t.\ \sum^m_{i=1}\alpha_iy_i=0\\ &\alpha_i\geq0\\\tag{8-8}\end{aligned}$

这个式子通常用二次规划算法SMO（Sequential Minimal Optimization）算法求解。上面的式子转化包含大量复杂的数学概念和运算，这里只需要注意两点，一是支持向量机使用拉格朗日乘子法搭配SMO算法求得间隔最大，二是转化式的末尾为计算 $x^T_ix_j$ ，也就是两个向量的内积。正因为间隔最大化可以转化为向量内积的运算，才使得高维映射可以通过核技巧进行优化。

(3) 核函数

高维映射实际上也是一种函数映射，在支持向量机中，通常采用符号φ来表示这个将数据映射到高维空间的函数，向量xi经过高维映射后就变成了φ(x)i，这时超平面的表达式也就相应变成了wTφ(xi)+b。
根据上述间隔最大化的拉格朗日函数，我们知道需要进行两个向量的内积运算，那么映射后的内积运算为φ(xi)Tφ(xj) 。映射后向量变成高维向量，运算量将明显增加，直接运算会导致效率明显下降。
不过，我们也已经观察到，在间隔最大化的运算中只使用了高维向量内积运算的结果，而没有单独使用高维向量，也就是说，如果能较为简单地求出高维向量的内积，同样可以满足求解间隔最大化的条件。我们可以假设存在函数K，能够满足以下条件：

这里的函数K就是我们前面一再介绍的核函数。有了核函数，所有涉及φ(xi)Tφ(xj)的内积运算都可以通过K(xi,xj)简单求出，这也就是为什么核函数需要一边完成核方法的高维映射，一边又要完成核技巧的求内积结果。对于已知的映射函数φ，核函数是很容易计算的，但在大多数情况下，使用支持向量机时并不知道映射函数φ的具体形式，好在数学家已经证明，在这种情况下数学函数只需要满足几个条件，就同样可以作为核函数，也就确保了核函数的存在性。

3. 具体步骤

使用支持向量机算法，具体需要三步：

选择核函数。
核函数完成高维映射并完成计算间隔所需的内积运算，求得间隔。
使用SMO等算法使得间隔最大。

三、在Python中使用支持向量机分类算法

在Scikit-Learn库中，支持向量机算法族都在sklearn.svm包中，当前版本一共有8个类。看起来也与其他机器学习算法族一样似乎有不少变种，其实并不太一样，支持向量机算法总的来说就一种，只是在核函数上有不同的选择，以及用于解决不同的问题，包括分类问题、回归问题和无监督学习问题中的异常点检测，具体为：

LinearSVC类：基于线性核函数的支持向量机分类算法。
LinearSVR类：基于线性核函数的支持向量机回归算法。
SVC类：可选择多种核函数的支持向量机分类算法，通过“kernel”参数可以传入“linear”选择线性函数、传入“polynomial”选择多项式函数、传入“rbf”选择径向基函数、传入“sigmoid”选择Logistics函数作为核函数，以及设置“precomputed”使用预设核值矩阵。默认以径向基函数作为核函数。
SVR类：可选择多种核函数的支持向量机回归算法。
NuSVC类：与SVC类非常相似，但可通过参数“nu”设置支持向量的数量。
NuSVR类：与SVR类非常相似，但可通过参数“nu”设置支持向量的数量。
OneClassSVM类：用支持向量机算法解决无监督学习的异常点检测问题。

支持向量机分类算法可以通过SVC类调用使用，用法如下：

from sklearn.datasets import load_iris
from sklearn.svm import SVC
import warnings

warnings.filterwarnings("ignore")
X, y = load_iris(return_X_y=True)
clf = SVC().fit(X, y)
# 默认为径向基rbf，可通过kernel查看
print(clf.kernel)
print(clf.predict(X))
print(clf.score(X, y))
===============================================
rbf
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 2 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
0.9866666666666667

四、支持向量机分类算法的使用场景

算法使用案例

国内安全软件厂商360推出的使用面很广的安全软件360杀毒和360安全卫士中都包含了一款名为“QVM人工智能引擎”的杀毒引擎，官方宣称QVM引擎无须频繁升级病毒库，就可以自主查杀各类变种木马病毒。QVM全名“Qihoo SupportVector Machine”，其实已明确表示用的就是支持向量机，推测原理为首先通过海量的病毒库训练支持向量机模型，然后再在用户本地对当前进程/文件是否有害进行分类判别。

机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
DBA（数据库管理员）常用的 Linux 命令笑远 dba linux 数据库
DBA（数据库管理员）常用的Linux命令作为数据库管理员（DBA），熟练掌握Linux命令对于日常的数据库管理、维护和故障排除至关重要。以下是分类整理的一些常用Linux命令，涵盖文件管理、进程管理、性能监控、网络管理等多个方面，帮助DBAs高效地完成工作。1.文件和目录管理列出文件和目录ls：列出目录内容。ls-l：以长格式显示详细信息。ls-a：显示所有文件，包括隐藏文件。ls-la/hom
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
[测试]性能测试的概念, 常见指标, 分类姜西西_ 软件测试测试软件测试安全性测试
文章目录1.什么是性能测试？2.常见性能测试指标并发数吞吐量响应时间并发用户、系统吞吐量、系统响应时间之间的关系事务TPS和QPS资源利用率3.性能测试关注点终端用户系统运维人员软件设计开发人员性能测试人员4.性能测试分类基准测试并发测试负载测试压力测试稳定性测试1.什么是性能测试？概念：为了发现系统性能问题或获取系统性能相关指标而进行的测试。常见的性能问题：查询数据时间过长，网速很慢，服务器无响
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
分布式电商项目谷粒商城学习笔记＜4＞怎么又有bug单 SpringBoot 分布式 java 开发语言阿里压力测试
文章目录十五、压力测试1.一些基本概念2.JVM内存机制3.压测记录4.Nginx动静分离5.优化三级分类查询十六、redisson分布式锁与缓存1.概念2.redis3.缓存失效缓存穿透缓存雪崩缓存击穿互斥锁：4.缓存击穿如何复制微服务：5.分布式缓存概念原则基本流程6.Redisson环境搭建可重入锁锁的续期读写锁信号量（Semaphore）闭锁7.缓存和数据库一致性十五、压力测试这里是使用j
php开发转go的学习计划及课程资料信息老李要转行 php golang 学习
以下是为该课程体系整理的配套教材和教程资源清单，包含书籍、视频、官方文档和实战项目资源，帮助你系统化学习：Go语言学习教材推荐（PHP开发者适配版）一、核心教材（按学习阶段分类）1.基础语法阶段（阶段一）资源类型名称推荐理由链接/获取方式官方教程Go语言之旅交互式学习，快速上手基础语法官方免费中文书籍《Go语言入门指南》专为有其他语言经验的开发者编写京东/当当速查手册Go速查表PHP与Go语法对比
Scheme语言的作用域祝瑾萱包罗万象 golang 开发语言后端
Scheme语言的作用域探讨引言Scheme是一种高度灵活且功能强大的编程语言，属于Lisp家族。它以简洁的语法和强大的表达能力而闻名，广泛应用于教育、研究以及实用软件开发等领域。在Scheme语言中，作用域（scope）是一个重要的概念，直接影响着变量的生命周期及可访问性。本文将深入探讨Scheme语言中的作用域及相关机制，从定义、分类、实现到对编程实践的影响进行详尽的分析。1.什么是作用域？作
Python基础知识---数据与变量、进制转换银白101 python 开发语言
1.1软件开发概述（1）软件定义定义：是指有一系列按照特定顺序组织的计算机数据与指令的集合。程序=数据+指令程序=数据结构+算法软件的分类：系统软件：主要负责管理操作计算机底层的硬件，为用户提供一个操作的界面，为用户提供最基本的计算机功能WindowsLinuxMACAndroidIOSHarmonyOS应用软件：主要负责处理某一特殊领域功能的软件：微信、陌陌、Soul、网易云音乐、支付宝、Off
iOS底层原理之Category分类实现原理解析 UaCode ios 分类 objective-c 编译原理
Category是Objective-C中一种强大的特性，它允许我们向现有的类中添加新的方法，而无需修改原始类的源代码。在本文中，我们将深入探讨Category的实现原理，并提供相应的源代码示例。在Objective-C中，Category是一种用于扩展现有类的机制。通过Category，我们可以为现有的类添加新的方法，或者重写现有类的方法。使用Category，我们能够在不修改原始类的情况下，为
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
运维Tips | Ubuntu 24.04 安装配置 samba 文件共享全栈工程师修炼指南企业IT运维实践运维 ubuntu linux 服务器
[知识是人生的灯塔，只有不断学习，才能照亮前行的道路]Ubuntu24.04安装配置samba文件共享描述：我们将Ubuntu24.04作为机器学习的工作站，往往需要将Ubuntu24.04中的数据或者代码共享给我们其他使用Windows系统的小伙伴，此时我们可以使用SAMBA，开辟出一个文件共享目录供大家进行数据交换使用。SAMBA是什么?在Linux中，SAMBA是一个开源的软件套件，它提供了
人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）基尼系数基于熵机器学习入门
在决策树应用一文中，在构建决策分类树应用决策算法时，介绍了基尼系数（GiniIndex）和基于熵（Entropy）两种算法。本文通过实例来更加深入的介绍一下这两个算法。仍然以简单的数据为例：id喜欢颜色是否有喉结身高性别1绿否165女2蓝是170男3粉否172女4绿是175男基尼系数分别对喜欢颜色是否有喉结求基尼系数如下：喜欢的颜色id喜欢颜色性别1绿女2蓝男3粉女4绿男对于姓别女分类而言，数据如
CSP-J备考冲刺必刷题（C++） | AcWing 5367 不合群数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：5367.不合群数-AcWing
构建未来智能：在Mojo模型中自定义模型架构的艺术 2401_85761003 mojo 架构
构建未来智能：在Mojo模型中自定义模型架构的艺术在深度学习的世界里，模型架构的设计往往决定了算法的性能和适用性。Mojo模型，作为一个假想中的高级机器学习框架，允许用户实现自定义的模型架构来解决特定的问题。本文将深入探讨如何在Mojo模型中实现自定义模型架构，并提供详细的步骤和代码示例，以帮助读者掌握这一强大的技术。自定义模型架构的重要性灵活性自定义模型架构提供了设计适合特定问题需求的模型的灵活
最新计算机专业毕设论文选题大全基于BeautifulSoup的毕业设计详细题目100套优质毕设项目分享(源码+论文)✅ 会写代码的羊毕设选题课程设计 beautifulsoup 毕业设计毕业设计题目毕设题目 python 网络爬虫
文章目录前言最新毕设选题（建议收藏起来）基于BeautifulSoup的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费
MySQL 基本查询语句一个在阴影中的菜鸟 MySQL mysql 数据库 sql
1.SQL分类1.DDL（DataDefinitionLanguages、数据定义语言），这些语句定义了不同的数据库、表、视图、索引等数据库对象，还可以用来创建、删除、修改数据库和数据表的结构。主要的语句关键字包括CREATE、DROP、ALTER等。2.DML（DataManipulationLanguage、数据操作语言），用于添加、删除、更新和查询数据库记录，并检查数据完整性。主要的语句关键
如果我想成为一名大数据和算法工程师，我需要学会哪些技能，获取大厂的offer 红豆和绿豆杂谈大数据算法
成为一名大数据和算法工程师并获取大厂Offer，需要掌握一系列核心技能，并具备丰富的项目经验与扎实的理论基础。以下是详细的技能要求和建议：---###**1.数学与理论基础**-**数学知识**：掌握线性代数、微积分、概率论和统计学，这些是设计和理解算法的基础。-**机器学习理论**：深入理解常见机器学习算法（如线性回归、逻辑回归、决策树、随机森林、SVM、K-means等），了解其原理、优缺点及
关于非线性优化小记文弱_书生乱七八糟算法
非线性优化（NonlinearOptimization）1.什么是非线性优化？非线性优化是指目标函数或约束条件中至少有一个是非线性的优化问题。它广泛应用于工程、经济、人工智能、机器学习等领域，用于求解最优解的问题。非线性优化通常可以表示为以下数学形式：min⁡xf(x)或max⁡xf(x)\min_{x}f(x)\quad\text{或}\quad\max_{x}f(x)xminf(x)或xmax
如何进行需求管理需求管理
进行需求管理的关键在于需求收集、需求分析、需求变更控制。其中，需求收集要求从多渠道获取真实、全面的用户和市场反馈；需求分析则强调对需求进行分类、优先级排序与详细讨论；需求变更控制主张建立严格的审批和追踪机制，确保需求动态调整时产品始终聚焦核心价值。一、明确需求管理的重要性与基本理念在软件开发、产品设计及项目实施过程中，需求管理是整个项目成功的基石。需求管理不仅涉及需求的收集与分析，更包括需求确认、
技术解析麦萌短剧《阴阳无极》：从「性别偏见下的对抗训练」到「分布式江湖的架构重构」短剧萌分布式架构重构
《阴阳无极》以陈千叶的武道觉醒为线索，展现了传统系统的路径依赖困境与对抗性策略的范式突破。本文将从算法博弈视角拆解这场武侠革命的底层逻辑，探讨如何在性别偏见的数据集中完成模型的自我进化。1.初始模型偏差：继承权剥夺与梯度冻结陈千叶（Agent_C）的成长可视为有偏数据集上的训练：特征歧视：太极门继承规则（Legacy_Rule）作为传统分类器，强行将性别（Gender_Feature）设为负权重参
麦萌短剧技术解构《我跑江湖那些年》：从“仇恨驱动型算法”到“多方安全计算的自我救赎” 短剧萌算法安全
《我跑江湖那些年》以慕青青的复仇与蜕变为主线，展现了分布式系统中的信任崩塌与对抗性博弈的模型优化。本文将从机器学习视角拆解这场“江湖算法”的技术隐喻，探讨如何在数据污染的困境中实现参数净化。1.初始训练集：暴力采样与特征空间坍缩慕青青（Agent_M）的成长环境可视为一个高偏差训练集：数据污染事件：村主任（Node_V）通过恶意共识算法（如嫉妒驱动的PoW机制），煽动村民（Sub_Nodes）对果
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

【机器学习原理】SVM支持向量机分类算法

文章目录

一、支持向量机：线性分类器的“王者”

1. 距离

2. 支持向量

3. 从更高维度看“线性不可分”

二、支持向量机分类的算法原理

1. 基本思路

(1) 最大间隔

(2) 高维映射

(3) 核函数

(4) 支持向量机的真正运行机制

(5) 核技巧

2. 数学解析

(1) 点到超平面的距离

(2) 间隔最大化

(3) 核函数

3. 具体步骤

三、在Python中使用支持向量机分类算法

四、支持向量机分类算法的使用场景

你可能感兴趣的:(机器学习,机器学习,支持向量机,分类)