Lynqwest

算法知识点——（3）监督学习——SVM

一、支持向量机原理

1. SVM目标

2. 距离与数据定义

3. 目标函数推导

4. 目标函数求解

4.1 KKT条件

4.2 拉格朗日乘子法——强对偶性

4.3 拉格朗日乘子法—— 求解

4.4 SMO算法——求解max ()

5. 软间隔

6. SVM核变换

二、常见问题

1. LR和SVM区别

2. SVM损失函数

3. SVM的原理是什么？

4. 对偶计算的作用

5. 为什么SVM对缺失数据、噪声敏感

6. SVM如何处理多分类问题

7. SVM如何处理样本不平衡的问题

8. SVM用在大数据的缺陷

9. SVM优缺点

一、支持向量机原理

1. SVM目标

SVM可以用于二分类或多分类，此处以二分类为例。SVM的目标是寻找一个最优化超平面可以在空间中分割两类数据，这个最优化超平面需要满足的条件是：离其最近的点到其的距离最大化。

一句话解释：最大化离超平面最近点（支持向量）到该平面的距离。

2. 距离与数据定义

点x到空间直线的距离为：

$d=\frac{|w^Tx+b|}{||w||}$ （1）

$y_{i}$ 就是标签，假设这里是二分类问题，其值是1和-1，其保证了不论样本属于哪一类，最终值都保证是正数，则有：

$\large \left\{\begin{matrix} y(x_i)>0 \Leftrightarrow y_i=+1\\ y(x_i)<0 \Leftrightarrow y_i=-1 \end{matrix}\right.\\ \Rightarrow y_i(x^Tx+b)>0$ （2）

3. 目标函数推导

由1中的图可知，支持向量到达我们要优化的超平面的距离就是 $\frac{1}{||w||}$ ，两侧的距离加起来就是 $\frac{2}{||w||}$

则目标函数为：

$\large argmax \quad \frac{1}{||w||}min[y_i\cdot (w^Tx_i+b)]$ （3）

其中min 为找最近的支持向量，argmax为找到什么样的w,b到平面的距离越远越好

假设支持向量到超平面的函数距离设为1，自然其他非最近点的函数距离便是大于1，于是得到不等式约束优化问题：

$\large \left\{\begin{matrix} max \frac{2}{||w||}\\ s.t.\quad y_i(w^Tx_i+b)\geq 1 ,i=1,2,...,m \end{matrix}\right.$ （4）

4. 目标函数求解

由于最大值问题不好求解，因此将公式4转换为：

$\large \left\{\begin{matrix} min\ \frac{1}{2}||w||^2\\ s.t.\quad y_i(w^Tx_i+b)\geq 1 ,i=1,2,...,m \end{matrix}\right.$ （5）

4.1 KKT条件

$\large \frac{\delta L}{\delta w}=0, \quad \frac{\delta L}{\delta b}=0, \quad \frac{\delta L}{\delta \lambda }=0$
$\large \lambda _i[1-y_i(w^Tx_i+b)]=0$
$\large \lambda _i\geq 0$
$\large 1-y_i(w^Tx_i+b)\leqslant 0$

4.2 拉格朗日乘子法——强对偶性

将带约束的优化问题（公式5）转换为不带约束的

$\large L(w,b,\alpha)= \frac{1}{2} ||w||^2 +\sum_{i=1}^{n}\alpha_i[1-y_i(w^Tx_i+b)]$ （6）

分两种情况对公式（6）考虑

（1） $\large 1-y_i(w^Tx_i+b)\geq 0$ 时， $\large max \ L(w,b,\alpha)$ 为无穷大，无意义

（2） $\large 1-y_i(w^Tx_i+b)\leq 0$ 时， $\large max \ L(w,b,\alpha)=\frac{1}{2}||w||^2$

综上， min( 正无穷， $\large \frac{1}{2}||w||^2$ ) = $\large \frac{1}{2}||w||^2$

因此公式（6）可转换为(7)：

根据KKT条件的强对偶性，转换为（8）：

4.3 拉格朗日乘子法—— 求解 $min\ L(w,b,\alpha)$

（1）令 $\large L(w,b,\alpha)$ 分别对w,b求偏导，令其等于0：

（2）带入公式（6），得到：

问题变成（9）：

4.4 SMO算法——求解max ()

（1）求解 $\alpha_i$

SMO的基本思路是先固定 $\alpha_i$ 之外的参数，然后求 $\alpha_i$ 上的极值。由于存在约束 $\small \sum_{i=1}^{m}\alpha_iy_i=0$ ，若固定 $\alpha_i$ 之外的其他变量，则 $\alpha_i$ 可由其他变量导出。

SMO每次选择两个变量 $\alpha_i$ 和 $\alpha_j$ ，并固定其他参数，这样，在参数初始化后，SMO不断执行如下两个步骤直至收敛：

选取一对需要更新的变量 $\alpha_i$ 和 $\alpha_j$
固定 $\alpha_i$ 和 $\alpha_j$ 之外的参数，更新 $\alpha_i$ 和 $\alpha_j$

那么如何选取 $\alpha_i$ 和 $\alpha_j$ ？ SMO先选取违背KKT条件程度最大的变量，然后选取一个使目标函数值增长最快的变量。但由于比较各变量所对应的目标函数值增幅的复杂度过高，因此SMO采用了一个启发式：使选取的两变量所对应样本之间的间隔最大。原因是：这样两个变量有较大的差别，与对两个相似的变量进行更新对比，对他们进行更新会给目标函数更大的变化。

SMO算法之所以高效，是因为固定其他参数后，仅优化两个参数的过程能做到十分高效。

可以将 $\alpha_i$ 和 $\alpha_j$ 消掉，只保留 $\alpha_i$ ，公式（9）就变成了关于 $\alpha_i$ 的单变量二次规划问题，约束是 $\alpha_i$ ⩾0 ，有**闭式解**。

（2）求解b

对于任意支持向量都有，即公式（11）：

理论上，可通过任意支持向量利用式子11求解b，但常用算法：使用所有支持向量求解的平均值

（3）求解w

通过对w偏导公式可得：

至此，解完优化问题。

5. 软间隔

在现实中往往很难确定训练样本是否线性可分，即便恰好找到某个核函数使训练集在特征空间中线性可分，也很难判定这个结果是不是由于过拟合引起的。缓解该问题的一个办法是允许支持向量机在一些样本上出错，为此，引入“软间隔”。

前面的推导我们要求 $y_i(w^Tx_i+b)\geq 1$ ，现在，我们将条件放宽：

$y_i(w^Tx_i+b)\geq 1-\xi _i\quad i=1,2,...,m$

得到新的目标函数

C>0为惩罚参数，代表对离群点的重视程度，C越大，越不想丢掉它们

C越大，对误分类的惩罚越大，分类越严格不能出错， $\xi _i$ 越小

C越小，对误分类的惩罚越小。有更大的错误容忍， $\xi _i$ 越大

得到新的目标函数：

6. SVM核变换

核函数的目标是，对于线性不可分函数，找到一种变换的方法，将其从原始特征空间映射到高维空间，则能线性可分。即计算由n维空间变为n*n维空间。

这样超平面变为：

$w^T{\color{Red} \Phi} {\color{Red} (x_i)}+b=0$

常见的核函数有：

（1）线型核

当样本的特征很多且位数很高时可选用SVM的线型核函数。适用于线性可分的情形，参数少，速度快，对于一般数据，分类效果很理想。

（2）高斯核：

主要用于线性不可分的情形，参数多，分类结果非常依赖与参数，通常采用交叉检验确定最优参数，但是通常比较耗时。

会将原始空间映射为无穷维空间。若 $\sigma$ 很大，则高次特征上的权重实际上衰减的非常快，相当于一个低维子空间；若 $\sigma$ 很小，可将任意数据映射为线性可分，但是随之而来的可能是严重过拟合。通过调整 $\sigma$ ，高斯核具有较高的灵活性

当样本的数量可观且维度不高时，一般优先使用高斯核函数，因为高斯核函数为一种局部性较强的核函数，无论对于大样本还是小样本均有较好的性能且相对于多项式核函数有较小的参数

σ较大，导致高偏差，高次特征衰减越快，偏线性（高斯分布太平滑）；

σ较小，导致高方差。无穷维，可解决任何数据，但易过拟合（高斯分布瘦长）

（3）多项式核函数

适合于正交归一化后的数据

如何选择核函数：

（1）可利用先验知识确定问题是否线性可分

特征数近似等于样本数量：线型核
特征小，样本数正常：高斯核
特征少，样本很大，需要手工添加特征变成第一种情况

（2）交叉验证，尝试不通核函数，找到误差最小的即为效果最好的核函数

（3）混合核函数，将不同核函数结合起来

二、常见问题

1. LR和SVM区别

联系

LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题）
如果不考虑核函数，LR和SVM都是线性分类算法，也就是说他们的分类决策面都是线性的
LR和SVM都是监督学习算法。
LR和SVM都是判别模型。

区别

LR是参数模型，SVM是非参数模型。
从目标函数来看，逻辑回归采用的是Logistical Loss，SVM采用的是hinge loss. 这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑Support Vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。
逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些，SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离。在解决非线性问题时，支持向量机采用核函数的机制，而LR通常不采用核函数的方法。
线性SVM依赖数据表达的距离测度，所以需要对数据先做normalization，LR不受其影响。
SVM的损失函数就自带正则（损失函数中的1/2||w||^2项），这就是为什么SVM是结构风险最小化算法的原因。而LR必须另外在损失函数上添加正则项。

在统计学中，参数模型通常假设总体（随机变量）服从某一个分布，该分布由一些参数确定（比如正太分布由均值和方差确定），在此基础上构建的模型称为参数模型；非参数模型对于总体的分布不做任何假设，只是知道总体是一个随机变量，其分布是存在的（分布中也可能存在参数），但是无法知道其分布的形式，更不知道分布的相关参数，只有在给定一些样本的条件下，能够依据非参数统计的方法进行推断。

经验风险最小化：关于训练样本集的平均损失最小

结构风险最小化：为防止过拟合提出，等同于正则化，在经验风险基础上加上表示模型复杂度的正则项

2. SVM损失函数

3. SVM的原理是什么？

SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。（间隔最大是它有别于感知机）

（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；

（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机；

（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

注：以上各SVM的数学推导应该熟悉：硬间隔最大化（几何间隔）---学习的对偶问题---软间隔最大化（引入松弛变量）---非线性支持向量机（核技巧）。

4. 对偶计算的作用

对偶问题将原始问题中的约束转为了对偶问题中的等式约束
是对偶问题往往更易求解（当我们寻找约束存在时的最优点的时候，约束的存在虽然减小了需要搜寻的范围，但是却使问题变得更加复杂。为了使问题变得易于处理，我们的方法是把目标函数和约束全部融入一个新的函数，即拉格朗日函数，再通过这个函数来寻找最优点。）
方便核函数的引入，进而推广到非线性分类问题
改变了问题的复杂度。原问题的求解复杂度与特征的维数相关，而转成对偶问题后只与问题的变量个数有关。通过拉格朗日算子法使带约束的优化目标转为不带约束的优化函数，使得W和b的偏导数等于零，带入原来的式子，再通过转成对偶问题。由求特征向量w转化为求比例系数a，在原始问题下，求解的复杂度与样本的维度有关，即w的维度。
求解更高效，因为只用求解比例系数a，而比例系数a只有支持向量才为非0，其他全为0.

5. 为什么SVM对缺失数据、噪声敏感

（1）缺失数据

这里说的缺失数据是指缺失某些特征数据，向量数据不完整。SVM没有处理缺失值的策略（决策树有）。而SVM希望样本在特征空间中线性可分，所以特征空间的好坏对SVM的性能很重要。缺失特征数据将影响训练结果的好坏。

（2）噪声数据

SVM的目的是求出与支持向量由最大化距离的直线，以每个样本为圆心，该距离为半径做圆，可近似认为圆内的点与该样本属于相同分类。若出现噪声，那么这个噪声所带来的的错误分类也将最大化，所以SVM对噪声敏感。即一个噪声样本会影响以其到分类超平面的距离为半径的圆内的所有数据的分类效果。

6. SVM如何处理多分类问题

（1）直接法

直接在目标函数上修改，将多个分类面的参数求解合并到一个最优化问题里面。看似简单但是计算复杂度非常大，实现起来较为困难，只适用于小型问题中。

（2）间接法一对多

对每个类都训练出一个分类器，设定目标类为一类，其余类为另外一类。这样针对k个类可以训练出k个分类器，当有一个新的样本来的时候，用这k个分类器来测试，那个分类器的概率高，那么这个样本就属于哪一类。这种方法效果不太好，bias比较高。

（3）间接法一对一

针对任意两个类训练出一个分类器，如果有k类，一共训练出 $\small C_{n}^{2}$ 个分类器，这样当有一个新的样本要来的时候，用这 $\small C_{n}^{2}$ 个分类器来测试，每当被判定属于某一类的时候，该类就加一，最后票数最多的类别被认定为该样本的类。这种方法虽好，但是需要 $\small C_{n}^{2}$ 个分类器代价太大。

（4）层次支持向量机

层次分类法首先将所有类别分成两个子类，再将子类进一步划分成为两个次级子类，如此循环，直到得到一个单独的类别为止

7. SVM如何处理样本不平衡的问题

（1）调整惩罚因子

给样本数量少的负类更大的惩罚因子，表示重视这部分样本

（2）调整样本

欠采样、过采样

8. SVM用在大数据的缺陷

SVM的空间消耗主要是存储训练样本和核矩阵，由于SVM是借助二次规划来求解支持向量，而求解二次规划将涉及m阶矩阵的计算（m为样本的个数），当m很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。若数据量较大，SVM训练时间就会较长。

9. SVM优缺点

优点：

使用核函数可以向高维空间进行映射，解决非线性的分类
分类思想简单，将样本与决策面的间隔最大化
分类效果较好

缺点：

对大规模数据训练比较困难，因为是二次规划求解
无法支持多分类，但是可以使用间接方法做
对缺失数据敏感，对核函数选择敏感，对离群点敏感

参考文献：

1. svm原理详细推导

2. 机器学习】支持向量机SVM原理及推导

3. 机器学习：支持向量机SVM原理与理解

4. 支持向量机原理(三)线性不可分支持向量机与核函数

5. 《机器学习》周志华

6.数据挖掘（机器学习）面试--SVM面试常考问题

算法知识点——常用输入输出数据的方式 shan_shmily 算法
如果输入的每组数据的结果不相互干扰的话，就可以在本次操作的时候将该组数据的相关结果进行输出。1、n组输入输出(n确定）scanf("%d",&n);while(n--){scanf("%d%d",&a,&b);printf("%d%d\n",a,b);}cin>>n;while(n--){cin>>a>>b;cout>a>>b){cout>n){while(n--){cin>>a>>b;cout<
算法知识点————【LRU算法】 shan_shmily 算法
思想：淘汰最久没有使用的应用场景：手机清后台的时候先清最久没有使用的应用设计一种数据结构：接收一个capacity参数作为缓存的最大容量，然后实现两个API，一个是put(key,val)方法存入键值对，另一个是get(key)方法获取key对应的val，如果key不存在则返回-1。要求：get和put方法必须都是O(1)的时间复杂度。哈希链表：哈希的查找配合双向链表的快速插入和删除classNo
蓝桥杯备赛情报收集 Unen030 蓝桥杯数据结构算法
情报大纲正需竞赛大纲解析视频公开课回放46章，46h算法知识点思维导图VIP：官方视频题解+压轴题单+微信群？再看每日一题算法赛分入门赛/挑战赛比赛常有省赛无忧班320元，持续3月金牌选手精讲、微信国赛选手答疑、25场直播带练题VIP刷题会员90天/100元会员内容很有用？官方视频题解+压轴题单+微信群？视频题解压轴题单3000+算法题暂时不太需要框架等实战赛编程基础课，基础语言到框架专属客服&技
算法——滑动窗口+前缀和 debugBiubiubiu2000 数据结构和算法算法滑动窗口前缀和差分数组 leetcode
在刷leetcode时，看到一道精选的题解一次搞定前缀和觉得非常有用，文章的作者总结了关于滑动窗口和前缀和的知识点，于是想着在自己的博客做个记录，方便自己后面的学习回顾。该作者的关于其他算法知识的总结：算法知识点总结滑动窗口滑动窗口这一内容复制粘贴于：滑动窗口常见套路滑动窗口主要用来处理连续问题。比如题目求解“连续子串xxxx”，“连续子数组xxxx”，就应该可以想到滑动窗口。能不能解决另说，但是
面试前需要巩固的算法知识点（自用，更新中） High0.0 面试知识点（自用）算法面试排序算法
文章目录前言零、常规算法知识1.什么二分法？一、排序1.有哪些排序算法，排序算法的稳定性、空间复杂度和时间复杂度2.常考排序算法代码实现3.什么时候用快速排序，什么时候用插入排序？4.快速排序什么情况下会有最坏的时间复杂度？如何优化？二、图论1.并查集2.最小生成树3.最短路径三、高级数据结构1.字典树2.跳表3.树状数组4.AVL树、红黑树、B+树四、手撕代码相关1.HOT1002.剑指offe
蓝桥杯备赛 week 1 —— DP 背包问题代码菌@ 蓝桥杯备赛指南蓝桥杯 c++c语言学习笔记 c
目录前言：01背包问题分析：dp数组求解：优化：滚动数组：完全背包问题总结前言：这篇文章主要是准备蓝桥杯竞赛同学所写，为你更好准备蓝桥杯比赛涉及的算法知识点。不知道你是否苦恼于不知算法从何学起，苦恼于网上资料稀少，或者复杂难懂，这篇文章就是帮助这部分同学的。本篇文章适合基础较弱或零基础的同学，不会涉及晦涩难懂的公式，只是提供算法的思路，题解会从基础讲解，不会涉及大量复杂的证明，重要的是学废思想。背
蓝桥杯备赛 day 3 —— 高精度（C/C++，零基础，配图）代码菌@ 蓝桥杯备赛指南蓝桥杯 c语言 c++学习
目录前言：高精度的概念高精度加法和其模板高精度减法和其模板高精度乘法和其模板高精度除法和其模板总结前言：这篇文章主要是准备蓝桥杯竞赛同学所写，为你更好准备蓝桥杯比赛涉及的算法知识点。不知道你是否苦恼于不知算法从何学起，苦恼于网上资料稀少，或者复杂难懂，这篇文章就是帮助这部分同学的。下面整理了蓝桥杯考点大纲：蓝桥杯考点大纲如果你对vecto数组r有兴趣，也可以阅读下面这篇文章，当然没了解vector
面试必备！七大分类算法模型最全总结，内容太通透了！ Python数据挖掘深度学习机器学习 python 分类数据挖掘人工智能机器学习算法数据分析 python
这几天，很多人私聊，说是放假在学习算法，巩固算法知识点，方面后续春招面试使用。老规矩：大家伙如果觉得近期文章还不错！欢迎大家点个赞、收藏咱们今天就从下面7种算法模型为出发点，进行总结性的介绍，分别汇总核心的公式、优缺点以及最适用的场景方面介绍。文末还有一份面试大礼包，为大家找到称心的OFFER，助力一把火。文章目录逻辑回归核心公式优点缺点适用场景一个核心案例代码决策树核心步骤优点缺点适用场景一个核
蓝桥杯备赛 day 2 —— 二分算法（C/C++，零基础，配图）代码菌@ 蓝桥杯备赛指南蓝桥杯算法 c语言 c++数据结构学习
目录前言：二分的概念整数二分二分的模板习题总结前言：这篇文章主要是准备蓝桥杯竞赛同学所写，为你更好准备蓝桥杯比赛涉及的算法知识点。不知道你是否苦恼于不知算法从何学起，苦恼于网上资料稀少，或者复杂难懂，这篇文章就是帮助这部分同学的。下面整理了蓝桥杯考点大纲：蓝桥杯考点大纲通过上图，我们知道二分在蓝桥杯比赛中也是比较重要的，所以我们这里就单独写了一篇文章介绍，不仅是因为比较重要，而且二分算法对于刚接触
贪心算法之最优装载问题 Lion Long 数据结构与算法贪心算法算法数据结构排序算法 c++
最优装载问题贪心算法算法知识点算法题目描述做题思路算法实现算法复杂度分析14天阅读挑战赛努力是为了不平庸~。数据结构+算法=程序。数据结构是程序的骨架，算法是程序的灵魂。贪心算法具有贪心选择和最优子结构性质就可以使用贪心算法。算法知识点（1）贪心策略，选择当前看上去最好的一个方案。例如，挑选苹果，如果认为个头最大的是最好的，那每次从苹果堆中拿一个最大的，作为最优解；如果认为最红的苹果最好，那么每次
【操作系统原理与实践】常见计算题整理：原理+例题明月出天山_ 操作系统原理与实践网络嵌入式硬件硬件架构
调度算法知识点回顾先来先服务算法FCFS：按照作业提交或进程变为就绪状态的先后次序，分派CPU；当前作业或进程占用CPU，直到执行完或阻塞，才主动地出让CPU。短作业优先算法SJF：是指对短作业或短进程优先调度的算法。它们可以分别用于作业调度和进程调度。高响应比优先调度算法HRRN：赋予作业动态优先级，优先级随作业等待时间延长而增加，从而使长作业的优先级在等待期间不断增加。优先权=等待时间+要求服
算法知识点----位运算、向上取整 back2childhood 算法算法
判断奇偶性：数值x为偶数当且仅当(x&1)==0。数值x为奇数当且仅当(x&1)==1。交换两个数：使用异或操作符^进行交换。假设有变量a和b，则可以使用以下公式交换它们的值：a=a^b;b=a^b;a=a^b;取绝对值：使用按位与操作符&和减法操作符-取绝对值。假设有变量x，则可以使用以下公式获取x的绝对值：intabsX=(x^(x>>31))-(x>>31);判断二进制数中1的个数：使用位计
蓝桥杯备赛 day 1 —— 递归、递归、枚举算法（C/C++，零基础，配图）代码菌@ 蓝桥杯备赛指南算法 c++c语言数据结构蓝桥杯学习
目录前言枚举的概念递归的概念例题：1.递归实现指数型枚举2.递归实现排列型枚举3.递归实现组合型枚举递推的概念例题：斐波那契数列习题1.带分数2.反硬币3.费解的开关总结前言：这篇文章主要是准备蓝桥杯竞赛同学所写，为你更好准备蓝桥杯比赛涉及的算法知识点。不知道你是否苦恼于不知算法从何学起，苦恼于网上资料稀少，或者复杂难懂，这篇文章就是帮助这部分同学的。这篇文章会将C平滑过度到C++，如果你只学过C
一致性算法 ITWUYI java 一致性算法 java 一致性算法
一致性算法知识点（1）PaxosPaxos算法解决的问题是一个分布式系统如何就某个值（决议）达成一致。一个典型的场景是，在一个分布式数据库系统中，如果各节点的初始状态一致，每个节点执行相同的操作序列，那么他们最后能得到一个一致的状态。为保证每个节点执行相同的命令序列，需要在每一条指令上执行一个“一致性算法”以保证每个节点看到的指令一致。zookeeper使用的zab算法是该算法的一个实现。在Pax
猴子吃桃问题冯运山算法 c++数据结构
14天阅读挑战赛努力是为了不平庸~算法学习有些时候是枯燥的，这一次，让我们先人一步，趣学算法！欢迎记录下你的那些努力时刻（算法学习知识点/算法题解/遇到的算法bug/等等），在分享的同时加深对于算法的理解，同时吸收他人的奇思妙想，一起见证技术er的成长~标题猴子吃桃问题算法知识点可以利用循环和递归进行简单的进行运算算法题目来源课本习题做题思路我们采用逆推的方法，先找规律。如果是两天->第二天x(桃
python数据结构与算法知识点_数据结构与算法：快速排序(原理讲解+python实现) weixin_39811478
快速排序快速排序是一种基于分治法(DivideandConquer)的排序算法它之所以称为快速排序是因为它的平均时间复杂度为O(nlogn)，最坏情况下是O(n2)但是这样的情况不常见一般需要每次划分的左右两边元素个数为1个和n-1个比如已排好序的数组。大部分的情况都会是大致均匀划分的情况。原理讲解基于分治法，快速排序操作步骤如下：1.选择一个基准值(pivot)在这里我选择列表第一个元素作为基准
【蓝桥杯PythonB组备赛】【Acwing周赛】第91场非常详细的过程思路分析理解分享Python解秃头小二 python 蓝桥杯蓝桥杯算法学习 python 贪心算法
好难哈哈哈我依旧只做对了第一题，第二题在比赛结束后才做出来……不过没关系每天努力一点啦~分享一下个人做的解析，供大家参考，一起努力哇！目录AAcWing4861.构造数列1.题目描述2.思路分析3.代码实现BAcWing4862.浇花1.题目描述2.思路分析3.代码实现CAcWing4863.构造新矩阵1.题目描述2.思路分析3.代码实现4.算法知识点补充——二分模板AAcWing4861.构造数
2022辽宁省赛（A,B,D,E,F,G,I,M）追随远方的某R 算法刷题算法 c++图论
H题放了，另外两题有锅，没有写的必要了。按照区域赛的标准分级一下。这套题区分度挺好的，考察的内容偏向思维和小的算法知识点还有一些数学的内容，我单挑大概能到7-8题的样子（谁说vp银不算银（不是）），就是锅太多了，还好锅题没影响特别大。而且牛客的机器最多每秒1e7-2e7的样子，出题人的数据范围都挺大的，不注意的话容易被卡常。题面都中文，自己看吧签到：ABEMA思路：无思路，输出即可#include
JAVA数据结构——归并排序 Karry D 算法
14天阅读挑战赛努力是为了不平庸~算法学习有些时候是枯燥的，这一次，让我们先人一步，趣学算法！欢迎记录下你的那些努力时刻（算法学习知识点/算法题解/遇到的算法bug/等等），在分享的同时加深对于算法的理解，同时吸收他人的奇思妙想，一起见证技术er的成长~算法知识点提示：简单描述OR总结所学习的算法知识点，可列举文字/图片/视频教程归并排序归并排序(MergeSort)是建立在归并操作上的一种有效的
【精选】计算机系统基础知识点汇总，超全！！！ Jinmindong web安全安全 linux 网络
计算基础知识点合集来啦！！！更多知识请关注我！！！近期内容：[第二章数据结构与算法知识点总结][第三章程序设计基础知识点整理][第四章软件工程基础知识点汇总][第五章数据库基础知识[pyhon基础知识（理论）][Python常见标准库与第三方库][【可与python】数据结构与算法python实现，内含思路讲解][【挑战30天掌握】算法与数据结构！！！]目录第一章计算机系统1.1概述1.1.1计算
js逻辑封装_加密解密乖女子@@@ #加密 #插件 javascript java 开发语言
目录知识点1-加密分类[1]对称加密[2]⾮对称加密[3]摘要算法知识点2-加密算法md5加密js-md5插件实现md5加密crypto-js插件实现md5加密esc加密解密crypto-js插件实现esc加解密加密的本质是对原来为明⽂的⽂件或数据按某种算法进⾏处理，使其成为不可读的⼀段代码。知识点1-加密分类[1]对称加密定义：对称加密指加密和解密使⽤相同密钥的加密算法，也称为单密钥加密。特点：
leetcode刷题——回溯算法知识点 thisissally 算法算法 leetcode 职场和发展
一、什么是回溯？定义：回溯法也可以叫做回溯搜索法，它是一种搜索的方式。回溯是递归的副产品，只要有递归就会有回溯。回溯函数也就是递归函数，指的都是一个函数。效率：因为回溯的本质是穷举，穷举所有可能，然后选出我们想要的答案，如果想让回溯法高效一些，可以加一些剪枝的操作，但也改不了回溯法就是穷举的本质。回溯法很难，很不好理解，但是回溯法并不是什么高效的算法。适用情况：一些问题能暴力搜出来就不错了，撑死了
最短路径之基于贪心算法的迪杰斯特拉dijkstra算法（有图解，含码源）勾栏听曲_0 数据结构与算法算法 c++贪心算法图搜索算法硬件工程
14天阅读挑战赛努力是为了不平庸~算法学习有些时候是枯燥的，这一次，让我们先人一步，趣学算法！欢迎记录下你的那些努力时刻（算法学习知识点/算法题解/遇到的算法bug/等等），在分享的同时加深对于算法的理解，同时吸收他人的奇思妙想，一起见证技术er的成长~目录迪杰斯特拉算法介绍算法知识点算法思路算法前的准备算法步骤模板代码例题带图解析迪杰斯特拉算法介绍迪杰斯特拉算法(Dijkstra)是由荷兰计算机
多目标优化算法知识点梳理邸笠佘司学习
EA进化算法MOEA多目标进化算法1.MOEA的分类1.1按不同的进化机制分类基于分解的MOEA：是比较早起所使用的方法：聚集函数法。将被优化的所有子目标组合或聚集为单个目标，从而将多目标优化问题转换为单目标优化问题。基于支配关系的MOEA：基于pareto方法的思路是利用基于pareto适应度分配策略从当前进化群体中找出所有非支配个体。典型的算法：NSGA系列、SPEA系列、MOGA、NPGA、
for(auto iter:vec) 及 for(auto &iter:vec) 的典型用法 hnjzsyjyj 信息学竞赛 #基础语法 auto
【算法知识点】C++11标准引入了auto类型说明符。它通过变量的初始值或者表达式中参与运算的数据类型来推断变量的类型。一、for(autoiter:vec)的典型用法#includeusingnamespacestd;intmain(){strings;cin>>s;for(autot:s){coutusingnamespacestd;intmain(){strings;cin>>s;for(a
排序算法知识点思维导图 Ambrose墨默
排序.png以上知识导图包括【排序的基本概念】、【插入排序-（直接插入、折半插入、希尔排序）】、【选择排序-（简单选择排序、堆排序）】、【交换排序-（快速排序、冒泡排序）】、【归并排序-（二路归并排序）】、【基数排序】、【外部排序-（归并排序法、多路平衡树与败者树、置换-选择排序、最佳归并树）】、【各种内部排序的比较、优缺点】、【内部排序算法的应用】等。排序是数据结构中应用最广泛的算法之一，笔者在
程序员必须掌握的核心算法有哪些？ java进阶程序员xx
数据结构与算法应该要学习到哪个程度呢？，说实话，这个问题我不知道要怎么回答你，主要取决于你想学习到哪些程度，不过针对这个问题，我稍微总结一下我学过的算法知识点，以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的，并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构。一、算法最最基础1、时间复杂度2、空间复杂度一般最先接触的就是时间复杂度和空间复杂度的学习了，这两
数据结构与算法知识点总结——思维导图龙跃十二
数据结构算是比较重要的一门课程，在找工作中也是经常被考到。最近笔试老是遇到该类题目，于是就把相关知识点总结下来。数据结构与算法图片下载链接：数据结构与算法-CSDN下载图中涉及到很多知识点详解，本来附了链接，但是导出图片无法打开，于是把所有知识点都放在一个专栏里，若有不严谨的地方欢迎指导。专栏链接：数据结构与算法专栏
程序员必须掌握的核心算法有哪些？七月檐角的喵
由于我之前一直强调数据结构以及算法学习的重要性，所以就有一些读者经常问我，数据结构与算法应该要学习到哪个程度呢？，说实话，这个问题我不知道要怎么回答你，主要取决于你想学习到哪些程度，不过针对这个问题，我稍微总结一下我学过的算法知识点，以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的，并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构，当然，我也会整理一些看过
【机器学习(三)】基于线性回归对波士顿房价预测 i阿极数据分析之术机器学习线性回归 python 开发语言
文章目录专栏导读1、线性回归原理2、实战案例2.1数据说明2.2导入必要的库并加载数据集2.3划分训练集和测试集2.4创建线性回归模型2.5模型预测评价专栏导读✍作者简介：i阿极，CSDNPython领域新星创作者，专注于分享python领域知识。✍本文录入于《数据分析之术》，本专栏精选了经典的机器学习算法进行讲解，针对大学生、初级数据分析工程师精心打造，对机器学习算法知识点逐一击破，不断学习，提
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

算法知识点——（3）监督学习——SVM

一、支持向量机原理

1. SVM目标

2. 距离与数据定义

3. 目标函数推导

4. 目标函数求解

4.1 KKT条件

4.2 拉格朗日乘子法——强对偶性

4.3 拉格朗日乘子法—— 求解

4.4 SMO算法——求解max ()

5. 软间隔

6. SVM核变换

二、常见问题

1. LR和SVM区别

2. SVM损失函数

3. SVM的原理是什么？

4. 对偶计算的作用

5. 为什么SVM对缺失数据、噪声敏感

6. SVM如何处理多分类问题

7. SVM如何处理样本不平衡的问题

8. SVM用在大数据的缺陷

9. SVM优缺点

你可能感兴趣的:(算法知识点)

4.3 拉格朗日乘子法—— 求解 $min\ L(w,b,\alpha)$