Twilight Sparkle.

【机器学习笔记6】支持向量机【上篇】原理与推导

线性可分与线性不可分

支持向量机（Support Vector Machine）

最大间隔分离超平面

线性可分支持向量机（硬间隔）

线性可分的数学定义

SVM目标函数

目标函数推导过程

凸优化中的二次规划

线性支持向量机（软间隔）

硬间隔与软间隔

松弛因子

合页损失函数（hinge loss function）

SVM的损失函数

非线性支持向量机

将特征空间从低位映射到高维

核函数（Kernel Function）

对偶问题与KKT条件

原问题与对偶问题

强对偶定理

KKT条件

将支持向量机目标函数转化为对偶问题并求解

目标函数转化为原问题形式

变换对偶问题的形式

将原目标函数转化为对偶问题

如何求解这个对偶问题

核函数戏法（Kernel Trick）

总结：支持向量机训练和测试流程

前言：以下为支持向量机学习笔记1，参考教程：

(强推)浙江大学-机器学习_哔哩哔哩_bilibili

支持向量机通俗导论（理解SVM的三层境界）

【太...完整了！】上海交大和腾讯强强联合的机器学习与深度学习课程分享！-人工智能/AI/神经网络_哔哩哔哩_bilibili

线性可分与线性不可分

简单来说，线性可分就是可以用线性函数将两类样本分开。在二维中，表现为一条直线，在三维中为一个平面，而更高维中为超平面。如果不存在这样的线性函数，则为线性不可分。

事实：如果一个数据集是线性可分的，那一定存在无数多个超平面将各个类别分开。

支持向量机（Support Vector Machine）

支持向量机（简称SVM）最初是一种解决二分类的有监督学习算法，SVM的目的为：在给定两类样本的数据集的前提下，寻找一个将两类样本分隔开的超平面，并且使得两类样本之间的边界间隔(margin)最大化。最终得到的超平面被称为决策边界(decision boundary)。

示例（二维）：

上面的三个超平面都可以将不同类别的样本分开，但是哪个是最好的呢？

如果这里判断超平面“好坏”的标准为哪条直线对样本误差的容忍程度最高，那么直线2显然是最好的。支持向量机就是基于最优化理论，来寻找线2的算法。

注意：在支持向量机中，样本输出值都是-1或1。

最大间隔分离超平面

上面那个图可能不太标准，红圈圈住的样本应该刚好在虚线上才对！

我们假定两类数据中间有一个超平面，将这个超平面向两边平移，直到刚好擦过样本为止（图中两条虚线），我们定义这两个超平面刚好经过的训练样本为这个数据集的支持向量(图中红圈所示样本)，把这两个超平面中间的距离叫做间隔（margin）。支持向量机要找的是使间隔最大的那个超平面。并且，求得的超平面只能有一个，所以这个超平面应该处于上线两超平面的中间，即到支持向量距离相等。

于是，支持向量机寻找的最优分类超平面应该满足：

该超平面分开了两类
该超平面最大化了间隔
该超平面处于间隔的中间，到所有支持向量距离相等。

线性可分支持向量机（硬间隔）

线性可分的数学定义

一个训练样本集 ${(\vec x_i,y_i)},i = 1 \sim n$ 线性可分，是指存在 $(\vec w,b)$ 使得：

当时， $\vec w \cdot \vec x_i+b>0$ ,

当时， $\vec w \cdot \vec x_i +b$

（注：有时会看到的形式，意思都一样的。）

SVM目标函数

假定训练样本集线性可分，那么支持向量机寻找的最大化间隔超平面为：

已知训练样本集 ${(\vec x_i,y_i)},i = 1\sim n,y_i = -1 or 1$ ；

求解 $(\vec w,b)$ 使得：

最小化(Minimize): $\frac 1 2||\vec w||^2$

限制条件： $y_i(\vec w\cdot \vec x_i +b) \geq1,(i = 1 \sim n)$

其中 $||\vec w||^2$ (向量模的平方)为， $||\vec w||^2 = w_1^2+w_2^2+...+w_m^2 = \sum_{i=1}^m w_i^2$

我们可以看出，需要求的目标函数其实是凸优化（Convex Optimization）中的二次规划问题。关于目标函数求解，用的是拉格朗日乘子法以及拉格朗日对偶问题求解。拉格朗日乘子法和对偶问题暂时不叙述。这里直接使用凸优化求解包进行求解。

目标函数推导过程

事实1：

$\vec w \cdot \vec x + b = 0$ 与 $a(\vec w\cdot \vec x+b) = 0,(a \ne 0)$ 表示同一个超平面。

事实2：一个点到超平面 $\vec w\cdot \vec x+b = 0$ 的距离为：

$d = \frac{|\vec w\cdot \vec x_0+b|}{||\vec w||}$

假设我们已知最终要求的超平面为： $\vec w\cdot \vec x+b$ ，因为这个超平面在间隔最大的两个平行的超平面正中间，而且上下两个超平面都经过支持向量，所以支持向量到所求超平面的距离应该都是相同的。

于是，我们可以根据事实1，将 $(\vec w,b)$ 放缩为 $(a\vec w,ab)$ ,最终使得：

在支持向量上有 $|\vec w\cdot \vec x_0+b| = 1$ ；

那么显而易见在非支持向量上有 $|\vec w\cdot \vec x_0+b|>1$ 。

（有点难懂，我的理解是a对于每一个支持向量都是一个不同的值，使其满足上述条件，也就是说a并不是一个定值。但是无论a怎么变，都表示的同一个超平面，所以对后续没有影响。至于非支持向量上为什么绝对值都大于1，是因为事实2，因为支持向量离超平面距离是最近的，所以分母相同的情况下，非支持向量作为分子自然就更大。）

变换后，根据事实2，支持向量到超平面的距离将会变为：

$d = \frac{|\vec w\cdot \vec x_0+b|}{||\vec w||} = \frac {1}{||\vec w||}$

我们的目标是使支持向量到超平面的距离最大，也就是 $maximize(\frac 1 {||\vec w||})$ 。

又因 $maximize(\frac 1 {||\vec w||}) = minimize(||\vec w||)$ ，于是我们将问题优化的目标函数定为：

最小化(Minimize)： $\frac 1 2||\vec w||^2$ 。

而最小化 $\frac 1 2||\vec w||^2$ 与最小化 $||\vec w||$ 是完全等价的。之所以写成这种形式，是为了后续求导更加方便。

同时，因为我们将 $(\vec w,b)$ 放缩为 $(a\vec w,ab)$ ,我们可以得到限制条件：

$y_i(\vec w\cdot \vec x_i +b) \geq1,(i = 1 \sim n)$ ，其中，。

凸优化中的二次规划

定义：

目标函数为二次项

限制条件是一次项

因为我们的目标函数 $\frac 1 2||\vec w||^2 = \frac 1 2(w_1^2+w_2^2+...+w_m^2)$ 为二次项,限制条件 $y_i(\vec w\cdot \vec x_i +b) \geq1,(i = 1 \sim n)$ 为一次项，所以满足二次规划。

凸优化的二次规划问题要么无解，要么只有唯一最小值解。于是，我们就可以用梯度下降算法求解啦！另外，只要一个优化问题是凸的，我们总能找到高效快速的算法去解决它。线性可分条件下的支持向量机是凸优化问题，因此能迅速找到高效的算法解决。不过我们不会详细探讨求解凸优化问题，关于凸优化求解是一门专门的课程，有兴趣可以学习《凸优化理论》这门课程。

线性支持向量机（软间隔）

硬间隔与软间隔

硬间隔：间隔内不存在样本。训练集完全分类正确，损失函数不存在，损失值为0。也就是说，找到的超平面完全分离两类。上述都是硬间隔。硬间隔容易受到极端值影响，泛化能力不强，于是我们提出了软间隔。

软间隔：间隔内允许样本存在。允许一定量的样本分类错误，不过这些错误样本范围不会超过间隔区间。软间隔是硬间隔SVM的拓展版本。

松弛因子

注：因为线性支持向量机模拟出的直线允许误差存在，所以根据线性可分的定义，线性支持向量机其实属于线性不可分。

若数据线性不可分，则增加松弛因子 $\zeta_i \geq0$ ,使函数间隔加上松弛变量大于等于1。于是，

约束条件变为: $y_i(\vec w\cdot \vec x_i+b) \geq 1-\zeta_i$

目标函数变为: $minimize_{w,b}(\frac 1 2||\vec w||^2+C\sum_{i=1}^N\zeta_i)$

其中，C为惩罚因子，是为了防止松弛因子过大加入的一个代价。当C等于无穷大，只有当 $\zeta_i = 0$ 时才有最小值，因此，当C为无穷大时，退化为线性可分支持向量机。

目标函数求解依然是代入拉格朗日乘子，转化为对偶问题并求解。

合页损失函数（hinge loss function）

公式： $L(y(\vec w\cdot \vec x+b)) = [1-y(\vec w\cdot \vec x+b)]_+$

下标“+”表示以下情况取正值：

$[z]_+ =\left\{\begin{aligned} z, z>0 \\ 0,z\leq0\end{aligned} \right.$

当函数间隔 $y_i(\vec w\cdot \vec x+b)>1$ 时，即当分类正确并在（软）间隔之外时，损失为0。否则损失为 $1-y_i(\vec w\cdot \vec x+b)$ 。

当样本正确分类， $y_i(\vec w\cdot \vec x+b)>0$ ,反之小于0。

$|y_i(\vec w\cdot \vec x+b)|$ 表示样本与决策边界的距离。绝对值越大，距离决策边界越远。

于是：

当 $y_i(\vec w\cdot \vec x+b)>0$ ,即分类正确情况下，距离决策边界越远区分程度越好。

当 $y_i(\vec w\cdot \vec x+b)<0$ ,即分类错误情况下，距离决策边界越远区分程度越差。

SVM的损失函数

SVM有另一种解释，即最小化以下目标函数：

$\sum_{i=1}^N[1-y_i(\vec w\cdot \vec x_i+b)]_++\lambda||\vec w||^2$

这里不提供相关证明，详情见文章：线性支持向量机-合页损失函数(Hinge Loss)

也就是说，SVM目标函数实际上就是合页损失函数加上 $\lambda||\vec w||^2$ .

非线性支持向量机

将特征空间从低位映射到高维

当遇到如下图所示的非线性数据时，支持向量机的处理是将该训练集的特征从低维映射到高维，在高维仍然采用线性超平面对数据进行分类。

现有以下假设：

假设1：在一个M维空间上随机取N个训练样本，随机的对每个训练样本赋予标签+1或-1，设这些训练样本线性可分的概率为P(M)。那么当M趋于无穷大时，P(M)=1。

这里略去该假设的证明。

也就是说，一个训练集在低维上不可分，但它到高维的映射将会是可分的。于是，支持向量机将训练样本由低维映射到高维以增加线性可分的概率。

我们设 $\phi(x)$ 为在高维上的映射，那么假定 $\phi(x)$ 形式已知的条件下，引入松弛变量的目标函数将会变为：

$minimize_{w,b}(\frac 1 2||\vec w||^2+C\sum_{i=1}^N\zeta_i), \zeta_i\geq0,(i=1\sim n)$

限制条件：

$y_i[\vec w\cdot\phi(\vec x_i)+b]\geq 1-\zeta_i,(i=1 \sim n)$

注意：这里的 $\vec w$ 是与高维的 $\phi(\vec x)$ 对应的。

我们可以看到，转化为高维后同样可以采用凸优化的二次规划求解。

核函数（Kernel Function）

注意：接下来向量将会用表示，向量点乘则变为矩阵乘法，例如：

$\vec x_1\cdot\vec x_2$ 将变为。

根据低维映射到高维的规则，重点在于如何找到 $\phi(X)$ 使得线性不可分训练集在高维线性可分。实际上，我们可以不用知道 $\phi(X)$ 的具体形式。取而代之，如果对于任意两个向量,有 $K(X_1,X_2) = \phi(X_1)^T\phi(X_2)$ ,那么我们仍然可以通过一些技巧完成测试样本的预测。

我们定义为核函数。易得，核函数是一个实数。

可以证明，与 $\phi(X_1),\phi(X_2)$ 是一一对应的关系，证明略。另外，核函数必须满足以下条件才能写成两个向量内积的形式：

能写成 $\phi(X_1)^T\phi(X_2)$ 的充要条件：

,即交换性
$\forall C_i(i=1\sim N),\forall N有\sum_{i=1}^N\sum_{j=1}^NC_iC_jK(X_iX_j)\geq 0$ ,即半正定性

接下来，我们将研究如何在已知而不知道 $\phi(X)$ 的条件下求解支持向量机的目标函数。

对偶问题与KKT条件

原问题与对偶问题

原问题（Prime problem）定义：

最小化（Minimize）：

限制条件（Subject to）： $g_i(w) \leq0 ,i=1\sim K$

$h_i(w) = 0,i=1\sim m$

注：自变量为,目标函数是，限制条件：有K个不等式，分别用来表示，等式有m个，分别用表示。

为了定义对偶问题，我们先定义一个函数：

$L(w,a,\beta) = f(w)+a^Tg(w)+\beta^Th(w)$

其中，

$\beta = [\beta_1,\beta_2,...\beta_M]^T$ ,

然后，定义对偶问题如下：

最大化： $\theta(a,\beta) = inf L(w,a,\beta)$ ,所有定义域内的

限制条件： $a_i \geq0,i=1\sim K$

对偶问题的描述是：最大化 $\theta(a,\beta)$ , 它等于 $L(w,a,\beta)$ 去遍历所有定义域上的找到 $L(w,a,\beta)$ 最小的那个，同时将求得的 $L(w,a,\beta)$ 赋值为 $\theta(a,\beta)$ 。注意限制条件。

联合原问题与对偶问题，有以下定理：

定理1：若是原问题的解， $(a^*,\beta^*)$ 是对偶问题的解，那么： $f(w^*)\geq \theta(a^*,\beta^*)$ ,证明略。

这个定理说明：原问题的解总是大于等于对偶问题的解 $\theta(a^*,\beta^*)$ 。

我们将 $f(w^*)- \theta(a^*,\beta^*)$ 定义为对偶差距(Doality Gap)。根据定理1，对偶差距大于等于0。

强对偶定理

如果为凸函数，则有 $f(w^*) = \theta(a^*,\beta^*)$ ,对偶差距为0。

简单来说就是，如果原问题的目标函数是凸函数，而限制条件是线性函数，那么 $f(w^*) = \theta(a^*,\beta^*)$ 。证明略。

KKT条件

如果强对偶定理成立，即 $f(w^*) = \theta(a^*,\beta^*)$ ,则定理1中必然能推出：对于所有的 $i=1\sim K$ ,要么，要么。这个条件被称为KKT条件。

将支持向量机目标函数转化为对偶问题并求解

目标函数转化为原问题形式

回顾一下现在的支持向量机目标函数：

$minimize_{w,b}(\frac 1 2||\vec w||^2+C\sum_{i=1}^N\zeta_i)$

限制条件：

$\zeta_i\geq0,(i=1\sim n)$

$y_i[\vec w\cdot\phi(\vec x_i)+b]\geq 1-\zeta_i,(i=1 \sim n)$

对比原问题(Prime problem)的形式：

最小化（Minimize）：

限制条件（Subject to）: $g_i(w) \leq0 ,i=1\sim K$

$h_i(w) = 0,i=1\sim m$

注意到，原问题中不等式 $g_i(w) \leq0$ ,而支持向量机的限制条件中两个不等式都是大于等于0的。所以我们要先将支持向量机中的限制条件转为小于等于：

将 $\zeta_i$ 转为相反数
展开并化简第二个不等式

于是，目标函数将变为：

$minimize_{w,b}(\frac 1 2||\vec w||^2+C\sum_{i=1}^N\zeta_i)$

限制条件：

$\zeta_i\leq0,(i=1\sim n)$

$1+\zeta_i-y_iw^T\phi(X_i)-y_ib\leq0(i=1\sim N)$

因为目标函数是凸的，而其限制条件都是线性函数，所以满足强对偶定理。

变换对偶问题的形式

现在，对偶问题中的就是这里的 $(w,b,\zeta_i)$ ,而不等式 $g_i(w)\leq 0$ 是这里限制条件（两部分）：

$\zeta_i\leq0,(i=1\sim n)$

$1+\zeta_i-y_iw^T\phi(X_i)-y_ib\leq0(i=1\sim N)$

另外，因为限制条件不存在等式，所以不存在对偶问题中的。

然后，对偶问题可以写成如下形式：

最大化： $\theta(a,\beta) = inf_{w,\zeta,b}\{\frac 1 2||w||^2-C\sum_{i=1}^N\beta_i\zeta_i+\sum_{i=1}^Na_i[1+\zeta_i-y_iw^T\phi(X_i)-y_ib]\}$

限制条件：(1) $a_i\geq0$

(2) $\beta_i\geq0$

将原目标函数转化为对偶问题

先对 $(w,b,\zeta_i)$ 求导并令导数为0：

$\frac {\partial \theta}{\partial w} = 0$ 推出 $w=\sum_{i=1}^Na_iy_i\phi(X_i)$
$\frac {\partial \theta}{\partial \zeta_i} = 0$ 推出 $a_i+\beta_i=C$
$\frac {\partial \theta}{\partial b} = 0$ 推出 $\sum_{i=1}^Na_iy_i=0$

(详细过程略)

于是，可以将支持向量机原目标函数化为以下对偶问题：

最大化： $\theta(a,\beta) = \sum_{i=1}^Na_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Ny_iy_ja_ia_j\phi(X_i)^T$

限制条件：(1) $0 \leq a_i\leq C,(i=1\sim N)$

(2) $\sum_{i=1}^Na_iy_i=0,(i=1\sim N)$

可以看出，这个对偶问题也是一个凸优化的二次规划问题，可以通过最优化算法快速求解。

如何求解这个对偶问题

由于 $K(X_i,X_j) = \phi(X_i)^T\phi(X_j)$ ,所以我们只需要知道核函数，就可以求解这个对偶问题了。当我们求解了这个对偶问题，解出了所有的。我们可以继续观察 $w=\sum_{i=1}^Na_iy_i\phi(X_i)$ ,因为 $\phi(X_i)$ 不具有显式表达，所以也不具有显式表达。但是我们可以推导：即使不具有显示表达，我们也可以通过核函数算出 $w^T\phi(X)+b$ 的值。

首先，如何求b

由于 $w=\sum_{i=1}^Na_iy_i\phi(X_i)$ ,则

$w^T\phi(X_i) = \sum_{j=1}^Na_jy_j\phi(X_j)^T\phi(X_i) = \sum_{j=1}^Na_jy_jK(X_j,X_i)$

其次，根据KKT条件，我们可以推出：

$a_i[1+\zeta_i-y_iw^T\phi(X_i)-y_ib] = 0$
$\beta_i\zeta_i=0$ ，即 $(c-a_i)\zeta_i = 0$

另外，如果对某个， $a_i \not= 0$ 且 $a_i \not= c$ ，则根据上面KKT推出的两个公式必有 $\zeta_i = 0$ ,且 $1+\zeta_i-y_iw^T\phi(X_i)-y_ib = 0$ 。

而这时 $y_iw^T\phi(X_i) = \sum_{j=1}^Na_iy_iy_jK(X_j,X_i)$

所以，只需要找一个,则 $b = \frac{1-\sum_{j=1}^Na_iy_iy_jK(X_j,X_i)}{y_i}$ 。

核函数戏法（Kernel Trick）

求得b后，如何求 $w^T\phi(X)+b$ ？

将 $w=\sum_{i=1}^Na_iy_i\phi(X_i)$ 代入得：

$w^T\phi(X)+b = w=\sum_{i=1}^Na_iy_i\phi(X_i)^T\phi(X)+b = \sum_{i=1}^Na_iy_iK(X_i,X)+b$ ，

我们发现，即使不知道 $\phi(X)$ 和的显式形式，也可以通过核函数求得 $w^T\phi(X)+b$ ，这一结论被称为核函数戏法。

最后，我们可以用如下的判别标准来判定一个样本属于哪一类别：

若 $\sum_{i=1}^Na_iy_iK(X_i,X)+b \geq 0$ ，那么 $X \in C_1$ ;

若 $\sum_{i=1}^Na_iy_iK(X_i,X)+b \leq 0$ ，那么 $X \in C_2$ 。

总结：支持向量机训练和测试流程

训练过程：

输入训练集 $\{(X_i,y_i)\},i=1\sim N$ ,其中，或。

接下来，求解如下目标函数(求出所有的)：

最大化： $\theta(a,\beta) = \sum_{i=1}^Na_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Ny_iy_ja_ia_j\phi(X_i)^T$

限制条件：(1) $0 \leq a_i\leq C,(i=1\sim N)$

(2) $\sum_{i=1}^Na_iy_i=0,(i=1\sim N)$

然后，求出：

找一个 $a_i \not= 0$ 且 $a_i \not=c$ ,此时

$b = \frac{1-\sum_{j=1}^Na_iy_iy_jK(X_j,X_i)}{y_i}$

一旦求出了,就完成了支持向量机的训练过程。

测试过程：

给出一个测试数据X，预测它的类别y。

若 $\sum_{i=1}^Na_iy_iK(X_i,X)+b \geq 0$ ，那么;

若 $\sum_{i=1}^Na_iy_iK(X_i,X)+b < 0$ ，那么 ;

关于支持向量机的具体应用以及更多细节比如核函数的选择、超参数的控制等等将会在下一章支持向量机中进行说明。

你可能感兴趣的:(分类算法,机器学习,支持向量机,机器学习,python)

Python实现动态加载模块的方法后端架构魔法构筑者 Python
在Python中，动态加载模块是一种常见的技术，它允许我们在运行时根据需要加载和使用模块，而不是在程序启动时就将所有模块都导入。这种方式可以提高程序的灵活性和性能。下面我将详细介绍几种实现动态加载模块的方法，并提供相应的源代码示例。使用importlib模块importlib是Python的一个内置模块，它提供了一些函数来实现动态加载模块。下面是一个简单的示例：importimportlibdef
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
Python打卡Day11 常见的调参方式
核心知识：1.模型=算法+实例化设置的外参（超参数）+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证，就需要划分验证集和测试集，但是很多调参方法中都默认有交叉验证，所以实际中可以省去划分验证集和测试集的步骤基线模型（基准模型）:首先运行一个使用默认参数的模型，记录其性能作为比较的基准。超参数调整数据1.网格搜索(GridSearchCV):-需要定义参数的网格（param_grid），
Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现 Python爬虫项目 python 爬虫开发语言区块链 json
一、前言：无限滚动页面的挑战在现代Web开发中，「无限滚动（InfiniteScrolling）」早已取代了传统的分页模式。以微博热搜流、知乎首页、抖音推荐页为例，用户向下滚动时会自动加载更多内容，这种体验虽提升了交互性，却让传统爬虫面临巨大挑战：页面初始只加载一部分内容剩余内容由JavaScript在滚动事件中动态加载requests类爬虫无法感知页面行为为什么传统爬虫抓不到数据？因为页面数据不
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
YOLO V8+Python训练手写数字识别 yuanpan YOLO python 开发语言
以下是针对Windows11+Python环境的详细步骤说明，从数据集整理到模型训练，全部适配YOLOv8流程。1.数据集整理（MNIST→YOLO格式）1.1下载MNIST数据集MNIST数据集可通过Python直接下载（无需手动下载）：python复制fromtorchvision.datasetsimportMNISTimportos#自动下载MNIST数据集（图片和标签）train_dat
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
Python importlib 动态加载 cliffordl python python 数据库开发语言
文章目录1.importlib库概述2.导入模块（import_module()）2.1.导入已安装的模块2.2.导入子模块2.3通过字符串变量导入模块3.重新加载模块（reload()）4.检查模块是否存在（find_spec()）5.获取模块路径（find_spec().origin）6.加载.py文件为模块（spec_from_file_location()）7.读取模块资源（importl
Python爬虫实战：研究Korean库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui korean
一、引言1.1研究背景与意义随着韩流文化在全球的传播，韩语网页内容急剧增加。韩国在科技、娱乐等领域的信息具有重要研究价值。然而，韩语独特的黏着语特性（如助词体系、词尾变化）给信息处理带来挑战。传统爬虫缺乏对韩语语言特点的针对性处理，本研究旨在开发一套完整的韩语网页内容分析系统，填补这一技术空白。1.2研究目标与方法研究目标：设计高效的韩语网页爬虫框架实现精准的韩语内容识别与处理构建多维度的韩语内容
Python爬虫实战：研究Genius库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 genius
1.引言在当今数字化时代，音乐数据的分析与挖掘成为了音乐学、计算机科学等领域的研究热点。歌词作为音乐的重要组成部分，蕴含着丰富的情感、文化和社会信息。通过对歌词数据的分析，可以揭示音乐风格的演变、流行趋势的变化以及社会情绪的波动等。Genius是一个专注于歌词解析与音乐知识分享的平台，拥有大量的歌词文本以及用户对歌词的注释和解读。Genius提供了API接口，允许开发者获取歌曲、艺术家和歌词等信息
【Python】通过注释插桩替换代码实现开源自动化 ChrisEighteen18 python python
需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
python量化实战_Python与量化投资从基础到实战.pdf weixin_39841709 python量化实战
作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
Python量化实战：基于索提诺比率的价值投资策略回测量化价值投资入门到精通 python 网络开发语言 ai
Python量化实战：基于索提诺比率的价值投资策略回测关键词：Python量化分析、索提诺比率、价值投资策略、回测框架、风险调整收益、下行风险、量化实战摘要：本文深入探讨如何利用Python构建基于索提诺比率（SortinoRatio）的价值投资策略，并通过完整的回测框架验证策略有效性。首先解析索提诺比率的数学原理与核心优势，对比传统夏普比率的差异；其次详细演示价值投资策略的构建步骤，包括低估值因
Python+Allpairspy实战：高效正交法测试用例设计全攻略聪明的一休哥哥测试开发技术大全 python 测试用例自动化测试
引言：正交法的核心价值正交实验法是一种通过科学筛选参数组合来优化测试用例设计的技术。其核心思想是从所有可能的参数组合中，选择最具代表性的N个组合进行测试，既能显著减少用例数量（通常可减少30%-70%），又能保证覆盖关键场景。例如：传统全组合测试：3因素×3水平=27种组合正交法优化后：仅需4-9种组合即可覆盖核心场景1、Allpairspy库安装与基础使用1.1、安装命令pipinstallal
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
Python包高级开发技术：性能优化与系统集成软考和人工智能学堂 Python开发经验深度学习强化学习 python 性能优化开发语言
引言掌握Python包的高级开发技术是构建工业级应用的关键。本文将深入探讨Python包的性能优化策略、C扩展开发、异步IO集成以及跨语言互操作等高级主题，帮助你将Python包提升到专业水平。1.性能优化技术1.1性能分析工具链#性能分析工具矩阵perf_tools={'cProfile':'标准库分析器，提供函数级耗时统计','line_profiler':'行级分析器，需要@profile装
2、Python 测试全攻略：自动化与驱动开发辣条鉴定师 Python测试自动化测试测试驱动开发
Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
Python.01 唯怡委员 python
Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦... 日向夕阳
Crack-JSPython3爬虫实战、JS加解密、逆向教程犀牛数据|美团美食|企名片|七麦数据|淘大象|梦幻西游藏宝阁|漫画柜|财联社|中国空气质量在线监测分析平台|66ip代理|零度ip|国家企业信用信息公示系统|中国产品大目录Author咸鱼微信公众号咸鱼学PythonIntroduce数据解密、反爬处理、逆向教程一、代码配套说明目录JS解密案例│├──lingduip//-----零度ip
python pywebview + vue3 做桌面端妃衣 python 开发语言
pythonpywebview+vue3做桌面端Api.py#传给前端的api对象,定义了一个可以通过js调用退出当前应用的函数classApi:def__init__(self)->None:self._window=None#java运行的线程self.process=Nonedefset_process(self,_process):self.process=_processdefset_w
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
python的pywebview库结合Flask和waitress开发桌面应用程序简介 czliutz python 笔记 python flask 开发语言
pywebview的用途与特点用途pywebview是一个轻量级Python库，用于创建桌面应用程序（GUI）。它通过嵌入Web浏览器组件（如Windows的Edge/IE、macOS的WebKit、Linux的GTKWebKit），允许开发者使用HTML/CSS/JavaScript构建界面，并用Python处理后端逻辑。这种方式结合了Web技术的灵活性和Python的强大功能，适合快速开发跨平
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class