天堂的鸽子

【机器学习基础】最大边缘分类器

本系列为《模式识别与机器学习》的读书笔记。

一，最大边缘分类器

考察线性模型的⼆分类问题，线性模型的形式为

$y(\boldsymbol{x})=\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x})+b\tag{7.1}$

其中 $\boldsymbol{\phi}(\boldsymbol{x})$ 表⽰⼀个固定的特征空间变换，并且显式地写出了偏置参数 $b$ 。训练数据集由 $N$ 个输⼊向量 $\boldsymbol{x}_1,\dots,\boldsymbol{x}_N$ 组成，对应的⽬标值为 $t_1,\dots,t_N$ ，其中 $t_n\in\{−1, 1\}$ ，新的数据点 $\boldsymbol{x}$ 根据 $y(\boldsymbol{x})$ 的符号进⾏分类。

现阶段，假设训练数据集在特征空间中是线性可分的，即根据定义，存在⾄少⼀个参数 $\boldsymbol{w}$ 和 $b$ 的选择⽅式，使得对于 $t_n = +1$ 的点，函数(7.1)都满⾜ $y(\boldsymbol{x}_n)>0$ ，对于 $t_n = −1$ 的点，都有 $y(\boldsymbol{x}_n)<0$ ，从⽽对于所有训练数据点，都有 $t_ny(\boldsymbol{x}_n)>0$ 。

如果有多个能够精确分类训练数据点的解，那么应该尝试寻找泛化错误最⼩的那个解。 ⽀持向量机解决这个问题的⽅法是：引⼊边缘（margin） 的概念，这个概念被定义为决策边界与任意样本之间的最⼩距离，如图7.1所⽰。

如图7.2，最⼤化边缘会⽣成对决策边界的⼀个特定的选择，这个决策边界的位置由数据点的⼀个⼦集确定，被称为⽀持向量，⽤圆圈表⽰。

在⽀持向量机中，决策边界被选为使边缘最⼤化的那个决策边界。

点 $\boldsymbol{x}$ 距离由 $y(\boldsymbol{x})=0$ 定义的超平⾯的垂直距离为 $\frac{|y(\boldsymbol{x})|}{\|\boldsymbol{w}\|}$ ，其中 $y(\boldsymbol{x})$ 的函数形式由公式(7.1)给出，我们感兴趣的是那些能够正确分类所有数据点的解，即对于所有的 $n$ 都有 $t_ny(\boldsymbol{x}_n)>0$ ，因此点 $\boldsymbol{x}_n$ 距离决策⾯的距离为
$\frac{t_ny(\boldsymbol{x}_n)}{\|\boldsymbol{w}\|}=\frac{t_n(\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)+b)}{\|\boldsymbol{w}\|}\tag{7.2}$

边缘由数据集⾥垂直距离最近的点 $\boldsymbol{x}_n$ 给出，希望最优化参数 $\boldsymbol{w}$ 和 $b$ ，使得这个距离能够最⼤化。因此最⼤边缘解可以通过下式得到：

$\underset{\boldsymbol{w}, b}{\arg \max}\left\{\frac{1}{\|\boldsymbol{w}\|} \min _{n}\left[t_{n}\left(\boldsymbol{w}^{T} \boldsymbol{\phi}\left(\boldsymbol{x}_{n}\right)+b\right)\right]\right\}\tag{7.3}$

注意到如果进⾏重新标度 $\boldsymbol{w}\to\kappa\boldsymbol{w}$ 以及 $b\to\kappa{b}$ ，那么任意点 $\boldsymbol{x}_n$ 距离决策⾯的距离 $\frac{t_ny(\boldsymbol{x}_n)}{\|\boldsymbol{w}\|}$ 不会发⽣改变。利用这个性质，对于距离决策⾯最近的点，令

$t_n(\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)+b)=1$

在这种情况下，所有的数据点会满⾜限制

$t_n(\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)+b)\ge1, n=1\dots,N$

这被称为决策超平⾯的标准表⽰。对于使上式取得等号的数据点，我们说限制被激活（active），对于其他的数据点，我们说限制未激活（inactive）。根据定义，总会存在⾄少⼀个激活限制，因为总会有⼀个距离最近的点，并且⼀旦边缘被最⼤化，会有⾄少两个激活的限制。这样，最优化问题就简化为了最⼤化 $\|\boldsymbol{w}\|^{-1}$ ，这等价于最⼩化 $\|\boldsymbol{w}\|^2$ ，因此我们要在上述限制条件下，求解最优化问题

$\underset{\boldsymbol{w},b}{\arg\min}\frac{1}{2}\|\boldsymbol{w}\|^{2}$

为了解决这个限制的最优化问题，引⼊拉格朗⽇乘数 $a_n\ge0$ 。每个限制条件都对应着⼀个乘数 $a_n$ ，从⽽可得下⾯的拉格朗⽇函数

$L(\boldsymbol{w},b,\boldsymbol{a})=\frac{1}{2}\|\boldsymbol{w}\|^{2}-\sum_{n=1}^{N}a_n\{t_n(\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)+b)-1\}\tag{7.4}$

其中 $\boldsymbol{a} = (a_1,\dots,a_N)^{T}$ 。令 $L(\boldsymbol{w},b,\boldsymbol{a})$ 关于 $\boldsymbol{w}$ 和 $b$ 的导数等于零，有
$\boldsymbol{w}=\sum_{n=1}^{N}a_nt_n\boldsymbol{\phi})(\boldsymbol{x}_n)\\ \sum_{n=1}^{N}a_nt_n=0$

使⽤这两个条件从 $L(\boldsymbol{w},b,\boldsymbol{a})$ 中消去 $\boldsymbol{a}$ 和 $b$ ，就得到了最⼤化边缘问题的对偶表⽰（dual representation），其中要关于 $\boldsymbol{a}$ 最⼤化

$\tilde{L}(\boldsymbol{a})=\sum_{n=1}^{N}a_n-\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_na_mt_nt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)\tag{7.5}$

其中 $k(\boldsymbol{x},\boldsymbol{x}^{\prime})=\boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{\phi}(\boldsymbol{x}^{\prime})$ ，限制条件为

$a_n\ge0,n=1\dots,N\\ \sum_{n=1}^{N}a_nt_n=0$

通过使⽤公式消去 $\boldsymbol{w}$ ， $y(\boldsymbol{x})$ 可以根据参数 ${a_n\}$ 和核函数表⽰，即

$y(\boldsymbol{x})=\sum_{n=1}^{N}a_nt_nk(\boldsymbol{x},\boldsymbol{x}_n)+b\tag{7.6}$

满足如下性质：

$a_n\ge0\\ t_ny(\boldsymbol{x}_n)-1\ge0\\ a_n\{t_ny(\boldsymbol{x}_n)-1\}=0$

因此对于每个数据点，要么 $a_n = 0$ ，要么 $t_n y(\boldsymbol{x}_n) = 1$ 。任何使得 $a_n = 0$ 的数据点都不会出现在公式(7.5)的求和式中，因此对新数据点的预测没有作⽤。剩下的数据点被称为⽀持向量（support vector）。

解决了⼆次规划问题，找到了 $\boldsymbol{a}$ 的值之后，注意到⽀持向量 $\boldsymbol{x}_n$ 满⾜ $t_ny(\boldsymbol{x}_n)=1$ ，就可以确定阈值参数 $b$ 的值，可得
$t_n\left(\sum_{m\in{\mathcal{S}}}a_mt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)+b\right)=1\tag{7.7}$

其中 $\mathcal{S}$ 表⽰⽀持向量的下标集合。⾸先乘以 $t_n$ ，使⽤ $t_n^2=1$ 的性质，然后对于所有的⽀持向量，整理⽅程，解出 $b$ ，可得

$b=\frac{1}{N_\mathcal{S}}\sum_{n\in{\mathcal{S}}}\left(t_n-\sum_{m\in{\mathcal{S}}}a_mt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)\right)\tag{7.8}$

其中 $N_\mathcal{S}$ 是⽀持向量的总数。

对于接下来的模型⽐较，可以将最⼤边缘分类器⽤带有简单⼆次正则化项的最⼩化误差函数表⽰，形式为
$\sum_{n=1}^{N}E_{\propto}(y(\boldsymbol{x}_n)t_n-1)+\lambda\|\boldsymbol{w}\|^{2}$

其中 $E_{\infty}(z)$ 是⼀个函数，当 $z\ge0$ 时，函数值为零，其他情况下函数值为 $\infty$ 。

如图7.3，⼆维空间中来⾃两个类别的⼈⼯⽣成数据的例⼦。图中画出了具有⾼斯核函数的⽀持向量机的得到的常数 $y(\boldsymbol{x}_n)$ 的轮廓线。同时给出的时决策边界、边缘边界以及⽀持向量。

二，重叠类分布

在实际中，类条件分布可能重叠，这种情况下对训练数据的精确划分会导致较差的泛化能⼒。

引⼊松弛变量（slack variable） $\xi_n\ge 0$ ，其中 $1,\dots, N$ ，每个训练数据点都有⼀个松弛变量（Bennett, 1992; Cortes and Vapnik, 1995）。对于位于正确的边缘边界内部的点或者边界上的点， $\xi_n=0$ ，对于其他点， $\xi_n=|t_n−y(\boldsymbol{x}_n)|$ 。因此，对于位于决策边界 $y(\boldsymbol{x}n)=0$ 上的点， $\xi_n=1$ ，并且 $\xi_n>1$ 的点就是被误分类的点。从而分类的限制条件为
$t_ny(\boldsymbol{x}_n)\ge1-\xi_n,n=1,\dots,N$

其中松弛变量被限制为满⾜ $\xi_n \ge 0$ 。 $\xi_n = 0$ 的数据点被正确分类，要么位于边缘上，要么在边缘的正确⼀侧。 $\xi_n\le 1$ 的点位于边缘内部，但是在决策边界的正确⼀侧。 $\xi_n > 1$ 的点位于决策边界的错误⼀侧，是被错误分类的点。这种⽅法有时被描述成放宽边缘的硬限制，得到⼀个软边缘（soft margin），并且允许⼀些训练数据点被错分。

如图7.4，松弛变量 $\xi_n \ge 0$ 的说明。圆圈标记的数据点是⽀持向量。

现在的⽬标是最⼤化边缘，同时以⼀种⽐较柔和的⽅式惩罚位于边缘边界错误⼀侧的点。于是最⼩化
$C\sum_{n=1}^{N}\xi_n+\frac{1}{2}\|\boldsymbol{w}_n\|^{2}$

其中参数 $C > 0$ 控制了松弛变量惩罚与边缘之间的折中。由于任何被误分类的数据点都有 $\xi_n>1$ ，因此 $\sum_{n}\xi_n$ 是误分类数据点数量的上界。于是，参数 $C$ 类似于（作⽤相反的）正则化系数，因为它控制了最⼩化训练误差与模型复杂度之间的折中。

现在想要在限制条件以及 $\xi_n \ge 0$ 的条件下最⼩化式，对应的拉格朗⽇函数为
$L(\boldsymbol{w},b,\boldsymbol{\xi},\boldsymbol{a},\boldsymbol{\mu})=\frac{1}{2}\|\boldsymbol{w}\|^{2}+C\sum_{n=1}^{N}\xi_n-\sum_{n=1}^{N}a_n\{t_ny(\boldsymbol{x}_n)-1+\xi_n\}-\sum_{n=1}^{N}\mu_n\xi_n\tag{7.9}$

其中 $\{a_n \ge 0\}$ 和 $\{\mu_n \ge 0\}$ 是拉格朗⽇乘数。对应的 KKT 条件为

$a_n\ge0\\ t_ny(\boldsymbol{x}_n)-1+\xi_n\ge0\\ a_n(t_ny(\boldsymbol{x}_n)-1+\xi_n)=0\\ \mu_n\ge0\\ \xi_n\ge0\\ \mu_n\xi_n=0$

其中 $1,\dots, N$ 。

现在对 $\boldsymbol{w}$ , $b$ 和 $\{\xi_n\}$ 进⾏最优化，有
$\frac{\partial{L}}{\partial\boldsymbol{w}}=0\Rightarrow\boldsymbol{w}=\sum_{n=1}^{N}a_nt_n\boldsymbol{\phi}(\boldsymbol{x}_n)\\ \frac{\partial{L}}{\partial{b}}=0\Rightarrow\sum_{n=1}^{N}a_nt_n=0\\ \frac{\partial{L}}{\partial{\xi_n}}=0\Rightarrow{a_n}=C-\mu_n\tag{7.10}$

从而，

$\tilde{L}(\boldsymbol{a})=\sum_{n=1}^{N}a_n-\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_na_mt_nt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)\tag{7.11}$

关于对偶变量 ${a_n\}$ 最⼤化公式(7.11)时必须要满⾜以下限制

$0\le{a_n}\le{C}\\ \sum_{n=1}^{N}a_nt_n=0$

其中 $1,\dots, N$ 。第一个公式被称为盒限制（box constraint）。

对于数据点的⼀个⼦集，有 $a_n = 0$ ，在这种情况下这些数据点对于预测模型没有贡献；剩余的数据点组成了⽀持向量。这些数据点满⾜ $a_n > 0$ ，必须满⾜
$t_ny(\boldsymbol{x}_n)=1-\xi_n\tag{7.12}$

如果 $a_n < C$ ，那么 $\mu_n > 0$ ，则有 $\xi_n = 0$ ，从⽽这些点位于边缘上； $a_n = C$ 的点位于边缘内部，并且如果 $\xi_n \le 1$ 则被正确分类，如果 $\xi_n > 1$ 则分类错误。

为确定公式(7.1)中的参数 $b$ ，注意到 $0 < a n < C 0 的⽀持向量满⾜ ξ n = 0 \xi_n = 0 即 t n y ( x n ) = 1 t_ny(\boldsymbol{x}_n)=1 ，因此就满⾜ t n ( ∑ m ∈ S a m t m k ( x n , x m ) + b ) = 1 (7.13) t_n\left(\sum_{m\in{S}}a_mt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)+b\right)=1\tag{7.13}$

通过求平均的⽅式得

$b=\frac{1}{N_\mathcal{M}}\sum_{n\in{\mathcal{M}}}\left(t_n-\sum_{m\in{\mathcal{S}}}a_mt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)\right)\tag{7.14}$

其中 $\mathcal{M}$ 表⽰满⾜ $0 < a_n < C$ 的数据点的下标的集合。

⽀持向量机的另⼀种等价形式，被称为 $\nu-SVM$ ，由Schölkopf et al.（2000）提出。它涉及到最⼩化

$\tilde{L}(\boldsymbol{a})=-\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_na_mt_nt_mk(\boldsymbol{x}_n,\boldsymbol{x}_m)\tag{7.15}$

限制条件为

$0\le{a_n}\le\frac{1}{N}\\ \sum_{n=1}^{N}a_nt_n=0\\ \sum_{n=1}^{N}a_n\ge\nu$

这种⽅法的优点是，参数 $\nu$ 代替了参数 $C$ ，它既可以被看做边缘错误（margin error）（ $\xi_n > 0$ 的点，因此就是位于边缘边界错误⼀侧的数据点，它可能被误分类也可能没被误分类）的上界，也可以被看做⽀持向量⽐例的下界。

如图7.5， $\nu-SVM$ 应⽤于⼆维不可分数据集的例⼦，圆圈表⽰⽀持向量。这⾥使⽤了形如 $\exp(-\gamma\| \boldsymbol{x}−\boldsymbol{x}^{\prime}\|^{2})$ 的⾼斯核，且 $\gamma = 0.45$ 。

⼀种最流⾏的训练⽀持向量机的⽅法被称为顺序最⼩化优化（sequential minimal optimization），或者称为 SMO（Platt, 1999），这种⽅法考虑了分块⽅法的极限情况，每次只考虑两个拉格朗⽇乘数。

考虑⼀个简单的⼆阶多项式核，⽤它的分量进⾏展开
$\begin{aligned}k(\boldsymbol{x},\boldsymbol{z})&=(1+\boldsymbol{x}^{T}\boldsymbol{z})^{2}\\&=(1+x_1z_1+x_2z_2)^{2}\\&=1+2x_1z_1+2x_2z_2+x_1^2z_1^2+2x_1z_1x_2z_2+x_2^2z_2^2\\&=(1,\sqrt{2}x_1,\sqrt{2}x_2,x_1^2,\sqrt{2}x_1x_2,x_2^2)(1,\sqrt{2}z_1,\sqrt{2}z_2,z_1^2,\sqrt{2}z_1z_2,z_2^2)^{T}\\&=\boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{\phi}(\boldsymbol{z})\end{aligned}\tag{7.16}$

于是这个核函数表⽰六维特征空间中的⼀个内积，其中输⼊空间到特征空间的映射由向量函数 $\boldsymbol{\phi}(\boldsymbol{x})$ 描述，然⽽对这些特征加权的系数被限制为具体的形式。因此，原始⼆维空间 $\boldsymbol{x}$ 中的任意点集都会被限制到这个六维特征空间中的⼆维⾮线性流形中。

⽀持向量机不提供概率输出，⽽是对新的输⼊进⾏分类决策。 Veropoulos et al.（1999）讨论了对 SVM 的修改，使其能控制假阳性和假阴性之间的折中。然⽽，如果希望把 SVM ⽤作较⼤的概率系统中的⼀个模块，那么需要对于新的输⼊ $\boldsymbol{x}$ 的类别标签 $t$ 的概率预测。为了解决这个问题，Platt（2000）提出了使⽤ logistic sigmoid 函数拟合训练过的⽀持向量机的输出的⽅法。具体来说，需要求解的条件概率被假设具有下⾯的形式

$p(t=1|\boldsymbol{x})=\sigma(Ay(\boldsymbol{x})+B)\tag{7.17}$

其中 $y(\boldsymbol{x})$ 由公式(7.1)定义，参数 $A$ 和 $B$ 的值通过最⼩化交叉熵误差函数的⽅式确定。交叉熵误差函数根据由 $y(\boldsymbol{x}_n)$ 和 $t_n$ 组成的训练数据集定义。⽤于拟合sigmoid函数的数据需要独⽴于训练原始 SVM 的数据，为了避免严重的过拟合现象。

三，与 `logistic` 回归的关系

对于位于边缘边界正确⼀侧的数据点，即满⾜ $y_nt_n\ge1$ 的数据点，有 $\xi_n = 0$ ，对于剩余的数据点，有 $\xi_n = 1 − y_nt_n$ 。因此⽬标函数可以写成（忽略整体的具有可乘性的常数）

$\sum_{n=1}^{N}E_{SV}(y_nt_n)+\lambda\|\boldsymbol{w}\|^{2}$

其中 $\lambda = (2C)^{−1}$ ， $E_{SV} (·)$ 是铰链（hinge）误差函数，定义为

$E_{SV}(y_nt_n)=[1-y_nt_n]_{+}$

其中 $[·]_+$ 表⽰正数部分。

如图7.6，⽀持向量机使⽤的“铰链”误差函数的图像，⽤蓝⾊表⽰。同时画出的还有logistic回归的误差函数，使⽤因⼦ $\frac{1}{\ln(2)}$ 重新放缩，从⽽通过点 $(0, 1)$ ，⽤红⾊表⽰，还画出了误分类误差函数（⿊⾊）和平⽅误差函数（绿⾊）。

考虑logistic回归模型，发现⽐较⽅便的做法是对⽬标变量 $t\in\{0, 1\}$ 进⾏操作。为了与⽀持向量机进⾏对⽐，⾸先使⽤⽬标变量 $t\in\{−1,1\}$ 重写最⼤似然logistic回归函数。注意到 $p(t=1|y)=\sigma(y)$ ，其中 $y(\boldsymbol{x})$ 由公式(7.1)给出， $\sigma(y)$ 是的 logistic sigmoid函数。因此有 $p(t=−1|y)=1−\sigma(y)=\sigma(−y)$ ，从而

$p(t|y)=\sigma(yt)\tag{7.18}$

从这个式⼦中可以通过对似然函数取负对数的⽅式构造⼀个误差函数。带有正则化项的误差函数的形式为

$\sum_{n=1}^{N}E_{LR}(y_nt_n)+\lambda\|\boldsymbol{w}\|^{2}$

其中

$E_{LR}(y_nt_n)=\ln(1+\exp(-yt))$

logistic误差函数与铰链损失都可以看成对误分类误差函数的连续近似。有时⽤于解决分类问题的另⼀个连续近似的误差函数是平⽅和误差函数。但是，它具有下⾯的性质：它会着重强调那些被正确分类的在正确的⼀侧距离决策边界较远的点。

四，多类 `SVM`

将多个两类 SVM 组合构造多类分类器的⼀种常⽤的⽅法（Vapnik, 1998）是构建 $K$ 个独⽴的 SVM ，其中第 $k$ 个模型 $y_k(\boldsymbol{x})$ 在训练时，使⽤来⾃类别 $\mathcal{C}_k$ 的数据作为正例，使⽤来⾃剩余的 $K - 1$ 个类别的数据作为负例。这被称为“1对剩余”（one-versus-the-rest）⽅法。然⽽使⽤独⽴的分类器进⾏决策会产⽣不相容的结果，其中⼀个输⼊会同时被分配到多个类别中，这个问题有时可以这样解决：对于新的输⼊ $\boldsymbol{x}$ ，使⽤下式做预测

$y(\boldsymbol{x})=\underset{k}{\max}y_k(\boldsymbol{x})\tag{7.19}$

不幸的是，这种启发式的⽅法会产⽣⼀个问题：不同的分类器是在不同的任务上进⾏训练的，⽆法保证不同分类器产⽣的实数值 $y_k(\boldsymbol{x})$ 具有恰当的标度。

“1对剩余”⽅法的另⼀个问题是训练集合不平衡。

Lee et al.（2001）提出了“1对剩余”⽅法的⼀种变体。这种变体修改了⽬标值，使得正例类别的⽬标值为 $+ 1$ ，负例类别的⽬标值为 $−\frac{1}{K−1}$ 。

Weston and Watkins（1999）定义了⼀个单⼀⽬标函数⽤来同时训练所有的 $K$ 个 SVM ，基于的是最⼤化每个类别与其余剩余类别的边缘。然⽽，这会导致训练过程变慢，因为这种⽅法需要求解的不是 $N$ 个数据点上的 $K$ 个独⽴的最优化问题（整体代价为 $O(KN^2)$ ），⽽是要求解⼀个规模为 $(K - 1) N$ 的单⼀的最优化问题，整体代价为 $O(K^2N^2)$ 。

另⼀种⽅法是在所有可能的类别对之间训练 $\frac{K(K−1)}{2}$ 个不同的⼆分类 SVM ，然后将测试数据点分到具有最⾼“投票数”的类别中去。这种⽅法有时被称为“1对1”（one-versus-one）。

后⼀个问题可以通过将每对分类器组织成有向⽆环图的⽅式解决，这就产⽣了 DAGSVM （Platt et al., 2000）。对于 $K$ 个类别， DAGSVM 共有 $\frac{K(K−1)}{2}$ 个分类器。每次对新的测试点分类时，只需要 $K - 1$ 对分类器进⾏计算。选定的分类器是根据遍历图的路径确定的。

Dietterich and Bakiri（1995）提出了⼀种不同的⽅法解决多分类问题。这种⽅法基于的是误差-修正输出编码，并且被Allwein et al.（2000）⽤到⽀持向量机中，这种⽅法可以被看做“1对1”投票⽅法的⼀个推⼴。这种⽅法中，⽤来训练各个分类器的类别划分的⽅式更加⼀般， $K$ 个类别本⾝被表⽰为选定的两类分类器产⽣的响应的集合。结合⼀套合适的解码⽅法，这种⽅法对于错误以及各个分类器的输出的歧义性具有鲁棒性。

五，回归问题的 `SVM`

在简单的线性回归模型中，最⼩化⼀个正则化的误差函数

$\frac{1}{2}\sum_{n=1}^{N}\{y_n-t_n\}^{2}+\frac{\lambda}{2}\|\boldsymbol{w}\|^{2}$

为了得到稀疏解，⼆次误差函数被替换为⼀个 $\epsilon$ -不敏感误差函数（ϵ-insensitive error function）（Vapnik, 1995）。如果预测 $y(\boldsymbol{x})$ 和⽬标 $t$ 之间的差的绝对值⼩于 $\epsilon$ ，那么这个误差函数给出的误差等于零，其中 $\epsilon > 0$ 。 $\epsilon$ -不敏感误差函数 的⼀个简单的例⼦

$E_{\epsilon}(y(\boldsymbol{x})-t) = \begin{cases} 0, & 如果|y(\boldsymbol{w})-t|<\epsilon \\ |y(\boldsymbol{x})-t|-\epsilon, & 其他情况 \end{cases}\tag{7.20}$

它在不敏感区域之外，会有⼀个与误差相关联的线性代价。

如图7.7， $\epsilon$ -不敏感误差函数（红⾊）的图像。在不敏感区域之外，误差函数值随着距离线性增⼤。作为对⽐，同时给出了⼆次误差函数（绿⾊）。

于是最⼩化正则化的误差函数，形式为

$C\sum_{n=1}^{N}E_{\epsilon}(y(\boldsymbol{x})-t_n)+\frac{\lambda}{2}\|\boldsymbol{w}\|^{2}$

其中 $y(\boldsymbol{x})$ 由公式(7.1)给出。

通过引⼊松弛变量的⽅式，可以重新表达最优化问题。对于每个数据点 $\boldsymbol{x}_n$ ，现在需要两个松弛变量 $\xi_n\ge0$ 和 $\hat{\xi}_n\ge0$ ，其中 $\xi_n > 0$ 对应于 $t_n > y(\boldsymbol{x}_n)+\epsilon$ 的数据点， $\hat{\xi}>0$ 对应于 $t_n < y(\boldsymbol{x}_n)−\epsilon$ 的数据点。

如图7.8，SVM 回归的说明。图中画出了回归曲线以及 $\epsilon$ -不敏感“管道”。同时给出的是松弛变量 $\xi$ 和 $\hat{\xi}$ 的例⼦。对于 $\epsilon$ -管道上⽅的点， $\xi>0$ 且 $\hat{\xi}=0$ ，对于 $\epsilon$ -管道下⽅的点， $\xi=0$ 且 $\hat{\xi}>0$ ，对于 $\epsilon$ -管道内部的点， $\xi=0$ 且 $\hat{\xi}=0$ 。

⽬标点位于 $\epsilon$ -管道内的条件是 $y_n−\epsilon \le t_n \le y_n+\epsilon$ ，其中 $y_n=y(\boldsymbol{x}_n)$ 。引⼊松弛变量使得数据点能够位于管道之外，只要松弛变量不为零即可。对应的条件变为
$t_n\le y(\boldsymbol{x}_n)+\epsilon+\xi_n\\ t_n\ge y(\boldsymbol{x}_n)-\epsilon-\hat{\xi}_n$

⽀持向量回归的误差函数可以写成

$C\sum_{n=1}^{N}(\xi_n+\hat{\xi}_n)+\frac{\lambda}{2}\|\boldsymbol{w}\|^{2}$

引⼊拉格朗⽇乘数 $a_n\ge0$ , $\hat{a}_n\ge0$ , $\mu_n\ge0$ 以及 $\hat{\mu}_n\ge0$ ，然后最优化拉格朗⽇函数

$\begin{aligned}L&=C\sum_{n=1}^{N}(\xi_n+\hat{\xi}_n)+\frac{\lambda}{2}\|\boldsymbol{w}\|^{2}-\sum_{n=1}^{N}(\mu_n\xi_n+\hat{\mu}_n\hat{\xi}_n)\\&-\sum_{n=1}^{N}a_n(\epsilon+\xi_n+y_n-t_n)-\sum_{n=1}^{N}\hat{a}_n(\epsilon+\hat{\xi}_n-y_n+t_n)\end{aligned}\tag{7.21}$

令拉格朗⽇函数关于 $\boldsymbol{w}$ , $b$ , $\xi_n$ 和 $\hat{\xi}_n$ 的导数为零，有

$\frac{\partial{L}}{\partial\boldsymbol{w}}=0\Rightarrow\boldsymbol{w}=\sum_{n=1}^{N}(a_n-\hat{a}_n)\boldsymbol{\phi}(\boldsymbol{x}_n)\\ \frac{\partial{L}}{\partial{b}}=0\Rightarrow\sum_{n=1}^{N}(a_n-\hat{a}_n)=0\\ \frac{\partial{L}}{\partial{\xi_n}}=0\Rightarrow{a_n}=C-\mu_n\\ \frac{\partial{L}}{\partial{\hat{\xi}_n}}=0\Rightarrow{\hat{a}_n}=C-\hat{\mu}_n$

对偶问题涉及到关于 ${a_n\}$ 和 $\{\hat{a}_n\}$ 最⼤化

$\begin{aligned}\tilde{L}(\boldsymbol{a},\hat{\boldsymbol{a}})&=-\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}(a_n-\hat{a}_n)(a_m-\hat{a}_m)k(\boldsymbol{x}_n,\boldsymbol{x}_m)\\&-\epsilon\sum_{n=1}^{N}(a_n+\hat{a}_n)+\sum_{n=1}^{N}(a_n-\hat{a}_n)t_n\end{aligned}\tag{7.22}$

其中核 $k(\boldsymbol{x},\boldsymbol{x}^{\prime})=\boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{\phi}(\boldsymbol{x}^{\prime})$ 。

从而盒限制

$0\le a_n \le C\\ 0\le \hat{a}_n \le C$

对于新的输⼊变量，可以使⽤下式进⾏预测

$y(\boldsymbol{x})=\sum_{n=1}^{N}(a_n-\hat{a}_n)k(\boldsymbol{x},\boldsymbol{x}_n)+b\tag{7.23}$

对应的Karush-Kuhn-Tucker（KKT）条件说明了在解的位置，对偶变量与限制的乘积必须等于零，形式为

$a_n(\epsilon+\xi_n+y_n-t_n)=0\\ \hat{a}_n(\epsilon+\hat{\xi}_n-y_n+t_n)=0\\ (C-a_n)\xi_n=0\\ (C-\hat{a}_n)\hat{\xi}_n=0$

考虑⼀个数据点，满⾜ $0 < a_n < C$ 。根据公式，⼀定有 $\xi_n=0$ ， $\epsilon + y_n − t_n = 0$ 。使⽤公式(7.1)，然后求解 $b$ ，有

$\begin{aligned}b&=t_n-\epsilon-\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)\\&=t_n-\epsilon-\sum_{m=1}^{N}(a_m-\hat{a}_m)k(\boldsymbol{x}_n,\boldsymbol{x}_m)\end{aligned}\tag{7.24}$

与分类问题的情形相同，有另⼀种⽤于回归的 SVM 的形式。这种形式的 SVM 中，控制复杂度的参数有⼀个更加直观的意义（Schölkopf et al., 2000）。特别地，我们不固定不敏感区域 $\epsilon$ 的宽度，⽽是固定位于管道外部的数据点的⽐例 $\nu$ ，涉及到最⼤化

$\begin{aligned}\tilde{L}(\boldsymbol{a},\hat{\boldsymbol{a}})&=-\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}(a_n-\hat{a}_n)(a_m-\hat{a}_m)k(\boldsymbol{x}_n,\boldsymbol{x}_m)\\&+\sum_{n=1}^{N}(a_n-\hat{a}_n)t_n\end{aligned}\tag{7.25}$

限制条件为

$0\le a_n \le \frac{C}{N}\\ 0\le \hat{a}_n \le \frac{C}{N}\\ \sum_{n=1}^{N}(a_n-\hat{a}_n)=0\\ \sum_{n=1}^{N}(a_n+\hat{a}_n)\le\nu C$

如图7.9， $\nu-SVM$ 回归应⽤到⼈⼯⽣成的正弦数据集上的说明，SVM 使⽤了⾼斯核。预测分布曲线为红⾊曲线， $\epsilon$ -不敏感管道对应于阴影区域。此外，数据点⽤绿⾊表⽰，⽀持向量⽤蓝⾊圆圈标记。

六，计算学习理论

历史上，⽀持向量机⼤量地使⽤⼀个被称为计算学习理论（computational learning theory）的理论框架进⾏分析。这个框架有时候也被称为统计学习理论（statistical learning theory）（Anthony and Biggs, 1992; Kearns and Vazirani, 1994; Vapnik, 1995; Vapnik, 1998）。这个框架起源于Valiant（1984），他建⽴了概率近似正确（probably approximately correct）或者称为 PAC 的学习框架。PAC 学习框架的⽬标是理解为两个给出较好的泛化能⼒，需要多⼤的数据集。

假设从联合概率分布 $p(\boldsymbol{x},\boldsymbol{t})$ 中抽取⼀个⼤⼩为 $N$ 的数据集 $\mathcal{D}$ ，其中 $\boldsymbol{x}$ 是输⼊变量， $\boldsymbol{t}$ 表⽰类别标签。我们把注意⼒集中于“⽆噪声”的情况，即类别标签由某个（未知的）判别函数 $\boldsymbol{t} = \boldsymbol{g}(\boldsymbol{x})$ 确定。在PAC学习中，空间 $\mathcal{F}$ 是⼀个以训练集 $\mathcal{D}$ 为基础的函数组成的空间，从空间 $\mathcal{F}$ 中抽取⼀个函数 $\boldsymbol{f}(\boldsymbol{x};\mathcal{D})$ ，如果它的期望错误率⼩于某个预先设定的阈值 $\epsilon$ ，即

$\mathbb{E}_{\boldsymbol{x},\boldsymbol{t}}[I(\boldsymbol{f}(\boldsymbol{x};\mathcal{D})\ne\boldsymbol{t})]<\epsilon\tag{7.26}$

那么就说函数 $\boldsymbol{f}(\boldsymbol{x};\mathcal{D})$ 具有较好的泛化能⼒。其中 $I (\cdot)$ 是⽰性函数，期望是关于概率分布 $p(\boldsymbol{x},\boldsymbol{t})$ 的期望。式⼦左侧的项是⼀个随机变量，因为它依赖于训练数据集 $\mathcal{D}$ 。PAC 框架要求，对于从概率分布 $p(\boldsymbol{x},\boldsymbol{t})$ 中随机抽取的数据集 $\mathcal{D}$ ，公式(7.26)成⽴的概率要⼤于 $1−\delta$ 。这⾥ $\delta$ 是另⼀个预先设定的参数，术语“概率近似正确”来⾃于下⾯的要求：以⼀个较⾼的概率（⼤于 $1−\delta$ ），使得错误率较⼩（⼩于 $\epsilon$ ）。对于⼀个给定的模型空间 $\mathcal{F}$ ，以及给定的参数 $\epsilon$ 和 $\delta$ ， PAC 学习的⽬标是提供满⾜这个准则所需的最⼩数据集规模 $N$ 的界限。在 PAC 学习中，⼀个关键的量是 Vapnik-Chervonenkis维度 （Vapnik-Chervonenkis dimension），或者被称为 VC维度 ，它提供了函数空间复杂度的⼀个度量，使得 PAC 框架能够扩展到包含⽆穷多个函数的空间。

⼀种提升 PAC 界限的紧致程度的⽅法是 PAC -贝叶斯框架（PAC-Bayesian framework）（McAllester, 2003），它考虑了空间 $\mathcal{F}$ 上的函数的概率分布情况，有些类似于贝叶斯⽅法中的先验概率。

你可能感兴趣的:(机器学习,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》