四脚猫

Udacity机器学习入门笔记2-支持向量机（SVM）

Udacity机器学习入门笔记2-支持向量机（SVM）

1.初步了解SVM

1.1 逻辑回归：logistic回归
1.2 线性分类的一个例子
1.3 函数间隔Functional margin与几何间隔Geometrical margin
1.4 最大间隔分类器Maximum Margin Classifier的定义
1.5 核函数

1.5.1 最简单的核函数
1.5.2 相似性函数
1.5.3 常用核函数
1.5.4 核函数的对比
1.5.5 核函数的选择

2.sklearn svm 学习

2.1 Classification

2.1.1 Multi-class classification
2.1.2 Scores and probabilities
2.1.3 Unbalanced problems

2.2 Regression
2.3 Density estimation, novelty detection
2.4 Complexity
2.5 Tips on Practical Use
2.6 kernel function

2.6.1 custom kernel

2.6.1.1 Using Python functions as kernels
2.6.1.2 Using the Gram matrix
2.6.1.3 Parameters of the RBF Kernel

3. Udacity mini-project
4. 参考文献

Udacity机器学习入门笔记2-支持向量机（SVM）

1.初步了解SVM

支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

1.1 逻辑回归：logistic回归

理解SVM，咱们必须先弄清楚一个概念：线性分类器。
给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane），这个超平面的方程可以表示为（ $w^T$ 中的T代表转置）：
$w^{T} x+b=0$
可能有读者对类别取1或-1有疑问，事实上，这个1或-1的分类标准起源于logistic回归。
Logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。
假设函数 $h_{\theta}(x)=g\left(\theta^{T} x\right)=\frac{1}{1+e^{-\theta^{T} x}}$
其中x是n维特征向量，函数g就是logistic函数。而 $g(z)=\frac{1}{1+e^{-z}}$ 的图像如下：

可以看到，将无穷映射到了(0,1)。
而假设函数就是特征属于y=1的概率。
$\begin{array}{l}{P(y=1 | x ; \theta)=h_{\theta}(x)} \\ {P(y=0 | x ; \theta)=1-h_{\theta}(x)}\end{array}$
从而，当我们要判别一个新来的特征属于哪个类时，只需求 $h_{\theta}(x)$ 即可，若 $h_{\theta}(x)$ 大于0.5就是y=1的类，反之属于y=0类。
此外，只 $h_{\theta}(x)$ 和 $\theta^{T} x$ 有关， $h_{\theta}(x)$ >0，那么，而g(z)只是用来映射，真实的类别决定权还是在于 $\theta^{T} x$ 。再者，当 $\theta^{T} x>>0$ 时， $h_{\theta}(x)$ =1，反之 $h_{\theta}(x)$ =0。如果我们只从 $\theta^{T} x$ 出发，希望模型达到的目标就是让训练数据中y=1的特征 $\theta^{T} x>>0$ ，而是y=0的特征 $\theta^{T} x<<0$ 。Logistic回归就是要学习得到 $\theta$ ，使得正例的特征远大于0，负例的特征远小于0，而且要在全部训练实例上达到这个目标。
接下来，尝试把logistic回归做个变形。首先，将使用的结果标签y = 0和y = 1替换为y = -1,y = 1，然后将 $\theta^{T} x=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\cdots+\theta_{n} x_{n} \quad\left(x_{0}=1\right)$ 中的 $\theta_0$ 替换为b，最后将后面的 $\theta_{1} x_{1}+\theta_{2} x_{2}+\cdots+\theta_{n} x_{n}$ 替换为 $w^Tx$ 。如此，则有了 $\theta^{T} x=w^{T} x+b$ 也就是说除了y由y=0变为y=-1外，线性分类函数跟logistic回归的形式化表示 $h_{\theta}(\mathrm{x})=g\left(\theta^{T} x\right)=\mathrm{g}\left(w^{T} x+\mathrm{b}\right)$ 没区别。
进一步，可以将假设函数 $h_{\theta}(\mathrm{x})=\mathrm{g}\left(w^{T} x+\mathrm{b}\right)$ 中的g(z)做一个简化，将其简单映射到y=-1和y=1上。映射关系如下：
$g(z)=\left\{\begin{aligned} 1, & z \geq 0 \\ -1, & z<0 \end{aligned}\right.$

1.2 线性分类的一个例子

下面举个简单的例子。如下图所示，现在有一个二维平面，平面上有两种不同的数据，分别用圈和叉表示。由于这些数据是线性可分的，所以可以用一条直线将这两类数据分开，这条直线就相当于一个超平面，超平面一边的数据点所对应的y全是-1 ，另一边所对应的y全是1。

这个超平面可以用分类函数 $f(\mathrm{x})=w^{T} x+\mathrm{b}$ 表示，当f(x) 等于0的时候，x便是位于超平面上的点，而f(x)大于0的点对应 y=1 的数据点，f(x)小于0的点对应y=-1的点，如下图所示：

换言之，在进行分类的时候，遇到一个新的数据点x，将x代入f(x) 中，如果f(x)小于0则将x的类别赋为-1，如果f(x)大于0则将x的类别赋为1。
接下来的问题是，如何确定这个超平面呢？从直观上而言，这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以，得寻找有着最大间隔的超平面。

1.3 函数间隔Functional margin与几何间隔Geometrical margin

在超平面wx+b=0确定的情况下，|wx+b|能够表示点x到距离超平面的远近，而通过观察wx+b的符号与类标记y的符号是否一致可判断分类是否正确，所以，可以用(y(w*x+b))的正负性来判定或表示分类的正确性。于此，我们便引出了函数间隔（functional margin）的概念。
定义函数间隔（用 $\hat{\gamma}$ 表示）为：
$\hat{\gamma}=y\left(w^{T} x+b\right)=y f(x)$
而超平面(w，b)关于T中所有样本点(xi，yi)的函数间隔最小值（其中，x是特征，y是结果标签，i表示第i个样本），便为超平面(w, b)关于训练数据集T的函数间隔：
$\hat{\gamma}=\min \hat{\gamma}_{\mathrm{i}(}\mathrm{i}=1, \ldots \mathrm{n})$
但这样定义的函数间隔有问题，即如果成比例的改变w和b（如将它们改成2w和2b），则函数间隔的值f(x)却变成了原来的2倍（虽然此时超平面没有改变），所以只有函数间隔还远远不够。
事实上，我们可以对法向量w加些约束条件，从而引出真正定义点到超平面的距离–几何间隔（geometrical margin）的概念。
假定对于一个点 x ，令其垂直投影到超平面上的对应点为 $x_0$ ，w 是垂直于超平面的一个向量， $\gamma$ 为样本x到超平面的距离，如下图所示：

根据平面几何知识，有
$x=x_{0}+\gamma \frac{w}{\|w\|}$
其中||w||为w的二阶范数（范数是一个类似于模的表示长度的概念）， $\frac{w}{\|w\|}$ 是单位向量（一个向量除以它的模称之为单位向量）。
又由于 $x_0$ 是超平面上的点，满足 f( $x_0$ )=0，代入超平面的方程 $w^{T} x_0+b=0$ ，可得 $w^{T} x_{0}=-b$ 。
随即让此式 $x=x_{0}+\gamma \frac{w}{\|w\|}$ 的两边同时乘以 $w^{T}$ ，再根据 $w^{T} x_{0}=-b$ 和 $w^{T} w=\|w\|^{2}$ ，即可算出 $\gamma$ ：
$\gamma=\frac{w^{T} x+b}{\|w\|}=\frac{f(x)}{\|w\|}$
为了得到 $\gamma$ 的绝对值，令 $\gamma$ 乘上对应的类别 y，即可得出几何间隔（用 $\tilde{\gamma}$ 表示）的定义：
$\tilde{\gamma}=y \gamma=\frac{\hat{\gamma}}{\|w\|}$

从上述函数间隔和几何间隔的定义可以看出：几何间隔就是函数间隔除以||w||，而且函数间隔y*(wx+b) = y*f(x)实际上就是|f(x)|，只是人为定义的一个间隔度量，而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。

1.4 最大间隔分类器Maximum Margin Classifier的定义

对一个数据点进行分类，当超平面离数据点的“间隔”越大，分类的确信度（confidence）也越大。所以，为了使得分类的确信度尽量高，需要让所选择的超平面能够最大化这个“间隔”值。这个间隔就是下图中的Gap的一半。

通过由前面的分析可知：函数间隔不适合用来最大化间隔值，因为在超平面固定以后，可以等比例地缩放w的长度和b的值，这样可以使得 $f(x)=w^{T} x+b$ 的值任意大，亦即函数间隔 $\hat{\gamma}$ 可以在超平面保持不变的情况下被取得任意大。但几何间隔因为除上 $\|w\|$ 了，使得在缩放w和b的时候几何间隔 $\tilde{\gamma}$ 的值是不会改变的，它只随着超平面的变动而变动，因此，这是更加合适的一个间隔。换言之，这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。
于是最大间隔分类器（maximum margin classifier）的目标函数可以定义为：
$\max \tilde{\gamma}$
同时需满足一些条件，根据间隔的定义，有
$y_{i}\left(w^{T} x_{i}+b\right)=\hat{\gamma}_{i} \geq \hat{\gamma}, \quad i=1, \ldots, n$
其中，s.t.，即subject to的意思，它导出的是约束条件。
回顾下几何间隔的定义 $\tilde{\gamma}=y \gamma=\frac{\hat{\gamma}}{\|w\|}$ ，可知：如果令函数间隔 $\hat{\gamma}$ 等于1（之所以令等于1，是为了方便推导和优化，且这样做对目标函数的优化没有影响），则有 $\tilde{\gamma}$ =1 / ||w||且 $y_{i}\left(w^{T} x_{i}+b\right) \geq 1, i=1, \dots, n$ ，从而上述目标函数转化成了
$\max \frac{1}{\|w\|}, \quad s . t ., y_{i}\left(w^{T} x_{i}+b\right) \geq 1, i=1, \ldots, n$
相当于在相应的约束条件下 $y_{i}\left(w^{T} x_{i}+b\right) \geq 1, i=1, \dots, n$ ，最大化这个1/||w||值，而1/||w||便是几何间隔 $\tilde{\gamma}$ 。
如下图所示，中间的实线便是寻找到的最优超平面（Optimal Hyper Plane），其到两条虚线边界的距离相等，这个距离便是几何间隔 $\tilde{\gamma}$ ，两条虚线间隔边界之间的距离等于 $2\tilde{\gamma}$ ，而虚线间隔边界上的点则是支持向量。由于这些支持向量刚好在虚线间隔边界上，所以它们满足（还记得我们把 functional margin 定为 1 了吗？上节中：处于方便推导和优化的目的，我们可以令 $\hat{\gamma}$ =1），而对于所有不是支持向量的点，则显然有 $y\left(w^{T} x+b\right)>1$ 。

1.5 核函数

核函数是特征转换函数。

1.5.1 最简单的核函数

回顾上面内容，我们的任务是找出合适的参数w,b，使得分割超平面间距最大，且能正确对数据进行分类。间距最大是我们的优化目标。真确地对数据分类是约束条件。即在满足约束条件 $y^{(i)}\left(w^{T} x^{(i)}+b\right) \geq 1$ 的前提下，求解 $w||^2$ 的最小值。
拉格朗日乘子法是解决约束条件下求函数极值的理想方法。其方法是引入非负系数α来作为约束条件的权重:
$L=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{m} \alpha_{i}\left(y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right)$
由于极值的偏导数为0，因此这需要让L对w求导使之为0得到w和α对关系：
$w=\sum_{i=1}^{m} \alpha_{i} y^{(i)} x^{(i)}$
接着继续求L对b对偏导数得出:
$\sum_{i=1}^{m} y^{(i)} \alpha_{i}=0$
把这两个式子代入L通过数学运算得出(推导公式有所省略)：
$L=\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y^{(i)} y^{(j)} x^{(i) T} x^{(j)}$
这个公式中m是数据集个数， $\alpha$ 是拉格朗日乘子法引入的一个系数，针对数据集中的每个样本 $x^{(i)}$ ,都有对应的 $\alpha_i$ 。 $x^{(i)}$ 是数据集中地i个样本的输入，它是一个向量， $y^{(i)}$ 是对应的输出标签，值为 $\in[ -1,1]$ 。
这个公式的最小值求解这里就不说明了。最后求出的a有个明显的特点。即大部分 $\alpha_i$ =0。因为只有那些支持向量所对应的样本直接决定了间隙的大小。实际上以上推导出这个公式就是为了引入支持向量机的另外一个核心概念：核函数:
$K\left(x^{(i)}, x^{(j)}\right)=x^{(i) T} x^{(j)}$
L里的 $x^{(i) T} x^{(j)}$ 部分，其中 $x^{(i)}$ 是一个特征向量，所以 $x^{(i) T} x^{(j)}$ 是一个数值，就是两个输入特征向量的内积。预测函数为：
$w^{T} x+b=\sum_{i=1}^{m} \alpha_{i} y^{(i)} x^{(i) T} x+b$
当 $w^{T} x+b>0$ ，预测函数为类别1，当 $w^{T} x+b<0$ ，预测类别为-1。注意到预测函数里也包含式子 $x^{(i)T}x$ 。我们把 $K\left(x^{(i)}, x^{(j)}\right)=x^{(i) T} x^{(j)}$ 称为核函数。 $x^{(i) T} x^{(j)}$ 是两个向量内积，它的物理含义是衡量两个向量的相似性。典型地，当两个向量相互垂直是，即完全线性无关，此时 $x^{(i) T} x^{(j)}=0$ 。引入核函数后预测函数为：
$w^{T} x+b=\sum_{i=1}^{m} \alpha_{i} y^{(i)} K\left(x^{(i)}, x\right)+b$

1.5.2 相似性函数

假设数据集已有一个数图特征，如下图，如何进行分类。

解决这个问题的方式是：用一定规则把这些无法进行线性分割的样本映射到更高纬度的空间里，然后找出超平面。

SVM的核函数就是为了实现这种相似性映射。最简单的核函数是 $K\left(x^{(i)}, x^{(j)}\right)=x^{(i) T} x^{(j)}$
，它衡量的是两个输入特征向量的相似性。可以通过定义和函数 $K\left(x^{(i)}, x^{(j)}\right)$
来重新定义相似性，从而得到想要的映射。例如在基因测试领域，我们需要根据DNA分子的特征来定义相似性函数，即和函数。在文本处理领域，也可以自己定义和函数来衡量两个词之间的相似性。
怎么把低维度的空间映射到高纬度的空间呢？
举个例子：联想下利用多项式解决线性回归欠拟合问题的方法。如果输入特征是一维的[x1]
变量，我们把它变成二维的一个方法是把输入特征转化为 $x_1,2x_1^2]$ ，定义这种特征映射的函数就称之为相似性函数Φ(x)。这样在原来低维度计算相似性的运算 $x^{(i) T} x^{(j)}$ ，就可以转换为高纬度空间里进行相似性运算 $\Phi\left(x^{(i)}\right)^{T} \Phi\left(x^{(i)}\right)$ 。
核函数 $K\left(x^{(i)}, x^{(j)}\right)$ 和相似性函数Φ(x)的关系：
相似性函数是特征的映射函数，起到转换的作用。而核函数是特征向量的内积。经过相似性函数转换后，核函数变成 $K\left(x^{(i)}, x^{(j)}\right)=\Phi\left(x^{(i)}\right)^{T} \Phi\left(x^{(i)}\right)$ 。

1.5.3 常用核函数

核函数一般和应用场景相关，在不同领域所应用的核函数可能也不相同。但是实际上也有一些通用核函数“万金油”，一般有两种：多项式核函数和高斯核函数。
1、多项式核函数：
$K\left(x^{(i)}, x^{(j)}\right)=\left(\gamma x^{(i) T} x^{(j)}+c\right)^{n}$
2、高斯核函数：
$K\left(x^{(i)}, x^{(j)}\right)=\exp \left(-\frac{\left(x^{(i)}-x^{(j)}\right)^{2}}{2 \sigma^{2}}\right)$
如果输入的特征是一维的标量，那么高斯核函数对应的形状就是一个反钟形的曲线，其参数σ控制反钟形的宽度。如下图所示：
由于 $K\left(x^{(i)}, x^{(j)}\right)=\Phi\left(x^{(i)}\right)^{T} \Phi\left(x^{(i)}\right)$ 经过合适的数学变换，可得高斯核函数对应的特征转换函数为：
$\Phi(x)=\sum_{i=0}^{\infty} \exp \left(-x^{2}\right) \sqrt{\frac{2^{i}}{i !}} x^{i}$
前面无限多项的累加器，其物理意义就是把特征向量转换到无限多维向量空间里，即高斯函数可以吧输入特征扩展到无限多维空间里。公式的推导公式会用到泰勒公式。
$高斯预测函数=\sum_{i=1}^{m} a_{i} y^{(i)} K\left(x^{(i)}, x\right)+b$
其中 $K\left(x^{(i)}, x^{(j)}\right)$ 是高斯核函数， $a_i$ 只在支持向量对应的样本出不为0.由此可知，预测函数时中心点在支持向量机处的高斯函数的线性组合，其线性组合的系数为 $a_iy^{(i)}$ 。因此，高斯核函数也称为RBF核函数，即反钟形函数的线性组合。

1.5.4 核函数的对比

1、线性核函数：这是最简单的核函数，它直接计算两个输入特征向量的内积。
$K\left(x^{(i)}, x^{(j)}\right)=x^{(i) T} x^{(j)}$
优点：简单高效，结果易解释，总能生成一个最简洁的线性分割超平面
缺点：只适用线性可分的数据集

2、多项式核函数：通过多项式来作为特征映射函数
$K\left(x^{(i)}, x^{(j)}\right)=\left(\gamma x^{(i) T} x^{(j)}+c\right)^{n}$
优点：可以拟合出复杂的分割超平面。
缺点：参数太多。有γ,c,n
三个参数要选择，选择起来比较困难；另外多项式的阶数不宜太高否则会给模型求解带来困难。

3、高斯核函数：
$K\left(x^{(i)}, x^{(j)}\right)=\exp \left(-\frac{\left(x^{(i)}-x^{(j)}\right)^{2}}{2 \sigma^{2}}\right)$
优点：可以把特征映射到无限多维，并且没有多项式计算那么困难，参数也比较好选择。
缺点：不容易解释，计算速度比较慢，容易过拟合。

1.5.5 核函数的选择

1、最一般的选择原则是针对数据量很大的时候，可以选择复杂一点的模型。虽然复杂模型容易过拟合，但由于数据量很大，可以有效弥补过拟合问题。如果数据集较小选择简单点的模型，否则很容易过拟合，此时特别要注意模型是否欠拟合，如果欠拟合可以增加多项式纠正欠拟合。

2、根据样本量m和特征量n
进行选择：
特征相比样本较大（如m=10～1000，n=10000）：选逻辑回归或者线性函数SVM
特征较少，样本量中（如m=10～10000，n=1～1000）：选择高斯SVM
特征量少，样本多（如m=50000+，n=1~1000)：选多项式或高斯SVM

2.sklearn svm 学习

支持向量机（SVM）是一组用于监督学习方法分类，回归和异常值的检测。

支持向量机的优点是：

在高维空间有效。
当维数大于样品的数量时，仍然有效。
在决策函数中使用训练数据（称为支持向量）的一个子集，所以它内存使用也是有效率。
通用性：可以为不同决策功能指定不同的内核函数。提供了常见的内核，但它也可以指定自定义内核。

支持向量机的缺点包括：

如果特征的数量比样本的数量大得多，避免过度拟合在选择内核函数和调整项是至关重要的。
支持向量机不直接提供的概率估计，这些使用昂贵的5倍交叉验证（见计算得分和概率，下文）。

在支持向量机scikit学习支持稠密（numpy.ndarray和通过转换为该numpy.asarray）和稀疏（任何scipy.sparse）取样矢量作为输入。但是，要使用SVM进行稀疏数据预测，它一定是已经使用这些数据进行训练。为了获得最佳性能，使用C-ordered numpy.ndarray（稠密）或 scipy.sparse.csr_matrix（稀疏）用dtype=float64。

2.1 Classification

SVC，NuSVC和LinearSVC能够在数据集上执行多类分类的类。

SVC和NuSVC类似的方法，但接受稍有不同的参数集，并具有不同的数学公式。在另一方面，LinearSVC是一个线性核的情况下，支持向量分类的另一种实现方式。请注意， LinearSVC不接受关键字kernel，因为这被认为是线性的。它还缺少一些成员 SVC和NuSVC一样support_。
作为其它分类器，SVC，NuSVC和 LinearSVC输入是两个数组：一个存训练数据，另一个存标签

>>> from sklearn import svm
>>> X = [[0, 0], [1, 1]]
>>> y = [0, 1]
>>> clf = svm.SVC(gamma='scale')
>>> clf.fit(X, y)  
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

训练后，该模型可以被用来预测新的价值

>>> clf.predict([[2., 2.]])
array([1])

支持向量机决策函数依赖于训练数据的某个子集，称为支持向量。这些支持向量的某些属性可以在成员变量support_vectors_，support_和 n_support中找到：

>>> # get support vectors
>>> clf.support_vectors_
array([[0., 0.],
       [1., 1.]])
>>> # get indices of support vectors
>>> clf.support_ 
array([0, 1]...)
>>> # get number of support vectors for each class
>>> clf.n_support_ 
array([1, 1]...)

2.1.1 Multi-class classification

SVC和NuSVC实施“一对一”的方法（Knerr等人，1990）用于多类分类。如果 n_class是的类的数量，则 n_class * (n_class - 1) / 2分类器被构造和每一个从两个类训练数据。为了提供与其他分类一致的界面，该 decision_function_shape选项允许聚集“一对一”分类器形状的决策函数的结果：decision_function_shape(n_samples, n_classes)

>>> X = [[0], [1], [2], [3]]
>>> Y = [0, 1, 2, 3]
>>> clf = svm.SVC(gamma='scale', decision_function_shape='ovo')
>>> clf.fit(X, Y) 
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovo', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)
>>> dec = clf.decision_function([[1]])
>>> dec.shape[1] # 4 classes: 4*3/2 = 6
6
>>> clf.decision_function_shape = "ovr"
>>> dec = clf.decision_function([[1]])
>>> dec.shape[1] # 4 classes
4

在另一方面，LinearSVC实行“one-vs-the-rest”多类策略，从而培养n_class模型。如果只有两类，只有一种模式进行训练：

>>> lin_clf = svm.LinearSVC()
>>> lin_clf.fit(X, Y) 
LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)
>>> dec = lin_clf.decision_function([[1]])
>>> dec.shape[1]
4

LinearSVC提供了另一种多分类策略，即是所谓的多类SVM，由Crammer和Singer设计的，它的实现通过选项multi_class=‘crammer_singer’ 完成。这个方法是一致性的，而 one-vs-rest 分类不是。在实际应用中更喜欢用 one-vs-rest分类，因为效果类似但运行更快。
对于“one-vs-rest” LinearSVC,它的属性 coef_ 和 intercept_的数据类型分别为[n_class, n_features] 和 [n_class]，参数coef_的每一行对应一个 “one-vs-rest”的分类器，与intercept_一样，以类的顺序排列。
对于“one-vs-one” SVC，他的属性的布局比较困难。以线性核为例，他的属性coef_ 和 intercept_的数据类型分别是[n_class * (n_class - 1) / 2, n_features] 和 [n_class * (n_class - 1) / 2]。跟之前的LinearSVC类似，每一行对应的是一个二元分类器，类的排序从0到n是“0 vs 1”, “0 vs 2” , … “0 vs n”, “1 vs 2”, “1 vs 3”, “1 vs n”, . . . “n-1 vs n”。
dual_coef_数据类型[n_class-1, n_SV]，有点难以把握理解，列对应的是 “one-vs-one” 分类器中涉及到的支持向量。每一个向量会在n_class - 1个分类器中用到，各行中的 n_class - 1 各项对应的是这些分类其双元系数。
这可以用一个例子来更加明确：
假设一个3分类问题，类0有三个支持向量 $v_{0}^{0}, v_{0}^{1}, v_{0}^{2}$ ,类1和类2分别有两个支持向量 $v_{1}^{0}, v_{1}^{1}$ 和 $v_{2}^{0}, v_{2}^{1}$ 。对于每一个向量 $v_{i}^{j}$ ,都有两个双元系统，分别是类别 $i$ 和 $k\alpha_{i,k}^j$ 。 dual_coef_看起来如下图：

2.1.2 Scores and probabilities

所述decision_function的方法SVC和NuSVC给出了每个类为每个样品的分数（或在二分类的情况下，每个样品的单个分数）。当构造选项probability设置为True，类别成员概率估计（从方法predict_proba和 predict_log_proba）被启用。在二分类的情况下，概率使用普拉特缩放校准：对SVM的分数逻辑回归，通过对训练数据的额外交叉验证实现：。在多分类情况下，方法如在Wu et al. (2004)扩展的一样。

不用说，对大型数据集进行普拉特缩放交叉验证是昂贵的操作。此外，概率估计可能是跟分数不一致的，在这个意义上，该分数的“argmax”可能不是概率的argmax。（例如，在二元分类，一个标记predict的样品可能属于由predict_proba获得概率<½的一个类。）普氏方法具有理论问题。如果需要的置信度，但是这些不必是概率，那么最好是设置probability=False 和使用decision_function代替predict_proba。

2.1.3 Unbalanced problems

在其中期望给予某些类或某些个别样品更大的权重，关键字class_weight和 sample_weight可以使用。
SVC（不是NuSVC）在fit方法中执行关键字 class_weight。它以字典形式 {class_label : value}，其中值是大于0的浮点数，则设置class_label类的参数C为C * value.

SVC，NuSVC，SVR，NuSVR和 OneClassSVM也在 fit方法中通过关键字sample_weight改变个体样本的权重。类似class_weight，设置第 $i$ 个样本的参数C为C * sample_weight[i]。

2.2 Regression

支持向量分类的方法可以扩展到解决回归问题。这个方法被称为Support Vector Regression。
支持向量分类所产生的模型只依赖训练数据的一个子集，只是因为用于建立模型的代价函数只关心边缘附近的训练数据。类似的，支持向量回归也是依赖于训练数据的一个子集，原因是他会忽略预测模型附近的训练数据。
总共有3个支持向量回归的工具，SVR, NuSVR 和 LinearSVR。LineaSVR提供了比SVR更快的实现方法，但是只考虑线性核，同时NuSVR跟SVR和LinearSVR实现的数学模型有些不同。
跟分类方法一样，fit 方法以向量X为输入，y在这里的数据类型是浮点数，而不是分类中的整型。

>>> from sklearn import svm
>>> X = [[0, 0], [2, 2]]
>>> y = [0.5, 2.5]
>>> clf = svm.SVR()
>>> clf.fit(X, y) 
SVR(C=1.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1,
    gamma='auto_deprecated', kernel='rbf', max_iter=-1, shrinking=True,
    tol=0.001, verbose=False)
>>> clf.predict([[1, 1]])
array([1.5])

2.3 Density estimation, novelty detection

oneClassSVM 类实现了单类的SVM, 主要用于异常值检测。

2.4 Complexity

支持向量机是强大的工具，但他们的计算和存储需求与培训向量的数量迅速增加。一个SVM的核心是一个二次规划问题（QP），从训练数据的其余部分分离支持向量。基于libsvm的QP求解器的使用规模在与 $O\left(n_{\text {features}} \times n_{\text {samples}}^{2}\right)$ 和 $O\left(n_{\text {features}} \times n_{\text {samples}}^{3}\right)$ 之间，具体取决于 libsvm 缓存的使用效率。如果数据集是非常稀疏的， $n_{\text { features }}$ 应该由样本矢量的非零特征的平均数量来代替。
另外请注意，对于线性的情况下， LinearSVC由liblinear实现比LIBSVM为基础的SVC更有效率，并且几乎可以线性扩展到数百万的样品和/或功能。

2.5 Tips on Practical Use

避免数据复制：对SVC，SVR，NuSVC和NuSVR，如果通过传输数据不是C-ordered contiguous的，而双精度，它在调用底层的C实现之前会复制，我们可以通过检查numpy array的flags属性来判断其是否是C-ordered contiguous。
对于LinearSVC（和LogisticRegression）通过作为numpy的阵列的任何输入将被复制并转化为liblinear内部稀疏数据表示（双精度浮点数和非零分量的INT32索引）。如果你想以适应大规模线性分类不复制密集numpy的C-连续的双精度数组作为输入，我们建议使用SGDClassifier类代替。目标函数可以被配置成大致相同的LinearSVC 模型。
内核缓存大小：对SVC，SVR，NuSVC和NuSVR，内核缓存的大小对运行时间有很大的影响。如果你有足够的可用RAM，建议设置cache_size为比200（MB）的默认更高的值，如500（MB）或1000（MB）。
设置参数C：在默认情况下C是1，这是一个合理的默认选择。如果你有很多嘈杂的观测，你应该减少它。它对应于更正规化的估计。
LinearSVC和LinearSVR对C不敏感，当它变大，并且预测结果在一定的阈值后停止提高。同时，较大的C值将需要更多的时间来训练，有时高达10倍长。
支持向量机算法不是比例无关的，所以它强烈建议缩放您的数据。例如，缩放输入矢量X的每个属性到[0,1]或[-1，+1]的，或标准化它具有均值为0，方差为1。请注意，相同的缩放必须施加到测试向量以得到有意义的结果。见预处理数据上缩放和规范化的更多细节。
参数nu在NuSVC/ OneClassSVM/ NuSVR 近似于训练误差和支持向量的分数。
在SVC，如果分类数据不平衡（如许多正面极少负面），设置class_weight='balanced’和或尝试不同的惩罚参数C。
底层实现随机性：SVC和NuSVC的底层实现使用一个随机数发生器清洗数据用于概率估计（当probability被设置为 True）。这种随机性可以通过控制random_state参数。如果probability设置为False
这些估计不是随机的，并且random_state对结果没有任何影响。OneClassSVM底层实现类似于的SVC和NuSVC。由于OneClassSVM没有概率估计，所以不是随机的。
LinearSVC底层实现使用一个随机数发生器去选择特征时，并且使用双坐标下降拟合模型（当dual被设置为True）。因此，对于相同的输入数据有略微不同的结果并不少见。如果出现这种情况，请尝试使用一个较小的TOL参数。这种随机性也可通过控制random_state参数实现。当dual设置为False底层实现的LinearSVC是并不是随机的，random_state对结果没有任何影响。
使用LinearSVC(loss=‘l2’, penalty=‘l1’, dual=False)提供L1惩罚会产生稀疏解，也就是仅不同于零特征权重的子集对决定函数产生影响。增加C会生成更复杂的模型（多个特征被选择）。产生一个“空”模型（所有重量等于零）值可以使用l1_min_c计算。

2.6 kernel function

该内核函数可以是任何如下：
linear: $\left\langle x, x^{\prime}\right\rangle$
polynomial: $\left(\gamma\left\langle x, x^{\prime}\right\rangle+ r\right)^{d}$ , d 代表关键词 degree, r代表coef0.
rbf: $\exp \left(-\gamma\left\|x-x^{\prime}\right\|^{2}\right)$ $\gamma$ 由关键字指定gamma，必须大于0。
sigmoid: $\left(\tanh \left(\gamma\left\langle x, x^{\prime}\right\rangle+ r\right)\right)$ 其中r被指定coef0
不同的内核是通过关键字内核在初始化规定：

>>> linear_svc = svm.SVC(kernel='linear')
>>> linear_svc.kernel
'linear'
>>> rbf_svc = svm.SVC(kernel='rbf')
>>> rbf_svc.kernel
'rbf'

2.6.1 custom kernel

您可以通过给内核作为一个Python函数或通过预先计算的Gram矩阵定义自己的内核。
与自定义内核分类的行为方式与任何其他分类相同，不同之处在于：

现场support_vectors_现在是空的，只有支持矢量的索引存储在support_
fit() 方法第一个参数引用（而不是复制）被存储以供将来参考。如果在fit()和predict()阵列变化你会有意想不到的效果。

2.6.1.1 Using Python functions as kernels

你可以在构造函数中把函数传递给关键字kernel来自定义你的kernel函数
你的内核必须以两个矩阵(n_samples_1, n_features)(n_samples_2, n_features) 作为参数输入，并返回核矩阵(n_samples_1, n_samples_2)

下面的代码定义线性核，并创建一个将使用的内核的分类器的实例：

>>> import numpy as np
>>> from sklearn import svm
>>> def my_kernel(X, Y):
...     return np.dot(X, Y.T)
...
>>> clf = svm.SVC(kernel=my_kernel)

2.6.1.2 Using the Gram matrix

设置kernel=‘precomputed’,拟合方法中传入Gram矩阵，而不是X。这里，训练向量和测试向量之间的核值必须提供。

>>> import numpy as np
>>> from sklearn import svm
>>> X = np.array([[0, 0], [1, 1]])
>>> y = [0, 1]
>>> clf = svm.SVC(kernel='precomputed')
>>> # linear kernel computation
>>> gram = np.dot(X, X.T)
>>> clf.fit(gram, y) 
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='precomputed', max_iter=-1, probability=False,
    random_state=None, shrinking=True, tol=0.001, verbose=False)
>>> # predict on training examples
>>> clf.predict(gram)
array([0, 1])

2.6.1.3 Parameters of the RBF Kernel

使用径向基函数（RBF）内核训练的SVM，两个参数必须考虑：C和gamma。参数C，通用于所有SVM内核，分类精度和决策面光滑的权重系数。低C作决策表面光滑，而高C的目标，在所有的训练例子正确分类。 gamma定义了一个训练例子多大的影响力了。越大gamma，越靠近其它实例必须受到影响。
正确选择C和gamma是对SVM的性能至关重要。其中一个建议使用sklearn.model_selection.GridSearchCV时， C和gamma成倍相隔很远以选择良好的参数。

3. Udacity mini-project

4. 参考文献

SVM支持向量机原理及核函数
https://scikit-learn.org/stable/modules/svm.html

你可能感兴趣的:(Udacity机器学习)

强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
OpenCV机器学习（1）人工神经网络 - 多层感知器类cv::ml::ANN_MLP 村北头的码农 OpenCV opencv 机器学习人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::ml::ANN_MLP是OpenCV库中的一部分，用于实现人工神经网络-多层感知器（ArtificialNeuralNetwork-Multi-LayerPerceptron,ANN-MLP）。它提供了一种方式来创建和训练多层感知器模型，以解决分类、回归等
运用python制作一个完整的股票分析系统大懒猫软件 python 开发语言 django beautifulsoup
使用python制作一个股票分析系统，可以通过股票价格走势动态界面，实时动态监测不同类型股票的变化情况。以下是一个完整的股票分析系统开发指南，包括股票价格走势动态界面和实时监测功能。这个系统将结合网络爬虫、数据分析、机器学习和可视化技术，帮助你实时监测不同类型股票的变化情况。1.系统功能概述数据采集：使用网络爬虫技术从财经网站采集股票数据。数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处
Google Cloud技术学习总结谭俊杰Jerry 人工智能
GoogleCloudPlatform（GCP）是由Google提供的一套云计算服务，帮助企业和开发者利用Google的基础设施来构建、部署和扩展应用程序。GCP提供了广泛的服务，涵盖计算、存储、数据分析、机器学习和网络等领域。以下是GoogleCloud的技术总结：核心服务计算服务GoogleComputeEngine：提供虚拟机（VM）实例，支持自定义配置，适合各种工作负载。GoogleKub
DeepSeek R1蒸馏版模型部署的实战教程 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
强化学习在连续动作空间的应用：DDPG与TD3 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态（State）选择动作（Action），以最大化某种长期累积奖励（Reward）的方法。强化学习的核心问题是学习一个策略（Policy），即在给定状态下选择动作的映射关系。1.2连续动
书籍-《机器学习的秘密：它是如何工作的以及它对你的意义》机器学习深度学习人工智能
书籍：SecretsOfMachineLearning:HowItWorksAndWhatItMeansForYou作者：TomKohn出版：WorldScientificPublishingCoPteLtd编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习的秘密：它是如何工作的以及它对你的意义》01书籍介绍在众多关于机器学习和人工智能的技术文献及充满恐慌的书籍中，《机器学习的秘密》犹
python 学习曲线函数_如何使用学习曲线来诊断你的LSTM模型的行为？（附代码）... weixin_39576066 python 学习曲线函数
LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。在自然语言处理、语言识别等一系列的应用上都取得了很好的效果。《LongShortTermMemoryNetworkswithPython》是澳大利亚机器学习专家JasonBrownlee的著作，里面详细介绍了LSTM模型的原理和使用。该书总共分为十四个章节，具体如下：第一章：什么是LSTMs？第二章：怎么样训练
【漫话机器学习系列】041.信息丢失（dropout） IT古董漫话机器学习系列专辑机器学习人工智能深度学习
信息丢失（Dropout）Dropout是一种广泛应用于神经网络训练中的正则化技术，旨在减少过拟合（overfitting），提高模型的泛化能力。虽然"信息丢失"（dropout）这个术语在某些情况下可能引起误解，指的并非是数据的丢失，而是训练过程中故意“丢弃”神经网络中的部分神经元。这种做法可以避免模型过于依赖于某些特定的神经元，从而提高模型在新数据上的表现。Dropout的工作原理在神经网络的
第二章：12.3 建立表现基准望云山190 基准性能水平人工智能机器学习
背景介绍语音识别是一种常见的机器学习应用，用户通过语音输入代替键盘输入，系统需要将语音转换为文本。在这个过程中，算法的性能可以通过训练误差和交叉验证误差来评估。误差定义训练误差（Jtrain）：指算法在训练数据集上无法正确转录的音频片段的百分比。在这个例子中，训练误差是10.8%，意味着算法在训练数据上犯了10.8%的错误。交叉验证误差（Jcv）：指算法在未见过的数据（交叉验证集）上无法正确转录的
第二章：12.4 学习曲线望云山190 深度学习机器学习人工智能
学习曲线的基本概念学习曲线是展示机器学习模型性能如何随着训练数据量增加而变化的图表。它们可以帮助我们理解模型在不同数据量下的表现，以及模型是否过拟合或欠拟合。二阶模型的学习曲线交叉验证错误（Jcv）：这条绿色曲线表示模型在未见过的数据上的表现。它反映了模型的泛化能力，即模型对新数据的预测能力。训练错误（Jtrain）：这条红色曲线表示模型在训练数据上的表现。它反映了模型对训练数据的拟合程度。学习曲
机器学习相关基础星辰瑞云机器学习
1.预备知识人工智能:用人工的方法在机器(计算机)上实现的智能;或者说是人们使机器具有类似于人的智能。人工智能学科:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。2.日常生活中的机器学习:①称为RGB(由红色，绿色，蓝色组成)，这种是欠拟合欠拟合和过拟合区别:•欠拟合（Underfitting）：模型在训练数据上表现不佳，无法很好地捕捉数据中的规律。通
FastAPI：解锁高性能API开发的密钥，轻松构建现代Web服务醉心编码人工智能基础 fastapi 前端
FastAPI：解锁高性能API开发的密钥，轻松构建现代Web服务一、核心特点二、应用场景三、技术优势四、安装与基本用法五、社区与文档FastAPI是一个基于Python的现代、快速（高性能）的Web框架，专门用于构建APIs，特别是基于Python的RESTfulAPIs。它以其高性能、易用性和可扩展性而闻名，适合开发者、数据科学家和机器学习工程师等多种岗位使用。以下是对FastAPI的详细介绍
AIGC开启人工智能新时代靖节先生人工智能
AIGC：开启智能生成内容的全新时代在数字化技术飞速发展的当下，AIGC（ArtificialIntelligence-GeneratedContent）横空出世，宛如一颗璀璨的新星照亮了内容创作领域的天空。它正以不可阻挡之势重塑着我们的生活、工作与娱乐方式，成为众多行业创新发展的重要驱动力。一、AIGC的概念AIGC，即人工智能生成内容，是指利用人工智能技术自动生成各类内容的过程。它依托机器学习
推荐学习图像处理的入门书：《Python图像处理实战》天飓学习感悟学习图像处理 python
《Python图像处理实战》是一本全面介绍Python图像处理技术的实用指南，是由人民邮电出版社于2020年12月出版。这本书的作者桑迪潘·戴伊是一位兴趣广泛的数据科学家，主要研究机器学习、深度学习、图像处理和计算机视觉。在《Python图像处理实战》一书中，作者主要介绍了如何用Python图像处理库（如PIL、python-opencv、Scipy等），机器学习库（scikit-learn）和深
使用 OpenCV 和 Python 对图像进行卡通化无水先生 AI原理和python实现人工智能综合 opencv python 人工智能
关键词：OpenCVlibrarytoconvertimagestocartoons目录一、说明二、OpenCV2.1要求支持库2.2方法2.3实施和执行三、定义卡通化函数3.1添加按钮3.2保存图像四、结论一、说明在本文中，我们将构建一个有趣的应用程序，将提供给它的图像卡通化。为了构建这个卡通化应用程序，我们将使用python和OpenCV。这是机器学习令人兴奋和激动的应用程序之一。在构建此应用
机器学习:朴素贝叶斯小源学AI 人工智能机器学习人工智能朴素贝叶斯
概率1.1定义概率表示随机事件发生可能性大小的一个数值,随机事件指在相同条件下,可能出现也可能不出现的事件。例如:抛硬币:当我们抛硬币时,可以正面朝上也可以反面朝上,正面或反面朝上的可能性被称为概率。理想状态下正反概率都是0.5。掷骰子:掷一个六面的骰子,每个点出现的概率是1/6,因为每个面出现的机会是均等的。抽取商品:一批商品包含良品和次品,随机抽取一件,抽取良品或次品是一个随机事件,经过大量实
人工智能的发展领域之GPU加速计算的应用概述、架构介绍与教学过程 m0_74824592 面试学习路线阿里巴巴人工智能架构
文章目录一、架构介绍GPU算力平台概述优势与特点二、注册与登录账号注册流程GPU服务器类型配置选择指南内存和存储容量网络带宽CPU配置三、创建实例实例创建步骤镜像选择与设置四、连接实例SSH连接方法远程桌面配置一、架构介绍GPU算力平台概述一个专注于GPU加速计算的专业云服务平台，隶属于软件和信息技术服务业。主要面向高校、科研机构和企业用户。该平台提供多种NVIDIAGPU选择，适用于机器学习、人
机器学习 - 学习线性模型的重要性谦亨有终跟着AI向前走机器学习学习人工智能
在接下来的博文中，我们将重点学习线性模型的回归模型和分类模型，在学习之前，让我们来了解一下学习线性模型的重要性，以及如何入门学习。一、作为初学者如何学习线性模型？作为初学者，要高效学习机器学习以及其中的线性模型，可以遵循以下几个步骤和建议：（一）、机器学习的整体学习策略打好数学基础线性代数：理解向量、矩阵、线性变换等，这些是理解模型表示（如y=w^Tx+b）和算法优化的基础。微积分：掌握导数、梯度
【机器学习】多元线性回归 T0uken Python全栈开发 1024程序员节机器学习算法线性回归
在实际应用中，许多问题都包含多个特征（输入变量），而不仅仅是单个输入变量。多元线性回归是线性回归的扩展，它能够处理多个输入特征并建立它们与目标变量的线性关系。本教程将系统性推演多元线性回归，包括向量化处理、特征放缩、梯度下降的收敛性和学习率选择等，并使用numpy实现。最后，我们会通过sklearn快速实现多元线性回归模型。多元线性回归模型简介多元线性回归的模型公式为：y=X⋅w+by=X\cdo
【第15章：量子深度学习与未来趋势—15.1 量子计算基础与量子机器学习的发展背景】再见孙悟空_ #【深度学习・探索智能核心奥秘】机器翻译自然语言处理计算机视觉量子计算人工智能深度学习机器学习
想象一下，你正在用ChatGPT生成一篇小说，突然它卡在"主角穿越虫洞"的情节上——这不是因为想象力枯竭，而是传统计算机的晶体管已经烧到冒烟。当前AI大模型的参数规模每4个月翻一番，但摩尔定律的终结让经典计算机的算力增长首次跟不上AI的进化速度。这时候，量子计算带着它的"超能力"登场了：1台50量子位的量子计算机，处理某些问题的速度可达超级计算机的1亿倍。这场算力革命，正在改写深度学习的游戏规则。
【深度解析】ICLR：人工智能领域的顶级学术会议 | 顶会与SCI期刊的区别全攻略 X_taiyang18 人工智能
【深度解析】ICLR：人工智能领域的顶级学术会议|顶会与SCI期刊的区别全攻略简介在人工智能和机器学习领域，ICLR（InternationalConferenceonLearningRepresentations）被誉为“深度学习的顶级会议”。自2013年由深度学习三巨头中的YoshuaBengio和YannLeCun创办以来，ICLR迅速崛起，成为全球科研人员争相投稿的学术盛会。那么，ICLR
使用多模态大语言模型进行深度学习的图像、文本和语音数据增强数行天下人工智能语言模型深度学习人工智能自然语言处理
在过去的五年里，研究方向已从传统的机器学习（ML）和深度学习（DL）方法转向利用大语言模型（LLMs），包括多模态方法，用于数据增强，以提高泛化能力，并在训练深度卷积神经网络时防止过拟合。然而，现有的综述文章主要集中于机器学习和深度学习技术或有限的模态（如文本或图像），在涵盖LLM方法的最新进展和多模态应用方面仍存在空白。本文通过探索利用多模态LLMs进行图像、文本和语音数据增强的最新文献，填补了
《深入浅出LLM基础篇》（三）：大模型结构分类 GoAI 深入浅出LLM 深入浅出AI 自然语言处理NLP 大模型 LLM 人工智能 transformer chatgpt
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
Rasa：开源的机器学习框架 Indra_ran 开源机器学习人工智能 linux centos 运维
一、Rasa简介Rasa是一套用来构建基于上下文的AI小助手和聊天机器人框架。分为两个主要的模块：NLU：自然语言理解模块，实现意图识别以及槽值的提取，将用户的输入转化为结构性数据，在训练过程中，为了提高从用户信息的实体识别能力，采用了预先训练的实体提取器Pre-trainedEntityExtractors，正则表达式Regexes，同义词Synonyms等RasaCore：对话管理模块，也是一
机器学习：k均值 golemon. ML 机器学习均值算法人工智能
所有代码和文档均在golitter/Decoding-ML-Top10:使用Python优雅地实现机器学习十大经典算法。(github.com)，欢迎查看。在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础，较为经典的是聚类。**聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。**聚
电子电气架构 --- 机器学习推动车载雷达的发展车载诊断技术汽车行业车辆信息安全机器学习人工智能电子电器框架网络架构汽车
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
DeepSeek+WPS/Office手把手教你玩转智能办公 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能 office wps 智能办公
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法Q大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
DeepSeek R1 与 OpenAI O1：机器学习模型的巅峰对决学无止尽5 机器学习人工智能
我的个人主页我的专栏：人工智能领域、java-数据结构、Javase、C语言，希望能帮助到大家！！！点赞收藏❤一、引言在机器学习的广袤天地中，大型语言模型（LLM）无疑是最为璀璨的明珠。它们凭借卓越的语言理解与生成能力，正以前所未有的方式重塑着我们与信息交互的模式。DeepSeekR1和OpenAIO1作为其中的佼佼者，代表了当前技术的前沿水准，在架构设计、训练方法、性能表现以及应用场景等诸多层面
做其他的不好吗？别写代码了(4) chalmers_15 ai文章人工智能
AI技术在IT领域的应用确实已经成为一个趋势,这对IT从业者来说既是机遇也是挑战。我们需要客观地看待AI对IT行业的影响:AI可以自动化和优化很多IT工作,如系统监控、故障诊断、代码编写等,这可能会替代一些传统的IT工作岗位。但同时AI也会创造新的IT工作机会,如AI系统的开发、部署和维护,以及利用AI技术进行创新和优化等。未来IT从业者需要更多掌握AI相关的技能,如机器学习、数据分析等,以适应A
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f