羞儿

【机器学习算法复现】支持向量机，可分类可回归的有监督学习算法，从数学原理到sklearn调包实践，可视化展示感受参数变化带来的影响

在机器学习中，支持向量机（SVM）是具有相关学习算法的监督学习模型，其分析用于分类和回归分析的数据。给定一组训练示例，每个示例标记为属于两个类别中的一个或另一个，SVM训练算法构建一个模型，将新示例分配给一个类别或另一个类别，使其成为非概率二元线性分类器。SVM模型是将示例表示为空间中的点，映射使得单独类别的示例除以尽可能宽的明确间隙。然后将新的示例映射到同一空间，并根据它们落在哪个边缘预测属于一个类别。除了执行线性分类之外，SVM还可以使用所谓的内核技巧有效地执行非线性分类，将其输入隐式映射到高维特征空间。
支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。支持向量机（Support Vector Machine, SVM）的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法，在引入了核方法之后SVM也可以用来解决非线性问题。
- 硬间隔支持向量机（线性可分支持向量机）：当训练数据线性可分时，可通过硬间隔最大化学得一个线性可分支持向量机。
- 软间隔支持向量机：当训练数据近似线性可分时，可通过软间隔最大化学得一个线性支持向量机。
- 非线性支持向量机：当训练数据线性不可分时，可通过核方法以及软间隔最大化学得一个非线性支持向量机。
SVM算法原理支持向量机（SVM）——原理篇 - 知乎 (zhihu.com)
- SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示， $w \cdot x + b = 0$ 即为分离超平面，对于线性可分的数据集来说，这样的超平面有无穷多个（即感知机），但是几何间隔最大的分离超平面却是唯一的。
- 为了使这个超平面更具鲁棒性，我们会去找最佳超平面，以最大间隔把两类样本分开的超平面，也称之为最大间隔超平面。【机器学习】支持向量机 SVM（非常详细） - 知乎 (zhihu.com)
  - 两类样本分别分割在该超平面的两侧；
  - 两侧距离超平面最近的样本点到超平面的距离被最大化了。
  - SVM 想要的就是找到各类样本点到超平面的距离最远，也就是找到最大间隔超平面。任意超平面可以用下面这个线性方程来描述： $w^Tx+b=0$ ，二维空间点（x,y）到直线 $A x + B y + C = 0$ 的距离公式是： $\frac{|Ax+By+C|}{\sqrt{A^2+B^2}}$ ，扩展到 n 维空间后，点 $x=(x_1,x_2,...,x_n)$ 到直线 $w^Tx+b=0$ 的距离为： $\frac{|w^Tx+b|}{||w||}$ ,如图所示，根据支持向量的定义我们知道，支持向量到超平面的距离为 d，其他点到超平面的距离大于 d。
- 在推导之前，先给出一些定义。假设给定一个特征空间上的训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,其中， $x_i\in \R^n,y_i\in\{-1,+1\},i=1,2,...,N$ , $x_i$ 表示第i个特征向量， $y_i$ 表示类的标记，两个类，当它等于+1时为正例；为-1时为负例。再假设训练数据集是线性可分的。
- 几何间隔：对于给定的数据集 T 和超平面 $w \cdot x + b = 0$ ，定义超平面关于样本点 $x_i,y_i)$ 的几何间隔为 $\gamma_i=y_i(\frac{w}{||w||}·x_i+\frac{b}{||w||})$ ,超平面关于所有样本点的几何间隔的最小值为 $\gamma=\mathop{\min}\limits_{i=1,2,...,N}\gamma_i$ ,实际上这个距离就是我们所谓的支持向量到超平面的距离。
- 根据以上定义，SVM模型的求解最大分割超平面问题可以表示为以下约束最优化问题
  - $\mathop{\max}\limits_{w,b}\gamma\\ s.t.~~y_i(\frac{w}{||w||}·x_i+\frac{b}{||w||})>\gamma,i=1,2,...,N$
  - 将约束条件两边同时除以 $\gamma$ ，得到
  - $y_i(\frac{w}{||w||\gamma}·x_i+\frac{b}{||w||\gamma})>1$
  - 因为， $||w||,\gamma$ 都是标量，所以为了表达式简洁起见，令 $w=\frac{w}{||w||\gamma},b=\frac{b}{||w||\gamma}$ 。
  - 得到限制条件为 $y_i(w·x_i+b)\geq 1,i=1,2,...,N$ ，又因为最大化 $\gamma$ ，等价于最大化 $\frac{1}{||w||}$ ，也就等价于最小化 $\frac{1}{2}||w||^2$ （ $\frac{1}{2}$ 是为了后面求导以后形式简洁，不影响结果），因此SVM模型的求解最大分割超平面问题又可以表示为以下约束最优化问题:
    - $\mathop{\min}\limits_{w,b}\frac{1}{2}||w||^2\\ s.t.~~y_i(w·x_i+b)\geq 1,i=1,2,...,N$
  - 这是一个含有不等式约束的凸二次规划问题，可以对其使用拉格朗日乘子法得到其对偶问题（dual problem）。首先，我们将有约束的原始目标函数转换为无约束的新构造的拉格朗日目标函数
  - $L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum^N_{i=1}\alpha_i(y_i(w·x_i+b)-1)$
  - 其中 $\alpha_i$ 为拉格朗日乘子，且 $\alpha_i\geq 0$ 。现在我们令 $\theta(w)=\mathop{\max}\limits_{\alpha\geq 0}L(w,b,\alpha)$ ，当样本点不满足约束条件时，即在可行解区域外： $y_i(w·x_i+b)<1$ ,此时，将 $\alpha_i$ 设置为无穷大，则 $\theta(w)$ 也为无穷大。当满本点满足约束条件时，即在可行解区域内： $y_i(w·x_i+b)\geq1$ ，此时， $\theta(w)$ 为原函数本身。于是，将两种情况合并起来就可以得到我们新的目标函数:
    - $\theta(x) = \begin{cases} \frac12||w||^2 &{if~~x\in可行区域}\\ +∞ &{if~~ x\in不可行区域}\\ \end{cases}$
  - 于是原约束问题就等价于 $\mathop{\min}\limits_{w,b}\theta(w)=\mathop{\min}\limits_{w,b}\mathop{\max}\limits_{\alpha_i\geq0}L(w,b,\alpha)=p^*$ 。
  - 看一下我们的新目标函数，先求最大值，再求最小值。这样的话，我们首先就要面对带有需要求解的参数 w 和 b 的方程，而 $\alpha_i$ 又是不等式约束，这个求解过程不好做。所以，我们需要使用拉格朗日函数对偶性，将最小和最大的位置交换一下，这样就变成了： $\mathop{\max}\limits_{\alpha_i\geq0}\mathop{\min}\limits_{w,b}L(w,b,\alpha)=d^*$ 。
  - 要有 $p^*==d^*$ ，需要满足两个条件：
    - 优化问题是凸优化问题
    - 满足KKT条件
  - 首先，本优化问题显然是一个凸优化问题，所以条件一满足，而要满足条件二，即要求
    - $\begin{cases} \begin{aligned} \alpha_i\geq0\\ y_i(w_i·x_i+b)-1\geq0\\ \alpha_i(y_i(w_i·x_i+b)-1)=0 \end{aligned} \end{cases}$
  - 为了得到求解对偶问题的具体形式，令 $L(w,b,\alpha)$ 对 w 和 b 的偏导为0，可得
    - $w=\sum^N_{i=1}\alpha_iy_ix_i\\ \sum^N_{i=1}\alpha_iy_i=0$
  - 将以上两个等式带入拉格朗日目标函数，消去 w 和 b ，得
  - $L(w,b,\alpha) =\frac12\sum^N_{i=1}\sum^N_{j=1}\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum^N_{i=1}\alpha_iy_i((\sum^N_{j=1}\alpha_jy_jx_j)·x_i+b)+\sum^N_{i=1}\alpha_i\\ =-\frac12\sum^N_{i=1}\sum^N_{j=1}\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum^N_{i=1}\alpha_i$
  - 即求 $\mathop{\min}\limits_{w,b}L(w,b,\alpha)=\mathop{\min}\limits_{w,b}(-\frac12\sum^N_{i=1}\sum^N_{j=1}\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum^N_{i=1}\alpha_i)$ ，对 $\alpha$ 的极大，即是对偶问题。
    - $\mathop{\max}\limits_{\alpha}(-\frac12\sum^N_{i=1}\sum^N_{j=1}\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum^N_{i=1}\alpha_i)\\ s.t.~~\sum^N_{i=1}\alpha_iy_i=0,\\ \alpha\geq0,i=1,2,..,N$
  - 把目标式子加一个负号，将求解极大转换为求解极小
    - $\mathop{\min}\limits_{\alpha}(\frac12\sum^N_{i=1}\sum^N_{j=1}\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum^N_{i=1}\alpha_i)\\ s.t.~~\sum^N_{i=1}\alpha_iy_i=0,\\ \alpha\geq0,i=1,2,..,N$
  - 现在我们的优化问题变成了如上的形式。对于这个问题，我们有更高效的优化算法，即序列最小优化（SMO）算法。我们通过这个优化算法能得到 $\alpha^*$ ，再根据 $alpha^*$ ，我们就可以求解出 w 和 b ，进而求得我们最初的目的：找到超平面，即”决策平面”。
  - SMO算法是一种启发式算法，其基本思路是：如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充分必要条件。否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为你这会使得原始二次规划问题的目标函数值变得更小。重要的是，这时子问题因为只有两个变量，且其中一个变量还能根据约束条件由另一个变量表出，所以可以通过解析方法求解，这样就可以大大提高整个算法的计算速度。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。
  - 因此，整个SMO算法包括两个部分：求解两个变量二次规划的解析方法和选择变量的启发式方法。注意到只需选取的αi和αj有一个不满足KKT条件，目标函数就会在迭代后增大。直观上来看，KKT条件违背的程度越大，则变量更新后可能导致的目标函数值增幅越大。于是SMO先选取违背KKT条件程度最大的变量。第二个变量应选择一个使目标函数值增长最快的变量，但由于比较各变量所对应的目标函数值增幅的复杂度过高，因此SMO采用了一个启发式：使选取的两变量所对应样本之间的间隔最大。一种直观的解释是，这样的两个变量有很大的差别，与对两个相似的变量进行更新相比，对它们进行更新会带给目标函数值更大的变化。
- 前面的推导都是假设满足KKT条件下成立的，KKT条件如下
  - $\begin{cases} \begin{aligned} \alpha_i\geq0\\ y_i(w_i·x_i+b)-1\geq0\\ \alpha_i(y_i(w_i·x_i+b)-1)=0 \end{aligned} \end{cases}$
  - 为了得到求解对偶问题的具体形式，令 $L(w,b,\alpha)$ 对 w 和 b 的偏导为0，可得: $w=\sum^N_{i=1}\alpha_iy_ix_i,\sum_{i=1}^N\alpha_iy_i=0$ .由此可知在 $\alpha^*$ 中，至少存在一个 $\alpha^*>0$ （反证法可以证明，若全为0，则 w=0 ，矛盾），对此 j 有 $y_j(w^*·x_j+b^*)-1=0$ 。因此可以得到：
  - $w^*=\sum^N_{i=1}\alpha^*_iy_ix_i\\ b^*=y_j-\sum^N_{i=1}\alpha^*y_i(x_i·x_j)$
  - 对于任意训练样本 $x_i,x_j)$ ，总有 $\alpha_i=0$ 或者 $y_j(w·x_j+b)=1$ 。若 $\alpha_i=0$ ，则该样本不会在最后求解模型参数的式子中出现。若 $alpha_i>0$ ，则必有 $y_j(w·x_j+b)=1$ ，所对应的样本点位于最大间隔边界上，是一个支持向量。这显示出支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。
- 到这里都是基于训练集数据线性可分的假设下进行的，但是实际情况下几乎不存在完全线性可分的数据，为了解决这个问题，引入了“软间隔”的概念，即允许某些点不满足约束 $y_j(w·x_j+b)\geq1$ ，采用hinge损失，将原优化问题改写为：
  - $\mathop{\min}\limits_{w,b,\xi_i}(\frac12||w||^2+C\sum^m_{i=1}\xi_i)\\ s.t.~~y_i(w·x_i+b)\geq1-\xi_i\\ \xi_i\geq0,i=1,2,...,N$
  - 其中 $\xi_i$ 为“松弛变量”， $\xi_i=max(0,1-y_i(w·x_i+b))$ ，即一个hinge损失函数。每一个样本都有一个对应的松弛变量，表征该样本不满足约束的程度。 $C > 0$ 称为惩罚参数，C 值越大，对分类的惩罚越大。跟线性可分求解的思路一致，同样这里先用拉格朗日乘子法得到拉格朗日函数，再求其对偶问题。
- 综合以上讨论，我们可以得到线性支持向量机学习算法如下：
  - 输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中， $x_i\in\R^n$ ， $y_i\in\{-1,+1\},i=1,2,...,N$ ；
  - 输出：分离超平面和分类决策函数。
  - 1. 选择惩罚参数 $C > 0$ ，构造并求解凸二次规划问题
      1. $\mathop{\min}\limits_{\alpha}(\frac12\sum^N_{i=1}\sum^N_{j=1}\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum^N_{i=1}\alpha_i)\\ s.t.~~\sum^N_{i=1}\alpha_iy_i=0,\\ \alpha\geq0,i=1,2,..,N$
      2. 得到最优解 $\alpha^*=(\alpha^*_1,\alpha^*_2,...,\alpha^*_N)^T$ 。
    2. 计算 $w^*=\sum^N_{i=1}\alpha^*_iy_ix_i$ ,选择 $\alpha^*$ 的一个分量 $\alpha^*_j$ 满足条件 $0<\alpha^*_j0<αj∗<C$
    3. 求分离超平面 $w^*·x+b^*=0$ ,分类决策函数： $f(x)=sign(w^*·x+b^*)$ 。
非线性SVM算法原理：对于输入空间中的非线性分类问题，可以通过非线性变换将它转化为某个维特征空间中的线性分类问题，在高维特征空间中学习线性支持向量机。由于在线性支持向量机学习的对偶问题里，目标函数和分类决策函数都只涉及实例和实例之间的内积，所以不需要显式地指定非线性变换，而是用核函数替换当中的内积。核函数表示，通过一个非线性转换后的两个实例间的内积。具体地， $K (x, z)$ 是一个函数，或正定核，意味着存在一个从输入空间到特征空间的映射 $\phi(x)$ ，对任意输入空间中的 x,z ，有: $K(x,z)=\phi(x)·\phi(z)$ ，在线性支持向量机学习的对偶问题中，用核函数 $K (x, z)$ 替代内积，求解得到的就是非线性支持向量机 $f(x)=sign(\sum^N_{i=1}\alpha^*_iy_iK(x,x_i)+b^*)$ 。
综合以上讨论，我们可以得到非线性支持向量机学习算法如下：
- 输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$ 其中 $x_i\in\R^n$ ， $y_i\in{-1,+1},i=1,2,...,N$ ；
- 输出：分离超平面和分类决策函数。
- 1. 选取适当的核函数 $K (x, z)$ 和惩罚参数 $C > 0$ ，构造并求解凸二次规划问题
    1. $\mathop{\min}\limits_{\alpha}(\frac12\sum^N_{i=1}\sum^N_{j=1}\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum^N_{i=1}\alpha_i)\\ s.t.~~\sum^N_{i=1}\alpha_iy_i=0,\\ \alpha\geq0,i=1,2,..,N$
    2. 得到最优解 $\alpha^*=(\alpha^*_1,\alpha^*_2,...,\alpha^*_N)^T$ 。
  2. 计算：选择 $\alpha^*$ 的一个分量 $\alpha^*_j$ 满足条件 $0<\alpha^*_j0<αj∗<C$
  3. 分类决策函数： $f(x)=sign(\sum^N_{i=1}\alpha^*_iy_iK(x,x_i)+b^*)$ .
    1. 介绍一个常用的核函数——高斯核函数: $K(x,z)=exp(-\frac{||x-z||^2}{2\delta^2})$ 。
    2. 对应的SVM是高斯径向基函数分类器，在此情况下，分类决策函数为 $f(x)=sign(\sum^N_{i=1}\alpha^*_iy_iexp(-\frac{||x-z||^2}{2\delta^2})+b^*)$
支持向量机不仅可以用来解决分类问题还可以用来解决回归问题，称为支持向量回归（Support Vector Regression，SVR）。
SVM的优缺点
- SVM在中小量样本规模的时候容易得到数据和特征之间的非线性关系，可以避免使用神经网络结构选择和局部极小值问题，可解释性强，可以解决高维问题。有严格的数学理论支持，可解释性强，不依靠统计方法，从而简化了通常的分类和回归问题；能找出对任务至关重要的关键样本（即：支持向量）；采用核技巧之后，可以处理非线性分类/回归任务；最终决策函数只由少数的支持向量所确定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，这在某种意义上避免了“维数灾难”。
- SVM对缺失数据敏感，对非线性问题没有通用的解决方案，核函数的正确选择不容易，计算复杂度高 $O(n^2)$ ，主流的算法可以达到O(n2)的复杂度，这对大规模的数据是吃不消的。训练时间长。当采用 SMO 算法时，由于每次都需要挑选一对参数，因此时间复杂度为 $O(n^2)$ ，其中 N 为训练样本的数量；当采用核技巧时，如果需要存储核矩阵，则空间复杂度为 $O(n^2)$ ；模型预测时，预测时间与支持向量的个数成正比。当支持向量的数量较大时，预测计算复杂度较高。因此支持向量机目前只适合小批量样本的任务，无法适应百万甚至上亿样本的任务。

使用线性SVM解决线性可分问题

导包，加载鸢尾花数据集

from sklearn import datasets  # 采用sklearn中内置的数据集
from sklearn.model_selection import train_test_split  # skearn内置的训练集和测试集划分函数
from sklearn.preprocessing import StandardScaler     # 去均值和方差归一化。且是针对每一个特征维度来做的，而不是针对样本。标准差标准化（standardScale）使得经过处理的数据符合标准正态分布，即均值为0，标准差为1
from sklearn.svm import SVC  # svm用来做分类的，Support Vector Classification就是支持向量机用于分类，
import numpy as np
from matplotlib import pyplot as plt
from matplotlib.colors import ListedColormap
# 准备鸢尾花数据集
iris = datasets.load_iris()
# iris.data 一共有4个特征
X = iris.data[:,[2,3]] # 只使用2个特征: petal length and petal width 以及3个类别
y = iris.target # 获取数据的标签数据
print(X.shape, y.shape)
print('Class labels:', np.unique(y))

```
(150, 2) (150,)
Class labels: [0 1 2]
```

数据预处理，绘图

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)
# standardize the features 以获得最佳性能
sc = StandardScaler()  # 标准化处理实例化
sc.fit(X_train)   # fit() 就是求得训练集X的均值啊，方差啊，最大值啊，最小值啊这些训练集X固有的属性。可以理解为一个训练过程
X_train_std = sc.transform(X_train)  # transform()  在Fit的基础上，进行标准化，降维，归一化等操作（看具体用的是哪个工具，如PCA，StandardScaler等）。
X_test_std = sc.transform(X_test)
# fit_transform是fit和transform的组合，既包括了训练又包含了转换。
# 绘制分类决策边界：
def plot_decision_regions(X, y, classifier, test_idx=None, resolution=0.02):
     # setup marker generator and color map
     markers = ('s', 'x', 'o', '^', 'v')
     colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
     cmap = ListedColormap(colors[:len(np.unique(y))])
     # plot the decision surface
     x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
     x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
     xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),  # numpy.meshgrid()——生成网格点坐标矩阵。
                            np.arange(x2_min, x2_max, resolution))
     Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
     Z = Z.reshape(xx1.shape)
     plt.contourf(xx1, xx2, Z, alpha=0.3, cmap=cmap)  # 绘制等高线
     plt.xlim(xx1.min(), xx1.max())
     plt.ylim(xx2.min(), xx2.max())
     for idx, cl in enumerate(np.unique(y)):
         plt.scatter(x=X[y == cl, 0], y=X[y == cl, 1],
         alpha=0.8, c=colors[idx],
         marker=markers[idx], label=cl,)
     # highlight test samples
     if test_idx:
         # plot all samples
         X_test, y_test = X[test_idx, :], y[test_idx]
         plt.scatter(X_test[:, 0], X_test[:, 1], alpha=1.0,
                     linewidth=1, marker='o',
                     s=100, label='test set')
X_combined_std = np.vstack((X_train_std, X_test_std))
y_combined = np.hstack((y_train, y_test))
svm = SVC(kernel='linear', C=1.0, random_state=1)
svm.fit(X_train_std, y_train)
plot_decision_regions(X_combined_std, y_combined, classifier=svm, test_idx=range(105, 150))
plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc='upper left')
plt.show()

API Reference — scikit-learn 1.2.2 documentation
- SVM=Support Vector Machine 是支持向量;
- SVC=Support Vector Classification就是支持向量机用于分类，
- SVR=Support Vector Regression.就是支持向量机用于回归分析
  - svm.LinearSVC Linear Support Vector Classification.
  - svm.LinearSVR Linear Support Vector Regression.
  - svm.NuSVC Nu-Support Vector Classification.
  - svm.NuSVR Nu Support Vector Regression.
  - svm.OneClassSVM Unsupervised Outlier Detection.
  - svm.SVC C-Support Vector Classification.
  - svm.SVR Epsilon-Support Vector Regression.
- sklearn中SVM的算法库分为两类，一类是分类的算法库，主要包含LinearSVC，NuSVC和SVC三个类，另一类是回归算法库，包含SVR，NuSVR和LinearSVR三个类，相关模块都包裹在sklearn.svm模块中。
- 对于SVC，NuSVC和LinearSVC 三个分类的库，SVC和NuSVC差不多，区别仅仅在于对损失的度量方式不同，而LinearSVC从名字就可以看出，他是线性分类，也就是不支持各种低维到高维的核函数，仅仅支持线性核函数，对线性不可分的数据不能使用。
- 同样的对于SVR，NuSVR和LinearSVR 三个回归的类，SVR和NuSVR差不多，区别也仅仅在于对损失的度量方式不同。LinearSVR是线性回归，只能使用线性核函数。
- 我们使用这些类的时候，如果有经验知道数据是线性可以拟合的，那么使用LinearSVC去分类或者LinearSVR去回归，他们不需要我们去慢慢的调参选择各种核函数以及对应的参数，速度也快。如果我们对数据分布没有什么经验，一般使用SVC去分类或者SVR去回归，这就需要我们选择核函数以及对核函数调参了。
实现rbf核以及相对较小的 $\gamma$ 值，能得到更加soft的决策边界

svm = SVC(kernel='rbf', random_state=1, gamma=0.2, C=1.0)
svm.fit(X_train_std, y_train)
plot_decision_regions(X_combined_std, y_combined, classifier=svm, test_idx=range(105,150))
plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc='upper left')
plt.show()

使用非线性kernel-SVM解决非线性问题

创建一个简单的数据集，它具有XOR门的形式；其中100个样本将被分配给类标签1，100个样本将被分配给类标签-1。

np.random.seed(1)
X_xor = np.random.randn(200, 2)
y_xor = np.logical_xor(X_xor[:, 0] > 0, X_xor[:, 1] > 0)
y_xor = np.where(y_xor, 1, -1)
plt.scatter(X_xor[y_xor == 1, 0], X_xor[y_xor == 1, 1], c='b', marker='x', label='1')
plt.scatter(X_xor[y_xor == -1, 0], X_xor[y_xor == -1, 1], c='r', marker='s', label='-1')
plt.xlim([-3, 3])
plt.ylim([-3, 3])
plt.legend(loc='best')
plt.show()

svm = SVC(kernel='rbf', random_state=1, gamma=0.10, C=10.0)
svm.fit(X_xor, y_xor)
plot_decision_regions(X_xor, y_xor, classifier=svm)
plt.legend(loc='upper left')
plt.show()

linear
poly
sigmoid
precomputed（自定义核函数）
- ValueError: Precomputed matrix must be a square matrix. Input is a 200x2 matrix.
参数：
- kernel ：核函数，默认是rbf，可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’Python机器学习笔记：SVM（4）——sklearn实现 - 知乎 (zhihu.com)
  - linear：线性分类器（C越大分类效果越好，但有可能会过拟合（default C=1））
  - poly：多项式分类器
  - rbf：高斯模型分类器（gamma值越小，分类界面越连续；gamma值越大，分类界面越“散”，分类效果越好，但有可能会过拟合。）
  - sigmoid：sigmoid核函数
- degree ：多项式poly函数的维度，默认是3，选择其他核函数时会被忽略。
- gamma ： ‘rbf’,‘poly’ 和‘sigmoid’的核函数参数。默认是’auto’。如果gamma是’auto’，那么实际系数是1 / n_features。
- coef0 ：核函数中的独立项。它只在’poly’和’sigmoid’中很重要。
- probability ：是否启用概率估计。必须在调用fit之前启用它，并且会减慢该方法的速度。默认为False
- shrinking ：是否采用shrinking heuristic方法(收缩启发式)，默认为true
- tol ：停止训练的误差值大小，默认为1e-3
- cache_size ：核函数cache缓存大小，默认为200
- class_weight ：类别的权重，字典形式传递。设置第几类的参数C为weight*C(C-SVC中的C)
- verbose ：允许冗余输出
- max_iter ：最大迭代次数。-1为无限制。
- decision_function_shape ：‘ovo’, ‘ovr’ or None, default=ovr
  - 关于‘ovo’, ‘ovr’的解释：一对多法（one-versus-rest,简称OVR SVMs）：训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类，这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。一对一法（one-versus-one,简称OVO SVMs或者pairwise）：其做法是在任意两类样本之间设计一个SVM，因此k个类别的样本就需要设计k(k-1)/2个SVM。当对一个未知样本进行分类时，最后得票最多的类别即为该未知样本的类别。
- random_state ：数据洗牌时的种子值，int值,default=None，在随机数据混洗时使用的伪随机数生成器的种子。如果是int，则random_state是随机数生成器使用的种子; 如果是RandomState实例，则random_state是随机数生成器; 如果为None，则随机数生成器是np.random使用的RandomState实例。
- 认为最重要的参数有：C,kernel、degree、gamma、coef0、decision_function_shape。
SVM算法库其他调参要点
- 一般推荐在做训练之前对数据进行归一化，当然测试集的数据也要做归一化
- 在特征数非常多的情况下，或者样本数远小于特征数的时候，使用线性核，效果就很好了，并且只需要选择惩罚系数C即可
- 在选择核函数的时候，如果线性拟合效果不好，一般推荐使用默认的高斯核（rbf），这时候我们主要对惩罚系数C和核函数参数 gamma 进行调参，经过多轮的交叉验证选择合适的惩罚系数C和核函数参数gamma。
- 理论上高斯核不会比线性核差，但是这个理论就建立在要花费更多的时间上调参上，所以实际上能用线性核解决的问题我们尽量使用线性核函数。

你可能感兴趣的:(机器学习,机器学习,支持向量机,算法,sklearn,核函数)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo