当训练数据线性可分时,存在无数个超平面可以将两类数据正确分开。感知机利用误分类最小策略,可以求得无穷个解将超平面进行分离,线性可分支持向量机利用间隔最大化的求得分离超平面,此时的解为唯一解;另外,此时分类超平面所产生的的分类结果是最棒的,泛化性能最强。
我们已经知道了函数间隔和几何间隔的表示,现在回到正题,我们需要最大化支持向量到分割超平面的距离,当然在最开始我们不知道哪些向量是支持向量。
我们的目的是最大化支持向量到分割超平面的几何间隔r,而不是最大化函数间隔g(x),为什么呢?因为超平面方程的系数可以同比例增大或者减小,而不改变超平面本身。所以||w0||是不固定的,这就会影响函数间隔g(x)的大小。
所以我们需要最大化的是几何间隔r,这等价于我们固定||w0||,然后最大化函数间隔g(x)。但是实际上我们不会这么做,通常的处理方法是固定函数间隔g(x)的绝对值为1,然后最小化||w0||。也就是说我们把支持向量到分割超平面的函数间隔g(x)的绝对值设定为1,然后最小化||w0||。
在样本空间中寻找一个超平面, 将不同类别的样本分开
容忍性好, 鲁棒性高, 泛化能力最强,最大化决策边界的边缘
大家已经知道slater条件已经确保了鞍点的存在,但是鞍点不一定就是最优解啊,所以KKT条件的作用便体现出来了。
KKT条件便是确保鞍点便是原函数最优解的充分条件,当然对于我们前面举得那个例子,当原问题是凸优化问题时,则KKT条件便是鞍点便是最优解的充要条件。
第一个约束条件表明:最优点x必须满足所有等式及不等式限制条件, 也就是说最优点必须是一个可行解, 这一点自然是毋庸置疑的;
第二个约束条件表明:在最优点x, ∇f必须是∇gi和∇hj的线性組合;
第三个约束条件表明:拉格朗日乘子不等式的一些限制,对于不等式的拉格朗日乘子限制条件有方向性, 所以每一个α都必须大于或等于零, 而等式限制条件没有方向性,只是β不等于0。
核函数不显式地构造核映射, 而是设计核函数
SVM原本是用来解决二分类的分类模型
它和感知机不同的一点是它取到的分类器是在特征空间上的最大间隔的分类器
而为了解决非线性的分类问题 SVM使用核技巧 所以在SVM中核函数的作用是解决了SVM无法处理非线性可分的问题
在前面的讨论中,我们一直假设训练样本在样本空间或特征空间食线性可分的,即存在一个超平面能将不同类的样本完全划分开。然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,即便恰好找到了某个核函数使训练样本在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合造成的。
缓解该问题的一个方法是允许支持向量机在一些样本上出错,为此要引入“软间隔”的概念。如图所示
具体来说,前面介绍的支持向量机形式是要求所有样本均满足约束
即所有样本都必须划分正确,这称为“硬间隔”,而软间隔则是允许某些样本不满足约束
当然,在最大化间隔的同时,不满足约束的样本应尽可能小,于是优化目标可以写为
其中,C是一个常数, l0/1是“0/1损失函数”
根据KKT条件可推得最终模型仅与支持向量有关, 也 即hinge损失函数依然保持了支持向量机解的稀疏性
根据KKT条件可推得最终模型仅与支持向量有关, 也 即hinge损失函数依然保持了支持向量机解的稀疏性
落入中间2ε间隔带的样本不计算损失, 从而使得模型获得稀疏性
SVM是非常经典的机器学习算法,在集成学习和神经网络的算法流行之前,SVM在分类领域占据着统治地位。在大数据时代,SVM由于在大样本数据集上的计算量太大,所以热度有所下降,但不失为一个常用的机器学习算法。
SVM算法的优点:
SVM算法的缺点:
支持向量机是一个二分分类方法,比较适合判断只有两个类别的分类问题,对于多类别的分类,需要对 SVM 的部分代码进行修改。
从几何意义上看,SVM 的基本思想是找到一个分类的直线(或平面,或者非线性曲线或平面),将两个类别的数据分开。
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
cancer = datasets.load_breast_cancer()
cancer_data = cancer['data']
cancer_target = cancer['target']
cancer_data_train, cancer_data_test, cancer_target_train, \
cancer_target_test = train_test_split(cancer_data, cancer_target, test_size = 0.2)
# 数据标准化
stdScaler = StandardScaler().fit(cancer_data_train)
cancer_trainStd = stdScaler.transform(cancer_data_train)
cancer_testStd = stdScaler.transform(cancer_data_test)
# 建立 SVM 模型
svm = SVC().fit(cancer_trainStd, cancer_target_train)
print('建立的SVM模型为: \n', svm)
# 预测训练集结果
cancer_target_pred = svm.predict(cancer_testStd)
print('预测前20个结果为:\n', cancer_target_pred[:20])
# 预测和真实一样的数目
print('预测对的结果数目为:' , np.sum(cancer_target_pred == cancer_target_test))