支持向量机同样是一种分类算法,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,当训练样本线性可分时,通过硬间隔最大化学习一个线性可分支持向量机;当训练样本近似线性可分时,通过软间隔最大化学习一个线性支持向量机;当训练样本线性不可分时,通过核技巧和软间隔最大化学习一个非线性支持向量机,该算法思路比较简单,但推导过程比较复杂,需要高等数学知识;
算法优点:① 纯高等数学知识思维,可解释性强,不依靠统计方法,从而简化了通常的分类和回归问题;② 采用核技巧之后,可以处理非线性分类/回归任务;③ 最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”
算法缺陷:① 训练时间长,时间复杂度;② 当采用核技巧时,如果需要存储核矩阵,则空间复杂度为 ;③ 预测时间与支持向量的个数成正比,当支持向量的数量较大时,预测计算复杂度较高。
线性可分
如果一个线性函数(二维空间中的直线)能够将样本分开,称这些数据样本是线性可分的,在三维空间是一个平面,以此类推,如果不考虑空间维数,这样的线性函数统称为超平面,通常我们所说的线性可分支持向量机就对应着能将数据正确划分并且间隔最大的直线。
SVM最优化问题
SVM 想要的就是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面。任意超平面可以用下面这个线性方程来描述:
点(x,y)到的距离公式为:
扩展到 n 维空间后,点x=(x1,x2,x3,x4.....xn)到直线的距离为:
其中:
经过推导我们的优化问题是:
再做一个转换,为了方便计算(去除的根号),得到的最优化问题是:
拉格朗日乘法
可以使用本科高等数学学的拉格朗日程数法是等式约束优化问题思想,构造拉格朗日函数:
核函数
我们可能会碰到的一种情况是样本点不是线性可分的,这种情况的解决方法就是:将二维线性不可分样本映射到高维空间中,让样本点在高维空间线性可分,对于在有限维度向量空间中线性不可分的样本,我们将其映射到更高维度的向量空间里,再通过间隔最大化的方式,学习得到支持向量机,就是非线性 SVM。
用法
sklearn提供了三种基于svm的分类方法:
sklearn.svm.NuSVC()
sklearn.svm.LinearSVC()
sklearn.svm.SVC()
其中用得最多的是 sklearn.svm.SVC(),全称是C-Support Vector Classification,是一种基于libsvm的支持向量机,由于其时间复杂度为O(n^2),所以当样本数量超过两万时难以实现。
sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True,
probability=False, tol=0.001, cache_size=200, class_weight=None,
verbose=False, max_iter=-1, decision_function_shape='ovr',
random_state=None)
from sklearn import svm
from sklearn import datasets
from sklearn.model_selection import train_test_split as ts
#import our data
iris = datasets.load_iris()
X = iris.data
y = iris.target
#split the data to 7:3
X_train,X_test,y_train,y_test = ts(X,y,test_size=0.3)
# select different type of kernel function and compare the score
# kernel = 'rbf'
clf_rbf = svm.SVC(kernel='rbf')
clf_rbf.fit(X_train,y_train)
score_rbf = clf_rbf.score(X_test,y_test)
print("The score of rbf is : %f"%score_rbf)
# kernel = 'linear'
clf_linear = svm.SVC(kernel='linear')
clf_linear.fit(X_train,y_train)
score_linear = clf_linear.score(X_test,y_test)
print("The score of linear is : %f"%score_linear)
# kernel = 'poly'
clf_poly = svm.SVC(kernel='poly')
clf_poly.fit(X_train,y_train)
score_poly = clf_poly.score(X_test,y_test)
print("The score of poly is : %f"%score_poly)