1. 线性可分的支持向量机
1.1 支持向量机(SVM)基本型
对于给定的在样本空间中线性可分的训练集,我们有多重办法对其进行划分,以二分类问题为例,如图:
红线和黑线(超平面)都能将两类样本很好的划分开,但是当新样本进入时,黑线比红线更加有可能正确划分新的样本,换句话说:越位于两类样本“中心”的划分超平面越能够容忍样本的局部扰动,其的泛化能力越好。
基于以上思想,我们准备求解最优超平面。
首先,记超平面的线性方程为,其中为法向量。根据点到直线的距离公式,得到样本空间任一点x超平面的距离可以写成。
接着,为了方便计算,我们将两类样本使用正类和负类表示,即若,则;若,则,能够使得等号成立的样本向量称之为“支持向量”,因为它们是离超平面最近的训练样本,它们确定了两个类别之间的“间隔”。
然后,找到最优超平面也就转换成寻找“最大间隔”问题,即
1.2 求解SVM基本型
求解SVM这种“凸二次规划问题”时,通常采用“对偶问题”方法。
(1)用拉格朗日乘数法将约束条件加入L函数。
(2)对w,b求偏导,并将 w(a) , b(a) 带入L(w,b,a)中,整理得到SVM的对偶问题有
,且满足KKT条件,即表明支持向量机的最终模型仅与支持向量相关。
解出a后,即可得到模型:。求解a这种二次规划问题通常使用SMO(sequential minimal optimization)算法。
1.3 带有核函数的支持向量机模型
假设样本集是线性可分的,但是在原来的样本空间无法直接使用一个超平面进行划分,那么我们经常将该样本空间投影到一个更高维的特征空间中,使其能在高维空间中寻找到一个划分超平面。
令表示样本投影到高维空间的特征向量,于是超平面的方程变成:
后面就和1.1和1.2有类似的推导,找到目标函数再求其对偶问题。
但是,投影到高维空间有一个很大的风险就是面临维度爆炸的问题,为了避开这个问题,我们可以直接通过一个函数变换替代高维映射,
,这个神奇的函数就叫做“核函数”(kernel function)。
对于核函数的要求是对称,核矩阵总是半正定的。
典型的核函数有:线性核、多项式核、高斯核、拉普拉斯核、sigmoid核,核的函数组合等。
matlab代码参见:
https://blog.csdn.net/u010412719/article/details/46794051,http://blog.sina.com.cn/s/blog_631a4cc40101df0f.html 有使用系统自带函数,也有作者自己编写的函数实现,比较详细,这里搬过来。
matlab自带函数实现:
clc;
clear;
N=10;
%下面的数据是我们实际项目中的训练样例(样例中有8个属性)
correctData=[0,0.2,0.8,0,0,0,2,2];
errorData_ReversePharse=[1,0.8,0.2,1,0,0,2,2];
errorData_CountLoss=[0.2,0.4,0.6,0.2,0,0,1,1];
errorData_X=[0.5,0.5,0.5,1,1,0,0,0];
errorData_Lower=[0.2,0,1,0.2,0,0,0,0];
errorData_Local_X=[0.2,0.2,0.8,0.4,0.4,0,0,0];
errorData_Z=[0.53,0.55,0.45,1,0,1,0,0];
errorData_High=[0.8,1,0,0.8,0,0,0,0];
errorData_CountBefore=[0.4,0.2,0.8,0.4,0,0,2,2];
errorData_Local_X1=[0.3,0.3,0.7,0.4,0.2,0,1,0];
sampleData=[correctData;errorData_ReversePharse;errorData_CountLoss;errorData_X;errorData_Lower;errorData_Local_X;errorData_Z;errorData_High;errorData_CountBefore;errorData_Local_X1];%训练样例
type1=1;%正确的波形的类别,即我们的第一组波形是正确的波形,类别号用 1 表示
type2=-ones(1,N-2);%不正确的波形的类别,即第2~10组波形都是有故障的波形,类别号用-1表示
groups=[type1 ,type2]';%训练所需的类别号
j=1;
%由于没有测试数据,因此我将错误的波形数据轮流从训练样例中取出作为测试样例
for i=2:10
tempData=sampleData;
tempData(i,:)=[];
svmStruct = svmtrain(tempData,groups);
species(j) = svmclassify(svmStruct,sampleData(i,:));
j=j+1;
end
species
使用作者自己编写的函数实现:
%主函数
clear all;
clc;
C = 10;
kertype = 'linear';
%训练样本
n = 50;
randn('state',6);%可以保证每次每次产生的随机数一样
x1 = randn(2,n); %2行N列矩阵
y1 = ones(1,n); %1*N个1
x2 = 5+randn(2,n); %2*N矩阵
y2 = -ones(1,n); %1*N个-1
figure;
plot(x1(1,:),x1(2,:),'bx',x2(1,:),x2(2,:),'k.');
axis([-3 8 -3 8]);
xlabel('x轴');
ylabel('y轴');
hold on;
X = [x1,x2]; %训练样本d*n矩阵,n为样本个数,d为特征向量个数,在这里,X为一个2*100的数组
Y = [y1,y2]; %训练目标1*n矩阵,n为样本个数,值为+1或-1,在这里,Y为一个1*100的数组
svm = svmTrain(X,Y,kertype,C);
plot(svm.Xsv(1,:),svm.Xsv(2,:),'ro');
%测试
[x1,x2] = meshgrid(-2:0.05:7,-2:0.05:7); %x1和x2都是181*181的矩阵
[rows,cols] = size(x1);
nt = rows*cols;
Xt = [reshape(x1,1,nt);reshape(x2,1,nt)];
Yt = ones(1,nt);
result = svmTest(svm, Xt, Yt, kertype);
Yd = reshape(result.Y,rows,cols);
contour(x1,x2,Yd,'m');
function svm = svmTrain(X,Y,kertype,C)
options = optimset; % Options是用来控制算法的选项参数的向量
options.LargeScale = 'off';%LargeScale指大规模搜索,off表示在规模搜索模式关闭
options.Display = 'off';%这样设置意味着没有输出
n = length(Y);%数组Y的长度
H = (Y'*Y).*kernel(X,X,kertype);%调用kernel函数,
f = -ones(n,1); %f为1*n个-1,f相当于Quadprog函数中的c
A = [];
b = [];
Aeq = Y; %相当于Quadprog函数中的A1,b1
beq = 0;
lb = zeros(n,1); %相当于Quadprog函数中的LB,UB
ub = C*ones(n,1);
a0 = zeros(n,1); % a0是解的初始近似值
[a,fval,eXitflag,output,lambda] = quadprog(H,f,A,b,Aeq,beq,lb,ub,a0,options);
epsilon = 1e-8;
sv_label = find(abs(a)>epsilon); %0
function K = kernel(X,Y,type)
%X 维数*个数
switch type
case 'linear'
K = X'*Y;
case 'rbf'
delta = 5;
delta = delta*delta;
XX = sum(X'.*X',2);%sum(a,2)代码中参数2的意思是将a矩阵a中的按“行”为单位进行求和
YY = sum(Y'.*Y',2);
XY = X'*Y;
K = abs(repmat(XX,[1 size(YY,1)]) + repmat(YY',[size(XX,1) 1]) - 2*XY);
K = exp(-K./delta);
end
function result = svmTest(svm, Xt, Yt, kertype)
temp = (svm.a'.*svm.Ysv)*kernel(svm.Xsv,svm.Xsv,kertype);
total_b = svm.Ysv-temp;
b = mean(total_b);
w = (svm.a'.*svm.Ysv)*kernel(svm.Xsv,Xt,kertype);
result.score = w + b;
Y = sign(w+b);
result.Y = Y;
result.accuracy = size(find(Y==Yt))/size(Yt);