在机器学习中,支持向量机(英语:Support Vector Machine,常简称为SVM,又名支持向量网络[1])是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。
除了进行线性分类之外,SVM还可以使用所谓的核技巧有效地进行非线性分类,将其输入隐式映射到高维特征空间中。
当数据未被标记时,不能进行监督式学习,需要用非监督式学习,它会尝试找出数据到簇的自然聚类,并将新数据映射到这些已形成的簇。将支持向量机改进的聚类算法被称为支持向量聚类[2],当数据未被标记或者仅一些数据被标记时,支持向量聚类经常在工业应用中用作分类步骤的预处理。
简言之:SVM的主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化.
SVM的优点:
1.通用性(能够在各种函数集中构造函数)
2.鲁棒性(不需要微调)
3.有效性(在解决实际问题中属于最好的方法之一)
4.计算简单(方法的实现只需要利用简单的优化技术)
5.理论上完善(基于VC推广理论的框架)
暂且搁置理论层面的东西,看看SVM在实际应用中的效果到底如何?
SVM工具箱:种类很多,公认的最好用的是libsvm by 林智仁[台大]
========软件制作者要求给出的软件引用
Chih-Chung Chang and Chih-JenLin, LIBSVM : a library for
supportvector machines, 2001. Software available at
http://www.csie.ntu.edu.tw/~cjlin/libsvm
========
详细使用请看: Libsvm入门教程一个好的分类器固然重要,但不要全部指望分类器,前期的数据预处理亦很重要[去噪,规范化,特征提取],可以这么说的当你数据预处理的完美的话,特征提取的好的话,分类器的影响不会占很大程度的,在某种意义下即你使用任何一种分类器都会得到较满意的准确率的!(个人见解,见仁见智)
数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。数据标准化处理是数据挖掘的一项基本工作。不同评价指标往往具有不同的量纲和量纲单位,如果在预测过程中,没有进行数据标准化处理,那么大量级变量对结果的影响就会覆盖小量级变量对结果的影响,小量级变量包含的信息就可能被忽视,导致预测结果出现较大的误差。为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性问题。因而我们需要对原始数据进行数据标准化处理,使各指标处于同一数量级,以下是两种常用的数据标准化方法:
(1)最大-最小规范化法
(2)统计标准化法
下面附上最大-最小规范化法的Matlab代码:
function normal = normalization(x,kind)
% by Li Yang BNU MATH Email:[email protected] QQ:516667408
% last modified 2009.2.24
%
if nargin < 2
kind = 2;%kind = 1 or 2 表示第一类或第二类规范化
end
[m,n] = size(x);
normal = zeros(m,n);
%% normalize the data x to [0,1]
if kind == 1
for i = 1:m
ma = max( x(i,:) );
mi = min( x(i,:) );
normal(i,:) = ( x(i,:)-mi )./( ma-mi );
end
end
%% normalize the data x to [-1,1]
if kind == 2
for i = 1:m
mea = mean( x(i,:) );
va = var( x(i,:) );
normal(i,:) = ( x(i,:)-mea )/va;
end
end
最后附上libsvm的参数说明:
English:
libsvm_options:
-s svm_type : set type of SVM (default 0)
0 -- C-SVC
1 -- nu-SVC
2 -- one-class SVM
3 -- epsilon-SVR
4 -- nu-SVR
-t kernel_type : set type of kernel function (default 2)
0 -- linear: u'*v
1 -- polynomial: (gamma*u'*v + coef0)^degree
2 -- radial basis function: exp(-gamma*|u-v|^2)
3 -- sigmoid: tanh(gamma*u'*v + coef0)
4 -- precomputed kernel (kernel values in training_instance_matrix)
-d degree : set degree in kernel function (default 3)
-g gamma : set gamma in kernel function (default 1/k)
-r coef0 : set coef0 in kernel function (default 0)
-c cost : set the parameter C of C-SVC, epsilon-SVR, and nu-SVR (default 1)
-n nu : set the parameter nu of nu-SVC, one-class SVM, and nu-SVR (default 0.5)
-p epsilon : set the epsilon in loss function of epsilon-SVR (default 0.1)
-m cachesize : set cache memory size in MB (default 100)
-e epsilon : set tolerance of termination criterion (default 0.001)
-h shrinking: whether to use the shrinking heuristics, 0 or 1 (default 1)
-b probability_estimates: whether to train a SVC or SVR model for probability estimates, 0 or 1 (default 0)
-wi weight: set the parameter C of class i to weight*C, for C-SVC (default 1)
-v n: n-fold cross validation mode
==========================================================
Chinese:
Options:可用的选项即表示的涵义如下
-s svm类型:SVM设置类型(默认0)
0 -- C-SVC
1 --v-SVC
2 – 一类SVM
3 -- e -SVR
4 -- v-SVR
-t 核函数类型:核函数设置类型(默认2)
0 – 线性:u'v
1 – 多项式:(r*u'v + coef0)^degree
2 – RBF函数:exp(-r|u-v|^2)
3 –sigmoid:tanh(r*u'v + coef0)
-d degree:核函数中的degree设置(针对多项式核函数)(默认3)
-g r(gama):核函数中的gamma函数设置(针对多项式/rbf/sigmoid核函数)(默认1/ k)
-r coef0:核函数中的coef0设置(针对多项式/sigmoid核函数)((默认0)
-c cost:设置C-SVC,e -SVR和v-SVR的参数(损失函数)(默认1)
-n nu:设置v-SVC,一类SVM和v- SVR的参数(默认0.5)
-p p:设置e -SVR 中损失函数p的值(默认0.1)
-m cachesize:设置cache内存大小,以MB为单位(默认40)
-e eps:设置允许的终止判据(默认0.001)
-h shrinking:是否使用启发式,0或1(默认1)
-wi weight:设置第几类的参数C为weight?C(C-SVC中的C)(默认1)
-v n: n-fold交互检验模式,n为fold的个数,必须大于等于2
其中-g选项中的k是指输入数据中的属性数。option -v 随机地将数据剖分为n部分并计算交互检验准确度和均方根误差。以上这些参数设置可以按照SVM的类型和核函数所支持的参数进行任意组合,如果设置的参数在函数或SVM类型中没有也不会产生影响,程序不会接受该参数;如果应有的参数设置不正确,参数将采用默认值。