统计学习理论(SLT)与支持向量机(SVM)

0、相关名词解释

内积 <xy>=x1y1+x2y2
超平面:是二维中的直线、三维中的平面的推而广之。它是n维空间的n-1维仿射子空间,能将n维空间分为两部分,对应输出中的两类。
映射:指一个法则,它能够使一个集合中的元素在另一个集合中有确定的元素与之对应。任何一个定义在全体实数上的函数都是实数集到其自身的映射,因此,函数可以看作映射的特殊情况。
线性空间:有一个非空集合V和一个数域P,当……满足加法和乘法规则时,那么V称为数域P上的线性空间。V的右肩可以用整数n表示维数。
欧几里得空间:引入内积运算并且内积计算满足一些性质,这样的线性空间成为欧几里得空间。

1、引言-统计学习理论与机器学习

传统的估计高维函数依赖关系的方法所坚持的信念是:实际问题中总存在较少数目的一些“强特征”,用它们的简单函数(如线性组合)就能较好地逼近未知函数。因此,需要仔细地选择一个低维的特征空间,在这个空间中用常规的统计技术来求解一个逼近。
而SLT&SVM所坚持的信念是:实际问题中存在较大数目的一些“弱特征”,它们“巧妙的”线性组合可较好地逼近未知的依赖关系。因此,采用什么样的“弱特征”并不十分重要,而形成“巧妙的”线性组合更为重要。
在传统方法中,需要人工选择(构造)一些数目相对较少的“巧妙的特征”,而SVM方法则是自动地选择(构造)一些数目较少的“巧妙的特征”。在实际应用中,可通过构造两层(或多层)SVM来选择“巧妙的特征”
机器学习就是从给定的函数集f(x, α )( α 是参数)中,选择出能够最好地逼近训练器响应的函数。机器学习目的可以简单归纳为:给出一组独立的观测样本,在一组函数中求出一个最优函数,使期望的风险最小。模式识别、函数逼近和概率密度估计是三类基本的机器学习问题。
再用有限数量信息解决一个问题时,要尽量避免将一个更为一般的问题作为其中间步骤。即意味着当解决模式识别或回归估计问题时,必须设法去“直接”寻找待求的函数,而不是首先估计密度,然后用估计的密度来构造待求的函数。
未知类型的概率分布的数学期望不好计算,只好用样本风险的算术平均来代替数据期望,相应的期望风险最小化也用经验风险最小化来代替。
在某些情况下,误差过小反而导致推广能力下降,这就是过学习问题,神经网络的过学习问题是经验风险最小化原则失败的典型例子。推广性和学习精度是一对不可调和的矛盾,采用复杂的学习机器虽然容易使得学习误差更小,却往往丧失推广性。

2、支持向量机(SVM)的引入

SLT(统计学习理论)被认为是目前针对有限样本估计和预测学习的最佳理论。不同于传统的SLT提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(Structural Risk Minimization),即SRM准则。那么如何实现SRM准则呢?有以下两种思路:
1、在每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集。
2、设计函数集的某种结构使每个子集中都能取得最小的经验风险,然后只需选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。支持向量机方法实际上就是这种思路的实现。
SVM的理论基础比NN更坚实,更像一门严谨的“科学”(三要素:问题的表示、问题的解决、证明);SVM是严格的数学推理,而NN更依赖于工程技巧;推广能力取决于“经验风险值”和“置信范围值”,NN不能控制两者中的任何一个;NN设计者用高超的工程技巧弥补了数学上的缺陷——设计特殊的结构,利用启发式算法,有时能得到出人意料的好结果。
但是:“我们必须从一开始就澄清一个观点,就是如果某事不是科学,它并不一定不好。比如说,爱情就不是科学。因此,如果我们说某事不是科学,并不是说它有什么不对,而只是说它不是科学。” —— by R. Feynman
课后作业:设计并编程实现一个简单的用于文本分类的SVM。

你可能感兴趣的:(统计学习理论(SLT)与支持向量机(SVM))