[转载]简单的美才是真的美——浅议结构风险最小化和经验风险最小化

 

以下为转载,出处:http://blog.sina.com.cn/s/blog_4c7c2dad010007qi.html 作者:天道酬勤

什么是统计学习?看起来高深莫测,其实就是在这干这么一件事情:就是给你看一堆东西,你想办法给一个解释,然后拿着这个解释去判断其它的东西。不过,和物理学不一样,在那里,解释是人想出来的,在统计学习里,解释是机器构造出来的。

    在许多问题里面,对象是非常复杂的,要用成百上千,甚至更多的数字去表示一个东西。当统计学家们遇到了这些问题,他们终于从对在一维和二维空间建立起来的基于概率密度的完美的数学体系的沉迷中惊醒了——经典的统计体系在“维数灾难”的洪水猛兽面前竟然不堪一击。统计学的定理告诉我们,当样本足够多的时候,估计可以足够准确,可是对于高维空间,无情的现实用两个理由断然拒绝了统计学家们的渴求——不可能有那么多的样本,也不可能在这么多的样本上面进行计算。

    有限的样本意味着什么呢?很多本来能很好地建模的问题变成不适定的了(ill-posed)。通俗地说,就是给你的这么些样本,你可以用这个模型解释,也可以用那个模型解释,大家都解释得非常完美。那么究竟哪个是真的解释呢?令人沮丧的是,无论是这些样本还是那些美妙的统计学理论都无法给出答案——我们只能被告知,这些模型是不可被识别出谁对谁错的(unidentifiable)——在哲学上,有个深奥的名词,叫做不可证伪性。

    噢,既然都很完美,那么我们都接受好了。可是,别忘了,我们的目标不是守着这些解释度过余生,而是用它们帮我们干后面的事情——要是一个东西干不好事情的,就算再完美,还是呆在一边凉快去吧。想象一个也许很多大学生,乃至中学生都会的例子——曲线拟合。我们看到100个点,在一个抛物线附近震荡。我们首先拿一根直线去拟,怎么都不好;于是我们用二次曲线,嗯,看起来不错,好多了。于是我们开始兴奋起来——看起来,增加曲线的次数是个好主意。次数在一点点的加,到了100的时候,大家欢呼起来——太完美了,没有一点误差!于是大家拿着这个100次曲线模型信心十足地去套别的点,傻眼了,错的一塌糊涂!那个差强人意的二次曲线反而在这里工作的不错。

    这个深刻的教训告诉我们:一个在已有数据中很完美的模型,在新的数据面前不一定最好的。Perfect很可能只是由于over-fitting产生的illusion。后来统计学家研究了这个问题,告诫我们除了有追求perfect的热情,还要锻造一把Occam的剃刀:除了让模型在已知的例子中很好的工作,还要把模型“剃”得简单一点——简单的美才是真的美。

     在这个原理的基础上,统计数学家Vapnik通过严密的数学推理建立了结构风险最小化(Structure Risk Minimization)的理论,把模型复杂性融入到优化目标当中,以取代单纯追求在已知数据上的令人陶醉的完美的经验风险最小化(Empirical Risk Minimization),并且提出了现在风靡全球的支持向量机 (Support Vector Machines)。

    其实,统计学家在这个事情上是落后了,从古希腊的哲学家和数学家,到近代的物理学家,所孜孜以求的不就是对这个世界的一个简单而完美的解释吗?对于许多伟大的科学家来说,支持其科学探索的并不是建立一套复杂得令人望而生畏的体系来描述我们的世界,相反,他们穷毕生精力所探索的正是存在于宇宙中的简单和和谐。回到刚才那个两个模型的抉择问题,简单性的信念支持着我们做这样的决定:选简单的那个。

    反思我们过去的处事方式,确实感到惭愧:在干很多事情的时候,总是试图通过建立复杂的东西来获得成就感,并且向别人炫耀自己的多才多艺的实力——文章越长越好,程序越复杂越好,公式越深奥越好。可是,回想起来,这些当时在班级和同伴里轰动一时的东西——上百页的实验报告,上万行的程序,以及长篇小说一样的文章,最后给自己留下了什么。很多时候我们在创造复杂的东西,往往代表着我们还缺乏足够的能力去找出深藏于complexity和diversity背后的core simplicity——这才是在历史长河中亘古不衰的。

    现代的社会是复杂的和多姿多彩的,但这是“简单”在变化中孕育的,在这个复杂的世界中游刃有余的最好方法就是把握根本的简单性。这就是简单和复杂的矛盾。

    宇宙很美——因为它很简单。

你可能感兴趣的:(机器学习)