Thinking In Machine Learning

奥卡姆剃刀(Occam's Razor).    奥卡姆剃刀(Occam's Razor, Ockham's Razor)是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam)提出的一个原理。这个原理称为“如无必要,勿增实体”(Entities should not be multiplied unnecessarily)。有时为了显示其权威性,人们也使用它原始的拉丁文形式[引自Phil Gibbs]:
Pluralitas non est ponenda sine necessitate.
Frustra fit per plura quod potest fieri per pauciora.
Entia non sunt multiplicanda praeter necessitatem.
这句话听起来比较像英语中的If it is not broken, do not fix it。但它实际表达的是The simplest explanation is usually the best one[wiki]。
吴军的数学之美系列中,我印象比较深的一句话是:一个正确的数学模型应当在形式上是简单的。所以一见到用一些算法试图提高某一个算法的论文,尤其是没什么特殊原因的情况下,我总是有想吐的感觉。为什么总有人来恶心我呢?Any intelligent fool can make things bigger, more complex, and more violent. It takes a touch of genius— and a lot of courage— to move in the opposite direction [Einstein] (任何一个有智力的笨蛋都可以把事情变得更大,更复杂,更暴力,但是向相反的方向前进却需要一点天赋和极大的勇力)。
当然简单不是绝对的简单。Everything should be made as simple as possible, but not simpler [Einstein]。这句话解释了我们为什么往往用二次函数,而不选择线性函数或高次函数去按拟合的原因。
Ensemble
Ensemble有几个比较有意思的地方:
1.    如果分类器效果都比较差,它可能会较大的提高效果。
2.    如果分类器效果都比较好,一般不会提高多少
3.    如果是异种分类器Ensemble,尤其是引入了分类效果不好的分类器,会导致Ensemle的分类效果不如分类能力最强的分类器。
第一点说明了,民主投票往往在参与者能力都不强的情况下最有意义,第二点说明了,如果参与者能力都很强,民主意义也不太有意义(有点英雄所见略同的味道)。第三点最为重要,一般分类效果比较差的分类器学习速度非常快,所以我们对它的分类能力差也能容忍。而这个情况在民主决定时是正好相反的,往往得出最可笑结论的人,他的学习能力也是非常差,要在讨论过程中不断向他解释,回答他那些毫无意义的问题。最重要的是,如果是一群笨蛋控制了投票,民主就是一个笑话。
那么可以得出,民主应该只在大部分人可以做出正确结论的条件下,才是最有意义的。
Transduction    在半监督算法中,有Transductive Learning和Instructive Learning之分。Vapnik曾经提出了一个哲学原则。
Vapniks principle: When trying to solve some problem, one should not solve a more difficult problem as an intermediate step.    大意是:当试图去解决一个(些)问题的过程中,一个人不应该在去解决比这个更困难的问题作为中间步骤。这句话初听起来似乎make no sense. 中间步骤怎么会比最终问题还困难呢?举例来说:我想通过政治考试,但是我非常不喜欢学政治(我在这些方面还是很正常的),老师也了解我们,给我们划好了考试范围,那么我当然只背范围中出现的。相反那种通过先读《资本论》,再看《毛选》方式来通过考试的人,就违背了这个原则。
概念漂移
“You cannot step twice into the same stream. For as you are stepping in, other waters are ever flowing on to you.”[Heraclitus][Olfa Nasraoui],你无法再次走入相同的河流,因为你再次走入时,流过你的已经是不同的水。
这就是过分沉湎历史的人无法正确把握今天和未来的原因。
“In rivers, the water that you touch is the last of what has passed and the first of that which comes; so with present time.”[Leonardo da Vinci],在河流中,你接触的水是过去的结束和未来的开始,也是当前的时间。
今天的概念才与未来的概念最接近,而不是过去。
“No man ever steps in the same river twice, for it's not the same river and he's not the same man.”[Heraclitus]。结合起来就是物非人非,这句话在数据流学习时仍然可能成立,因为有的学习算法是具有随机性质的。
历史若是被看成是一种纯知识,并允许来左右智力,那么它对人们而言,就是最终平衡生活收支的东西。只有循着一个强大,散发着活力的影响力,比如一个新的文化体系(在数据流挖掘中,它也就是采用什么框架),历史研究对未来才是有利的——只此,只能是它被一下更高的力量引导和控制,而不是它本身引导和控制其它力量。[尼采]
参考:
http://bsd.vcgood.com/showarticle.php?id=9364

你可能感兴趣的:(算法,框架,生活,笑话)