导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,只有了解各个定理.公式的发明历史,演进历程.相关联系,才能更好的理解你眼前所见到的知识,才能更好的运用之。
微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布
一个月余前,在微博上感慨道,不知日后是否有无机会搞DM,微博上的朋友只看不发的围脖评论道:算法研究领域,那里要的是数学,你可以深入学习数学,将算法普及当兴趣。想想,甚合我意。自此,便从rickjin写的“正态分布的前世今生”开始研习数学。
如之前微博上所说,“今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从‘正态分布的前后今生’中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册,完后学概率论与数理统计,感概道:微积分是概数统计基础,概数统计则是DM&ML之必修课。”包括读者相信也已经感觉到,我在写这个Top 10 Algorithms in Data Mining系列的时候,其中涉及到诸多的数学概念与基础知识(例如此篇SVM文章内诸多max.s.t.对偶.KKT条件.拉格朗日.松弛因子等问题则皆属于数学内一分支:最优化理论与算法范畴内),特别是概率论与数理统计部分。更进一步,在写上一篇文章的时候,看到机器学习中那么多距离度量的表示法,发现连最起码的期望,方差,标准差等基本概念都甚感模糊,于此,便深感数学之重要性。
很快,我便买了一本高等教育出版社出版的概率论与数理统计一书,此书“从0-1分布、到二项分布、正态分布,概率密度函数,从期望到方差、标准差、协方差,中心极限定理,样本和抽样,从最大似然估计量到各种置信区间,从方差分析到回归分析,bootstrap方法,最后到马尔可夫链,以前在学校没开概率论与数理统计这门课,现在有的学有的看了”。且人类发明计算机,是为了辅助人类解决现实生活中遇到的问题,然计算机科学毕竟只发展了数十年,可在数学.统计学中,诸多现实生活问题已经思考了数百年甚至上千年,故,计算机若想更好的服务人类解决问题,须有效借鉴或参考数学.统计学。世间万事万物,究其本质乃数学,于变化莫测中寻其规律谓之统计学。
话休絮烦。本文结合高等数学上下册、微积分概念发展史,概率论与数理统计、数理统计学简史等书,及rickjin写的“正态分布的前世今生”系列(此文亦可看作读书笔记或读后感)与wikipedia整理而成,对数据挖掘中所需的概率论与数理统计相关知识概念作个总结梳理,方便你我随时查看复习相关概念,而欲深入学习研究的课后还需参看相关专业书籍.资料。同时,本文篇幅会比较长,简单来说:
5部分起承转合,彼此依托,层层递进。且在本文中,会出现诸多并不友好的大量各种公式,但基本的概念.定理是任何复杂问题的根基,所以,你我都有必要硬着头皮好好细细阅读。最后,本文若有任何问题或错误,恳请广大读者朋友们不吝批评指正,谢谢。
开头前言说,微积分是概数统计基础,概数统计则是DM&ML之必修课”,是有一定根据的,包括后续数理统计当中,如正态分布的概率密度函数中用到了相关定积分的知识,包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念,这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念。
事实上,古代数学中,单单无穷小、无穷大的概念就讨论了近200年,而后才由无限发展到极限的概念。
极限又分为两部分:数列的极限和函数的极限。
定义 如果数列{xn}与常a 有下列关系:对于任意给定的正数e (不论它多么小), 总存在正整数N , 使得对于n >N 时的一切xn, 不等式 |xn-a | 也就是说, 设函数f(x)在点x0的某一去心邻域内有定义. 如果存在常数A, 对于任意给定的正数e (不论它多么小), 总存在正数d, 使得当x满足不等式0<|x-x0| 也就是说, 几乎没有一门新的数学分支是某个人单独的成果,如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果,而是若干数学思潮在16世纪和17世纪汇合的产物,是由许许多多的学者共同努力而成。 甚至微积分的发展也不是牛顿与莱布尼茨两人之功。在17世纪下半叶,数学史上出现了无穷小的概念,而后才发展到极限,到后来的微积分的提出。然就算牛顿和莱布尼茨提出了微积分,但微积分的概念尚模糊不清,在牛顿和莱布尼茨之后,后续经过一个多世纪的发展,诸多学者的努力,才真正清晰了微积分的概念。 也就是说,从无穷小到极限,再到微积分定义的真正确立,经历了几代人几个世纪的努力,而课本上所呈现的永远只是冰山一角。 也可记为:,或。 (一)样本空间 (二)条件概率 (三)全概率公式和贝叶斯公式 根据条件概率的定义,在事件B发生的条件下事件A发生的概率是 同样地,在事件A发生的条件下事件B发生的概率 整理与合并这两个方程式,我们可以找到 这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,我们可以得到贝叶斯 定理: 何谓随机变量?即给定样本空间,其上的实值函数称为(实值)随机变量。 也就是说,随机变量分为离散型随机变量,和连续型随机变量,当要求随机变量的概率分布的时候,要分别处理之,如: 再换言之,对离散随机变量用求和得全概率,对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到,望读者注意之。 (一)(0-1)分布 (二)、二项分布 (三)、泊松分布(Poisson分布) 如上篇kd树blog所述相关系数 ( Correlation coefficient )的定义是: (其中,E为数学期望或均值,D为方差,D开根号为标准差,E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差,记为Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数,记为) 协方差矩阵 由上,我们已经知道:协方差是衡量两个随机变量的相关程度。且随机变量 之间的协方差可以表示为 故根据已知的样本值可以得到协方差的估计值如下: 可以进一步地简化为: 如此,便引出了所谓的协方差矩阵: 主成成分分析 尽管从上面看来,协方差矩阵貌似很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis,简称PCA),在图像处理中称为Karhunen-Loève 变换(KL-变换)。 根据wikipedia上的介绍,主成分分析PCA由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值)。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大。 然为何要使得变换后的数据有着最大的方差呢?我们知道,方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数据(主要是训练数据),方差大才有意义,不然输入的数据都是同一个点,那方差就为0了,这样输入的多个数据就等同于一个数据了。 再换言之,PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息最少的方法)。主成分分析在分析复杂数据时尤为有用,比如人脸识别。 此外,据wikipedia上的介绍,包括上面介绍的棣莫弗-拉普拉斯定理在内,历史上前后发展了三个相关的中心极限定理,它们得出的结论及内容分别是: 它表明,满足一定条件时,独立,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。 如上所述,中心极限定理的历史可大致概括为: 如今,中心极限定理被认为是(非正式地)概率论中的首席定理。 本节将结合数理统计学简史一书,从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题,有详有略,其中,重点阐述正态分布的历史由来。 OK,虽然上文已经花了如此多的篇幅讲了那么多的概念,然事实上,在概率论与数理统计中,上文所讲的概念尚不到1/3,限于篇幅,还有诸多概念没有阐述完毕(这些知识将放于数据挖掘中所需的概率论与数理统计知识、下中介绍),如下图所示: So,如上,之前微博上http://weibo.com/1580904460/z9htU9VzT 说要写的概率论与数理统计的科普blog、上部分已经初步整理完成(当然,后续一个星期之内会继续修补完善)。从前天晚上开始,连续写了两天,花了半身力气,文章若有任何问题,欢迎指正,尤能给出批评修订意见,则倍感荣幸,谢谢。.同时,但所有以上这些绝大部分都只是概率论与数理统计的基础知识,因此本文只能作个科普之效,若要深入学习,还是烦请读者朋友们阅读相关书籍,或加以动手实践。 1.1.2、函数的极限
1.2、导数
1.3、微分
1.4、积分
1.5、偏导数
定义 设函数z = f(x,y)在点(x0,y0)的某一邻域内有定义,当y固定在y0而x在x0处有增量 时,相应地函数有增量 ,
第二节、离散.连续.多维随机变量及其分布
2.1、几个基本概念点
称S中的元素e为样本点,一个元素的单点集称为基本事件.
。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。
按这些术语,Bayes定理可表述为:后验概率 = (相似度*先验概率)/标准化常量,也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:后验概率 = 标准相似度*先验概率。”
2.2、随机变量及其分布
2.2.1、何谓随机变量
2.2.2、离散型随机变量的定义
2.2.3、随机变量分布函数定义的引出
2.2.4、连续型随机变量及其概率密度
(针对上述第3点性质,我重点说明下:
故结合上述两点,便可得出上述性质3)
2.2.5、各种分布的比较
第三节、从数学期望、方差、协方差到中心极限定理
3.1、数学期望、方差、协方差
3.1.1、数学期望
3.1.2、方差与标准差
3.1.3、协方差与相关系数
相关系数衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
具体的,如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
根据相关系数,相关距离可以定义为:
3.1.4、协方差矩阵与主成成分分析
也就是说, 高斯是0均值,其方差定义了信噪比,所以 PCA是在对角化低维表示的协方差矩阵 ,故某一个角度而言,只需要理解方差、均值和协方差的物理意义,PCA就很清晰了。
3.2、中心极限定理
3.2.1、独立同分布的中心极限定理
3.2.2、棣莫弗-拉普拉斯中心极限定理
其内容为:若是n次伯努利实验中事件A出现的次数,,则对任意有限区间:
(i)当及时,一致地有
(ii)当时,一致地有,
其内容为:设随机变量独立同分布, 且具有有限的数学期望和方差,。
其内容为:记随机变量序列(独立但不一定同分布,且有有限方差)部分和为
记
,
如果对每个,序列满足
则称它满足林德伯格(Lindeberg)条件。
满足此条件的序列趋向于正态分布,即
与之相关的是李雅普诺夫(Lyapunov)条件:
满足李雅普诺夫条件的序列必满足林德伯格条件。
3.2.3、历史
令 Sn=X1+X2+⋯+Xn, 那么
第四节、从数理统计简史中看正态分布的历史由来
4.1、正态分布的定义
4.2、早期概率论:从萌芽到推测术
4.2.1、惠更新的三个关于期望的定理
对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响。但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。
关于数学期望的三个命题为:
这些今天看来都可作为数学期望定义,不准确的说,数学期望来源于取平均值。同时,根据上述惠更斯的3个命题不难证明:若某人在赌博中分别以概率p1...,pk(p1+..+pk=1)分别赢得a1,..ak元,那么其期望为p1*a1+...+pk*ak,这与本文第一节中关于离散型随机变量的期望的定义完全一致( 各值与各值概率乘积之和)。
4.3、棣莫弗的二项概率逼近
(其中,m= N/2)
4.4、贝叶斯方法
4.5、最小二乘法,数据分析的瑞士军刀
以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为 测量中有误差,所以所有方程的累积误差为:
4.6、误差分布曲线的建立
4.6.1、辛普森的工作
4.6.2、拉普拉斯的工作
在1772-1774年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同,拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性,而是直接射向应该去怎么的分布为误差分布,以及在确定了误差分布之后,如何根据观测值 去估计真值 。
4.6.3、高斯导出误差正态分布
跟上面一样,还是设真值为 ,而 为n次独立测量值,每次测量的误差为 ,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为
高斯的 第二点创新的想法是:他把整个问题的思考模式倒过来,既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均),所以高斯猜测:
4.6.4、正态分布的时间简史
第五节、论道正态,正态分布的4大数学推导
5.1、 高斯的推导(1809)
第一条小径是高斯找到的,高斯以如下准则作为小径的出发点
误差分布导出的极大似然估计 = 算术平均值
5.2、Herschel(1850)和麦克斯韦(1860)的推导
第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年,天文学家Herschel在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布f(x,y),Herschel设置了两个准则:
所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布?反正我是一直不知道,直到今年才明白。
Herschel-Maxwell推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有 的数学公式的时候,就会问:圆在哪里?这个推导中使用到了 ,也就是告诉我们正态分布密度公式中有个 ,其根源来在于二维正态分布中的等高线恰好是个圆。
5.3、Landon的推导(1941)
第三条道是一位电气工程师,Vernon D. Landon 给出的。1941年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差 来刻画。因此他推理认为噪声电压的分布函数形式是 。现在假设有一个相对于 而言很微小的误差扰动 ,且 的分布函数是 ,那么新的噪声电压是 。Landon提出了如下的准则
用数学的语言描述:如果
(8)
(9)
概率论沉思录作者E.T.Jaynes对于这个推导的评价很高,认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本,相比于中心极限定理来说,是一次性累加所有的因素,Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声 是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。
5.4、正态分布和最大熵
还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,不过难以确认这条道的发现者是否是Jaynes本人。
熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。
对于一个概率分布 ,我们定义它的熵为
这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。
考虑两个概率分布 和 ,使用不等式 ,得
( 读者注意:经好友白石指正,上述等式,右边的第一项p(x)之后,1/p(x) 之前少画了个log符号 )
对于 ,在给定的均值 和方差 下,我们取 ,则可以得到
E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré
参考文献及推荐阅读
(极力推荐上书,相信每一个学概率统计的朋友都有必要看一看,同时,此书也是正态分布的前后今生这一系列的主要参考)
后记