数据分析v

从数理统计简史中看正态分布的历史由来

相信，你我可以想象得到，我们现在眼前所看到的正态分布曲线虽然看上去很美，但数学史上任何一个定理的发明几乎都不可能一蹴而就，很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的，或许某个定理在某个时期由某个人点破了，现在的我们看来一切都是理所当然，但在一切没有发现之前，可能许许多多的顶级学者毕其功于一役，耗尽一生，努力了几十年最终也是无功而返。

如上文前三节所见，现在概率论与数理统计的教材上，一上来介绍正态分布，然后便给出其概率密度分布函数，却从来没有说明这个分布函数是通过什么原理推导出来的。如此，可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的，又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布，却对这个分布的来龙去脉知之甚少。

本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神秘面纱。

4.1 正态分布的定义

上文中已经给出了正态分布的相关定义，咱们先再来回顾下。如下两图所示（来源：大嘴巴漫谈数据挖掘）：

相信，经过上文诸多繁杂公式的轰炸，读者或有些许不耐其烦，咱们接下来讲点有趣的内容：历史。下面，咱们来结合数理统计简史一书，及正态分布的前世今生系列，从古至今论述正态分布的历史由来。

4.2 早期概率论：从萌芽到推测术

4.2.1 惠更新的三个关于期望的定理

(一) 惠更新的论赌博的计算

所谓概率，即指一个事件发生，一种情况出现的可能性大小的数量指标，介于0和1之间，这个概念最初形成于16世纪，说来可能令你意想不到，凡事无绝对，早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系，可以说，这些赌博活动反而推动了概率论的早期发展。

历史是纷繁多杂的，咱们从惠更斯的机遇的规律一书入手，此人指导过微积分的奠基者之一的莱布尼兹学习数学，与牛顿等人也有交往，终生未婚。如诸多历史上有名的人物一般，他们之所以被后世的人们记住，是因为他们在某一个领域的杰出贡献，这个贡献可能是提出了某一个定理或者公式，换句话来说，就是现今人们口中所说的代表作，一个意思。

而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式：。

(二) 创立数学期望

与此同时，惠更斯1657年发表了《论赌博中的计算》，被认为是概率论诞生的标志。同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。

《论赌博中的计算》中，惠更斯先从关于公平赌博值的一条公理出发，推导出有关数学期望的三个基本定理，如下述内容所示：

公理：每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

对这一公理至今仍有争议。所谓公平赌注的数额并不清楚，它受许多因素的影响。但惠更斯由此所得关于数学期望的3个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯(Laplace,1749—1827)用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。

关于数学期望的三个命题为：

命题1：若某人在赌博中以等概率1/2获得赌金a元、b元，则其数学期望值为：a*1/2+b*1/2，即为(a+b)/2；

命题2：若某人在赌博中以等概率1/3获得赌金a、b元和c元，则其数学期望值为(a+b+c)/3元；

命题3：若某人在赌博中以概率p和q (p≥0,q≥0,p+q=1)获得赌金a元、b元，则获得赌金的数学期望值为p*a+q*b元。

这些今天看来都可作为数学期望定义，不准确的说，数学期望来源于取平均值。同时，根据上述惠更斯的3个命题不难证明：若某人在赌博中分别以概率p1...，pk（p1+..+pk=1）分别赢得a1，..ak元，那么其期望为p1*a1+...+pk*ak，这与本文第一节中关于离散型随机变量的期望的定义完全一致（各值与各值概率乘积之和）。

但惠更新关于概率论的讨论局限于赌博中，而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利，他在惠更新的论赌博中的计算一书出版的56年，即1733年出版了划时代的著作：推测术。伯努利在此书中，不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算，而且还提出了著名的“大数定律”，这个定律在历史上甚至到今天，影响深远，后续诸多的统计方法和理论都是建立在大数定律的基础上。

(三) 伯努利的大数定律及其如何而来

同样，咱们在读中学的时候，之所以记住了伯努利这个人，恐怕是因为物理课上，老师所讲的伯努利方程，(C为常量)。

当然，伯努利的贡献不仅在此，而在于他的大数定律。那何谓伯努利大数定律呢？

设在n次独立重复试验中，事件X发生的次数为。事件X在每次试验中发生的概率为P。则对任意正数，下式成立：

定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当n很大时，事件发生的频率于概率有较大偏差的可能性很小。

这个定理如何而来的呢？

咱们来看一个简单的袋中抽球的模型，袋中有a个白球，b个黑球，则从袋中取出白球的概率为p=a/(a+b)，有放回的充袋中抽球N次（每次抽取时保证袋中a+b个球的每一个都有同等机会被抽出），记得抽到的白球的次数为X，然后以X/N这个值去估计p，这个估计方法至今仍是数理统计学中最基本的方法之一。

伯努利试图证明的是：用X/N估计p可以达到事实上的确定性，即：任意给定两个数ε>0和η>0，取足够大的抽取次数N，使得事件的概率不超过η，这意思是，表面估计误差未达到制定的接近程度η。

换句话说，我们需要证明的是当N充分无限大时，X/N无限逼近于p，用公式表达即为：

（N趋于无穷大）

尽管现在我们看来，上述这个结论毫无疑问是理所当然的，但直到1909年才有波莱尔证明。此外，此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论，但须注意的是在伯努利那个时代，并无“方差”这个概念，更不用说从这个不等式而推论出伯努利大数定律了。

此外，常用的大数定律除了伯努利大数定律之外，还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。这里稍微提下辛钦大数定律，如下图所示。

在1733年，棣莫弗发展了用正态分布逼近二项分布的方法，这对于当时而言，是一实质性的深远改进。

4.3 棣莫弗的二项概率逼近

同上文中的惠更新，伯努利一样，人们熟悉棣莫弗，想必是因为著名的棣莫弗公式，如下：

据数理统计学简史一书上的说明，棣莫弗之所以投身到二项概率的研究，非因伯努利之故，而又是赌博问题（赌博贡献很大丫哈）。有一天一个哥们，也许是个赌徒，向棣莫弗提了一个和赌博相关的一个问题：A、B两人在赌场里赌博，A、B各自的获胜概率是p和q=1−p，赌n局，若A赢的局数X>np，则A付给赌场X−np元，否则B付给赌场np−X元。问赌场挣钱的期望值是多少？按定义可知，此期望值为：

上式的b(N，平，i)为二项概率，棣莫弗最终在Np为整数的条件下得到：

当m=N/2时，N趋于无穷：

也就是说上述问题的本质上是上文第一节中所讲的一个二项分布。虽然从上述公式可以集结此问题，但在N很大时，计算不易，故棣莫弗想找到一个更方便于计算的近似公式。

棣莫弗后来虽然做了一些计算并得到了一些近似结果，但是还不够，随后有人讲棣莫弗的研究工作告诉给了斯特林，于是，便直接催生了在数学分析中必学的一个重要公式斯特林公式（斯特林公式最初发表于1730年，而后棣莫弗改进了斯特林公式）：

（其中，m=N/2）

1733年，棣莫弗有了一个决定性意义的举动，他证明了当N趋于去穷时，有下列式子成立：

不要小瞧了这个公式。当它与上面给出的这个公式结合后，便有了：

根据上面式子，近似地以定积分代替和，得到下式：

不知道，当读者读到这里的时候，是否从上式看出了些许端倪，此式可隐藏了一个我们习以为常却极其重要的概念。OK，或许其形式不够明朗，借用rickjin的式子转化下：

没错，正态分布的概率密度（函数）在上述的积分公式中出现了！于此，我们得到了一个结论，原来二项分布的极限分布便是正态分布。与此同时，还引出了统计学史上占据重要地位的中心极限定理。

棣莫弗-拉普拉斯定理：设随机变量Xn(n=1,2...)服从参数为p的二项分布，则对任意的x，恒有下式成立：

我们便称此定理为中心极限定理。而且还透露着一个极为重要的信息：1730年，棣莫弗用二项分布逼近竟然得到了正太密度函数，并首次提出了中心极限定理。

还没完，随后，在1744年，拉普拉斯证明了：

最终，1780年，拉普拉斯建立了中心极限定理的一般形式（也就是上文3.2节中所讲的中心极限定理的一般形式）：

Lindeberg-Levy中心极限定理：设X1,⋯,Xn独立同分布，且具有有限的均值μ和方差σ2，则在n→∞时，有：

棣莫弗的工作对数理统计学有着很大的影响，棣莫弗40年之后，拉普拉斯建立中心极限定理的一般形式，20世纪30年代最终完成独立和中心极限定理最一般的形式，在中心极限定理的基础之上，统计学家们发现当样本量趋于无穷时，一系列重要统计量的极限分布如二项分布，都有正态分布的形式，也就是说，这也构成了数理统计学中大样本方法的基础。

此外，从上面的棣莫弗-拉普拉斯定理，你或许还没有看出什么蹊跷。但我们可以这样理解：若取c充分大，则对足够大的N，事件|的概率可任意接近于1，由于，故对于任意给定的ε>0，有下式成立：

而这就是上文中所讲的伯努利大数定律（注：上面讨论的是对称情况，即p=1/2的情况）。

我之所以不厌其烦的要论述这个棣莫弗的二项概率逼近的相关过程，是想说明一点：各个定理、公式彼此之前是有着紧密联系的，要善于发现其中的各种联系。

同时，还有一个问题，相信读者已经意识到了，如本文第一节内容所述，咱们的概率论与数理统计教材讲正态分布的时候，一上来便给出正态分布的概率密度（函数），然后告诉我们说，符合这个概率密度（函数）的称为正态分布，紧接着阐述和证明相关性质，最后说了一句：”在自然现象和社会现象中，大量随机变量都服从或近似服从正态分布，如人的身高，某零件长度的误差，海洋波浪的高度“，然后呢？然后什么也没说了。连正态分布中最基本的两个参数为、和的的意义都不告诉我们（位置参数即为数学期望，尺度参数为即为方差，换句话说，有了期望和方差，即可确定正态分布）。

随后，教材上便开始讲数学期望，方差等概念，最后才讲到中心极限定理。或许在读者阅读本文之后，这些定理的先后发明顺序才得以知晓。殊不知：正态分布的概率密度（函数）形式首次发现于棣莫弗-拉普拉斯中心极限定理中，即先有中心极限定理，而后才有正态分布（通过阅读下文4.6节你将知道，高斯引入正太误差理论，才成就了正态分布，反过来，拉普拉斯在高斯的工作之上用中心极限定理论证了正态分布）。

如rickjin所言：’‘学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的，现代的数学课本都是按照数学内在的逻辑进行组织编排的，虽然逻辑结构上严谨优美，却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一JamesWaston在他的名著《DNA双螺旋》序言中说：‘科学的发现很少会像门外汉所想象的一样，按照直接了当合乎逻辑的方式进行的。’’‘

4.4 贝叶斯方法

前面，介绍了惠更斯、伯努利和棣莫弗等人的重大成果，无疑在这些重要发明中，二项分布都占据着举重轻重的地位。这在早期的概率统计史当中，也是唯一一个研究程度很深的分布。但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外，在18世纪中叶，为了解决二项分布概率的估计问题，出现了一个影响极为广泛的贝叶斯方法，贝叶斯方法经过长足的发展，如今已经成为数理统计学中的两个主要学派之一：贝叶斯学派，牢牢占据数理统计学领域的半壁江山。

据数理统计学简史一书，托马斯.贝叶斯，此人在18世纪上半叶的欧洲学术界，并不算得上很知名，在提出贝叶斯定理之前，也未发表过片纸只字的科学论著，套用当今的话来说，他便是活生生一个民间学术屌丝。

未发表过任何科学著作，但一个人如果热爱研究，喜好学术的话，必找人交流。于此，诸多重大发明定理都出现在学者之间的一些书信交流中。奇怪的是，贝叶斯这方面的书信材料也不多。或许读者读到此处，已知我意，会说这一切在他提出贝叶斯定理之后有了改变，但读者朋友只猜对了一半。

贝叶斯的确发表了一篇题为Anessaytowardssolvingaprobleminthedoctrineofchances（机遇理论中一个问题的解）的遗作，此文在他发表后很长一段时间起，在学术界没有引起什么反响，直到20世纪以来，突然受到人们的重视，此文也因此成为贝叶斯学派最初的奠基石（又一个梵高式的人物）。

有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题。所谓逆概率，顾名思义，就是求概率问题的逆问题：已知时间的概率为P，可由之计算某种观察结果的概率如何；反过来，给定了观察结果，问由之可以对概率P作何推断。也就是说，正概率是由原因推结果，称之为概率论；而逆概率是结果推原因，称之为数理统计。

由于本文中，重点不在贝叶斯定理，而本文第一节之2.1小节已对其做简要介绍，再者，此文从决策树学习谈到贝叶斯分类算法、EM、HMM第二部分也详细介绍过了贝叶斯方法，故为本文篇幅所限，不再做过多描述。

4.5 最小二乘法，数据分析的瑞士军刀

事实上，在成百上千的各式各样的攻击方法中，取算术平均恐怕是最广为人知使用也最为广泛的方法，因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边。故此节要讲的最小二乘法其实并不高深，它的本质思想即是来源于此算术平均的方法。

不太精确的说，一部数理统计学的历史，就是从纵横两个方向对算术平均进行不断深入研究的历史，

纵的方面指平均值本身，诸如伯努利及其后众多的大数定律，棣莫弗-拉普拉斯中心极限定理，高斯的正太误差理论，这些在很大程度上都可以视为对算术平均的研究成果，甚至到方差，标准差等概念也是由平均值发展而来；

横的方面中最为典型的就是此最小二乘法。

而算术平均也是解释最小二乘法的最简单的例子。使误差平方和达到最小以寻求估计值的方法，则称为最小二乘估计（当然，取平方和作为目标函数知识众多可取的方法之一，例如也可以取误差4次方或绝对值和，取平方和是人类千百年实践中被证实行之有效的方法，因此被普遍采用）。

何谓最小二乘法？实践中，常需寻找两变量之间的函数关系，比如测定一个刀具的磨损速度，也就是说，随着使用刀具的次数越多，刀具本身的厚度会逐渐减少，故刀具厚度与使用时间将成线性关系，假设符合f（t）=at+b（t代表时间，f(t)代表刀具本身厚度），a，b是待确定的常数，那么a、b如何确定呢？

最理想的情形就是选取这样的a、b，能使直线y=at+b所得到的值与实际中测量到的刀具厚度完全符合，但实际上这是不可能的，因为误差总是存在难以避免的。故因误差的存在，使得理论值与真实值存在偏差，为使偏差最小通过偏差的平方和最小确定系数a、b，从而确定两变量之间的函数关系f（t）=at+b。

这种通过偏差的平方和为最小的条件来确定常数a、b的方法，即为最小二乘法。最小二乘法的一般形式可表述为：

在此，说点后话，最小二乘法是与统计学有着密切联系的，因为观测值有随机误差，所以它同正态分布一样与误差论有着密切联系（说实话，最小二乘法试图解决的是误差最小的问题，而正态分布则是试图寻找误差分布规律的问题，无论是最小二乘法，还是正态分布的研究工作，至始至终都围绕着误差进行）。

那么，最小二乘法是如何发明的呢？据史料记载，最小二乘法最初是由法国数学家勒让德于1805年发明的。那勒让德发明它的动机来源于哪呢？

18世纪中叶，包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了浓厚的兴趣。比如以下问题：

土星和木星是太阳系中的大行星，由于相互吸引对各自的运动轨道产生了影响，许多大数学家，包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
勒让德承担了一个政府给的重要任务，测量通过巴黎的子午线的长度。
海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些问题都可以用如下数学模型描述：我们想估计的量是β0,⋯,βp，另有若干个可以测量的量x1,⋯,xp,y，这些量之间有线性关系

如何通过多组观测数据求解出参数β0,⋯,βp呢？欧拉和拉普拉斯采用的都是求解线性方程组的方法。

但是面临的一个问题是，有n组观测数据，p+1个变量，如果n>p+1，则得到的线性矛盾方程组，无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察，把n个线性方程分为p+1组，然后把每个组内的方程线性求和后归并为一个方程，从而就把n个方程的方程组化为p+1个方程的方程组，进一步解方程求解参数。这些方法初看有一些道理，但是都过于经验化，无法形成统一处理这一类问题的一个通用解决框架。

以上求解线性矛盾方程的问题在现在的本科生看来都不困难，就是统计学中的线性回归问题，直接用最小二乘法就解决了，可是即便如欧拉、拉普拉斯这些数学大牛，当时也未能对这些问题提出有效的解决方案。可见在科学研究中，要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的，基本思想就是认为测量中有误差，所以所有方程的累积误差为：

我们求解出导致累积误差最小的参数即可。

上面我们已经看到，是勒让德最初发明的最小二乘法，那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢？（注：勒让德时期的最小二乘法还只是作为一个处理测量数据的代数方法来讨论的，实际上与统计学并无多大关联，只有建立在了测量误差分布的概率理论之后，这个方法才足以成为一个统计学方法。尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法，但无论是之前的棣莫弗，还是当时的勒让德，还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率分布）。

因为1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法，而却是高斯让最小二乘法得以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正太误差分布的理论基础之上的(后续更是导出了误差服从正态分布的结论)，最后，1837年，统计学家们正式确立误差服从正态分布，自此，人们方才真正确信：观测值与理论值的误差服从正态分布。

4.6 误差分布曲线的建立

十八世纪，天文学的发展积累了大量的天文学数据需要分析计算，应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则，千百年来的数据使用经验说明算术平均能够消除误差，提高精度。平均有如此的魅力，道理何在，之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论：测量中的随机误差应该服从怎样的概率分布？算术平均的优良性和误差的分布有怎样的密切联系？

伽利略在他著名的《关于两个主要世界系统的对话》中，对误差的分布做过一些定性的描述，主要包括：

误差是对称分布的分布在0的两侧：

大的误差出现频率低，小的误差出现频率高。
用数学的语言描述，也就是说误差分布函数f(x)关于0对称分布，概率密度随|x|增加而减小，这两个定性的描述都很符合常识。

4.6.1 辛普森的工作

许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(ThomasSimpson,1710-1761)先走出了有意义的一步。

设真值为θ，而为n次测量值，现在用测量值去估计真值θ，那么每次测量的误差为。
但若用算术平均去估计θ呢，则其误差为。

Simpson证明了，对于如下的一个概率分布：

Simpson的误差态分布曲线有这样的估计：

也就是说，相比于取小值的机会更大。辛普森的这个工作很粗糙，但是这是第一次在一个特定情况下，从概率论的角度严格证明了算术平均的优良性。

4.6.2 拉普拉斯的工作

在1772-1774年间，拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同，拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性，而是直接射向应该去怎么的分布为误差分布，以及在确定了误差分布之后，如何根据观测值去估计真值θ。

拉普拉斯假定误差密度函数f(x)满足如下性质：

m>0，且为常数，上述方程解出，C>0且为常数，由于，得。故当x<0，结合概率密度的性质之一（参看上文2.2.4节）：，解得c=m/2。

由此，最终1772年，拉普拉斯求得的分布密度函数为：

这个概率密度函数现在被称为拉普拉斯分布：

以这个函数作为误差密度，拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值，即用什么方法通过观测值去估计真值呢θ？要知道咱们现今所熟知的所谓点估计方法、矩估计方法，包括所谓的极大似然估计法之类的，当时可是都还没有发明。

拉普拉斯可以算是一个贝叶斯主义者，他的参数估计的原则和现代贝叶斯方法非常相似：假设先验分布是均匀的，计算出参数的后验分布后，取后验分布的中值点，即1/2分位点，作为参数估计值。可是基于这个误差分布函数做了一些计算之后，拉普拉斯发现计算过于复杂，最终没能给出什么有用的结果，故拉普拉斯最终还是没能搞定误差分布的问题。

至此，整个18世纪，可以说，寻找误差分布的问题，依旧进展甚微，下面，便将轮到高斯出场了，历史总是出人意料，高斯以及其简单的手法，给了这个误差分布的问题一个圆满的解决，其结果也就成为了数理统计发展史上的一块重要的里程碑。

4.6.3 高斯导出误差正态分布

事实上，棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式，到了1780年后，拉普拉斯也推出了中心极限定理的一般形式，但无论是棣莫弗，还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率分布，也就是压根就还没往误差概率分布的角度上去思索，而只有到了1809年，高斯提出“正太误差”的理论之后，它正太理论才得以“概率分布“的身份进入科学殿堂，从而引起人们的重视。

追本溯源，正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢？请看下文。

1801年1月，天文学家GiuseppePiazzi发现了一颗从未见过的光度8等的星在移动，这颗现在被称作谷神星（Ceres）的小行星在夜空中出现6个星期，扫过八度角后在就在太阳的光芒下没了踪影，无法观测。而留下的观测数据有限，难以计算出他的轨道，天文学家也因此无法确定这颗新星是彗星还是行星，这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了，这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道，并预言了它在夜空中出现的时间和位置。1801年12月31日夜，德国天文爱好者奥伯斯（HeinrichOlbers）在高斯预言的时间里，用望远镜对准了这片天空。果然不出所料，谷神星出现了！

高斯为此名声大震，但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后，才将他的方法公布于众，而其中使用的数据分析方法，就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢？请看下文。

跟上面一样，还是设真值为θ，而为n次独立测量值，每次测量的误差为，假设误差ei的密度函数为f(e)，则测量值的联合概率为n个误差的联合概率，记为

到此为止，高斯的作法实际上与拉普拉斯相同，但在继续往下进行时，高斯提出了两个创新的想法。

第一个创新的想法便是：高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式，而是直接取L(θ)达到最小值的作为θ的估计值，这也恰恰是他解决此问题采用的创新方法，即

现在我们把L(θ)称为样本的似然函数，而得到的估计值θˆ称为极大似然估计。高斯首次给出了极大似然的思想，这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。

高斯的第二点创新的想法是：他把整个问题的思考模式倒过来，既然千百年来大家都认为算术平均是一个好的估计，那么就直接先承认算术平均就是极大似然估计（换言之，极大似然估计导出的就应该是算术平均），所以高斯猜测：

然后高斯再去寻找相应的误差密度函数f以迎合这一点。即寻找这样的概率分布函数f,使得极大似然估计正好是算术平均。通过应用数学技巧求解这个函数f,高斯证明了所有的概率密度函数中，唯一满足这个性质的就是（记为(11)式）：

而这恰巧是我们所熟知的正态分布的密度函数，就这样，误差的正态分布就被高斯给推导出来了！

但，高斯是如何证明的呢？也就是说，高斯是如何一下子就把上面(11)式所述的概率密度函数给找出来的呢？如下图所示（摘自数理统计学简史第127页注2，图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法，而下图最后所说的(11)式就是上面推导出来的概率密度函数）：

进一步，高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei，有，则结合高斯的第一个创新方法：极大似然估计及上述的概率密度，(e1,⋯,en)的联合概率分布为

要使得这个概率最大，必须使得取最小值，这正好就是最小二乘法的要求。

高斯的这项工作对后世的影响极大，它使正态分布同时有了”高斯分布“的名称，不止如此，后世甚至也把最小二乘法的发明权也归功于他，由于他的这一系列突出贡献，人们采取了各种形式纪念他，如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线，借此表明在高斯的一切科学贡献中，尤以此”正太分布“的确立对人类文明的进程影响最大。

至此，咱们来总结下：

如你所见，相比于勒让德1805给出的最小二乘法描述，高斯基于误差正态分布的最小二乘理论显然更高一筹，高斯的工作中既提出了极大似然估计的思想，又解决了误差的概率密度分布的问题，由此我们可以对误差大小的影响进行统计度量了。

但事情就完了么？没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”，并导出了误差服从正态分布，推导的形式上非常简洁优美。

但是高斯给的准则在逻辑上并不足以让人完全信服，因为算术平均的优良性当时更多的是一个经验直觉，缺乏严格的理论支持。高斯的推导存在循环论证的味道：因为算术平均是优良的，推出误差必须服从正态分布；反过来，又基于正态分布推导出最小二乘和算术平均，来说明最小二乘法和算术平均的优良性，故其中无论正反论点都必须借助另一方论点作为其出发点，可是算术平均到并没有自行成立的理由。

也就是上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来：既然千百年来大家都认为算术平均是一个好的估计，那么就直接先承认算术平均就是极大似然估计（换言之，极大似然估计导出的就应该是算术平均）”存在着隐患，而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。

受高斯启发，拉普拉斯将误差的正态分布理论和中心极限定理联系起来，提出了元误差解释。他指出如果误差可以看成许多微小量的叠加，则根据他的中心极限定理，随机误差理应当有高斯分布(换言之，按中心极限定理来说，正态分布是由大量的但每一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展，也给这个解释提供了更多的理论支持。

至此，误差分布曲线的寻找尘埃落定，正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中，棣莫弗、拉普拉斯、高斯各有贡献，拉普拉斯从中心极限定理的角度解释它，高斯把它应用在误差分析中，殊途同归。不过因为高斯在数学家中的名气实在是太大，正态分布的桂冠还是更多的被戴在了高斯的脑门上，目前数学界通行的用语是正态分布、高斯分布，两者并用。

4.6.4 正态分布的时间简史

至此，正态分布从首次出现到最终确立，其时间简史为：

1705年，伯努力的著作推测术问世，提出伯努利大数定律；

1730-1733年，棣莫弗从二项分布逼近得到正态密度函数，首次提出中心极限定理；

1780年，拉普拉斯建立中心极限定理的一般形成；

1805年，勒让德发明最小二乘法；

1809年，高斯引入正态误差理论，不但补充了最小二乘法，而且首次导出正态分布；

1811年，拉普拉斯利用中心极限定理论证正态分布；

1837年，海根提出元误差学说，自此之后，逐步正式确立误差服从正态分布。

如上所见，是先有的中心极限定理，而后才有的正态分布(当然，最后拉普拉斯用中心极限定理论证了正态分布)，能了解这些历史，想想，都觉得是一件无比激动的事情。所以，我们切勿以为概率论与数理统计的教材上是先讲的正态分布，而后才讲的中心极限定理，而颠倒原有历史的发明演进过程。

4.6.5 论道正态，正态分布的4大数学推导

如本blog内之前所说：凡是涉及到要证明的东西.理论，便一般不是怎么好惹的东西。绝大部分时候，看懂一个东西不难，但证明一个东西则需要点数学功底，进一步，证明一个东西也不是特别难，难的是从零开始发明创造这个东西的时候，则更显艰难（因为任何时代，大部分人的研究所得都不过是基于前人的研究成果，前人所做的是开创性工作，而这往往是最艰难最有价值的，他们被称为真正的先驱。牛顿也曾说过，他不过是站在巨人的肩上。你，我则更是如此）。

上述第4节已经介绍了正态分布的历史由来，但尚未涉及数学推导或证明，下面，参考概率论沉思录，引用“正态分布的前世今生”等相关内容，介绍推导正太分布的4种方法，曲径通幽，4条小径，殊途同归，进一步领略正态分布的美妙。

「注：本节主要整编自rickjin写的"正态分布的前后今生"系列」

5.1 高斯的推导(1809)

第一条小径是高斯找到的，高斯以如下准则作为小径的出发点：

误差分布导出的极大似然估计=算术平均值

设真值为，而为次独立测量值，每次测量的误差为，假设误差的密度函数为，则测量值的联合概率为n个误差的联合概率，记为：

为求极大似然估计，令，整理后可以得到：

令，由上式可以得到：

由于高斯假设极大似然估计的解就是算术平均，把解带入上式，可以得到：

在上式中取，有。

由于此时有，并且是任意的，由此得到：。再在(6)式中取，并且要求，且，则有，并且：

所以得到。而满足上式的唯一的连续函数就是，从而进一步可以求解出：

由于是概率分布函数，把正规化一下就得到正态分布密度函数。

5.2 Herschel(1850)和麦克斯韦(1860)的推导

第二条小径是天文学家JohnHershcel和物理学家麦克斯韦(Maxwell)发现的。1850年，天文学家Herschel在对星星的位置进行测量的时候，需要考虑二维的误差分布，为了推导这个误差的概率密度分布f(x,y)，Herschel设置了两个准则：

x轴和y轴的误差是相互独立的，即误差的概率在正交的方向上相互独立；

误差的概率分布在空间上具有旋转对称性，即误差的概率分布和角度没有关系。

这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1，可以得到应该具有如下形式：

把这个函数转换为极坐标，在极坐标下的概率密度函数设为，有

由准则2，具有旋转对称性，也就是应该和无关，所以，综合以上，我们可以得到：

取，得到，所以上式可以转换为：

令，则有：

从这个函数方程中可以解出,从而可以得到的一般形式如下：

而就是正态分布，而就是标准二维正态分布函数。

1860年，我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候，在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布：

这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗？

所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布？反正我是一直不知道，直到今年才明白。

Herschel-Maxwell推导的神妙之处在于，没有利用任何概率论的知识，只是基于空间几何的不变性，就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有的数学公式的时候，就会问：圆在哪里？这个推导中使用到了，也就是告诉我们正态分布密度公式中有个，其根源来在于二维正态分布中的等高线恰好是个圆。

5.3 Landon的推导(1941)

第三条道是一位电气工程师，VernonD.Landon给出的。1941年，Landon研究通信电路中的噪声电压，通过分析经验数据他发现噪声电压的分布模式很相似，不同的是分布的层级，而这个层级可以使用方差来刻画。因此他推理认为噪声电压的分布函数形式是。现在假设有一个相对于而言很微小的误差扰动，且的分布函数是,那么新的噪声电压是。Landon提出了如下的准则：

随机噪声具有稳定的分布模式；
累加一个微小的随机噪声，不改变其稳定的分布模式，只改变分布的层级（用方差度量）；

用数学的语言描述：如果，则有。现在我们来推导函数应该长成啥样。按照两个随机变量和的分布的计算方式，的分布函数将是的分布函数和的分布函数的卷积，即有：

把在x′处做泰勒级数展开（为了方便，展开后把自变量由x′替换为x），上式可以展开为：

记，则有：

对于微小的随机扰动,我们认为他取正值或者负值是对称的，所以。所以有

对于新的噪声电压是x′=x+e，方差由增加为，所以按照Landon的分布函数模式不变的假设，新的噪声电压的分布函数应该为。把在处做泰勒级数展开，得到：

比较(8)和(9)这两个式子，可以得到如下偏微分方程：

而这个方程就是物理上著名的扩散方程(diffusionequation)，求解该方程就得到

又一次，我们推导出了正态分布！

概率论沉思录作者E.T.Jaynes对于这个推导的评价很高，认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本，相比于中心极限定理来说，是一次性累加所有的因素，Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中，我们看到，正态分布具有相当好的稳定性；只要数据中正态的模式已经形成，他就容易继续保持正态分布，无论外部累加的随机噪声是什么分布，正态分布就像一个黑洞一样把这个累加噪声吃掉。

5.4 正态分布和最大熵

还有一条小径是基于最大熵原理的，物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献，他在《概率论沉思录》里面对这个方法有描述和证明，没有提到发现者，不过难以确认这条道的发现者是否是Jaynes本人。

熵在物理学中由来已久，信息论的创始人香农(ClaudeElwoodShannon)把这个概念引入了信息论，读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易，不过这条道的风景是相当独特的，E.T.Jaynes对这条道也是偏爱有加。

对于一个概率分布,我们定义它的熵为：

如果给定一个分布函数·的均值和方差（给定均值和方差这个条件，也可以描述为给定一阶原点矩和二阶原点矩，这两个条件是等价的）则在所有满足这两个限制的概率分布中，熵最大的概率分布就是正态分布。

这个结论的推导数学上稍微有点复杂，不过如果已经猜到了给定限制条件下最大熵的分布是正态分布，要证明这个猜测却是很简单的，证明的思路如下。

考虑两个概率分布和，使用不等式，得：

于是：

（读者注意：经好友白石指正，上述等式，右边的第一项p(x)之后，1/p(x)之前少画了个log符号）

所以：

熟悉信息论的读者都知道，这个式子是信息论中的很著名的结论：一个概率分布的熵总是小于相对熵。上式要取等号只有取。

对于，在给定的均值和方差下，我们取，则可以得到：

由于的均值方差有如下限制：，于是：

而当的时候，上式可以取到等号，这就证明了结论。

E.T.Jaynes显然对正态分布具有这样的性质极为赞赏，因为这从信息论的角度证明了正态分布的优良性。而我们可以看到，正态分布熵的大小，取决于方差的大小。这也容易理解，因为正态分布的均值和密度函数的形状无关，正态分布的形状是由其方差决定的，而熵的大小反应概率分布中的信息量，显然和密度函数的形状相关。

所谓横看成岭侧成峰，远近高低各不同，正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话，引用来作为这个小节的结束：

PhysicistsbelievethattheGaussianlawhasbeenprovedinmathematicswhilemathematiciansthinkthatitwasexperimentallyestablishedinphysics.

—HenriPoincaré

OK，虽然上文已经花了如此多的篇幅讲了那么多的概念，然事实上，在概率论与数理统计中，上文所讲的概念尚不到1/3，限于篇幅，还有诸多概念没有阐述完毕，如下图所示：

So，如上，之前微博上http://weibo.com/1580904460/z9htU9VzT说要写的概率论与数理统计的科普blog已经初步整理完成（当然，后续一个星期之内会继续修补完善）。从前天晚上开始，连续写了两天，花了半身力气，文章若有任何问题，欢迎指正，尤能给出批评修订意见，则倍感荣幸，谢谢。同时，但所有以上这些绝大部分都只是概率论与数理统计的基础知识，因此本文只能作个科普之效，若要深入学习，还是烦请读者朋友们阅读相关书籍，或加以动手实践。

参考文献及推荐阅读

高等数学第六版上下册，同济大学数学系编；

微积分概念发展史，[美]卡尔·B·波耶著，唐生译；

概率论与数理统计，高教版，盛骤等编；

浙大版概率论与数理统计电子PPT课件；

数理统计学简史，陈希孺院士著；

(极力推荐上书，相信每一个学概率统计的朋友都有必要看一看，同时，此书也是正态分布的前后今生这一系列的主要参考)

rickjin，正态分布的前后今生：http://t.cn/zlH3Ygc；

正态分布的前后今生系列集成版上：http://t.cn/zjJStYq，下：http://t.cn/zjoAtUQ；

大嘴巴漫谈数据挖掘：http://vdisk.weibo.com/s/bUbzJ；

误差论与最小平方法&数学传播，蔡聪明；

正态分布进入统计学的历史演化，吴江霞；

ProbabilityTheory&TheLogicofScience(概率论沉思录)，E.T.Jaynes著；

手写数学公式编辑器：http://webdemo.visionobjects.com/equation.html?locale=zh_CN；

wikipedia上标准差：http://zh.wikipedia.org/wiki/%E6%A0%87%E5%87%86%E5%B7%AE；

泊松分布与概率分布：http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88；

wikipedia上一堆概念；

....

后记

本文之后，待写的几篇文章罗列如下，具体完成时间全部待定：

机器学习中相关的降维方法，如PCA/LDA等等；
神经网络入门学习导论；
程序员编程艺术第二十八章~第二十九章（2013年3月已经写好）；
...

在写完数据挖掘十大算法系列之后，还将写一系列机器学习的相关笔记。此外，这是本文的微博地址：http://weibo.com/1580904460/zarZW2Jye，欢迎大家推荐转发。最后，有一点必须说明的是，本文大部内容或参考或引用自上文所列的相关参考文献中，自己只是做了个总结和梳理，附带自己的一些理解，若有任何问题，欢迎读者随时交流&批评指正，谢谢大家。July，二零一二年十二月十九日。

本文转自：云脑智库；

END

合作请加QQ：365242293

数据分析（ID : ecshujufenxi ）互联网科技与数据圈自己的微信，也是WeMedia自媒体联盟成员之一，WeMedia联盟覆盖5000万人群。

你可能感兴趣的:(概率论,hierarchy,brew,toa,twitter)

为什么会有虚拟内存 fpcc C++架构设计 linux c++软件工程
一、虚拟内存虚拟内存（virtualmemory），“Virtualmemoryisamemorymanagementtechniqueusedbyoperatingsystemstogivetheappearanceofalarge,continuousblockofmemorytoapplications,evenifthephysicalmemory(RAM)islimited.Itallo
Midscene.js 简介有个人神神叨叨 javascript ai 人工智能
名称：Midscene.js口号：JoyfulAutomationbyAI（通过AI实现愉悦的自动化）官网：https://midscenejs.com/项目地址：https://github.com/web-infra-dev/midscene社区链接：Twitter：https://x.com/midscene_aiDiscord：https://discord.gg/2JyBHxszE4La
鸿蒙开发：自定义一个Toast egzosn
前言代码案例基于Api13。系统的toast已经可以满足大部分的场景了，而且使用起来也是十分的简单，可以修改很多的可配置属性，简单的使用代码如下：登录后复制promptAction.showToast({message:"toast提示"})1.但是偏偏有一点实现不了，那就是圆角度数的设置，还有就是和icon结合使用的场景也无法满足，为了更好的适配UI的设计图，那么自定义一个Toast是在所难免的
brew mysql client_Mac安装mysqlclient过程解析 weixin_39630440 brew mysql client
尝试在虚拟环境下通过pip安装：pipinstallmysqlclient然后报错：OSError:mysql_confignotfound找到官方文档https://github.com/PyMySQL/mysqlclient-python，解释说安装前需安装另一个模块：brewinstallmysql-connector-c但是报错：查看报错信息，在安装mysql-connector-c前先b
StyleGaussian: Instant 3D Style Transfer with Gaussian Splatting 于初见月 paper 计算机视觉
AbstractWeintroduceStyleGaussian,anovel3Dstyletransfertechniquethatallowsinstanttransferofanyimage’sstyletoa3Dsceneat10FPS.Leveraging3DGS,StyleGaussianachievesstyletransferwithoutcompromisingitsreal-t
Form表单的三种提交和http请求的三种传参方式，以及Servlet里的取取参方式哥谭居民0001 http servlet 网络协议
多表单多用于文件上传，因为toacat的实现机制，涉及到了将参数数据临时存储到磁盘上，取的时候只能取字节流get和post虽然在http请求里带参的位置不同但是javaSE里对于HttpServletRequest这个对象定义，这两种传参的取参方式相同假设有一个表单，用户输入了用户名kimi和年龄25，提交GET请求后，URL会变成：http://example.com/FormSubmitSer
HarmonyOS NEXT开发实战教程：选择相册和拍照幽蓝计划 harmonyos 华为
今天的内容是介绍在鸿蒙开发中从相册选择照片，和调用相机拍照，并使用这两个功能实现朋友圈编辑页面。这部分内容没什么好废话的，都是固定用法，直接上代码。首先添加权限：ohos.permission.CAMERA选择相册：asyncgetAlbum(){constphotoSelectOptions=newphotoAccessHelper.PhotoSelectOptions();photoSelec
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
**探索微博世界的新视角：twiyou——您的推特好友监测神器** 许煦津
探索微博世界的新视角：twiyou——您的推特好友监测神器twiyouTwitterfriendmonitoringtool项目地址:https://gitcode.com/gh_mirrors/tw/twiyou项目介绍在这个信息爆炸的时代，推特（Twitter）作为全球最具影响力的社交媒体之一，汇聚了无数声音与故事。twiyou，一款专为推特设计的友好监视工具，犹如你的个人情报员，帮助你轻松掌
记录 macOS 上使用 Homebrew 安装的软件獨梟 #macOS软件安装配置 macos
Homebrew是macOS上最受欢迎的软件包管理器之一，能够轻松安装各种命令行工具和GUI应用。本文记录了我通过Homebrew安装的各种软件，并对它们的用途和基本使用方法进行介绍。Homebrew介绍Homebrew是一个开源的包管理器，可以让macOS用户方便地安装和管理各种命令行工具和GUI应用。安装Homebrew后，可以使用brewinstall命令安装各种工具。安装Homebrew:
react-native 实现AES RSA MD5加密花程序媛
importReact,{Component}from'react';import{Platform,StyleSheet,Text,View,Image,Dimensions,ScrollView,TouchableOpacity,Modal,TouchableHighlight,NativeModules,ToastAndroid,Alert,FlatList,}from'react-nati
FIN41920 Sustainable Finance 后端
FIN41920SustainableFinanceGroupProject2025ThepurposeofthisprojectistoevaluatetheabilityofapplyingUStoxicemissiondataandaccountingdatatoanalysetheeffectoftoxicemissionsonfirms’financialperformance.Here
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
PakePlus支持将vue/react等项目打包为跨平台桌面软件了 1024小神多端开发 vue.js 前端 javascript
PakePLus介绍Turnanywebpage/Vue/ReactandsoonintoadesktopappandmobileappwithRust.轻松将任意网站/Vue/React等项目构建为轻量级(仅5M)多端桌面应用和多端手机应用。pakeplus开源地址：GitHub-Sjj1024/PakePlus:Turnanywebpage/Vue/Reactandsoonintoadeskt
java常用数据转换 bestwinner java python windows
1.List与数组互转ArrayListlist=newArrayListlist1=Arrays.stream(array1).collect(Collectors.toList());String[]cateArray=cateList.toArray(newString[cateList.size()]);2.new集合对像importcom.google.common.collect.Li
【详细解决】pycharm 终端出现报错：“Failed : 无法将“Failed”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。一只小白跳起来笔记 pycharm python ide
昨天在终端一顿操作后突然打开pycharm时就开始报错：无法将“Failed”项识别为cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次。所在位置行:1字符:1+Failedtoactivatecondaenvironment.+~~~~~~+CategoryInfo:ObjectNotFound:(Failed:String)[],Com
useSyncExternalStore 的应用前端
我们是袋鼠云数栈UED团队，致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神，探索前端道路，为社区积累并传播经验价值。本文作者：修能学而不思则罔，思而不学则殆。---《论语·为政》WhatuseSyncExternalStoreisaReactHookthatletsyousubscribetoanexternalstore.useSyncExternalStore是一个支持让用户订阅外部
156.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之事件处理机制 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之事件处理机制效果演示1.事件系统概述1.1事件类型点击事件滚动事件动画事件状态变化事件1.2事件处理方式//点击事件处理.onClick(()=>{promptAction.showToast({m
基于Python的金融领域AI训练数据抓取实战（完整技术解析）海拥✘ python 金融人工智能
项目背景与需求分析场景描述为训练一个覆盖全球金融市场的多模态大语言模型（LLM），需实时采集以下数据：全球30+主要证券交易所（NYSE、NASDAQ、LSE、TSE等）的上市公司公告企业财报PDF文档及结构化数据社交媒体舆情数据（Twitter、StockTwits）新闻媒体分析（Reuters、Bloomberg）技术挑战地理封锁：部分交易所（如日本TSE）仅允许本国IP访问历史数据动态反爬：
150.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之生命周期与初始化 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之生命周期与初始化效果演示1.生命周期概述1.1组件生命周期@ComponentexportstructCubeRotateAnimationSamplePage{//组件创建时调用aboutToAp
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
云原生分布式存储：数据洪流中的时空折叠艺术桂月二二云原生分布式
引言：数据维度战争的新防线蚂蚁集团存储集群达500EB规模，Netflix每日处理3PB视频数据。AWSS3支持每秒1.5亿次请求，字节跳动对象存储延迟低至12ms。IDC预测2026年全球存储开销达亿，沃尔玛每秒处理万笔交易日志，沙特阿美地震勘探数据集超。微软冷存单价降至0.00099/GB·月，中国天眼FAST每秒生成160GB射电数据，Twitter使用Ambry实现250万IOPS。Gar
【数学建模】层次分析法(AHP)详解及其应用烟锁池塘柳0 数学建模数学建模
层次分析法(AHP)详解及其应用引言在现实生活和工作中，我们经常面临复杂的决策问题，这些问题通常涉及多个评价准则，且各准则之间可能存在相互影响。如何在这些复杂因素中做出合理的决策？层次分析法(AnalyticHierarchyProcess,AHP)作为一种系统、灵活的多准则决策方法，为我们提供了科学的决策工具。文章目录层次分析法(AHP)详解及其应用引言什么是层次分析法？层次分析法的基本原理层次
pdf转word 废材是怎么养成的 pdf java word
完了，新年第一天老婆喊我找个免费的转换软件帮她转一下dpf，我倒是找了些个在线免费转化的，也找了些免费的软件但是不是现在页数就是需要开会员，要么就限制大小，好吧，程序员嘛能省一块钱是一块钱,，能白嫖哎就白嫖下吧。新的一年希望祖国经济好起来,也预祝大家新年快乐，身体健康，万事如意。免费在线转:https://www.alltoall.net/pom插件、包引入、测试类，jar包通过网盘分享的文件：a
mkcert 极简安装及使用步骤学亮编程手记 Linux ssl
1.安装mkcertmacOSbrewinstallmkcertLinuxsudoaptinstalllibnss3-toolscurl-JLO"https://dl.filippo.io/mkcert/latest?for=linux/amd64"chmod+xmkcert-v*-linux-amd64sudomvmkcert-v*-linux-amd64/usr/local/bin/mkcer
Python for Android 安装和配置指南舒欣和Queenly
PythonforAndroid安装和配置指南python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目基础介绍和主要编程语言项目基础介绍PythonforAndroid(p4a)是一个开源工具，旨在将Python应用
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
laravel框架查询数据集转为数组小浮夸框架 laravel
$website_data=DB::table('fb_website')->where('website_status',1)->get()->map(function($value){return(array)$value;})->toArray();
laravel如何通过DB获取一条数据的指定字段并转成数组 phpgolife php php laravel
在Laravel中，如果你想要通过原生数据库查询构建器（DBfacade）获取一条数据的指定字段，并将其转换为数组，你可以这样做：首先，使用select方法来指定你想要获取的字段，然后使用where方法来添加查询条件，最后调用first()方法来获取结果集中的第一条记录。first()方法返回的是一个StdClass对象，你可以直接访问其属性来获取字段值，或者你可以使用toArray()方法将对象
laravel如何通过DB获取一条数据并转成数组 phpgolife php laravel php
在Laravel中，你可以使用原生数据库查询构建器（DBfacade）来获取一条数据，并将其转换为数组。这可以通过在查询链的末尾调用first()方法后，使用toArray()方法来实现。first()方法会返回一个StdClass对象（如果找到数据的话），然后你可以调用toArray()方法将这个对象转换为数组。以下是一个示例，展示了如何通过DB门面获取一条数据并将其转换为数组：useIllum
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">