mmc2015

数据挖掘中所需的概率论与数理统计知识，上

http://www.cnblogs.com/v-July-v/archive/2012/12/17/3125418.html

数据挖掘中所需的概率论与数理统计知识、上

（关键词：微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布）

导言：本文从微积分相关概念，梳理到概率论与数理统计中的相关知识，但本文之压轴戏在本文第4节（彻底颠覆以前读书时大学课本灌输给你的观念，一探正态分布之神秘芳踪，知晓其前后发明历史由来），相信，每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史，因为，只有了解各个定理.公式的发明历史,演进历程.相关联系，才能更好的理解你眼前所见到的知识，才能更好的运用之。

前言

一个月余前，在微博上感慨道，不知日后是否有无机会搞DM，微博上的朋友只看不发的围脖评论道：算法研究领域，那里要的是数学，你可以深入学习数学，将算法普及当兴趣。想想，甚合我意。自此，便从rickjin写的“正态分布的前世今生”开始研习数学。

如之前微博上所说，“今年5月接触DM，循序学习决策树.贝叶斯，SVM.KNN，感数学功底不足，遂补数学，从‘正态分布的前后今生’中感到数学史有趣，故买本微积分概念发展史读，在叹服前人伟大的创造之余，感微积分概念模糊，复习高等数学上册，完后学概率论与数理统计，感概道：微积分是概数统计基础，概数统计则是DM&ML之必修课。”包括读者相信也已经感觉到，我在写这个Top 10 Algorithms in Data Mining系列的时候，其中涉及到诸多的数学概念与基础知识(例如此篇SVM文章内诸多max.s.t.对偶.KKT条件.拉格朗日.松弛因子等问题则皆属于数学内一分支：最优化理论与算法范畴内)，特别是概率论与数理统计部分。更进一步，在写上一篇文章的时候，看到机器学习中那么多距离度量的表示法，发现连最起码的期望，方差，标准差等基本概念都甚感模糊，于此，便深感数学之重要性。

很快，我便买了一本高等教育出版社出版的概率论与数理统计一书，此书“从0-1分布、到二项分布、正态分布，概率密度函数，从期望到方差、标准差、协方差，中心极限定理，样本和抽样，从最大似然估计量到各种置信区间，从方差分析到回归分析，bootstrap方法，最后到马尔可夫链，以前在学校没开概率论与数理统计这门课，现在有的学有的看了”。且人类发明计算机，是为了辅助人类解决现实生活中遇到的问题，然计算机科学毕竟只发展了数十年，可在数学.统计学中，诸多现实生活问题已经思考了数百年甚至上千年，故，计算机若想更好的服务人类解决问题，须有效借鉴或参考数学.统计学。世间万事万物，究其本质乃数学，于变化莫测中寻其规律谓之统计学。

话休絮烦。本文结合高等数学上下册、微积分概念发展史，概率论与数理统计、数理统计学简史等书，及rickjin写的“正态分布的前世今生”系列(此文亦可看作读书笔记或读后感)与wikipedia整理而成，对数据挖掘中所需的概率论与数理统计相关知识概念作个总结梳理，方便你我随时查看复习相关概念，而欲深入学习研究的课后还需参看相关专业书籍.资料。同时，本文篇幅会比较长，简单来说：

第一节、介绍微积分中极限、导数，微分、积分等相关概念；
第二节、介绍随机变量及其分布；
第三节、介绍数学期望.方差.协方差.相关系数.中心极限定理等概念；
第四节、依据数理统计学简史介绍正态分布的前后由来；
第五节、论道正态，介绍正态分布的4大数学推导。

5部分起承转合，彼此依托，层层递进。且在本文中，会出现诸多并不友好的大量各种公式，但基本的概念.定理是任何复杂问题的根基，所以，你我都有必要硬着头皮好好细细阅读。最后，本文若有任何问题或错误，恳请广大读者朋友们不吝批评指正，谢谢。

第一节、微积分的基本概念

开头前言说，微积分是概数统计基础，概数统计则是DM&ML之必修课”，是有一定根据的，包括后续数理统计当中，如正态分布的概率密度函数中用到了相关定积分的知识，包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念，这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念。

事实上，古代数学中，单单无穷小、无穷大的概念就讨论了近200年，而后才由无限发展到极限的概念。

1.1、极限

极限又分为两部分：数列的极限和函数的极限。

1.1.1、数列的极限

定义如果数列{xn}与常a 有下列关系:对于任意给定的正数e (不论它多么小), 总存在正整数N , 使得对于n >N 时的一切xn, 不等式 |xn-a |

也就是说，

1.1.2、函数的极限

设函数f(x)在点x0的某一去心邻域内有定义. 如果存在常数A, 对于任意给定的正数e (不论它多么小), 总存在正数d, 使得当x满足不等式0<|x-x0||f(x)-A|

也就是说，

几乎没有一门新的数学分支是某个人单独的成果，如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果，而是若干数学思潮在16世纪和17世纪汇合的产物，是由许许多多的学者共同努力而成。

甚至微积分的发展也不是牛顿与莱布尼茨两人之功。在17世纪下半叶，数学史上出现了无穷小的概念，而后才发展到极限，到后来的微积分的提出。然就算牛顿和莱布尼茨提出了微积分，但微积分的概念尚模糊不清，在牛顿和莱布尼茨之后，后续经过一个多世纪的发展，诸多学者的努力，才真正清晰了微积分的概念。

也就是说，从无穷小到极限，再到微积分定义的真正确立，经历了几代人几个世纪的努力，而课本上所呈现的永远只是冰山一角。

1.2、导数

设有定义域和取值都在实数域中的函数。若在点的某个邻域内有定义，则当自变量在处取得增量（点仍在该邻域内）时，相应地函数取得增量；如果与之比当时的极限存在，则称函数在点处可导，并称这个极限为函数在点处的导数，记为。

即：

也可记为：，或。

1.3、微分

设函数在某区间内有定义。对于内一点，当变动到附近的（也在此区间内）时。如果函数的增量可表示为（其中是不依赖于的常数），而是比高阶的无穷小，那么称函数在点是可微的，且称作函数在点相应于自变量增量的微分，记作，即，是的线性主部。通常把自变量的增量称为自变量的微分，记作，即。

实际上，前面讲了导数，而微积分则是在导数的基础上加个后缀，即为：。

1.4、积分

积分是微积分学与数学分析里的一个核心概念。通常分为定积分和不定积分两种。

不定积分的定义

一个函数的不定积分，也称为原函数或反导数，是一个导数等于的函数，即

不定积分的有换元积分法，分部积分法等求法。

定积分的定义

直观地说，对于一个给定的正实值函数，在一个实数区间上的定积分：

定积分与不定积分区别在于不定积分便是不给定区间，也就是说，上式子中，积分符号没有a、b。下面，介绍定积分中值定理。

如果函数f(x)在闭区间[a,b]上连续, 则在积分区间[a,b]上至少存在一个点, 使下式成立：

这个公式便叫积分中值公式。

牛顿-莱布尼茨公式

接下来，咱们讲介绍微积分学中最重要的一个公式：牛顿-莱布尼茨公式。

如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则

此公式称为牛顿-莱布尼茨公式, 也称为微积分基本公式。这个公式由此便打通了原函数与定积分之间的联系，它表明：一个连续函数在区间[a, b]上的定积分等于它的任一个原函数在区间[a, b]上的增量，如此，便给定积分提供了一个有效而极为简单的计算方法，大大简化了定积分的计算手续。

下面，举个例子说明如何通过原函数求取定积分。

如要计算，由于是的一个原函数，所以。

1.5、偏导数

对于二元函数z = f(x，y) 如果只有自变量x 变化，而自变量y固定这时它就是x的一元函数，这函数对x的导数，就称为二元函数z = f(x，y)对于x的偏导数。
定义设函数z = f(x，y)在点(x0，y0)的某一邻域内有定义，当y固定在y0而x在x0处有增量时，相应地函数有增量，

如果极限

存在，则称此极限为函数z = f(x，y)在点(x0，y0)处对 x 的偏导数，记作：

例如。类似的，二元函数对y求偏导，则把x当做常量。

此外，上述内容只讲了一阶偏导，而有一阶偏导就有二阶偏导，这里只做个简要介绍，具体应用具体分析，或参看高等数学上下册相关内容。接下来，进入本文的主题，从第二节开始。

第二节、离散.连续.多维随机变量及其分布

2.1、几个基本概念点

(一)样本空间

定义：随机试验E的所有结果构成的集合称为E的样本空间，记为S={e}，
称S中的元素e为样本点，一个元素的单点集称为基本事件．

(二)条件概率

条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P（A|B），读作“在B条件下A的概率”。
联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者。
边缘概率是某个事件发生的概率。边缘概率是这样得到的：在联合概率中，把最终结果中不需要的那些事件合并成其事件的全概率而消失（对离散随机变量用求和得全概率，对连续随机变量用积分得全概率）。这称为边缘化（marginalization）。A的边缘概率表示为P（A），B的边缘概率表示为P（B）。

在同一个样本空间Ω中的事件或者子集A与B，如果随机从Ω中选出的一个元素属于B，那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中，我们可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

有时候也称为后验概率。

同时，P（A|B）与P（B|A）的关系如下所示：

。

(三)全概率公式和贝叶斯公式

1、全概率公式

假设{ Bn : n = 1, 2, 3, ... } 是一个概率空间的有限或者可数无限的分割，且每个集合Bn是一个可测集合，则对任意事件A有全概率公式：

又因为

所以，此处Pr(A | B)是B发生后A的条件概率，所以全概率公式又可写作：

在离散情况下，上述公式等于下面这个公式：。但后者在连续情况下仍然成立：此处N是任意随机变量。这个公式还可以表达为："A的先验概率等于A的后验概率的先验期望值。

2、贝叶斯公式

贝叶斯定理（Bayes' theorem），是概率论中的一个结果，它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中，贝叶斯定理（贝叶斯更新）能够告知我们如何利用新证据修改已有的看法。
通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系，贝叶斯定理就是这种关系的陈述。

如此篇blog第二部分所述“ 据维基百科上的介绍，贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理。

如上所示，其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中，每个名词都有约定俗成的名称：

P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率（直白来讲，就是先有B而后=>才有A），也由于得自B的取值而被称作A的后验概率。
P(B|A)是已知A发生后B的条件概率（直白来讲，就是先有A而后=>才有B），也由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。

按这些术语，Bayes定理可表述为：后验概率 = (相似度*先验概率)/标准化常量，也就是說，后验概率与先验概率和相似度的乘积成正比。另外，比例P(B|A)/P(B)也有时被称作标准相似度（standardised likelihood），Bayes定理可表述为：后验概率 = 标准相似度*先验概率。”

综上，自此便有了一个问题，如何从从条件概率推导贝叶斯定理呢？

根据条件概率的定义，在事件B发生的条件下事件A发生的概率是

同样地，在事件A发生的条件下事件B发生的概率

整理与合并这两个方程式，我们可以找到

这个引理有时称作概率乘法规则。上式两边同除以P(B)，若P(B)是非零的，我们可以得到贝叶斯定理：

2.2、随机变量及其分布

2.2.1、何谓随机变量

何谓随机变量？即给定样本空间，其上的实值函数称为(实值)随机变量。

如果随机变量的取值是有限的或者是可数无穷尽的值 ,则称为离散随机变量( 用白话说，此类随机变量是间断的)。

如果由全部实数或者由一部分区间组成，则称为连续随机变量，连续随机变量的值是不可数及无穷尽的( 用白话说，此类随机变量是连续的，不间断的)：

也就是说，随机变量分为离散型随机变量，和连续型随机变量，当要求随机变量的概率分布的时候，要分别处理之，如：

针对离散型随机变量而言，一般以加法的形式处理其概率和；
而针对连续型随机变量而言，一般以积分形式求其概率和。

再换言之，对离散随机变量用求和得全概率，对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到，望读者注意之。

2.2.2、离散型随机变量的定义

定义：取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)为

且

(一)（0-1）分布

若X的分布律为：

同时，p+q=1,p>0,q>0，则则称X服从参数为p的0-1分布，或两点分布。

此外，（0-1）分布的分布律还可表示为：

或

我们常说的抛硬币实验便符合此（0-1）分布。

(二)、二项分布

二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是，独立重复地抛n次硬币，每次只有两个可能的结果：正面，反面，概率各占1/2。

设A在n重贝努利试验中发生X次，则

并称X服从参数为p的二项分布，记为：

与此同时，

(三)、泊松分布(Poisson分布)

Poisson分布（法语：loi de Poisson，英语：Poisson distribution），即泊松分布，是一种统计与概率学里常见到的离散概率分布，由法国数学家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年时发表。

若随机变量X的概率分布律为

称X服从参数为λ的泊松分布，记为：

有一点提前说一下，泊松分布中，其数学期望与方差相等，都为参数λ。

泊松分布的来源

在二项分布的伯努力试验中，如果试验次数n很大，二项分布的概率p很小，且乘积λ= n p比较适中，则事件出现的次数的概率可以用泊松分布来逼近。事实上，二项分布可以看作泊松分布在离散时间上的对应物。证明如下。

首先，回顾e的定义：

二项分布的定义：

如果令，趋于无穷时的极限：

上述过程表明：Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。

最大似然估计

给定n个样本值ki，希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数：

对函数L取相对于λ的导数并令其等于零：

解得λ从而得到一个驻点（stationary point）：

检查函数L的二阶导数，发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点：

证毕。OK，上面内容都是针对的离散型随机变量，那如何求连续型随机变量的分布律呢？请接着看以下内容。

2.2.3、随机变量分布函数定义的引出

实际中，如上2.2.2节所述，

对于离散型随机变量而言，其所有可能的取值可以一一列举出来，
可对于非离散型随机变量，即连续型随机变量X而言，其所有可能的值则无法一一列举出来，

故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它，那怎么办呢( 事实上，只有因为连续，所以才可导，所以才可积分，这些东西都是相通的。当然了，连续不一定可导，但可导一定连续)？

既然无法研究其全部，那么我们可以转而去研究连续型随机变量所取的值在一个区间（x1，x2] 的概率：P{x1 < X <=x2 }，同时注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1}，故要求P{x1 < X <=x2 } ，我们只需求出P{X <=x2} 和 P{X <=x1} 即可。

针对随机变量X，对应变量x，则P(X<=x) 应为x的函数。如此，便引出了分布函数的定义。

定义：随机变量X，对任意实数x，称函数F(x) = P(X <=x ) 为X 的概率分布函数，简称分布函数。

F(x)的几何意义如下图所示：

且对于任意实数x1，x2（x1

同时，F(X)有以下几点性质：

2.2.4、连续型随机变量及其概率密度

定义：对于随机变量X的分布函数F(x)，若存在非负的函数f(x)，使对于任意实数x，有：

则称X为连续型随机变量，其中f(x)称为X的概率密度函数，简称概率密度。连续型随机变量的概率密度f(x)有如下性质：

（针对上述第3点性质，我重点说明下：

在上文第1.4节中，有此牛顿-莱布尼茨公式：如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则；
在上文2.2.3节，连续随机变量X 而言，对于任意实数a，b（a

故结合上述两点，便可得出上述性质3）

且如果概率密度函数在一点上连续，那么累积分布函数可导，并且它的导数：。如下图所示：

接下来，介绍三种连续型随机变量的分布，由于均匀分布及指数分布比较简单，所以，一图以概之，下文会重点介绍正态分布。

(一)、均匀分布

若连续型随机变量X具有概率密度

则称X 在区间(a，b)上服从均匀分布，记为X~U（a，b）。

易知，f(x) >= 0，且其期望值为（a + b）/ 2。

(二)、指数分布

若连续型随机变量X 的概率密度为

其中λ>0为常数，则称X服从参数为λ的指数分布。记为

(三)、正态分布

在各种公式纷至沓来之前，我先说一句：正态分布没有你想的那么神秘，它无非是研究误差分布的一个理论，因为实践过程中，测量值和真实值总是存在一定的差异，这个不可避免的差异即误差，而误差的出现或者分布是有规律的，而正态分布不过就是研究误差的分布规律的一个理论。

OK，若随机变量服从一个位置参数为、尺度参数为的概率分布，记为：

则其概率密度函数为

我们便称这样的分布为正态分布或高斯分布，记为：

正态分布的数学期望值或期望值等于位置参数，决定了分布的位置；其方差的开平方，即标准差等于尺度参数，决定了分布的幅度。正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线。它有以下几点性质，如下图所示：

正态分布的概率密度曲线则如下图所示：

当固定尺度参数，改变位置参数的大小时，f(x)图形的形状不变，只是沿着x轴作平移变换，如下图所示：

而当固定位置参数，改变尺度参数的大小时，f(x)图形的对称轴不变，形状在改变，越小，图形越高越瘦，越大，图形越矮越胖。如下图所示：

故有咱们上面的结论，在正态分布中，称μ为位置参数(决定对称轴位置)，而 σ为尺度参数(决定曲线分散性)。同时，在自然现象和社会现象中，大量随机变量服从或近似服从正态分布。

而我们通常所说的标准正态分布是位置参数 , 尺度参数的正态分布，记为：

相关内容如下两图总结所示( 来源：大嘴巴漫谈数据挖掘)：

2.2.5、各种分布的比较

上文中，从离散型随机变量的分布：（0-1）分布、泊松分布、二项分布，讲到了连续型随机变量的分布：均匀分布、指数分布、正态分布，那这么多分布，其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢？虽说，还有不少分布上文尚未介绍，不过在此，提前总结下，如下两图所示( 摘自盛骤版的概率论与数理统计一书后的附录中)：

本文中，二维.多维随机变量及其分布不再论述。

第三节、从数学期望、方差、协方差到中心极限定理

3.1、数学期望、方差、协方差

3.1.1、数学期望

如果X是在概率空间（Ω, P）中的一个随机变量，那么它的期望值E[X]的定义是：

并不是每一个随机变量都有期望值的，因为有的时候这个积分不存在。如果两个随机变量的分布相同，则它们的期望值也相同。

在概率论和统计学中，数学期望分两种( 依照上文第二节相关内容也可以得出)，一种为离散型随机变量的期望值，一种为连续型随机变量的期望值。

一个离散性随机变量的期望值（或数学期望、或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。换句话说，期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。

例如，掷一枚六面骰子，得到每一面的概率都为1/6，故其的期望值是3.5，计算如下：

承上，如果X 是一个离散的随机变量，输出值为x1, x2, ...，和输出值相应的概率为p1, p2, ...（概率和为1），若级数绝对收敛，那么期望值E[X]是一个无限数列的和：

上面掷骰子的例子就是用这种方法求出期望值的。

而对于一个连续型随机变量来说，如果X的概率分布存在一个相应的概率密度函数f（x），若积分绝对收敛，那么X 的期望值可以计算为：

实际上，此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙，由于输出值是连续的，只不过是把求和改成了积分。

3.1.2、方差与标准差

方差

在概率论和统计学中，一个随机变量的方差（Variance）描述的是它的离散程度，也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差，恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。

其定义为：如果是随机变量X的期望值（平均数）设为服从分布的随机变量，则称为随机变量或者分布的方差：

其中， μ为平均数，N为样本总数。

分别针对离散型随机变量和连续型随机变量而言，方差的分布律和概率密度如下图所示：

标准差

标准差（Standard Deviation），在概率统计中最常使用作为统计分布程度（statistical dispersion）上的测量。标准差定义为方差的算术平方根，反映组内个体间的离散程度。

简单来说，标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差，代表大部分的数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。例如，两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ，但第二个集合具有较小的标准差。

前面说过，方差的算术平方根称为该随机变量的标准差，故一随机变量的标准差定义为：

须注意并非所有随机变量都具有标准差，因为有些随机变量不存在期望值。如果随机变量为具有相同概率，则可用上述公式计算标准差。

上述方差.标准差等相关内容，可用下图总结之：

样本标准差

在真实世界中，除非在某些特殊情况下，找到一个总体的真实的标准差是不现实的。大多数情况下，总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。说白了，就是数据海量，想计算总体海量数据的标准差无异于大海捞针，那咋办呢？抽取其中一些样本作为抽样代表呗。

而从一大组数值当中取出一样本数值组合，进而，我们可以定义其样本标准差为：

样本方差是对总体方差的无偏估计。中分母为 n-1 是因为的自由度为n-1( 且慢，何谓自由度？简单说来，即指样本中的n个数都是相互独立的，从其中抽出任何一个数都不影响其他数据，所以自由度就是估计总体参数时独立数据的数目，而平均数是根据n个独立数据来估计的，因此自由度为n) ，这是由于存在约束条件。

3.1.3、协方差与相关系数

协方差

下图即可说明何谓协方差，同时，引出相关系数的定义：

相关系数

如上篇kd树blog所述相关系数 ( Correlation coefficient )的定义是：

(其中，E为数学期望或均值，D为方差，D开根号为标准差，E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差，记为Cov(X,Y)，即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}，而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数，记为)
相关系数衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]。相关系数的绝对值越大，则表明X与Y相关度越高。当X与Y线性相关时，相关系数取值为1（正线性相关）或-1（负线性相关）。
具体的，如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：

当相关系数为0时，X和Y两变量无关系。
当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。
当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。

根据相关系数，相关距离可以定义为：

这里只对相关系数做个简要介绍，欲了解机器学习中更多相似性距离度量表示法，可以参看上篇 kd树blog第一部分内容。

自此，已经介绍完期望方差协方差等基本概念，但一下子要读者接受那么多概念，怕是有难为读者之嫌，不如再上几幅图巩固下上述相关概念吧( 来源：大嘴巴满谈数据挖掘)：

3.1.4、协方差矩阵与主成成分分析

协方差矩阵

由上，我们已经知道：协方差是衡量两个随机变量的相关程度。且随机变量之间的协方差可以表示为

故根据已知的样本值可以得到协方差的估计值如下：

可以进一步地简化为：

如此，便引出了所谓的协方差矩阵：

主成成分分析

尽管从上面看来，协方差矩阵貌似很简单，可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵，这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看，也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis，简称PCA)，在图像处理中称为Karhunen-Loève 变换(KL-变换)。

根据wikipedia上的介绍，主成分分析PCA由卡尔·皮尔逊于1901年发明，用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解，以得出数据的主成分（即特征矢量）与它们的权值（即特征值）。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释：哪一个方向上的数据值对方差的影响最大。

然为何要使得变换后的数据有着最大的方差呢？我们知道，方差的大小描述的是一个变量的信息量，我们在讲一个东西的稳定性的时候，往往说要减小方差，如果一个模型的方差很大，那就说明模型不稳定了。但是对于我们用于机器学习的数据（主要是训练数据），方差大才有意义，不然输入的数据都是同一个点，那方差就为0了，这样输入的多个数据就等同于一个数据了。

简而言之，主成分分析PCA，留下主成分，剔除噪音，是一种降维方法，限高斯分布，n维眏射到k维，

减均值，
求特征协方差矩阵，
求协方差的特征值和特征向量，
取最大的k个特征值所对应的特征向量组成特征向量矩阵，
投影数据=原始样本矩阵x特征向量矩阵。其依据为最大方差，最小平方误差或坐标轴相关度理论，及矩阵奇异值分解SVD（即SVD给PCA提供了另一种解释）。

也就是说，高斯是0均值，其方差定义了信噪比，所以 PCA是在对角化低维表示的协方差矩阵 ，故某一个角度而言，只需要理解方差、均值和协方差的物理意义，PCA就很清晰了。

再换言之，PCA提供了一种降低数据维度的有效办法；如果分析者在原数据中除掉最小的特征值所对应的成分，那么所得的低维度数据必定是最优化的（也即，这样降低维度必定是失去讯息最少的方法）。主成分分析在分析复杂数据时尤为有用，比如人脸识别。

3.2、中心极限定理

本节先给出现在一般的概率论与数理统计教材上所介绍的2个定理，然后简要介绍下中心极限定理的相关历史。

3.2.1、独立同分布的中心极限定理

独立中心极限定理如下两图所示：

3.2.2、棣莫弗-拉普拉斯中心极限定理

此外，据wikipedia上的介绍，包括上面介绍的棣莫弗-拉普拉斯定理在内，历史上前后发展了三个相关的中心极限定理，它们得出的结论及内容分别是：

棣莫弗－拉普拉斯（de Movire - Laplace）定理是中心极限定理的最初版本，讨论了服从二项分布的随机变量序列。

其内容为：若是n次伯努利实验中事件A出现的次数，，则对任意有限区间：
(i)当及时，一致地有

(ii)当时，一致地有，
，其中。

它指出，参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。

林德伯格－列维（Lindeberg-Levy）定理，是棣莫佛－拉普拉斯定理的扩展，讨论独立同分布随机变量序列的中心极限定理。

其内容为：设随机变量独立同分布，且具有有限的数学期望和方差，。
记，，则，其中是标准正态分布的分布函数。

它表明，独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。

林德伯格－费勒定理，是中心极限定理的高级形式，是对林德伯格－列维定理的扩展，讨论独立，但不同分布的情况下的随机变量和。

其内容为：记随机变量序列（独立但不一定同分布，且有有限方差）部分和为

记

，

如果对每个，序列满足

则称它满足林德伯格（Lindeberg）条件。
满足此条件的序列趋向于正态分布，即

与之相关的是李雅普诺夫（Lyapunov）条件：

满足李雅普诺夫条件的序列必满足林德伯格条件。

它表明，满足一定条件时，独立，但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。

3.2.3、历史

1776年，拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题，最终的问题涉及独立随机变量求和的概率计算，也就是计算如下的概率值
令 Sn=X1+X2+⋯+Xn, 那么

在这个问题的处理上，拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧，他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法，而这一方法经过几代概率学家的发展，在现代概率论里面占有极其重要的位置。基于这一分析方法，拉普拉斯通过近似计算，在他的1812年的名著《概率分析理论》中给出了中心极限定理的一般描述：

[ 定理Laplace，1812]设 ei(i=1,⋯n)为独立同分布的测量误差，具有均值μ和方差σ2。如果λ1,⋯,λn为常数，a>0,则有

这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了，在现在大学本科的教材上，包括包括本文主要参考之一盛骤版的概率论与数理统计上，通常给出的是中心极限定理的一般形式：

[ Lindeberg-Levy中心极限定理] 设X1,⋯,Xn独立同分布，且具有有限的均值μ和方差σ2，则在n→∞时,有

多么奇妙的性质，随意的一个概率分布中生成的随机变量，在序列和(或者等价的求算术平均)的操作之下，表现出如此一致的行为，统一的规约到正态分布。

概率学家们进一步的研究结果更加令人惊讶，序列求和最终要导出正态分布的条件并不需要这么苛刻，即便X1,⋯,Xn并不独立，也不具有相同的概率分布形式，很多时候他们求和的最终归宿仍然是正态分布。

在正态分布、中心极限定理的确立之下，20世纪之后，统计学三大分布χ2分布、t分布、F分布也逐步登上历史舞台：

如上所述，中心极限定理的历史可大致概括为：

中心极限定理理的第一版被法国数学家棣莫弗发现，他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布；
1812年，法国数学家拉普拉斯在其巨著 Théorie Analytique des Probabilités中扩展了棣莫弗的理论，指出二项分布可用正态分布逼近；
1901年，俄国数学家李雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。

如今，中心极限定理被认为是(非正式地)概率论中的首席定理。

第四节、从数理统计简史中看正态分布的历史由来

本节将结合数理统计学简史一书，从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题，有详有略，其中，重点阐述正态分布的历史由来。

相信，你我可以想象得到，我们现在眼前所看到的正态分布曲线虽然看上去很美，但数学史上任何一个定理的发明几乎都不可能一蹴而就，很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的，或许某个定理在某个时期由某个人点破了，现在的我们看来一切都是理所当然，但在一切没有发现之前，可能许许多多的顶级学者毕其功于一役，耗尽一生，努力了几十年最终也是无功而返。

如上文前三节所见，现在概率论与数理统计的教材上，一上来介绍正态分布，然后便给出其概率密度分布函数，却从来没有说明这个分布函数是通过什么原理推导出来的。如此，可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的，又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布，却对这个分布的来龙去脉知之甚少。

本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神秘面纱。

4.1、正态分布的定义

上文中已经给出了正态分布的相关定义，咱们先再来回顾下。如下两图所示（来源：大嘴巴漫谈数据挖掘）：

相信，经过上文诸多繁杂公式的轰炸，读者或有些许不耐其烦，咱们接下来讲点有趣的内容：历史。下面，咱们来结合数理统计简史一书，即正态分布的前世今生系列，从古至今论述正态分布的历史由来。

4.2、早期概率论：从萌芽到推测术

4.2.1、惠更新的三个关于期望的定理

(一)惠更新的论赌博的计算

所谓概率，即指一个事件发生，一种情况出现的可能性大小的数量指标，介于0和1之间，这个概念最初形成于16世纪，说来可能令你意想不到，凡事无绝对，早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系，可以说，这些赌博活动反而推动了概率论的早期发展。

历史是纷繁多杂的，咱们从惠更斯的机遇的规律一书入手，此人指导过微积分的奠基者之一的莱布尼兹学习数学，与牛顿等人也有交往，终生未婚。如诸多历史上有名的人物一般，他们之所以被后世的人们记住，是因为他们在某一个领域的杰出贡献，这个贡献可能是提出了某一个定理或者公式，换句话来说，就是现今人们口中所说的代表作，一个意思。

而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式：。

(二)创立数学期望

与此同时，惠更斯1657年发表了《论赌博中的计算》，被认为是概率论诞生的标志。同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。

《论赌博中的计算》中，惠更斯先从关于公平赌博值的一条公理出发，推导出有关数学期望的三个基本定理，如下述内容所示：

公理：每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响。但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。
关于数学期望的三个命题为:

命题1 　若某人在赌博中以等概率1/2获得赌金a元、b元，则其数学期望值为：a*1/2+b*1/2，即为( a + b)/2；
命题2 　若某人在赌博中以等概率1/3获得赌金a 、b 元和c元，则其数学期望值为( a + b + c)/3元；
命题3 　若某人在赌博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 获得赌金a元、b元，则获得赌金的数学期望值为p*a + q*b 元。

这些今天看来都可作为数学期望定义，不准确的说，数学期望来源于取平均值。同时，根据上述惠更斯的3个命题不难证明：若某人在赌博中分别以概率p1...，pk（p1+..+pk=1）分别赢得a1，..ak元，那么其期望为p1*a1+...+pk*ak，这与本文第一节中关于离散型随机变量的期望的定义完全一致( 各值与各值概率乘积之和)。

但惠更新关于概率论的讨论局限于赌博中，而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利，他在惠更新的论赌博中的计算一书出版的56年，即1733年出版了划时代的著作：推测术。伯努利在此书中，不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算，而且还提出了著名的“大数定律”，这个定律在历史上甚至到今天，影响深远，后续诸多的统计方法和理论都是建立在大数定律的基础上。

(三) 伯努利的大数定律及其如何而来

同样，咱们在读中学的时候，之所以记住了伯努利这个人，恐怕是因为物理课上，老师所讲的伯努利方程 C，(C为常量)。我当时的物理老师叫刘新见，记得他在讲伯努利方程的时候，曾开玩笑说，“’伯努利‘好记好记，‘白努力‘嘛”。

当然，伯努利的贡献不仅在此，而在于他的大数定律。那何谓伯努利大数定律呢？

设在n次独立重复试验中，事件X发生的次数为。事件X在每次试验中发生的概率为P。则对任意正数，下式成立：

定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当n很大时，事件发生的频率于概率有较大偏差的可能性很小。

这个定理如何而来的呢？

咱们来看一个简单的袋中抽球的模型，袋中有a个白球，b个黑球，则从袋中取出白球的概率为p=a/(a+b)，有放回的充袋中抽球N次(每次抽取时保证袋中a+b个球的每一个都有同等机会被抽出)，记得抽到的白球的次数为X，然后以X/N 这个值去估计p，这个估计方法至今仍是数理统计学中最基本的方法之一。

伯努利试图证明的是：用X/N 估计p 可以达到事实上的确定性，即：任意给定两个数 ε>0和 η>0，取足够大的抽取次数N，使得事件的概率不超过 η，这意思是，表面估计误差未达到制定的接近程度 η。

换句话说，我们需要证明的是当N充分无限大时，X/N 无限逼近于p，用公式表达即为：

（N趋于无穷大）

尽管现在我们看来，上述这个结论毫无疑问是理所当然的，但直到1909年才有波莱尔证明。此外，此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论，但须注意的是在伯努利那个时代，并无“方差”这个概念，更不用说从这个不等式而推论出伯努利大数定律了。

此外，常用的大数定律除了伯努利大数定律之外，还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。这里稍微提下辛钦大数定律，如下图所示。

在1733年，棣莫弗发展了用正态分布逼近二项分布的方法，这对于当时而言，是一实质性的深远改进。

4.3、棣莫弗的二项概率逼近

同上文中的惠更新，伯努利一样，人们熟悉棣莫弗，想必是因为著名的棣莫弗公式，如下：

据数理统计学简史一书上的说明，棣莫弗之所以投身到二项概率的研究，非因伯努利之故，而又是赌博问题 (赌博贡献很大丫哈)。有一天一个哥们，也许是个赌徒，向棣莫弗提了一个和赌博相关的一个问题：A,B两人在赌场里赌博，A,B各自的获胜概率是p和q=1−p，赌n局，若A赢的局数X>np，则A付给赌场X−np元，否则B付给赌场np−X元。问赌场挣钱的期望值是多少？按定义可知，此期望值为：

上式的b(N，平，i)为二项概率，棣莫弗最终在Np为整数的条件下得到：

当m=N/2时，N趋于无穷，

也就是说上述问题的本质上是上文第一节中所讲的一个二项分布。虽然从上述公式可以集结此问题，但在N很大时，计算不易，故棣莫弗想找到一个更方便于计算的近似公式。

棣莫弗后来虽然做了一些计算并得到了一些近似结果，但是还不够，随后有人讲棣莫弗的研究工作告诉给了斯特林，于是，便直接催生了在数学分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年，而后棣莫弗改进了斯特林公式)：

（其中，m= N/2）

1733年，棣莫弗有了一个决定性意义的举动，他证明了当N趋于去穷时，有下列式子成立：

不要小瞧了这个公式。当它与上面给出的这个公式结合后，便有了：

根据上面式子，近似地以定积分代替和，得到下式：

不知道，当读者读到这里的时候，是否从上式看出了些许端倪，此式可隐藏了一个我们习以为常却极其重要的概念。OK，或许其形式不够明朗，借用 rickjin的式子转化下：

没错， 正态分布的概率密度(函数)在上述的积分公式中出现了！于此，我们得到了一个结论，原来二项分布的极限分布便是正态分布。与此同时，还引出了统计学史上占据重要地位的中心极限定理。

「棣莫弗-拉普拉斯定理」：设随机变量Xn(n=1,2...)服从参数为p的二项分布，则对任意的x，恒有下式成立：

我们便称此定理为中心极限定理。而且还透露着一个极为重要的信息：1730年，棣莫弗用二项分布逼近竟然得到了正太密度函数，并首次提出了中心极限定理。

还没完，随后，在1744年，拉普拉斯证明了：

最终，1780年，拉普拉斯建立了中心极限定理的一般形式( 也就是上文3.2节中所讲的中心极限定理的一般形式)：

「 Lindeberg-Levy中心极限定理」设X1,⋯,Xn独立同分布，且具有有限的均值μ和方差σ2，则在n→∞时,有

棣莫弗的工作对数理统计学有着很大的影响，棣莫弗40年之后，拉普拉斯建立中心极限定理的一般形式，20世纪30年代最终完成独立和中心极限定理最一般的形式，在中心极限定理的基础之上，统计学家们发现当样本量趋于无穷时，一系列重要统计量的极限分布如二项分布，都有正态分布的形式，也就是说，这也构成了数理统计学中大样本方法的基础。

此外，从上面的棣莫弗-拉普拉斯定理，你或许还没有看出什么蹊跷。但我们可以这样理解：若取c充分大，则对足够大的N，事件 |的概率可任意接近于1，由于，故对于任意给定的 ε>0，有下式成立：

而这就是上文中所讲的伯努利大数定律( 注：上面讨论的是对称情况，即p=1/2的情况)。

我之所以不厌其烦的要论述这个棣莫弗的二项概率逼近的相关过程，是想说明一点：各个定理.公式彼此之前是有着紧密联系的，要善于发现其中的各种联系。

同时，还有一个问题，相信读者已经意识到了，如本文第一节内容所述，咱们的概率论与数理统计教材讲正态分布的时候，一上来便给出正态分布的概率密度(函数)，然后告诉我们说，符合这个概率密度(函数)的称为正态分布，紧接着阐述和证明相关性质，最后说了一句：”在自然现象和社会现象中，大量随机变量都服从或近似服从正态分布，如人的身高，某零件长度的误差，海洋波浪的高度“，然后呢？然后什么也没说了。连正态分布中最基本的两个参数为、和的的意义都不告诉我们( 位置参数即为数学期望，尺度参数为即为方差，换句话说，有了期望和方差，即可确定正态分布)。

随后，教材上便开始讲数学期望，方差等概念，最后才讲到中心极限定理。或许在读者阅读本文之后，这些定理的先后发明顺序才得以知晓。殊不知：正态分布的概率密度(函数)形式首次发现于棣莫弗-拉普拉斯中心极限定理中，即先有中心极限定理，而后才有正态分布( 通过阅读下文4.6节你将知道，高斯引入正太误差理论，才成就了正态分布，反过来，拉普拉斯在高斯的工作之上用中心极限定理论证了正态分布)。如 rickjin所言：’‘学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的，现代的数学课本都是按照数学内在的逻辑进行组织编排的，虽然逻辑结构上严谨优美，却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说：‘科学的发现很少会像门外汉所想象的一样，按照直接了当合乎逻辑的方式进行的。’ ’‘

4.4、贝叶斯方法

前面，介绍了惠更斯、伯努利和棣莫弗等人的重大成果，无疑在这些重要发明中，二项分布都占据着举重轻重的地位。这在早期的概率统计史当中，也是唯一一个研究程度很深的分布。但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外，在18世纪中叶，为了解决二项分布概率的估计问题，出现了一个影响极为广泛的贝叶斯方法，贝叶斯方法经过长足的发展，如今已经成为数理统计学中的两个主要学派之一：贝叶斯学派，牢牢占据数理统计学领域的半壁江山。

据数理统计学简史一书，托马斯.贝叶斯，此人在18世纪上半叶的欧洲学术界，并不算得上很知名，在提出贝叶斯定理之前，也未发表过片纸只字的科学论著，套用当今的话来说，他便是活生生一个民间学术屌丝。

未发表过任何科学著作，但一个人如果热爱研究，喜好学术的话，必找人交流。于此，诸多重大发明定理都出现在学者之间的一些书信交流中。奇怪的是，贝叶斯这方面的书信材料也不多。或许读者读到此处，已知我意，会说这一切在他提出贝叶斯定理之后有了改变，但读者朋友只猜对了一半。

贝叶斯的确发表了一篇题为 An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解)的遗作，此文在他发表后很长一段时间起，在学术界没有引起什么反响，直到20世纪以来，突然受到人们的重视，此文也因此成为贝叶斯学派最初的奠基石(又一个梵高式的人物)。

有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题。所谓逆概率，顾名思义，就是求概率问题的逆问题：已知时间的概率为P，可由之计算某种观察结果的概率如何；反过来，给定了观察结果，问由之可以对概率P作何推断。也就是说，正概率是由原因推结果，称之为概率论；而逆概率是结果推原因，称之为数理统计。

由于本文中，重点不在贝叶斯定理，而本文第一节之 2.1小节已对其做简要介绍，再者，此文从决策树学习谈到贝叶斯分类算法、EM、HMM第二部分也详细介绍过了贝叶斯方法，故为本文篇幅所限，不再做过多描述。

4.5、最小二乘法，数据分析的瑞士军刀

事实上，在成百上千的各式各样的攻击方法中，取算术平均恐怕是最广为人知使用也最为广泛的方法，因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边。故此节要讲的最小二乘法其实并不高深，它的本质思想即是来源于此算术平均的方法。

不太精确的说，一部数理统计学的历史，就是从纵横两个方向对算术平均进行不断深入研究的历史，

纵的方面指平均值本身，诸如伯努利及其后众多的大数定律，棣莫弗-拉普拉斯中心极限定理，高斯的正太误差理论，这些在很大程度上都可以视为对算术平均的研究成果，甚至到方差，标准差等概念也是由平均值发展而来；
横的方面中最为典型的就是此最小二乘法。

而算术平均也是解释最小二乘法的最简单的例子。使误差平方和达到最小以寻求估计值的方法，则称为最小二乘估计( 当然，取平方和作为目标函数知识众多可取的方法之一，例如也可以取误差4次方或绝对值和，取平方和是人类千百年实践中被证实行之有效的方法，因此被普遍采用)。

何谓最小二乘法？实践中，常需寻找两变量之间的函数关系，比如测定一个刀具的磨损速度，也就是说，随着使用刀具的次数越多，刀具本身的厚度会逐渐减少，故刀具厚度与使用时间将成线性关系，假设符合f（t）=at + b（t代表时间，f(t)代表刀具本身厚度），a，b是待确定的常数，那么a、b如何确定呢？

最理想的情形就是选取这样的a、b，能使直线y = at + b 所得到的值与实际中测量到的刀具厚度完全符合，但实际上这是不可能的，因为误差总是存在难以避免的。故因误差的存在，使得理论值与真实值存在偏差，为使偏差最小通过偏差的平方和最小确定系数a、b，从而确定两变量之间的函数关系f（t）= at + b。

这种通过偏差的平方和为最小的条件来确定常数a、b的方法，即为最小二乘法。最小二乘法的一般形式可表述为：

在此，说点后话，最小二乘法是与统计学有着密切联系的，因为观测值有随机误差，所以它同正态分布一样与误差论有着密切联系( 说实话，最小二乘法试图解决的是误差最小的问题，而正态分布则是试图寻找误差分布规律的问题，无论是最小二乘法，还是正态分布的研究工作，至始至终都围绕着误差进行)。

那么，最小二乘法是如何发明的呢？据史料记载，最小二乘法最初是由法国数学家勒让德于1805年发明的。那勒让德发明它的动机来源于哪呢？

18世纪中叶，包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了浓厚的兴趣。比如以下问题：

土星和木星是太阳系中的大行星，由于相互吸引对各自的运动轨道产生了影响，许多大数学家，包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
勒让德承担了一个政府给的重要任务，测量通过巴黎的子午线的长度。
海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些问题都可以用如下数学模型描述：我们想估计的量是β0,⋯,βp，另有若干个可以测量的量x1,⋯,xp,y，这些量之间有线性关系

如何通过多组观测数据求解出参数β0,⋯,βp呢？欧拉和拉普拉斯采用的都是求解线性方程组的方法。

但是面临的一个问题是，有n组观测数据，p+1个变量，如果n>p+1，则得到的线性矛盾方程组，无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察，把n个线性方程分为p+1组，然后把每个组内的方程线性求和后归并为一个方程，从而就把n个方程的方程组化为p+1个方程的方程组，进一步解方程求解参数。这些方法初看有一些道理，但是都过于经验化，无法形成统一处理这一类问题的一个通用解决框架。
以上求解线性矛盾方程的问题在现在的本科生看来都不困难，就是统计学中的线性回归问题，直接用最小二乘法就解决了，可是即便如欧拉、拉普拉斯这些数学大牛，当时也未能对这些问题提出有效的解决方案。可见在科学研究中，要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的，基本思想就是认为 测量中有误差，所以所有方程的累积误差为：

我们求解出导致累积误差最小的参数即可。

上面我们已经看到，是勒让德最初发明的最小二乘法，那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢？( 注：勒让德时期的最小二乘法还只是作为一个处理测量数据的代数方法来讨论的，实际上与统计学并无多大关联，只有建立在了测量误差分布的概率理论之后，这个方法才足以成为一个统计学方法。尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法，但无论是之前的棣莫弗，还是当时的勒让德，还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率分布)。

因为1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法，而却是高斯让最小二乘法得以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正太误差分布的理论基础之上的( 后续更是导出了误差服从正态分布的结论)，最后，1837年，统计学家们正式确立误差服从正态分布，自此，人们方才真正确信：观测值与理论值的误差服从正态分布。

4.6、误差分布曲线的建立

十八世纪，天文学的发展积累了大量的天文学数据需要分析计算，应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则，千百年来的数据使用经验说明算术平均能够消除误差，提高精度。平均有如此的魅力，道理何在，之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论：测量中的随机误差应该服从怎样的概率分布？算术平均的优良性和误差的分布有怎样的密切联系？

伽利略在他著名的《关于两个主要世界系统的对话》中，对误差的分布做过一些定性的描述，主要包括：

误差是对称分布的分布在0的两侧；
大的误差出现频率低，小的误差出现频率高。

用数学的语言描述，也就是说误差分布函数f(x)关于0对称分布，概率密度随|x|增加而减小，这两个定性的描述都很符合常识。

4.6.1、辛普森的工作

许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。

设真值为θ，而为n次测量值，现在用测量值去估计真值，那么每次测量的误差为，
但若用算术平均去估计θ呢，则其误差为。

Simpson证明了，对于如下的一个概率分布，

Simpson的误差态分布曲线

有这样的估计：

也就是说，相比于取小值的机会更大。辛普森的这个工作很粗糙，但是这是第一次在一个特定情况下，从概率论的角度严格证明了算术平均的优良性。

4.6.2、拉普拉斯的工作

在1772-1774年间，拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同，拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性，而是直接射向应该去怎么的分布为误差分布，以及在确定了误差分布之后，如何根据观测值去估计真值。

拉普拉斯假定误差密度函数f(x)满足如下性质：

m>0，且为常数，上述方程解出，C>0且为常数，由于，得。故当x<0，结合概率密度的性质之一( 参看上文2.2.4节)：，解得c=m/2。

由此，最终1772年，拉普拉斯求得的分布密度函数为：

这个概率密度函数现在被称为拉普拉斯分布：

以这个函数作为误差密度，拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值，即用什么方法通过观测值去估计真值呢？要知道咱们现今所熟知的所谓点估计方法、矩估计方法，包括所谓的极大似然估计法之类的，当时可是都还没有发明。

拉普拉斯可以算是一个贝叶斯主义者，他的参数估计的原则和现代贝叶斯方法非常相似：假设先验分布是均匀的，计算出参数的后验分布后，取后验分布的中值点，即1/2分位点，作为参数估计值。可是基于这个误差分布函数做了一些计算之后，拉普拉斯发现计算过于复杂，最终没能给出什么有用的结果，故拉普拉斯最终还是没能搞定误差分布的问题。

至此，整个18世纪，可以说，寻找误差分布的问题，依旧进展甚微，下面，便将轮到高斯出场了，历史总是出人意料，高斯以及其简单的手法，给了这个误差分布的问题一个圆满的解决，其结果也就成为了数理统计发展史上的一块重要的里程碑。

4.6.3、高斯导出误差正态分布

事实上，棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式，到了1780年后，拉普拉斯也推出了中心极限定理的一般形式，但无论是棣莫弗，还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率分布，也就是压根就还没往误差概率分布的角度上去思索，而只有到了1809年，高斯提出“ 正太误差”的理论之后，它正太理论才得以“概率分布“的身份进入科学殿堂，从而引起人们的重视。

追本溯源，正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢？请看下文。

1801年1月，天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动，这颗现在被称作谷神星（Ceres）的小行星在夜空中出现6个星期，扫过八度角后在就在太阳的光芒下没了踪影，无法观测。而留下的观测数据有限，难以计算出他的轨道，天文学家也因此无法确定这颗新星是彗星还是行星，这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了，这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道，并预言了它在夜空中出现的时间和位置。1801年12月31日夜，德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里，用望远镜对准了这片天空。果然不出所料，谷神星出现了！

高斯为此名声大震，但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后，才将他的方法公布于众，而其中使用的数据分析方法，就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢？请看下文。
跟上面一样，还是设真值为，而为n次独立测量值，每次测量的误差为，假设误差ei的密度函数为f(e)，则测量值的联合概率为n个误差的联合概率，记为

到此为止，高斯的作法实际上与拉普拉斯相同，但在继续往下进行时，高斯提出了两个创新的想法。

第一个创新的想法便是：高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式，而是直接取L(θ)达到最小值的作为的估计值，这也恰恰是他解决此问题采用的创新方法，即

现在我们把L(θ)称为样本的似然函数，而得到的估计值θˆ称为极大似然估计。高斯首次给出了极大似然的思想，这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。
高斯的 第二点创新的想法是：他把整个问题的思考模式倒过来，既然千百年来大家都认为算术平均是一个好的估计，那么就直接先承认算术平均就是极大似然估计(换言之，极大似然估计导出的就应该是算术平均)，所以高斯猜测：

然后高斯再去寻找相应的误差密度函数以迎合这一点。即寻找这样的概率分布函数 ,使得极大似然估计正好是算术平均。通过应用数学技巧求解这个函数f,高斯证明了所有的概率密度函数中，唯一满足这个性质的就是（记为 (11)式）：

而这恰巧是我们所熟知的正态分布的密度函数，就这样，误差的正态分布就被高斯给推导出来了！

但，高斯是如何证明的呢？也就是说，高斯是如何一下子就把上面(11)式所述的概率密度函数给找出来的呢？如下图所示（摘自数理统计学简史第127页注2，图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法，而下图最后所说的(11)式就是上面推导出来的概率密度函数）：

进一步，高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei,有，则结合高斯的第一个创新方法：极大似然估计及上述的概率密度，(e1,⋯,en)的联合概率分布为

要使得这个概率最大，必须使得取最小值，这正好就是最小二乘法的要求。

高斯的这项工作对后世的影响极大，它使正态分布同时有了”高斯分布“的名称，不止如此，后世甚至也把最小二乘法的发明权也归功于他，由于他的这一系列突出贡献，人们采取了各种形式纪念他，如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线，借此表明在高斯的一切科学贡献中，尤以此”正太分布“的确立对人类文明的进程影响最大。

至此，咱们来总结下：

如你所见，相比于勒让德1805给出的最小二乘法描述，高斯基于误差正态分布的最小二乘理论显然更高一筹，高斯的工作中既提出了极大似然估计的思想，又解决了误差的概率密度分布的问题，由此我们可以对误差大小的影响进行统计度量了。
但事情就完了么？没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”，并导出了误差服从正态分布，推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服，因为算术平均的优良性当时更多的是一个经验直觉，缺乏严格的理论支持。高斯的推导存在循环论证的味道：因为算术平均是优良的，推出误差必须服从正态分布；反过来，又基于正态分布推导出最小二乘和算术平均，来说明最小二乘法和算术平均的优良性，故其中无论正反论点都必须借助另一方论点作为其出发点，可是算术平均到并没有自行成立的理由。

也就是上面说到的高斯的 第二点创新的想法“ 他把整个问题的思考模式倒过来：既然千百年来大家都认为算术平均是一个好的估计，那么就直接先承认算术平均就是极大似然估计(换言之，极大似然估计导出的就应该是算术平均)”存在着隐患，而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。

受高斯启发，拉普拉斯将误差的正态分布理论和中心极限定理联系起来，提出了元误差解释。他指出如果误差可以看成许多微小量的叠加，则根据他的中心极限定理，随机误差理应当有高斯分布( 换言之，按中心极限定理来说，正态分布是由大量的但每一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展，也给这个解释提供了更多的理论支持。

至此，误差分布曲线的寻找尘埃落定，正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中，棣莫弗、拉普拉斯、高斯各有贡献，拉普拉斯从中心极限定理的角度解释它，高斯把它应用在误差分析中，殊途同归。不过因为高斯在数学家中的名气实在是太大，正态分布的桂冠还是更多的被戴在了高斯的脑门上，目前数学界通行的用语是正态分布、高斯分布，两者并用。

4.6.4、正态分布的时间简史

至此，正态分布从首次出现到最终确立，其时间简史为：

1705年，伯努力的著作推测术问世，提出伯努利大数定律；
1730-1733年，棣莫弗从二项分布逼近得到正态密度函数，首次提出中心极限定理；
1780年，拉普拉斯建立中心极限定理的一般形成；
1805年，勒让德发明最小二乘法；
1809年，高斯引入正态误差理论，不但补充了最小二乘法，而且首次导出正态分布；
1811年，拉普拉斯利用中心极限定理论证正态分布；
1837年，海根提出元误差学说，自此之后，逐步正式确立误差服从正态分布。

如上所见，是先有的中心极限定理，而后才有的正态分布( 当然，最后拉普拉斯用中心极限定理论证了正态分布)，能了解这些历史，想想，都觉得是一件无比激动的事情。所以，我们切勿以为概率论与数理统计的教材上是先讲的正态分布，而后才讲的中心极限定理，而颠倒原有历史的发明演进过程。

第五节、论道正态，正态分布的4大数学推导

如本blog内之前所说：凡是涉及到要证明的东西.理论，便一般不是怎么好惹的东西。绝大部分时候，看懂一个东西不难，但证明一个东西则需要点数学功底，进一步，证明一个东西也不是特别难，难的是从零开始发明创造这个东西的时候，则更显艰难( 因为任何时代，大部分人的研究所得都不过是基于前人的研究成果，前人所做的是开创性工作，而这往往是最艰难最有价值的，他们被称为真正的先驱。牛顿也曾说过，他不过是站在巨人的肩上。你，我则更是如此)。

上述第4节已经介绍了正态分布的历史由来，但尚未涉及数学推导或证明，下面，参考概率论沉思录，引用“正态分布的前世今生”等相关内容，介绍推导正太分布的4种方法，曲径通幽，4条小径，殊途同归，进一步领略正态分布的美妙。

「注：本节主要整编自rickjin写的"正态分布的前后今生"系列」

5.1、高斯的推导(1809)

第一条小径是高斯找到的，高斯以如下准则作为小径的出发点

误差分布导出的极大似然估计 = 算术平均值

设真值为，而为次独立测量值，每次测量的误差为，假设误差的密度函数为，则测量值的联合概率为n个误差的联合概率，记为

为求极大似然估计，令

整理后可以得到

令，由上式可以得到

由于高斯假设极大似然估计的解就是算术平均，把解带入上式，可以得到

在上式中取，有

由于此时有，并且是任意的，由此得到： .再在(6)式中取，并且要求，且，则有，并且

所以得到而满足上式的唯一的连续函数就是，从而进一步可以求解出

由于是概率分布函数，把正规化一下就得到正态分布密度函数

5.2、Herschel(1850)和麦克斯韦(1860)的推导

第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年，天文学家Herschel在对星星的位置进行测量的时候，需要考虑二维的误差分布，为了推导这个误差的概率密度分布f(x,y)，Herschel设置了两个准则：

x轴和y轴的误差是相互独立的，即误差的概率在正交的方向上相互独立；
误差的概率分布在空间上具有旋转对称性，即误差的概率分布和角度没有关系。

这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1，可以得到应该具有如下形式

把这个函数转换为极坐标，在极坐标下的概率密度函数设为，有

由准则2, 具有旋转对称性，也就是应该和无关，所以，综合以上，我们可以得到

取 ,得到 ,所以上式可以转换为

令 ,则有

从这个函数方程中可以解出 ,从而可以得到的一般形式如下

而就是正态分布，而就是标准二维正态分布函数。

1860年，我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候，在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗？

所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布？反正我是一直不知道，直到今年才明白。
Herschel-Maxwell推导的神妙之处在于，没有利用任何概率论的知识，只是基于空间几何的不变性，就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有的数学公式的时候，就会问：圆在哪里？这个推导中使用到了，也就是告诉我们正态分布密度公式中有个，其根源来在于二维正态分布中的等高线恰好是个圆。

5.3、Landon的推导(1941)

第三条道是一位电气工程师，Vernon D. Landon 给出的。1941年，Landon 研究通信电路中的噪声电压，通过分析经验数据他发现噪声电压的分布模式很相似，不同的是分布的层级，而这个层级可以使用方差来刻画。因此他推理认为噪声电压的分布函数形式是。现在假设有一个相对于而言很微小的误差扰动，且的分布函数是 ,那么新的噪声电压是。Landon提出了如下的准则

随机噪声具有稳定的分布模式
累加一个微小的随机噪声，不改变其稳定的分布模式，只改变分布的层级(用方差度量)

用数学的语言描述：如果

则有 .现在我们来推导函数应该长成啥样。按照两个随机变量和的分布的计算方式，的分布函数将是的分布函数和的分布函数的卷积，即有

把在x′处做泰勒级数展开(为了方便，展开后把自变量由x′替换为x)，上式可以展开为

记 ,则有

对于微小的随机扰动 ,我们认为他取正值或者负值是对称的，所以。所以有

(8)

对于新的噪声电压是x′=x+e，方差由增加为 ,所以按照Landon的分布函数模式不变的假设，新的噪声电压的分布函数应该为。把在处做泰勒级数展开，得到

(9)

比较(8)和(9)这两个式子，可以得到如下偏微分方程

而这个方程就是物理上著名的扩散方程(diffusion equation)，求解该方程就得到

又一次，我们推导出了正态分布！
概率论沉思录作者E.T.Jaynes对于这个推导的评价很高，认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本，相比于中心极限定理来说，是一次性累加所有的因素，Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中，我们看到，正态分布具有相当好的稳定性；只要数据中正态的模式已经形成，他就容易继续保持正态分布，无论外部累加的随机噪声是什么分布，正态分布就像一个黑洞一样把这个累加噪声吃掉。

5.4、正态分布和最大熵

还有一条小径是基于最大熵原理的，物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献，他在《概率论沉思录》里面对这个方法有描述和证明，没有提到发现者，不过难以确认这条道的发现者是否是Jaynes本人。
熵在物理学中由来已久，信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论，读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易，不过这条道的风景是相当独特的，E.T.Jaynes对这条道也是偏爱有加。
对于一个概率分布 ,我们定义它的熵为

如果给定一个分布函数的均值和方差 (给定均值和方差这个条件，也可以描述为给定一阶原点矩和二阶原点矩，这两个条件是等价的)则在所有满足这两个限制的概率分布中，熵最大的概率分布就是正态分布。
这个结论的推导数学上稍微有点复杂，不过如果已经猜到了给定限制条件下最大熵的分布是正态分布，要证明这个猜测却是很简单的，证明的思路如下。
考虑两个概率分布和，使用不等式 ,得

于是

（读者注意：经好友白石指正，上述等式，右边的第一项p(x)之后，1/p(x) 之前少画了个log符号）

所以

熟悉信息论的读者都知道，这个式子是信息论中的很著名的结论：一个概率分布的熵总是小于相对熵。上式要取等号只有取。
对于，在给定的均值和方差下，我们取，则可以得到

由于的均值方差有如下限制: ,于是

而当的时候，上式可以取到等号，这就证明了结论。

E.T.Jaynes显然对正态分布具有这样的性质极为赞赏，因为这从信息论的角度证明了正态分布的优良性。而我们可以看到，正态分布熵的大小，取决于方差的大小。这也容易理解，因为正态分布的均值和密度函数的形状无关，正态分布的形状是由其方差决定的，而熵的大小反应概率分布中的信息量，显然和密度函数的形状相关。

所谓横看成岭侧成峰，远近高低各不同，正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话，引用来作为这个小节的结束：
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré

OK，虽然上文已经花了如此多的篇幅讲了那么多的概念，然事实上，在概率论与数理统计中，上文所讲的概念尚不到1/3，限于篇幅，还有诸多概念没有阐述完毕(这些知识将放于数据挖掘中所需的概率论与数理统计知识、下中介绍)，如下图所示：

So，如上，之前微博上http://weibo.com/1580904460/z9htU9VzT 说要写的概率论与数理统计的科普blog、上部分已经初步整理完成(当然，后续一个星期之内会继续修补完善)。从前天晚上开始，连续写了两天，花了半身力气，文章若有任何问题，欢迎指正，尤能给出批评修订意见，则倍感荣幸，谢谢。.同时，但所有以上这些绝大部分都只是概率论与数理统计的基础知识，因此本文只能作个科普之效，若要深入学习，还是烦请读者朋友们阅读相关书籍，或加以动手实践。

参考文献及推荐阅读

高等数学第六版上下册，同济大学数学系编；
微积分概念发展史，[美] 卡尔·B·波耶著，唐生译；
概率论与数理统计，高教版，盛骤等编；
浙大版概率论与数理统计电子PPT课件；
数理统计学简史，陈希孺院士著；
(极力推荐上书，相信每一个学概率统计的朋友都有必要看一看，同时，此书也是正态分布的前后今生这一系列的主要参考)
rickjin，正态分布的前后今生：http://t.cn/zlH3Ygc ；
正态分布的前后今生系列集成版上：http://t.cn/zjJStYq，下：http://t.cn/zjoAtUQ；
大嘴巴漫谈数据挖掘：http://vdisk.weibo.com/s/bUbzJ；
误差论与最小平方法 & 数学传播，蔡聪明；
正态分布进入统计学的历史演化，吴江霞；
Probability Theory & The Logic of Science (概率论沉思录)，E.T. Jaynes 著；
手写数学公式编辑器：http://webdemo.visionobjects.com/equation.html?locale=zh_CN；
wikipedia上标准差：http://zh.wikipedia.org/wiki/%E6%A0%87%E5%87%86%E5%B7%AE；
泊松分布与概率分布：http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88；
wikipedia上一堆概念；
....

后记

本文之后，待写的几篇文章罗列如下，具体完成时间全部待定：

机器学习中相关的降维方法，如PCA/LDA等等；
神经网络入门学习导论；
程序员编程艺术第二十八章~第二十九章（2013年3月已经写好，点击左边链接查看）；
数据挖掘所需的概率论与数理统计知识、下；
..

在写完数据挖掘十大算法系列之后，还将写一系列机器学习的相关笔记。此外，这是本文的微博地址： http://weibo.com/1580904460/zarZW2Jye，欢迎大家推荐转发。最后，有一点必须说明的是，本文大部内容或参考或引用自上文所列的相关参考文献中，自己只是做了个总结和梳理，附带自己的一些理解，若有任何问题，欢迎读者随时交流 & 批评指正，谢谢大家。July、二零一二年十二月十九日。

你可能感兴趣的:(机器学习——数学基础,数据挖掘,概率论,数理统计知识,上)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
2020.11.19 隆非凡
日精进，今日体验：在维修过程中遇到的问题，把源头找到，在进行下一步开始。不要停留在一个点上，合理调整心态，把当下事做好。
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
【夜读】提升生活品质的8个建议茳淮秀水
停止攀比很多人之所以感觉疲惫，部分原因是来自于跟别人攀比。殊不知，攀比得到的满足只是片刻的，过后往往会感到空虚。过分在意别人的评价，丢失的是自己原有的审美，扰乱的是自己最初的节奏。不妨活得洒脱些，自己内心丰盈了，快乐就能更持久。停止自责想改变自己，先从接纳自己开始。越是过分自责，就越难改变现状，因为如果把精力全耗在自责上，就没有精力用来改变了。遇到问题，我们要用正确的心态去面对。与其一味自责，不如
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
凤凰公园吴侬暖语sym
凤凰公园距离我们家880米，大概步行12分钟就到了，这是我们每天饭后散步或者闲暇时的去处。现在夏季徬晚时分广场舞大妈们总是热情非凡，那里的大门口就是一个好地方，每天总有两拨人在那踩着节奏翩翩起舞呢！而且一路上，从我们小区到公园，或者从昆仑西苑沿河到公园，都是饭后锻炼的人们，川流不息，老人小孩，年轻人，…！哪哪都是。最早家乡的公园，所有公园都是要收门票的，那时候也就是休息天会有人花钱去转转，平时一般
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

数据挖掘中所需的概率论与数理统计知识，上