概率论与数理统计知识树.png

历史寻根概率论的前世今生

人类所有的知识来源都与生活息息相关的的并非是凭空捏造的，数学知识更是如此与其说数学是一门科学反倒不如说数学是生活经验的积累的升华，因为数学不像其他的科学物理、化学等那样需要去做实验来验证，数学只需要在生活经验积累的前提下产生直觉，然后将这种直觉(当然直觉不一定是对的因此才需要数学，在我国古代之所以没有产生数学这样的学科严格来讲是没有把数学当做有一种学科，就是因为凭借直觉办事情，习惯了模糊思维缺少精确的逻辑性)加以提炼概括系统公理化使之精确，直觉是否是正确的全看是否符合我们人类认知世界的逻辑，不符合逻辑的直觉也经不起考验。概率论起源于十七世纪中叶，他的起源也与生活息息相关，为什么这么说嘞？先来了解一个有趣的小故事，数学史上著名的分赌本问题。

十七世纪中叶，一位赌徒向法国数学家帕斯卡(Pascal,1623-1662)提出一个使他苦恼长久的问题：问题的大致是这样的假如奥巴马和特朗普两个人一个是民主党一个是共和党各党主张不一样因此针尖对麦芒，两个人都看对方不顺眼，于是决定两个人私下里对赌，两个人赌技不相上下，各自拿出50亿美元，每局中无平局，他们约定谁先赢三局，则全部赌本100亿就归谁，当奥巴马赢了两局特朗普赢了一局的时候，因为拉登大叔被老美干掉了，基地组织报复美国，炸了美国的纽约飞往伦敦的机场，特朗普这时候身为美国总统不得不停止赌博，特朗普老奸巨猾的说：“老马啊你我都身为美国总统，国家有难我等责无旁贷啊，现在不能在和你赌了，这样这局算我们打平了你的50亿我也不要了咋样？”，这时候奥巴马不乐意了说：“老特啊，你真的特狡猾啊，我已经赢了两局了在赢一局你的50亿就都归我了，做人不能这样的”，二人话不投机只好先作罢，把事情交给联邦政府行政预算管理局处理，于是现问着100亿美元如何分才算公平？(此故事纯属个人根据历史故事改编虚构恶搞，纯粹是为了好玩而已不喜勿喷，何况在美国那样言论自由的国家，我这样打比老马和老特也不会怪我的。O(∩_∩)O哈哈~)

这个问题引起了当时不少人的兴趣，首先大家要认识到平均分赌本肯定不行的，奥巴马已经赢了两局的特朗普只赢了一局，平分的话奥巴马肯定要吃亏，这不公平。合理的分法是奥巴马多分一些特朗普少分一些，所以问题就在于按照怎么样的比例来说更加的公平。以下有两种十七世纪中叶的人提出来的分法：

奥巴马拿100亿美元中的 ,特朗普拿100亿美元中的，这是基于已赌局数：奥巴马赢了两局，特朗普赢了一局(此种分法一般人都是能够想出来的，是根据赌局赢得局数来分赌本)

1654年帕斯卡提出了如下分发：设想在赌下去，则奥巴马最终所得为一个随机变量X其可能取值为0或100，在赌两局必定可以结束赌博，其结果不外乎以下几种情况之一：

奥奥、奥特、特奥、特特，其中只有一种情况特朗普会赢就是特朗普连续赢两场，因为赌技不相上下两人赢一局的概率都为 ,所以奥巴马赢得100亿美元的概率为即X服从以下的分布列：

x 0 100

p 0.25 0.75

帕斯卡认为”奥巴马“的“期望”所得亿美元，即奥巴马得75亿美元特朗普拿25亿美元，这种分法不仅仅考虑了已赌局数还考虑了对在赌下去可能性的一种描叙，无疑此种分法比第一种分发更为合理，也更让奥巴马满意，从这个故事也看出帕斯卡身为数学家考虑问题就是要比其他人更科学合理。

这个故事即是概率论的起源也是概率统计中重要的数字统计量数学期望的诞生，帕斯卡又与当时一流的数学家费尔马一起研究了许多关于骰子赌博的问题，于是一个新的数学分支—----概率论开始登上历史的舞台。

后来的十八世纪十九世纪迎来了随着科学技术的发展人们发现许多的社会科学和自然科学上面随机现象问题都可以归结为赌博上的概率问题，于是科学们们开始把概率知识的边界推到了更为广阔且肥沃的土地上。使得概率论成为数学一个分支的奠基人之一，瑞士的数学家伯努利建立了概率论中第一个极限定理即伯努利大数定律，他阐明了事件发生的频率会依概率收敛于概率(也即俗语所称稳定于概率)，随后棣莫弗与拉普拉斯有导出第二个基本极限定理的原始形式。拉普拉斯更是将数学分析的工具引入到概率论中，将概率论推向了一个新的发展阶段。

二十世纪初，勒贝格完成的测度与积分公理，为概率论的公理化体系奠定了基础。前苏联的数学家柯尔莫哥夫与1993年发表了著名的《概率论基本概念》，用公理化的结构定义了概率论，这为概率论的进一步发展提供了良好的条件。

至今为止概率统计的研究一直从未停止，随着科学技术发展概率统计的知识不断的像各种科学领域进行渗透，与越来越多的学科形成交叉型学科，如生物统计，统计物理，金融统计，神经网络，人工智能。如今的21世纪随着互联网的蓬勃兴起，人类产生的数据成指数形式井喷，如何更好的利用这些数据创造新的知识，指导人的决策成为一个问题，现如今各种各样的数据分析都离不开概率统计知识，因为概率论研究的就是随机事件的规律性，而网络上的大量数据产生也可以看成是一系列随机事件产生的样本，就像频率依照概率稳定于概率，互联网上的大量数据在经过有效的积累之后也会稳定下来呈现出一种规律性的东西。可以说在大数据时代概率统计将会是数据分析工作者，信息管理工作者手中的一把利剑，大数据时代也因此成为概率统计发展与应用的新纪元。

x	0	100
p	0.25	0.75

前言：

笔者写作此文目的：

其一是做学习总结将概率论中的思想和知识抽丝剥茧，梳理知识条理形成系统。

其二是方便自己日后温故知新

其三笔者有个妹妹刚上大学,学的ACCA(国际注册会计师),会计专业显然是免不了要和概率统计打交道的,所以笔者写作此文也是希望能够给妹妹理解数学概念和数学思想扫清一些障碍.

其四是如今的信息化时代，知识共享已经不是个崭新的概念，笔者愿意将自己学习的感悟记录下来分享给其他需要的人

本文读者需知:

笔者此文既然是总结当然就会忽略细枝末节，也就是说我会在介绍完基本概念之后直接切入概率论与数理统计的核心思想和知识同时忽略掉定理证明过程(这个自己看书即可)，忽略掉外围的知识，如果读者在看完我的文章之后能够搞清楚一些概率统计的基本概念和思想笔者就足以让笔者在枯燥的学习过程中寻得安慰，如果读者在读完此文之后能够把握住概率统计整体逻辑那么说明笔者的意图已经达到甚感荣幸。而如果要读者读完有豁然开朗之感则由于笔者水平有限不是我能奢求的，哈哈哈。

1.1 随机事件与概率

1.1.1 随机现象:

概率论与数理统计的研究的对象就是随机现象，随机现象就是在一定的条件下不总是出现相同的结果的现象，也就是不能肯定的确定结果的现象就统称为随机现象。现实生活中有很多的随机现象比如同一学校统一专业的学生考上研究生的现象就是随机现象，你不能说哪一个学生肯定能够考上某所学校但是你能根据这所学校往年的数据估算出这所学校的考研率，在一定程度上也就能够大致估算出这所学校某某同学考上研究生的可能性有多大，当然一个学生能不能考上研究生与这所学校的考研率并没有必然的联系因为是随机的具有不确定性，但有一定的相关程度在里面。整个概率论研究的就是随机现象的模型(概率分布)，而概率分布则是能够用来描叙某随机现象特征的工具。有阴就有阳，有了随机事件自然与之对应的就是确定性现象(如太阳每天东升西落)

1.1.2 样本空间：

随机现象一切可能基本结果所构成的集合则称为样本空间，其集合内的元素又称为样本点，当样本点的个数为可列个或者有限个的时候就叫做离散型样本空间，当样本点的个数为无限个或者不可列个的时候就叫做连续型样本空间。( 可列个的意思是可以按照一定的次序一一列举出来，比如某一天内到达某一个商场内的人数都是整数1，2，3。。。。，这叫可列个，不可列个的意思比如电视机的寿命，有100.1小时的有100.01小时的有100.0001小时的，你永远不能按照次序列举出比一百小的下一个元素到底是哪一个，这就叫不可列)。

1.1.3 随机事件：

随机现象某些样本点组成的集合叫做用一个随机事件，也就是说随机事件是样本空间的一个子集，而样本空间中单个元素所组成的集合就叫做基本事件，样本空间自身也是一个事件叫做必然事件，样本空间的最小子集也即空集就叫做不可能事件

1.1.4 随机变量：

用来表示随机现象结果的变量称为随机变量，随机变量的取值就表示随机事件的结果，实际上随机事件的结果往往与一个随机变量的取值可以一一对应

1.1.5 随机事件之间的运算与关系：

由于我们将随机事件定义成一个集合事件间的运算也可看作是集合间的运算，集合间的诸运算如交集、并集、补集、差集等运算随机事件之间也有，而且运算规则一致。集合间的包含、相等、互不相容、对立，事件之间也有，随机事件间的运算性质满足交换律、结合律、分配率、德摩根定律。

1.1.6 事件域：

事件域为样本空间的某些子集所组成的集合类而且满足三个条件，事件域中元素的个数就是样本空间子集的个数，比如一个有N个样本点的样本空间那么他的事件域就有个元素，定义事件域主要是为了定义事件概率做准备。

1.2 概率的定义及其确定方法：

概率论中最基本的一个问题就是如何去确定一个随机事件的概率，随机事件的结果虽然具有不确定性，但是他发生的结果具有一定的规律性(也即随机事件发生可能性的大小)，而用来描叙这种规律性的工具就是概率，但是我们怎么样来给概率下一个定义嘞？如何度量描叙事件发生可能性的大小嘞？这是一个问题。

在概率论的发展史上针对不同的随机事件有过各种各样的概率定义，但是那些定只适用于某一类的随机事件，那么如何给出适合一切随机现象概率的最一般的定义嘞？1900年数学家希尔伯特提出要建立概率的公理化定义，也就是建立一个放之四海而皆准的满足一切随机事件的概率的定义，用概率本质性的东西去刻画概率.1933年前苏联数学家柯尔莫哥洛夫首次提出了概率的公理化定义，这个定义既概括了历史上几种概率的定义中的共同特性，又避免了各自的含混不清之处，不管什么随机现象只有满足该定义中的三条公理，才能说明他是概率，该定义发表之后得到了几乎所有数学家的一致认可。(说点题外话，如果某位数学工作者提出了某个重大的发现，首先需要写论文获得学术圈内的人士一致认同他的这个发现才能够有可能被作为公理写进教科书，之所以被称作公理就因为它既是放之四海而皆准的准则也是公认的真理)。

1.2.1 概率的三条公理化定义：

每一个随机事件其背后必定伴随着有她的样本空间(就像有些成功的男人背后都有一位贤内助)，每一个随机事件都属于样本空间的事件域，样本空间的选取不同对同一个随机事件而言其概率通常也会不同。

非负性公理：任何一个事件概率都大于等于0
正则性公理：必然事件的概率为一
可列可加性公理：互不相容的事件并事件的概率等于他们事件概率的和

如果概率满足以上三条公理则称有样本空间、事件域、概率所组成的空间为概率空间，满足以上三条公理的概率才能称之为概率。

概率的公理化定义并没有给出计算概率的方法因此知道了什么是概率之后如何去确定概率就又成了一个问题。

1.2.2 确定概率的频率方法：

确定概率的频率方法应用场景是在能够大量重复的随机实验中进行，用频率的稳定值去获得概率的估算值的方法思想如下：

事件A有关的随机试验可以大量重复进行
在N次重复试验中记n为事件A发生的次数则称：为事件A发生的频率

为什么会想到用频率去估算概率嘞？因为人们的长期实践表明随着试验次数的增加，频率会稳定在某一个常数附近，我们称这个常数为频率的稳定值，后来的伯努力的大数定律证明了其稳定值就是随机事件发生的概率，可以证明频率一样满足概率的三条公理化定义由此可见频率就是“伪概率”。

1.2.4 确定概率的古典方法：

古典问题是历史上最早的研究概率论的问题，包括帕斯卡研究的骰子问题就是古典问题，他简单直观不需要做大量的试验我们就可以在经验事实的基础上感性且理性的分析清楚。

古典方法确定概率的思想如下：

所涉及的随机现象只有有限个n样本点
每个样本点发生都是等可能的
若事件A含有K个样本点，则事件A的概率为：

很显然上叙古典概率满足概率的三条公理化定义，古典概型是最古老的确定概率的常用方法，求古典概率归结为求样本空间样本点的总数和事件样本点的个数，所以在计算中常用到排列组合的工具。

1.2.5 确定概率的几何方法：

基本思想：

样本空间充满某个区域或空间
任意一点落在度量相同的子域内的概率是等可能的
子域的大小为
则落在子域内的概率为

1.2.6 确定概率的主观方法：

在现实世界中一些随机现象是无法进行随机试验的或者进行随机试验的成本大到得不偿失的地步，这时候的概率如何确定嘞？

统计学界的贝叶斯学派认为：一个事件的概率是人们根据经验对该事件发生可能性的个人信念，这样给出的概率就叫做主观概率，比如我说我考上研究生的概率是百分之百(这当然有吹牛的成分在里面，但是里面有也包含了自信和自己对自己学习情况的了解以及自己对所报考院校的了解)，比如说某企业家说根据它多年的经验和当时的一些市场信息认为某项新产品在市场上畅销的可能性是百分之80(这种话如果是熟人在私下里跟你说你还可以相信但是也要小心，如果是陌生人当着很多人的面说的你会相信吗？傻X才相信对不对？这么畅销你自己为什么不去做还把蛋糕分给老子？)。主观概率就是人们根据实际情况对某件事情发生的可能性作出的估计，但是这种估计的好坏是有待验证的。

主观概率和主观臆测有着本质上的不同，前者要求当事人对所考察的时间有透彻的了解和丰富的经验，甚至是某一行的专家，并且能对历史信息和当时的信息进行仔细的分析,如此得出的主观概率是比较可信的，这就是为什么很多人一有什么问题就喜欢问专家的原因，但是专家的话也是不能轻信的他也是有很多动机在里面的，不然他为什么告诉你这些信息啊？专家的优势就在于比一般人掌握的信息知识要多就在于信息不对称，信息和知识是他们吃饭的工具，除非你给他们饭吃不然一般情况下专家是不会轻易透露一些信息给你的。
在遇到随机现象无法大量重复时候，用主观概率去估计也是一种行之有效的方法。
总之经验越是丰富主观概率可靠的可能性就要越大，从另一种角度来说经验是不是也可看做是一种试验结果？利用别人的经验是不是也相当于是重复试验，是一种获取主观概率的手段？

1.3 概率的性质和计算公式：

这个理解了都不用特意去记要用的时候信手捏来，我是个很勤快的人其他公式都懒得记懒得写了。。。。下面只分析条件概率、全概率公式、贝叶斯公式：

1.3.1 条件概率：

所谓条件概率就是在事件A发生的情况下B发生的概率，即A B为样本空间中两两事件若P(B)>0则称：

为在B发生的前提下A发生的条件概率，简称条件概率。

这个公式不难理解，实际上上面公式也就是说“ 在B发生的条件下A发生的概率等于事件A与事件B共有的样本点的个数比上B的样本点的个数”，而且可以验证此条件概率满足概率的三条公理化定义。

1.3.2 乘法公式：

若,则
若,则。证明略

1.3.3 全概率公式：

设为样本空间的一个分割，即互不相容，且 ,如果则对任一事件A有：

这个公式也是很好理解的因为诸互不相容而且其和事件为样本空间，故A事件中的样本点的个数等于A与诸中共有样本点的和。

1.3.4 贝叶斯公式：

贝叶斯公式是在全概率公式和乘法公式的基础上推得的。

设若为样本空间的一个分割，即互不相容，且如果则：

公式的证明是根据条件概率来的，然后在把分子分母分别用乘法公式和全概率公式代替即可，公式中的一般为已知概率称之为先验概率公式中则称之为后验概率，全概率公式和乘法公式为由原因推结果，而贝叶斯公式则为由结果推原因。

1.3.5 事件独立性：

上面我们介绍了条件概率这个概念，在条件A下条件B发生的概率为 ,如果B的发生不受A的影响嘞？直觉上来讲这就将意味着

故引入如下定义对任意两个事件A,B若则称事件A与事件B相互独立

除了两个随机事件相互独立满足的定义当然也会有多个随机事件独立满足的定义，对N随机事件相互独立则要求对事件中的任意个随机事件都相互独立.

1.3.6 伯努利概型：

定义：如果实验E只有两种可能的结果：,然后把这个试验重复n次就构成了n重伯努利试验或称之为伯努利概型.显然每次伯努利试验事件结果之间是相互独立互不影响的，则伯努利试验显然是服从二项分布的，之后再介绍二项分布。

1.4 随机变量及其分布

1.4.1 离散型随机变量：

之前说过用来表示随机现象结果的变量称之为随机变量，如抛掷一枚骰子随机变量的取值可以为1,2,3….显然此时随便试验的结果与随机变量的取值是一一对应的，于是我们将研究随机试验结果的统计规律转化为研究随机变量取值的统计规律，这种对应关系是人为的建立起来的同时也是合理的，只取有限个或者可列个值时候的随机变量则称之为离散型随机变量。

1.4.2 随机变量的分布列：

将随机变量的取值与其对应取值的可能性大小即概率列成一张表就称之为分布列，分布列使得随机变量的统计规律一目了然也方便计算其特征数方差和均值。分布列满足如下两个性质：

非负性：
正则性：

满足以上两个性质的列表则称之为分布列

1.4.3 分布函数：

设若X为一个随机变量，对任意的实数x，称为随机变量X的分布函数记为.

分布函数满足以下三个性质：

单调性：是定义在区间上的单调不减函数，即对任意有
有界性： 即
右连续性： 此性质主要是统一离散型随机变量与连续型随机变量的分布函数，离散型分布函数是一系列有跳跃间断点的函数

以上上个性质是一个函数能否成为分布函数的充要条件。

1.4.4 数学期望和方差：

数学期望

先来看一个例子，某手表厂在出产的产品中抽查了N=100只手表的日走时误差其数据如下：

日走时误差(秒)	-2	-1	0	1	2	3	4
只数	3	10	17	28	21	16	5

这时候这100只手表的平均日走时误差为：其中是日走时误差的频率记做则

平均值即平均值为频数乘以频率的和，由于在时频率稳定于概率，于是在理论上来讲频率应该用概率来代替，这时我们把频率用概率来代替之后求出的平均值称之为数学期望(实际上由后面的大数定律可得平均值也稳定于数学期望),数学期望在一定程度上反映了随机变量X结果的平均程度即整体的大小，我们记为。

方差

定义：设X是一个随机变量X的均值存在如果也存在则称之为随机变量X的方差记为 .

显然方差也是一个均值那么他是什么的均值嘞？表示随机变量的均值离差，由随机变量平均值的离差和等于零我们可以推的随机变量均值的离差和也等于零故均值离差和的均值也等于零，但是我们希望用离差来刻画不同分布间的差别如果用均值离差和的均值那么任何分布都为零，于是我们将离差加上一个平方变成这样避免了离差和为零。那么方差这个表示分布特征的数又有什么重要意义嘞？很多人看似学完了概率统计，但是居然连方差的意义都没有搞清楚，实际上方差是用来刻画数据间的差异的，而刻画数据间的差异无论是在空间上的向量还是在平面上的点，用距离来刻画他们之间的差异是再好不过的。在物理学上要想正确合理的比较两动体的速度加速度我们就需要选取合适的参考系来进行对比，同样在比较数据间的差异的时候我们也往往用均值来做他们的参考(实际上其他的值也可以用来进行比较，但是那可能造成方差过大的现象)，与均值的距离越大说明他们的差异也越大，而距离又有正负之分因此为了区别正负我们也需要把与均值的距离加上一个平方，这也就是方差概念的来源。我们通常用方差来描叙一组数据间的差异，方差越小数据越集中，越大数据越分散，同时在金融上面也用来评估风险比如股价的波动性，我们当然希望股价的波动越是平稳即方差越小、收益越稳定越好。

因为均值和方差描叙了随机变量及其分布的某些特征因此就将其称之为特征数.

1.4.5 连续型随机变量的密度函数：

连续型随机变量的取值可能充满某一个区间为不可列个取值，因此描叙连续型随机变量的概率分布不能再用分布列的行时呈现出来，而要借助其他的工具即概率密度函数。

概率密度函数的由来：比如某工厂测量一加工元件的长度，我们把测量的元件按照长度堆放起来，横轴为元件的单位长度，纵轴为元件单位长度上的频数，当原件数量很多的时候就会形成一定的图形，为了使得这个图形稳定下来我们将纵坐标修改为单位长度上的频率，当元件数量不断增多的时候由于频率会逐步稳定于概率，当单位长度越小，原件数量越多的时候，这个图形就越稳定，当单位长度趋向于零的时候，图形就呈现出一条光滑的曲线这时候纵坐标就由“单位长度上的概率”变为“一点上的概率密度”，此时形成的光滑曲线的函数就叫做概率密度函数，他表现出x在一些地方取值的可能性较大，一些地方取值的可能性较小的一种统计规律，概率密度函数的形状多种多样，这正是反映了不同的连续随机变量取值统计规律上的差别。

概率密度函数虽然不是密度但是将其乘上一个小的微元就可得小区间上概率的近似值，即

微分元的累计就能够得到区间上的概率,这个累计不是别的就是在区间上的积分=.

由此可得x的分布函数 ,对于连续型随机变量其密度函数的积分为分布函数，分布函数求导即为密度函数

密度函数的基本性质：

非负性：
正则性：

1.4.6 连续型随机变量的期望和方差：

设若随机变量X的密度函数为.

数学期望：

方差：

1.4.7 切比雪夫不等式(Chebyshev,1821-1894):

设随机变量X的数学期望和方差都存在，则对任意常数有：

之所以有这个公式是因为人们觉得事件{}发生的概率应该与方差存在一定的联系，这个是可以理解的，方差越大在某种程度上说明 X的取值偏离越厉害即说明偏离值大于某个常数a的取值越多因此取值大于某个值的概率也越大，上面公式说明大偏差发生概率的上界与方差有关，方差越大上界也越大。

1.4.8 常用离散型分布：

二项分布：

上面介绍了伯努力试验，如果记X为n重伯努利试验中成功的次数，则X可能的取值为.记p为每次试验中成功A发生的概率则将n重伯努利试验的结果记为其中或者为A或者为 ,这样的一共有个，这个样本点就构成了的样本空间下面求X得分布列即求的概率满足事件{}的样本点个数一共拥有个,对某一个满足事件{X=k}的样本点因为诸相互独立,

所以X分布列为 , .

这个分布称之为二项分布记为,可以证明诸的和恒为1.

当n=1时候的二项分布就称之为两点分布或称之为0-1分布，或者称之为伯努利分布，此时.

二项分布的数学期望：E(X)=np

二项分布的方差为：D(X)=np(1-p)
泊松分布：

泊松分布是1837年由法国数学家泊松(Poisson,1781-1840)首次提出的.

泊松分布的概率分布为：

,k=1,2,3,,

其中参数 ,可以证明

泊松分布是一种离散分布它常与单位时间(或单位面积、单位产量、等)上的计数过程相联系譬如：

在一天内来到某商场的顾客数

在单位时间内，一电路受到外界电磁波的冲击次数

1平米内，玻璃上的气泡数

等。。。。

泊松分布的数学期望和方差都为其参数

泊松分布有如下i特性：

(1) 位于均值附近的概率较大

(2)随着的增加,分布逐渐趋于对称

二项分布与泊松分布的联系,即二项分布的泊松近似：

在n重伯努利试验中，记事件A在一次试验中发生的概率为(与试验次数n有关)，如果当时,有,则：s

= .

由于泊松定理是在条件下获得的，故在计算二项分布时，当n很大，p很小，而大小适中的时候可以用泊松分布做近似计算，即

，
超几何分布：从一个整体中进行不放回的抽样会遇到超几何分布。

设有N件产品，其中M件不合格品，若从中不放回的随机的抽取n件,则其中含有的不合格品件数X服从超几何分布,记为则超几何分布的概率分布列为如下;

,n,N,M均为正整数.

其数学期望为：E(X)=

其方差为：D(X)=

当n<

几何分布：

在伯努利试验中,若每次试验中事件A发生的概率为p,如果X为事件A首次出现时候的试验次数，则X可能的取值为1,2, ,则称X服从几何分布,记,其分布列为：

负二项分布(亦称之为帕斯卡分布)：

在伯努利试验中,记每次试验中事件A发生的概率为p,若果X为事件A第r次出现时候的试验次数,则X可能的取值为则称X服从负二项分布或巴斯卡分布记为其分布列为：

数学期望：

方差：

如果将第i个A出现的试验次数记为,则单个的服从几何分布则服从负二项分布

由此可见负二项分布可以看成r个独立的几何分布之和.

1.4.9 常用的连续型分布：

正态分布：

正态分布是概率统计中的一个重要分布,高斯(Gauss,1777-1855)在研究误差理论时候首先用正态分布来刻画误差的分布,所以整他分布也称之为高斯分布。

设若随机变量X的密度函数为

则称X服从正态分布,X称之为正态变量记为,其中为数学期望,为方差。

则正态分布的分布函数如下：

.

正态分布为对称分布其图像关于对称而且如果固定其越大则图像曲线越是矮胖,越小其图像越高瘦,这是可以理解的因为为其方差,方差越大则样本点越是分散在期望两端故图像越矮胖,越小则样本点分散越是集中在数学期望领域内故图像越高瘦.

标准正态分布与正态变量的标准化：

称时的正态分布为标准正态分布.

通常记标准正态变量为U记标准正态分布的密度函数为其分布函数为,即

,

由于标准正态分布的分布函数不含任何的未知参数.故其值是可以由牛顿莱布尼兹公式算出来的因此我们如果要计算非标准正态分布的分布函数只需要通过变量变换将非正态变量变为正态变量。、

设若随机变量,则令.这时候倘若计算只需计算的值,即只要计算即可.

指数分布：

若随机变量X的密度函数为：

则称X服从指数分布其分布函数如下：

记为则其数学期望为，方差为

指数分布为偏态分布

伽马分布：

称以下函数为伽马函数：

其中参数,伽马函数具有以下性质：

,.

当为自然数n时,有

伽马分布：

若随机变量X的密度函数为：

则称X服从伽马分布,记作

伽马分布的数学期望为：

伽马分布的方差为：

伽马分布的两个特例：

当时的分布就是指数分布

当时的伽马分布就是自由度为n的卡方分布记作其密度函数为：

其数学期望和方差分别为n和2n

贝塔分布：

称以下函数为贝塔函数：

其中a>0,b>0,贝塔函数具有性质:

贝塔函数与伽马函数间的关系：

.

若随机变量X的密度函数为：

则称X服从贝塔分布,记作,服从贝塔分布的随机变量都是在区间取值的

贝塔分布的数学期望和方差分别为和.

1.5 随机变量函数的分布

1.5.1 离散型随机变量函数的分布：

随机变量函数指是定义在X上的一个函数而X是一个随机变量则显然也可看做是一个随机变量,对于离散型随机变量函数的分布列只需要把随机变量替换成随机变量的函数就可以了,数学期望和方差也按照定义求之即可不做过多叙述

1.5.2 连续型随机变量的函数：

求离散型随机变量函数的分布列是很容易的一件事情,而对连续型随机变量我们不能直接把随机变量的函数带入密度函数求出随机变量函数的分布列的，而需要从随机变量的分布函数推得随机变量函数的分布函数然后对随机变量函数的分布函数求导即可得到随机变量函数的密度函数,我们可以将此问题分为两种情况讨论。

一、当Y=g(X)单调的时候：

定理1.

设X是连续型随机变量,其密度函数为.是另一个随机变量.若严格单调 ,其反函数有连续的导函数 ,则的密度函数为：

因为我们知道X的密度函数所以可以求出其分布函数,然后有X的分布函数推出的分布而后求导即可得到随机变量函数的密度函数 .

定理2.

设随机变量则.

定理3.

设随机变量X服从伽马分布,则当时, 有

二、当g(X)为其他形式的时候：

为其他形式也即不单调的时候不能用上面的公式只能依靠X的分布函数去推的密度函数.

1.5.3 分布函数的其他特征数：

数学期望和方差是随机变量重要的两个特征数, 随机变量还有其他的特征数,下面做一一给出其定义和介绍.

K阶矩：

k阶原点矩：

将称之为X的k阶原点矩,显然当k=1是即为数学期望

k阶中心矩：

将称之为k阶中心距,显然当k=2的时候即为方差

k阶原点矩的意义为随机变量偏离原点的数学期望

k阶中心距的意义为随机变量偏离中心的数学期望

变异系数：

方差反映了随机变量取值的波动程度,但比较两个随机变量的波动大小时,如果仅看方差有时候是不好做比较的,原因有两个.

其一:随机变量的取值有量纲,不同的随机变量仅仅用方差去(或者标准差去衡量)显然是不太合理的.

其二:即使是在相同量纲的条件下,随机变量的取值有一个相对性问题,随机变量取值较大的通常情况下其方差也更大

因此为了消除量纲与随机变量取值的相对性对随机变量取值的影响,我们引入一个一个新的特征数即变异系数.

设随机变量的方差和数学期望都存在则称：

为X的变异系数,通过变异系数的表达式我们看到标准差比上数学期望消除了量纲的影响即变异系数是一个无量纲的量,而且也把数学期望作为单位去度量随机变量取值的波动性.

如果还不能理解变异系数的表达式给大家打个浅显的比方譬如,有甲乙丙丁四位IT从业人员,甲乙两位是普通程序员,甲的收入的月薪20K,乙的收入是月薪30K,在甲乙的阶层平均收入是月薪25K.丙丁两位是高管,丙的收入是月薪24W,乙的收入是月薪27W,丙丁阶层都是CTO(Chief Technology Officer)的平均收入是月薪25W.现在问是甲和乙的收入差距大些还是丙和丁的收入差距大些,一般人肯定会认为是丙和丁的差距大些,为什么嘞？因为他们认为丙和丁相差3W而甲和乙只相差1W那么显然是前者相差大一些.谬也!因为首先甲乙和丙丁两个人不在同一条水平线上,他们的收入的量纲一个是K(即一千RMB)后者的量纲是W(即一万RMB) ,如果仅仅只是比较经济收益差异的大小那么显然前者是要小于后者的,但是这样片面的比较是不科学的,就像我拿自己身上穿的10块钱一双的休闲鞋和别人几万块钱一双的名牌鞋去比较一样,结果显而易见但是没有什么意义.其次,甲乙和丙丁因为不在同一个阶层甲乙之间的收入差距1W在丙丁阶层看来是无足轻重的,就像我如果现在一天赚了1KRMB我会相当高兴但是如果马云一天只赚1KRMB在他看来跟阿里巴巴没有赚钱是一个意思,甚至还要亏钱,因为阿里巴巴每天的运营成本都远大于这个值.因此要比较甲乙和丙丁的收入差距我们就得消除以上的影响,必须要相对性的比较也就是说把甲乙间的比较放在甲乙的那个阶层进行度量,把丙丁间的收入差异放在丙丁的阶层进行度量,得到一个与阶层无关的系数,把他们的差异放到同一个标准下这样就能够比较甲乙和丙丁到底是前者间的差异大还是后者间的差异大.因此我们只需要把甲和乙的收入差距10K比上他们那个阶层收入的平均值 25K的比例系数,丙丁之间也做同样的处理得比例系数显然甲乙得到的系数大于丙丁得到的差异系数因此甲乙之间的收入差距是要大于丙丁之间的收入差距的.

上面的变异系数的表达式的原理就是我所打比方的原理.

分位数：

设连续型随机变量X的分布函数为,密度函数为,对任意的,称满足条件

的为此分布的p分位数,若则称为此分布的中位数.

偏度系数：

一说到这个偏度系数我就很纳闷了,明明是个很简单的特征数为什么就是有那么多人理解不了,有些学弟学妹们问过我有些考研的研友也问过我,说他们做题目的时候虽然会做但是就是不能理解这个偏度系数到底是个什么意思,我虽然告诉他们这个特征数的含义,但是并不能确定他们是否理解了,因为语言表达和书面表达是不能划等号的,就像笔者本人看起来就是吊儿郎当的别人不骂我做流氓我就心满意足了,但是我内心深处其实是个很正经很内向的人(肯定有自己的同学要骂我不要脸了O(∩∩)O哈哈~),现在我将他详细的写出来并且配上图片说明,要是在不懂是个什么意思我把电话号码居住地址告诉你你过来干脆打死我算了O(∩∩)O~,有些人还问过我其他的特征数比如协方差与协方差矩阵,相关系数,不急后面我都会一一做解释的：

设随机变量X的前三阶矩都存在,则比值

称为X的偏度系数,简称偏度.当时,则称该分布为正偏,又称右偏；当时,则称该分布为负偏或者左偏

偏度是描叙一个分布对称性程度的一个特征数,这个可以从以下几个方面进行解释

当密度函数p(x)关于数学期望对称的时候这时候有即随机变量取值在均值左边的概率等于随机变量取值在均值右边的概率故其三阶中心矩必等于零,从而其偏度系数必定为零,这表明关于对称的分布其偏度系数为零,如正态分布是关于对称的分布其偏度系数为零.

当偏度时候,该分布为偏态分布,当时候为左偏,当时为右偏,左偏右偏的含义下面配图更加直观形象的进行解释.

右偏图像.png

上面图像是当偏度系数大于零的时候即右偏的时候分布函数的大致图像轮廓,黄色的线表示均值分割线,现在我们来根据图像理解偏度系数的表达式偏度系数 ,在上面的图像中,意味着,其分布函数有如下特性：

均值右边的概率即分布函数以均值为分割线右边区域的面积大于左边区域的面积或者右边图像曲线的尾巴拖得很长很长或者两者兼而有之,那如何解释这样的分布函数图像的性质嘞？这还得从表达式中的来分析因为的决定的正负情况,右偏的时候,因为均值左边的值是决定的主要因素,均值右边的值是决定的主要因素,当时候,这意味着取得大于均值的X的值比取得小于X的值要多(当样本总数固定的时候即取得均值右侧值的概率(均值右侧分布函数曲线的面积)要大于取得左侧值的概率(均值左侧分布函数曲线的面积))或者当取得X的值大于均值的数量小于取得X值小于均值的数量的时候,取得大于均值的X的值偏离均值的程度就要大于取得均值左边的值,这种情况就造成了分布函数的尾部拖得很长很长或者两者兼而有之如上面的分布函数图像所示.

当的时候依上类推即可.这就是偏度系数表达式分子的意义所在,下面继续解释分母的意义.

偏度系数分母的也与变异系数的分母有着相同的作用都是为了消去量纲,使得各个分布的偏度系数具有相同的量纲,但是这里有一个问题不知道大家到底想没有想过, 为什么偏度系数的分子不用或者而改用 ,在理论上来讲使用前者也是行得通的,但是为什么要用后者嘞？这很奇怪耶,难道是数学家们吃饱了撑的硬是要给你整个三次方出来显得更专业更加高大上？显然高尚的数学家们是不会这样无聊的,那么为什么不用前者而用后者嘞？其实前面在均值部分我们就提到过平均值是稳定于均值的,而的平均值是等于零的因此对任何分布而言都是恒等于零的这显然不能用作偏度系数的分子,那为什么不用嘞?因为我们是打算选用标准差来度量偏度系数消去量纲,二次方的分子就是方差如果要消去量纲的话那岂不是所有的偏度系数都恒等于一了？因此选择三次方是最理想的.

峰度系数：

设随机变量X的前四阶原点矩存在,则：

称为X的峰度系数,简称峰度.

峰度系数是描述分布尖峭程度或尾部粗细程度或二者兼述的一个特征数

想要描述一个分布函数的尖峭程度以及尾部粗细程度显然这是一个两个分布之间的特征数,因为一个分布函数的尖峭程度与尾部粗细其实并不像偏度系数那样可以判定一个分布是左偏还是右偏,一个分布的对称程度是好判定的但是一个分布函数的尖峭程度你如何去判定？如何才算是尖峭？如何擦算是尾部很粗？这个必须得通过比较两个分布之间的尖鞘程度和尾部粗细程度才能够实现,但是各种各样的分布都有,在分布空间里任选两个分布进行比较组合方式多种多样因此这使得比较的系数也会多种多样,那我们可不可以选取一个分布为参考分布将所有的分布都与其进行比较？答案是肯定的,设定了比较的参考分布之后我们就能够想办法构造统一的峰度系数来进行尖峭程度的比较,但是我们应该选取一个怎样的参考分布嘞？这个得先认清楚峰度系数的目的是判定尖峭程度和尾部粗细,为了更加形象的描述了解其含义我们先来看下图：

峰度系数比较.png

显然比较紫色分布和黄色分布的剑鞘程度我们是很好比较的显然是紫色的分布更加尖峭,而且尾部更加的粗细,尖峭和尾部的特征我们只能够感性的认识而不能够精确的认识的,所以才需要比较,上图是峰值相等两个分布比较其尖峭程度和尾部特征的情况，这是一种和理想的情况下，我们现在这种和理想的情况下来构造描述其尖峭度和尾部长短的系数，显然如果上图分布的两个均值都是在取峰值时候的横坐标，这时候可以想象的到两个峰值相等而且均值都在峰值处取到的两个分布,如果随机变量取值偏离均值的程度越大点数越多那么分布也就越尖峭或者尾部也就托的更长或者二者兼有,这样我们像构造偏度系数样很自然的构造出系数:

,假如黄紫的系数分别,则二者相减就可以比较上图两分布的尖峭程度或尾部长短了，当两个分布的峰值不在均值处的时候，对有比较尖峭程度和尾部特征需求的分布而言经验告诉我们其均值往往位于峰值的横坐标不远处这时候我们就可以近似的把峰值看做在其均值处取得，这样就可以适合我们构造处的系数表达式，另外我们可以证明任何正态分布的系数都等于3，这样如果把正态分布当做是参考分布就再好不过了因为其任意分布的都为3，这意味着我们可以将正态分布中的任何一个分布拿出来与我们所想比较的分布进行系数比较都是一样的,这是很方便的.由此我们就得出了偏度系数的表达式:

.

实际上如果我们将的分子分母同时除以,并且记X得标准化变量为则偏度系数可以化为如下形式：其中.

故峰度系数就等于随机变量标准化之后的四阶原点矩与标准正态分布的四阶原点矩之差：由此当峰度系数和偏度系数越接近于零的的时候其分布也就越趋向于正态分布.且峰度系数和偏度系数都是以正态分布为基准确定的。

(1)当时候标准化后的随机变量的分布比标准正态分布更尖峭和(或)尾部更加长(短)

(2)当时候标准化后的随机变量的分布比标准正态分布更平坦和(或)尾部更加短(长)

(3)当时候标准化后的随机变量的分布与标准正态分布剑鞘程度与尾部特征更加相当

偏度与峰度都是用来描述分布形状的特征数,他们的设置都是以正态分布为基准的(因为正态分布应用很广泛，正态分布就是分布中的典型),当偏度系数和峰度系数皆为零或者近似零的时候该分布也就被认为是正态分布或者近似正态分布

其实偏度系数和峰度系数的表达式咋一看觉得让人摸不着头脑，但是当你认真理解了之后就会觉得他的设计很精妙，学数学光会使用公式是不行的，还必须了解公式背后的思想，以及伴随着公式的形成过程数学家们的思维过程

1.6 多维随机变量及其分布：

1.6.1 离散型多维随机变量：

随着科学的发现和概率统计应用的不断推广，在有些随机现象中,对每个样本点只用一个随机变量去描述是不够的，譬如要研究儿童的生长发育情况，仅仅研究儿童身高或者只研究其体重是很片面的，必须把身高和体重当做一个整体来考虑，讨论他们总体的变化的统计规律，进一步还可以讨论的相关关系，有些随机变量甚至还要研究两个以上的随机变量，也就是说一个随机试验结果与多个数值相对应.

设为样本空间上的n个随机变量，则称为样本空间一个n维随机变量.

在高等代数和数学分析中我们了解到当一个向量的维度增加或者是积分的重数增加的时候会增加许多的新问题，但是只要我们先把简单的问题先解决了然后在把问题推广到复杂的问题就可以了,因此我们先来讨论二维离散型随机变量的情形

不妨设为一个二维离散型随机变量,则他们的一切可能的取值为则令

为二维离散型随机变量的分布列即联合分布列，其计算方式利用概率的乘法公式即可，与一维的情形相类似可以把二维情形也写成一张表如下所示：

可以看到在二维离散型随机变量的分布列中多了两列，二者实际分别为的分布列也即边际分布列

所谓边际分布列也即多维随机变量中单个随机变量的分布列.

而且假若是相互独立的则其联合分布列

1.6.2 多维随机变量的分布函数即联合分布函数:

对任意的n个实数,对n个随机事件则称n个事件

同时发生的概率：

称之为n维随机变量的联合分布函数.

联合分布函数满足单调性，有界性，右连续性，非负性这四条性质，这是任何一个函数成为分布函数的充要条件.

1.6.3 多维连续型随机变量：

上面我们介绍了离散型多维随机变量的分布函数，那么对于多维连续型随机随机变量而言自然就会有联合密度函数

但是密度函数具有什么样的形态嘞？既然一维连续型随机变量的密度函数是一条曲线，曲线的面积就是概率，那么我们也有理由想到二维连续型随机变量的密度函数在空间上应该是一条曲面，其体积就是概率，于是按照这种思路我们就可以合理的定义二维离散型随机变量的密度函数和分布函数.

如果是一个联合分布函数，若存在函数使得对任意的有

则称为的联合密度函数.这样的定义显然是合理的,一维连续型随机变量的分布函数是一重积分二维离散型随机变量为二重积分，一维的概率密度为一元函数二维的为二元函数.显然

同理二维连续型随机变量的概率密度也必须满足正则性和非负性这两条性质.

1.6.3.1 边际分布与边际密度：

设若有二维连续型随机变量的分布函数 .

则二维连续型随机变量的关于x与关于y的边际分布分别为：

,

然后交换积分次序分别对以上两式求导之后我们就可以得到关于两边际分布的边际密度函数如下：

通常情况下边际分布并不能唯一的决定他们的联合分布譬如：

对于二维正态分布而言记作二维正态分布由五个参数所决定，其两个边际分布分别为和 ,当由任意两个边际分布与之相同时候也不能推出其联合分布就是因为联合分布不仅仅有五个参数这个参数其实是两个边际分布随机变量的相关系数.

既然一般情况下边际分布不能决定其联合分布,那么对于不一般的情况嘞?有没有可能在某种条件下联合分布就是边际分布的乘积？

1.6.3.2 随机变量间的独立性：

设n维随机变量的联合分布函数为,为的边际分布函数.如果对任意的n个实数有

.

则称n个随机变量相互独立.

在讨论二维离散型随机变量的分布列的时候我们知道当两个随机变量相互独立的时候其联合分布列等于其边际分布列的乘积，积边际分布列唯一的决定了其联合分布列，由此能够产生直觉是不是对于二维连续型随机变量的分布列也有如此的性质嘞？答案是肯定的，因为离散型与连续型的差别仅仅是在随机变量取值方面罢了，他们的分布应该是具有一定程度的相似度的是能够进行类比的，于是经过数学家们的验证提出了如下的定理：

设二维连续型随机变量的联合分布函数为,又与的分布函数为,若对任意的有

则称随机变量和是相互独立的，这时容易验证两随机变量相互独立的充要条件是其联合密度函数的乘积等于其边际密度函数的乘积即：是的密度函数.

请读者朋友注意笔者忽略了各种定理的证明过程只强调了其意义和思想的来源，不代表论证过程不重要，论证过程能够帮助你理解和加强记忆，事实上很多的数学问题都是从推理中得出来的，笔者在学习的时候也是把论证过程看懂了的并且有些重要的论证过程自己关上书本还特意推理过.

1.6.4 多维随机变量的函数分布：

(一)和的分布：

设是一个二维离散型随机变量，密度函数为,现在来求的分布，按照定义为

用密度函数代替密度函数

可得：

则对.

同理有对称性可以求出：.

以上所得和分布的边际密度通常称之为概率密度的卷积公式，显然和的分布函数主要是要确定好分布函数的积分区域然后将二重积分化为累次积分即可.

以下给出一些具有可加性的常用结论：

假设随机变量相互独立

二项分布：

若,且二者独立，则.

泊松分布：

若且二者相互独立，则

正态分布：

伽马分布：

卡方分布：

m个两点分布的随机变量的和服从试验次数为m的二项分布

服从几何分布的m个随机变量的和负二项分布Nb(m,p)

服从的m个指数分布的和服从伽马分布

(二) 商的分布与和的分布：

这个主要是利用二重积分的变量替换利，用雅可比行列式进行变量替换之后在利用求边际密度方法求得替换之后的变量的密度函数，然后在积分即得到分布函数.

这里不做过多叙述…….

1.6.5 多维随机变量的特征数：

这里只讨论二维的情形，高于二维的情形在二维的情形上推广之即可.

多维随机变量的数学期望：

设若二维随机变量的分布用联合分布列或者用联合密度函数表示，则的数学期望如下：

二维离散型随机变量的数学期望：

对于离散型随机变量而言其分布列只要把与分别对应合并起来即可

其数学期望表达式为：

二维连续型随机变量的数学期望:

.

多维随机变量的方差：

这个根据数学期望依据方差的计算公式即可，不做过多描述.

数学期望与方差的性质：

注意这里只列出二维的情形，多维的情形推广之.

设是二维随机变量，则有：.

若随机变量和相互独立，则有：

协方差：

设是一个二维随机变量，若存在，则称此数学期望为的协方差，或称为X与Y的相关矩，并将其记为：

.

特别有.

从协方差的定义可以看出他是偏差的数学期望，由于偏差可正可负故其协方差也可正可负，取值的正负有其意义，要想理解协方差到底是个什么意思且看下图：

协方差.png

假设二维随机变量的取值区域如上图所示，若为二维离散型随机变量的取值也如上图所示只不过不能取到椭圆域内的所有点只去离散个点.假设上图平行于X轴与平行于y轴的两条相交直线的交点坐标为且将二维随机变量取值的区域分割为四个象限则由协方差的定义：

当随机变量的取值落在区域的时候将导致 ,当随机变量的取值落在区域的时候将导致 ,由此可知当落在区域的随机变量取值多于区域取值或者在区域的取值,偏离的程度很大的时候，一般情况下也即的面积大于的面积和的时候，将导致，这个时候随机变量的取值图形将如上图所示，这时候我们可以看出图形呈现出的情形是X的取值将与Y的取值大致呈现出同时增加的倾向，这时候我们就称两随机变量大致呈现出正相关的关系.

如果反之随机变量的取值区域呈现出如下情形：

负相关.png

此时将与上面的分析相反其相关系数,X的取值与Y的取值大致呈现出同时减小的倾向，则称此时的两随机变量为负相关.

而当随机变量的取值区域呈现出下面的情况时候：

不相关.png

这个时候与的值正负相抵导致此时则称两随机变量完全不相关.

上面为了帮助理解相关系数，我们从几何的角度去理解，因为很多的数学问题如果从逻辑上面不好把握的话我们可以从几何上找到突破口，我国著名数学家华罗庚曾经说过：‘’数无形时少直觉，形无数时难入微“，这句话说得相当的精辟，短短14个字就把数与形的关系说得清清楚楚说得你醍醐灌顶、豁然开朗,你不服都不行.确实从几何上面来理解数学更加的直观形象，但是上面我们仅仅是从图形出发来建立什么是多维随机变量的相关性的感性认知，两个随机变量什么时候正相关负相关如果仅仅只是从图形上面感性理解这也是片面的朦胧的不精确的，比如从上面的图形中我们能够感性的认识到如果随机变量取值总区域越偏平即椭圆形状越是扁其线性相关程度就越高，越是呈圆形那么其相关程度就越是低，如果取极限位置即两个随机变量呈现出一条直线那么他们不就是完全相关了吗？但是我们如何去衡量椭圆的扁平程度嘞？用一个什么样的表达式去衡量嘞？这是一个问题，所以我们如果想理性的认识什么是多维随机变量的相关性与不相关，还是得从更加微观的角度即数的角度去认知他，下面我们就从代数出发来认知协方差与标准化后的协方差即相关系数的具体意义

相关系数：

就如同方差有量纲一样，协方差也是一个有量纲的量，为了比较相关程度的高低我们必须设法去掉协方差的量纲，之前说过方差是描述数据之间的差异与数据的波动程度的一个量，我们为了将不同随机变量的方差进行比较将他们进行了标准化即放在同一个标准下进行比较因此我们将方差比上数学期望去掉了量纲，同方差一样我们也要对协方差进行标准化处理去掉量纲使得不同随机二维变量之间的相关程度具有可比性.

因此就将标准化后的相关系数称之为协方差：

设若是一个二维离散型随机变量，且, .则称

.

为随机变量的相关系数.由此可见所谓相关系数就是将协方差比上随机变量各自的标准差，相关系数的正负由分子决定，相关系数大于零则说明正相关，小于零则说明负相关，等于零则说明不相关.如果相关系数的作用和协方差是一样的那么说句话糙理不糙的话就是脱裤子放屁多此一举说了数学家是不会做这么无聊的

上面为了帮助理解相关系数，我们从几何的角度去理解，因为很多的数学问题如果从逻辑上面不好把握的话我们可以从几何上找到突破口，我国著名数学家华罗庚曾经说过：‘’数无形时少直觉，形无数时难入微“，这句话说得相当的精辟，短短14个字就把数与形的关系说得清清楚楚说得你醍醐灌顶、豁然开朗,你不服都不行.确实从几何上面来理解数学更加的直观形象，但是上面我们仅仅是从图形出发来建立什么是多维随机变量的相关性的感性认知，两个随机变量什么时候正相关负相关如果仅仅只是从图形上面感性理解这也是片面的朦胧的不精确的，比如从上面的图形中我们能够感性的认识到如果随机变量取值总区域越偏平即椭圆形状越是扁其线性相关程度就越高，越是呈圆形那么其相关程度就越是低，如果取极限位置即两个随机变量呈现出一条直线那么他们不就是完全相关了吗？但是我们如何去衡量椭圆的扁平程度嘞？用一个什么样的表达式去衡量嘞？这是一个问题，所以我们如果想理性的认识什么是多维随机变量的相关性与不相关，还是得从更加微观的角度即数的角度去认知他，下面我们就从代数出发来认知协方差与标准化后的协方差即相关系数的具体意义事情的，连我这样的小子都不会做这样的事情何况高尚伟大的数学家.相关系数除了用来判断两随机变量的相关性以外还可以用来度量相关性.

那么度量相关性到底是如何实现的嘞？先来看一个数学上非常著名且无论是在几何学还是在分析学亦或是在代数学上都有应用的不等式，帅气且霸气的柯西—施瓦茨(Schwarz)不等式 ：

对任意二维随机变量,若X与Y的方差都存在，且记为,则有

.

这个定理的证明是很简单，这不是重点，重点是大家有没有觉得这个不等式很熟悉？r如果我们将协方差看做是一个内积的话像不像高等代数中的内积公式？,这简直就像极了爱情，这是不是巧合？我们是不是可以将概率论中的实值函数随机变量做成一个向量空间，然后在定义一个内积为协方差，这样就做成了一个概率空间上面的欧式空间？有这个想法可以但是有待验证，下面就来验证随机变量是否能做成一个高等代数中的向量空间然后在验证是否定义了协方差这个内积之后可以做成一个欧式空间.

验证是否概率论中的随机变量做成的集合能否做成实数域上的一个向量空间

$\begin{array}{l}{\text{ 1) }}X+Y=Y+X\\{\text { 2) }(X+Y)+Z=X+(Y+Z)} \\ {\text { 3) } \forall X \in V, \text { 存在唯一的}{0 \in V使得X+0=X}} \\ {\text { 4) } \forall X \in V {X+0=X}} \\ {\text { 4) } \forall X \in V, \text { 存在唯一的 }}-X \in V,使得X+(-X)=0 \\ {\text { 5) } a(X+Y)=a X+a Y} \\ {\text { 6) }(a+b) X=a X+b X} \\ {\text { 7) } a(b X)=(a b) X} \\ {\text { 8) } 1 X=X}\end{array}$

以上即可证明随机变量可以做成一个向量空间

下面接着证明协方差是否能够定义为向量空间上的内积将随机变量做成的向量空间在作成一个欧式空间.

对称性：

$\begin{aligned} \operatorname{cov}(X, Y)=& \operatorname{Cov}(Y, X) \\ \text { Proof: } \because & \operatorname{cov}(X, Y)=E[(X-E(X))(Y-E(Y))] \\ &=E(X Y)-E(X) E(Y) \\ &=\operatorname{Cov}(Y, X) \\ \therefore & \operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X) \end{aligned}$

线性性质：

由协方差的定义可得

.

正则性：

故综上所述所有的随机变量可以做成一个欧式空间其内积为协方差.

由向量的内积公式可得其中为向量X与Y的夹角.故.然后可以证明的充要条件是X与Y有相关关系.当的时候不相关，上面感性的认识过越大即相关系数的分子绝对值越大也即相关系数绝对值越大则两随机变量的相关程度就越高，故相关系数越是接近于一则两随机变量的相关程度也就越高，反之越是接近与零则其相关程度也就越低.

其实相关系数还可以做另外一种理解：

若即随机变量的数学期望为则其标准化的变量为

则即两随机变量的相关系数等于标准化后的随机变量的方差.

通过将高等代数中的欧式空间引入到概率论中能够有助于我们理解相关系数，因此我们要具有知识的迁移能力这很重要，不能为了知识而知识，知识就是拿来运用的.

协方差矩阵：

记n维随机向量为，若其每个分量的数学期望都存在，则：

为n维随机变量向量的数学期望向量简称为X的数学期望而称

为随机向量的协方差矩阵，此矩阵是一个对称非负定矩阵，主对角线上的元素为对应位置的方差，其他位置为对应随机变量的协方差，只要将协方差矩阵的算法输入到计算机内部我们就可以很清晰的看清楚n维随机向量任意两个随机变量间的相关关系.

1.6.6 条件分布与数学期望

1.6.6.1 离散型随机变量的条件分布

条件分布无疑就是在知道联合分布的情况下运用条件概率公式求之即可不做过多叙述.

1.6.6.2 连续型随机变量的条件分布

设二维离散型随机变量的联合概率密度，边际密度函数为.

在离散随机变量场合，其条件概率的分布函数为.因为连续型随机变量取某个值的时候其概率为零，故在连续型场合不可以简单的使用条件概率公式，这会导致分母为零，因此既然不能求出某一点取值的概率，我们又在数学分析中学过极限的概念，因此我们可以将看做时的值去代替,于是就可以得出如下的定理:

对一切使得的y，给定条件下X的条件分布函数和条件密度函数分别为

.

1.6.6.3 连续场合的全概率公式和贝叶斯公式

由条件密度函数可得

可得到边际密度函数

就得贝叶斯公式的密度函数形式为：

由对称性即可得到.

1.6.6.4 条件数学期望

条件分布的数学期望如果存在则称其为条件期望.条件期望的计算只要利用连续型场合和离散型场合的定义用条件概率代替非条件概率计算即可.

设服从二维正态分布由边际分布知X服从正态分布,Y服从正态分布 .我们可以求得其条件分布也服从正态分布

要了解条件数学期望的意义且看如下例子：

公安部在勘察犯罪现场获取犯罪分子信息的时候经常根据脚印的大小来判断其身高，一般认为脚印和足长可以可以视作二维正态分布在处理，即其条件分布服从正态分布由此可以得到： ,里面除了脚印大小y为未知数以外其他的参数都可以看做是已知的，因此只要知道了犯罪嫌疑人的脚印大小就可以推断其身高.

上面已经知道了我们可以用条件期望来进行推断实际上这种推断只是一种估计，那么这种推断是否是可靠的嘞？可靠的依据又在哪里嘞？

条件均值说白了就是在已知的条件下去预测的值,那么用条件均值预测有些什么好处嘞？下面进行说明.

我们已经知道条件均值是关于未知数y的一个函数，我们不妨假定还有其他的关于y的函数可以对x进行预测，判断这个预测值好坏的依据是误差要尽可能的小即 ,但是是一个随机变量取值并不固定，因此就要求其均值

为了去掉绝对值方便运算将其替换成.

我们可以证明当的时候成立，因此用条件均值进行预测的时候其均方误差将达到最小，这就是用条件均值进行合理预测的理论依据.我们也将称之为是第一类回归.

但是当某些分布的密度函数未知或者是函数过分复杂的时候我们也可以降低要求，即不寻求最优预测，只需求满意预测即可，当不使用条件均值时我们通常使用一个简单的函数即线性函数来替代他进行预测，不妨设为的线性预测，则我们要求

为了求出参数a和b，可以进行如下处理将上式分别对a和b求偏导数然后求出稳定点a,b即可得到参数a,b的计算公式(很显然必然有一个a,b的取值满足上式).

由此得到我们将其称之为第二类回归，由此可知对正态分布而言其第一类回归就是第二类回归，即在理论上来讲用条件均值来预测犯罪嫌疑人的身高是合理最优的预测方案.

1.6.6.5 特征函数

随机变量的分布函数可以全面的描述随机变量的统计规律，但是分布函数和密度函数使用起来并不方便，比如知两随机变量他们两个相互独立其密度函数分别为则的密度函数即为的卷积，但是当我们要研究即n个随机变量和的分布的时候我们就要求次卷积，我的妈耶，这个计算量是相当的大的，即便是如今的计算机也是吃不消的，因此我们必须需求其他的工具来解决这个问题，在数学分析中我们知道傅里叶(Fourier)变换能够将卷积运算转化为乘法运算即，因此我们密度函数进行傅里叶变换将卷积运算转化为乘法运算然后在通过傅里叶逆变换即可以求得密度函数，乘法运算显然是要比卷积运算方便的.

设是随机变量的密度函数，则的傅里叶变换是 ,i是虚数也即.

设是任一随机变量，则称

是的特征函数.

显然任何一个随机变量其特征函数都是存在的因为 .

定理一：

设的特征函数分别为则的特征函数为

，n维情形推广之.

定理二：

设随机变量有N阶矩存在，则的特征函数可微N次且对有：

,这个公式可以方便计算随机变量的K阶矩只要对其特征函数求K阶导数即可

从上面我们知道任何一个随机变量分布函数唯一的对应着一个特征函数，实际上也可以证明任何一个特征函数也唯一地确定了他的分布函数，即特征函数与分布函数是一个双射.由此我们就可以利用傅里叶逆变换根据随机变量的特征函数来确定其密度函数与分布函数.

傅里叶变换：.

傅里叶逆变换：

由特征函数我们可以看到，数学各个分支看起来似乎相互独立，其实是各分支相互渗透的，概率论的产生离不开数学分析,高等代数和复变函数的发展，而概率论的发展也反过来推动了其他数学分支的发展，知识与知识之间要有迁移能力，要有整体上的把握，这样才能对数学有全面的了解.

1.6.7 大数定律与中心极限定律

前面说过对于随机试验，随着随机试验的次数逐渐增多，频率将会逐渐稳定到概率，平均值将会逐渐稳定到均值，这个稳定只是一个很直觉的说法，那么如和让这种直觉转化成数学意义嘞？这就是下面要解决的问题.

伯努利大数定律：

设是n重伯努利试验中A试验发生的次数，又A在每次试验中出现的概率为 .则对任意的 ,有

上式中的就是n次随机试验的频率，也就是说随着n次数的增加其频率趋向于概率的概率趋向于一，这个是与数学分析中的极限概念是不同，极限是存在存在，当,的时候任意的都满足

而伯努利大数定律是强调的是概率 ,当n趋于无穷的时候其概率趋向于一，也就是说，事件发生的可能性会越来越大，但也有可能的事件会发生，因此我们就将频率依照概率收敛于概率.

对于伯努利大数定律实际上我们是讨论了形如的随机变量，当时的统计规律，其中是独立的服从分布的随机变量，因此我们将伯努利大数定律推广到更为一般的情形

大数定律：

若诸是随机变量序列，如果存在常数序列使得对任意的有：

成立，则称随机变量序列服从大数定律，由此可知，伯努利大数定律只是上叙大数定律的一个特例.

切比雪夫大数定律：

设是一些两两互不相关的随机变量，又设他们的方差有界，即存在常数使得诸则对任意的有：

此定理可有切比雪夫不等式得证明

由此可见伯努利大数定律是切比雪夫大数定律的特例，切比雪夫大数定律是大数定律的特例

马尔可夫大数定律：

在证明切比雪夫大数定律的过程中其实我们可以发现只要则{}服从大数定律，即对任意的有：

切比雪夫大数定律是马尔可夫大数定律的特例，马尔可夫大数定律的重要性在与对于随机变量序列已经没有了独立性、同分布性、不相关性的假定，在以上大数定律的证明过程中都是以切比雪夫不等式为前提的因此都要要求随机变量具有方差，但是进一步的研究表明，方差的存在也不是必要的，下面介绍一个与方差无关的大数定律，辛钦大数定律

辛钦大数定律：

设诸是一系列独立同分布的随机变量且数学期望存在：

则对任意的,有成立

在上面的所有大数定律中伯努利大数定律是证明了频率依照概率稳定与概率，而辛钦大数定律是证明了平均值依照概率会稳定与数学期望，现有伯努利大数定律而后将其推广给出大数定律的一般形式，而后将伯努利大数定律的条件一步步放宽，伯努利大数定律数切比雪夫大数定律的特例子，切比雪夫大数定律是马尔可夫大数定律的特例，无论是切比雪夫大数定理还是伯努利大数定律亦或是马尔可夫大数定律他们三者的证明都是与切比雪夫不等式有关，因此要求其随机变量序列具有方差，但是辛钦大数定律是与方差无关的，他至于随机变量序列是否独立以及各自的数学期望是否存在有关.

随机变量序列的两种收敛性：

在大数定律中我们从频率的稳定性出发，引入了

即随机变量序列{}依概率收敛于常数a的概念，很自然的我们也把他进行推广，即不把它收敛于一个常数而是收敛于一个随机变量，于是引入如下定义：

设有一列随机变量如果对任意的,有

则称随机变量序列{}依概率收敛于记作

大数定律只是上叙依概率收敛的一种情况特殊情况

如果我们已知那么他们的分布函数之间会有什么样的关系嘞？

定义：设, 是一系列分布函数，如果对的每个连续点都有

则称分布函数列{}弱收敛于

定理1：

若随机变量序列依概率收敛于随机变量，则随机变量序列的分布函数列弱收敛于的分布函数

一般来说此定理反过来不成立

定理2：

随机变量序列其中c为常数的充要条件为

为退化分布是的分布函数

此定理说明随机变量和的分布弱收敛于退化分布这就是大数定律

定理3：

分布函数列{}弱收敛于分布函数的充要条件书相应的特征函数列{} 收敛于的特征函数 .

前面我们了解到特征函数有便于减少求独立随机变量和的分布的计算量，而且可以很方便的求出和的分布的一些特征数，有了这个定理之后我们将极大的拓宽特征函数的使用范围，当求独立分布和的极限问题的时候这个工具将发挥出巨大的威能

中心极限定理：

之前曾经提到过高斯在研究误差理论的时候曾经利用了正态分布，那么大家有没有想过为什么会选着正态分布来研究误差嘞？那么现在我们来研究一下误差到底是一个什么样的随机变量，以我国的东风导弹为例，设靶心为原点，则导弹的弹着点为 ,现在我们已经知道都服从正态分布，可以看做是导弹射击的横向误差要和纵向误差，而造成产生误差的原因是有无数个微小的因数积累总和而成的，比如空气的阻力，空气的湿度，炮弹的火药差异，发射站的具体情况等等一系列原因造成的，我们不妨假设这一系列的因素造成的横向误差和为误差为，即，我们暂且先把这一系列误差随机变量看做是独立同分布的，现在我们来研究随机变量和的分布，数学家们发现，当的时候可能趋向于无穷这时候其方差越来越大，均值也越来越大，造成分布极其的不稳定，而且求其分布函数越来越困难，此时我们研究这种情形就没有什么现实意义，我们只讨论取有限值时候的随机变量，伯努利大数定律告诉我们：

这是因为先进行了随机变量和的去中心化让后比上一个增长因子，这样我们才能使得使得其分布函数序列弱收敛于一个分布函数，然后我们用近似分布区代替和的分布，使得其特征函数序列也收敛于一个特征函数，这样我们就能够运用特征函数去求出随机变量和的分布问题：

回顾一下我们之前的标准化我们不妨将随机变量和中心化之后再比上其标准差进行标准化

有这样就能够使得不论n为多少，使得的分布能够大致稳定下来即依照概率能够使得当收敛于某一个,其分布函数也弱收敛于一个分布函数.

当是服从参数为的两点分布的时候，则有下述历史上著名的

棣莫弗(De Moivre)—拉普拉斯(Laplace)定理：

在n重伯努利试验中，事件A在每次试验中出现的概率为 ,为n此试验中事件A出现的次数，则

此定理的说明‘’二项分布收敛于正态分布‘’，当n很大的时候可以用来近似计算二项分布的取值

而且此定理还可以用来计算伯努利大数定律事件发生的概率，而伯努利大数定律只是说明频率收敛于概率并没有说事件发生的概率是多少，由此可知此定理比伯努利大数定律更强.

此定理的发明由棣莫弗首先研究，而后由拉普拉斯推广，这个定理的提出就是正态分布出现的雏形，但遗憾的是两位数学家并没有把正态分布当成一回事情，只是把它用来近似计算二项分布，以前我们提到过二项分布收敛于泊松分布但是这里又提二项分布收敛于正态分布这是不是冲突嘞？这其实不冲突，二则收敛的条件不同罢了，收敛于泊松分布是要求，而正态分布则是要求 ,经过其他数学家的推广，然后高斯才用正态分布来计算误差，而后拉普拉斯又整合中心极限定理发现随机误差正是满足中心极限定理的.

将上面的定理推广之后就能够得到更加一般的定理即林德贝格—勒维(Lindeberg-Levy)定理：

若诸是一系列独立同分布的随机变量，且

则有 $\underset{n \rightarrow +\infty}\lim S_n=\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{\sqrt{D(\overset{n}{\underset{i=1}\sum}\xi_i)}} =\dfrac{1}{\sqrt{2\pi}}\int^x_{-\infty}e^{-\frac{t^2}{2}}\mathrm{d}t$

上面的定理我们是在独立同分布的情形下提出的，但在现实环境中众多的微小元素虽然是独立的但是却未必是同分布的，因此我们要考虑独立但是未必同分布的的随机变量序列的分布问题，为解决这一问题就有了林德贝格定理：

设随机变量序列满足林德贝格条件(这个定理主要是保证能够稳定下来不趋向于无穷)则当是对任意的x，有

$\underset{n \rightarrow +\infty}\lim S_n=\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{\sqrt{D(\overset{n}{\underset{i=1}\sum}\xi_i)}} =\dfrac{1}{\sqrt{2\pi}}\int^x_{-\infty}e^{-\frac{t^2}{2}}\mathrm{d}t$

故此定理证明了由大量的微小且独立的随机因素并且积累而形成的变量，将会是一个正态随机变量，这样就能够理解为什么误差理论可以用正态分布来描述了.说白了中心极限定理就是用来描叙正态分何以成为正态分布，什么样的随机变量服从正态分布的一个定理.

到现在为止概率论的全部内容就已结束，概率论是研究随机事件统计规律的学科，利用随机事件的分布这一强有力的工具可以了解随机事件的各种规律，大数定律与中心极限定律是用来研究随机事件和的分布的极限形式的。但是到现在为止我们还有一个问题没有得到解决，就是如果我们知道某个随机变量是服从某一个分布的比如但是我们如何去确定其分布的参数嘞？这是一个问题，这个问题就是接下来的属于数理统计的范畴

概率论与数理统计总结

历史寻根概率论的前世今生

前言：

1.1 随机事件与概率

1.2 概率的定义及其确定方法：

1.3 概率的性质和计算公式：

1.4 随机变量及其分布

1.5 随机变量函数的分布

1.6 多维随机变量及其分布：

你可能感兴趣的:(概率论与数理统计总结)