统计之常用的分布

常用的分布包括:概率分布与统计分布。

一、常用的概率分布

1.      离散均匀分布

场景:掷骰子


2.      二项分布(离散)

场景:掷硬币

首先描述一下什么是伯努利过程。

伯努利过程: a.由n次实验构成

                             b.每次的实验结果非0(失败)即1(成功)

                             c.每次实验的成功概率是常数

                             d.重复试验是独立的

二项分布:一个伯努利实验成功的概率的为p,n次独立试验中成功的次数作为二项随机变量X,则其概率分布为:

                   

场景多项式分布(离散)

场景:掷骰子

3.      泊松分布(离散)

实验场景:试验产生的一个随机变量X表示在某时间间隔或某个给定区域内结果发生的次数。所给的时间可以是任意长度的。

 条件:a.给定的两个时间间隔内发生的结果之间是相互独立的

             b.在很短时间内发生的概率仅与该时间长度成正比,与范围之外的结果没关系

              c.在很短的时间内发生超过一个结果的概率可以忽略。

定义:X表示在给定的时间间隔或区域t内发生结果的数量,则其概率分布为:                   

  X=0,1,2 … 为单位时间内的平均结果数


a   随着u的增大,泊松分布的形式越来越对称。一般认为u>5是分布接近对称


b   泊松分布课看作是二项分布的极限形式,n很大且p很小时。

   

应用:当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。

详细可见:http://baike.baidu.com/view/79815.htm?fr=aladdin

4.      连续均匀分布

5.      正态分布(高斯分布)

最最重要的,是后面很多统计分析,检验的基础。

定义:均值为u,方差为 的正态随机变量X的密度为:

 



参考:http://baike.baidu.com/view/45379.htm?fr=aladdin

6.      伽玛分布

LDA的两大重要函数分布之一啊!!

伽玛函数:     

伽玛定义:连续性随机变量X服从参数为 的伽玛分布,则密度函数为:

7.      指数分布

A.指数分布是伽玛分布的特例,即对应 的伽玛分布。

B.类似于泊松过程(用来计算某一段时间下一定数目的泊松事件发生的概率),现在考虑的是事件首次发生所需要的等待时间。

定义:连续性随机变量X服从参数为 的指数分布,则密度函数为:

应用场景:排队论:到达服务设施的时间间隔,

可靠性:部件与系统的时间。

8.对数正态分布

适用于经过自然对数变换后是一个正态分布的情况。

 

 

二、常用的统计分布

都与正态分布有着各种联系哈!!

1、 χ2(卡方分布)

在统计推断中发挥重要作用。其实一般被归于统计分布的。

传统定义:设 X1,X2,......Xn相互独立, 都服从标准正态分布Z~(0,1), 则称随机变量χ2=X1^2+X2^2+......+Xn^2所服从的分布为自由度为 n的χ2分布.

χ2分布具有可加性.

对正态分布要求严格 


2、T分布(Student t分布

中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。T分布对正太分布要求不严格。

用处:总体均值的推断或样本均值是否有显著差别的问题。

3、F分布

X1服从自由度为mχ2分布,X2服从自由度为nχ2分布,且X1X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n.

 

F用在两样本情况下得到关于总体方差的推断。

你可能感兴趣的:(数据挖掘)