常用的分布包括:概率分布与统计分布。
场景:掷骰子
场景:掷硬币
首先描述一下什么是伯努利过程。
伯努利过程: a.由n次实验构成
b.每次的实验结果非0(失败)即1(成功)
c.每次实验的成功概率是常数
d.重复试验是独立的
二项分布:一个伯努利实验成功的概率的为p,n次独立试验中成功的次数作为二项随机变量X,则其概率分布为:
场景多项式分布(离散)
场景:掷骰子
实验场景:试验产生的一个随机变量X表示在某时间间隔或某个给定区域内结果发生的次数。所给的时间可以是任意长度的。
条件:a.给定的两个时间间隔内发生的结果之间是相互独立的
b.在很短时间内发生的概率仅与该时间长度成正比,与范围之外的结果没关系
c.在很短的时间内发生超过一个结果的概率可以忽略。
定义:X表示在给定的时间间隔或区域t内发生结果的数量,则其概率分布为:
X=0,1,2 … 为单位时间内的平均结果数
a 随着u的增大,泊松分布的形式越来越对称。一般认为u>5是分布接近对称。
b 泊松分布课看作是二项分布的极限形式,n很大且p很小时。
应用:当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。
详细可见:http://baike.baidu.com/view/79815.htm?fr=aladdin
最最重要的,是后面很多统计分析,检验的基础。
定义:均值为u,方差为 的正态随机变量X的密度为:
参考:http://baike.baidu.com/view/45379.htm?fr=aladdin
LDA的两大重要函数分布之一啊!!
伽玛函数:
伽玛定义:连续性随机变量X服从参数为 的伽玛分布,则密度函数为:
A.指数分布是伽玛分布的特例,即对应 的伽玛分布。
B.类似于泊松过程(用来计算某一段时间下一定数目的泊松事件发生的概率),现在考虑的是事件首次发生所需要的等待时间。
定义:连续性随机变量X服从参数为 的指数分布,则密度函数为:
应用场景:排队论:到达服务设施的时间间隔,
可靠性:部件与系统的时间。
适用于经过自然对数变换后是一个正态分布的情况。
都与正态分布有着各种联系哈!!
在统计推断中发挥重要作用。其实一般被归于统计分布的。
传统定义:设 X1,X2,......Xn相互独立, 都服从标准正态分布Z~(0,1), 则称随机变量χ2=X1^2+X2^2+......+Xn^2所服从的分布为自由度为 n的χ2分布.
χ2分布具有可加性.
对正态分布要求严格
中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。
由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。T分布对正太分布要求不严格。
用处:总体均值的推断或样本均值是否有显著差别的问题。
设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n.
F用在两样本情况下得到关于总体方差的推断。