二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作。伯努利试验是只有两种可能结果的单次随机试验。
伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等
二项分布的概率函数可用公式
其中,
对于任何二项分布,总有
例1.如果某地钩虫感染率为13%,随机观察当地150人,其中恰好有10人感染钩虫的概率有多大?
分析:
(1)钩虫感染只有两个互斥的结果,即感染与非感染;
(2)每个人被钩虫感染的概率相同;
(3)人与人之间钩虫感染可假设为相互独立的,所以感染钩虫的人数 X 可认为服从 n = 150,π = 0.13的二项分布。
对于任何一个二项分布,如果每次试验出现“阳性” 结果的概率均为,则在 次独立重复实验中:
1、出现 X 次阳性结果
总体均数(出现阳性结果的次数X的均值):
标准差(出现阳性结果的次数X的标准差):
2、阳性结果的频率记做为
的总体均数(出现阳性结果频率的均值):
标准差(出现阳性结果频率的标准差):
是频率P的标准误,反映阳性频率的抽样误差的大小。
泊松分布是二项分布在阳性率特别小时的一种情形,用于描述单位时间、空间、面积等的罕见事件发生次数的概率分布,如:
泊松分布是二项分布当中的一种特殊情况,则泊松分布也遵循二项分布的三个特点:
如,人群中传染性疾病首例出现后便成为传染源,会增加后续病例出现的概率,因此病例数的分布不能看作是Poisson分布。
又如,污染的牛奶中细菌成集落存在,单位容量牛奶中细菌数不能认为服从Poisson分布。
泊松分布分布一般记作,其概率函数为:
式中,为Poisson分布的总体均数(表示概率); 为观察单位内某稀有事件的发生次数; 为自然对数的底,为常数,约等于2.71828,自然对数的底数e是由一个重要极限给出的:当趋于无限时,。
设随机变量服从二项分布,即。其中,是与有关的数,且设是常数,则有,
证明:依题设有,代入中,有
对于固定的,有
(根据)
所以,
可见,二项分布的极限分布是泊松分布,当n很大,很小时,可用近似代替,一般时,可采用上次近似公式代替。
下图表示出了对泊松分布的影响,表示泊松分布的均值。当变大时,不仅整个分布模式向右移动,数据也更加分散,方差随之变大。
可加性的运用:分5次,每次都是监测5毫升的水样,得到的都比20小,但是5次相加的之后形成的比20大的话,我们就可以10毫升水样当中的细菌数的分布用正态近似法了
例:某放射性物质半小时内发出的脉冲数服从Poisson分布,平均为 360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。
其中,0.5表示连续型校正,表示处理离散型变量,应用到连续型的正态分布的时候,效果更佳的一种修正。
注意:泊松分布不具备可乘性。
设随机变量X的分布密度函数为
其中为常数,我们称服从参数为的指数分布,记作,其相应的分布函数为
和的图形见下图。
指数分布通常用作各种“寿命”的分布。例如,无线电元件的寿命,动物的寿命等,另外电话问题的通话时间、随机服务系统中的服务时间等都可以认为服从指数分布,因此,它在排队论和可靠性理论等领域中有广泛的应用。
例、某电子元件的使用寿命X是一个连续型随机变量,其概率密度为
(1)确定常数k
(2)求寿命超过100小时的概率
(3)已知该元件已经正常使用200小时,求它至少还能正常使用100小时的概率。
解:
(1)由概率密度函数性质2知
,得。
(2)寿命超过100小时的概率为
(3)条件概率
由(2),(3)可知,该元件寿命超过100小时的概率等于已使用200小时的条件下至少还能使用100小时的概率,这个性质称为指数分布的“无记忆性”。
若随机变量X对任意的都有,则称X的分布具有无记忆性。
因此,指数分布具有无记忆性,若某元件或动物的寿命服从指数分布,则上式表明,如果已知寿命长于s年,则再“活”t年的概率与s无关,即对过去的s时间没有记忆,也就是说只要在某时刻s仍“活”着,它的剩余寿命的分布和原来的寿命分布相同,所以人们也戏称指数分布是“永远年轻的”。
正态分布的概率密度函数(即纵向的曲线高度)
,
规定了曲线的形状,反应了其在横轴上的位置不同。
概率分布函数即为正态概率密度曲线下的面积 。
为正态变量的累计分布函数,反映正态曲线下,横轴尺度自到的面积,即下侧累计面积。
均数为0,标准差为1的正态分布,这种正态分布称为标准正态分布。
对于任意一个服从正态分布的随机变量,可作如下的标准化变换,也称(z-score)变换:
其中,,标准正态分布的概率密度函数:
标准正态分布方程积分式(概率分布函数):
为标准正态变量的累计分布函数,反映标准正态曲线下,横轴尺度自到的面积,即下侧累计面积,如下图所示。
用查表代替计算必须注意:
正态分布是一种对称分布,其对称轴为直线,即均数位置。
理论上:
实际上:
实际应用中,我们一般将1.96看似成2,2.58看似成3。
标准正态分布的=0,=1,则
例: 已知某地1986年120名8岁男童身高均数 ,,估计(1)该地8岁男孩身高在130以上者占该地8岁男孩总数的百分比;(2)身高界于120~128者占该地8岁男孩总数的比例;(3)该地80%男孩身高集中在哪个范围?
(1)先做标准化转换:
根据标准正态分布的对称性
理论上该地8岁男孩身高在130 以上者占该地8岁男孩总数的7.21%。
(2)
(3)
查标准正态分布界值表,标准正态分布曲线下左侧面积为0.10所对应的值为1.28,所以80%的8岁男孩身高值集中在区间内,即116.9~129.2。
制定参考值范围的步骤:
有些指标过高过低都是异常的,我们需要制定双侧的正常值范围
有些指标过低才是异常的,比如肺活量,我们只要制定单侧的正常值范围
在实际操作当中,我们一般将正常人中的5%排除在外,计算95%参考值范围。
正态近似法:适用于正态分布或近似正态分布的资料。
例1 某地调查120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,得均数为117.4g/L,标准差为10.2g/L ,试估计该地正常女性血红蛋白的95%医学参考值范围。
分析:正常人的血红蛋白过高过低均为异常,要制定双侧正常值范围。
该指标的95%医学参考值范围为97.41~137.39(g/L)
百分位数法:适用于偏态分布资料。
例2 某年某市调查了200例正常成人血铅含量(μg/100g) 如下,试估计该市成人血铅含量的95%医学参考值范围。
分析:血铅的分布为偏峰分布,且血铅含量只以过高为异常,要用百分位数法制定单侧上限。