概率分布之二项分布与多项分布

https://blog.csdn.net/jteng/article/details/54632311

1. 伯努利分布(Bernoulli distribution)

  伯努利分布又称二点分布或0-1分布,即一次试验只有正例和反例两种可能,以随机变量表示就是X只能取0或1,伯努利试验是只有两种可能结果的单次随机试验,假设一次试验出现正例的概率为p(0<p<1),那么P(X=1)=pP(X=1)=p,P(X=0)=1−pP(X=0)=1−p,可以统一表达为P(X=k)=pk(1−p)1−k,k=0,1P(X=k)=pk(1−p)1−k,k=0,1,则称X服从参数为p的伯努利分布,记为X∼Ber(p)X∼Ber(p) 
  最简单的伯努利试验就是抛硬币,抛一次硬币,正反面出现的概率均为0.5,出现正面的分布是服从参数为0.5的伯努利分布。

2. 二项分布(binomial distribution)

  将伯努利试验独立地重复n次称为n重伯努利试验,独立是指每次试验结果互相不影响,二项分布是n重伯努利试验中正例发生次数的离散概率分布,也就是说,抛n次硬币,出现正面的次数的概率分布。 
  记每次伯努利试验正例发生的概率为p,总共试验次数为n,随机变量X表示出现正例的次数,则记X∼B(n,p)X∼B(n,p)表示X服从参数为(n,p)的二项分布,观测变量x∈[0,n]x∈[0,n],xx取k的概率,即在n次伯努利试验中,正例出现k次的概率为 
  P(x=k)=Cknpk(1−p)n−kP(x=k)=Cnkpk(1−p)n−k 
其中Ckn=n!k!(n−k)!Cnk=n!k!(n−k)!为二项系数。二项分布具有期望E[X]=npE[X]=np和方差D[X]=np(1−p)D[X]=np(1−p),详情请参考wikipedia binomial distribution. 
  此处举一个从二项分布采样的例子,python的numpy库中有二项分布的生成器,其三个参数分别为试验次数、正例概率和采样个数,如下: 

import numpy 
a = numpy.random.binomial(n=10, p=0.7, size = 1) 


生成a为0-10的整数,如果令参数size=10000,则生成a为大小为10000的数组,每个元素取0-10的整数,画出a的分布图如下,可见正例出现7次的样本数最多,并以7为中心向两侧递减。 

3. 多项分布(multinomial distribution)

  多项分布是对二项分布的扩展,二项分布是单变量分布,而多项分布是多变量分布。二项分布的典型例子是抛硬币,每次试验有正反两种对立的可能,多项分布的例子是扔骰子,每次试验有多种可能,进行多次试验,多项分布描述的是每种可能发生次数的联合概率分布。 
  在单次试验中,假设一共有k种可能情况,记这k种可能发生的概率为μ=[μ1,...,μk]μ=[μ1,...,μk],并且∑ki=1μi=1∑i=1kμi=1,记x=[x1,...,xk]x=[x1,...,xk],其中xi∈{0,1}xi∈{0,1},并且∑ki=1xi=1∑i=1kxi=1,即xixi中只有一个为1,其他均为0,也就是每次试验只有一种可能发生,xixi取1的概率为μiμi,那么,xx的概率为 
  P(x|μ)=∏ki=1μxiiP(x|μ)=∏i=1kμixi 
将试验进行N次,记第i种可能发生的次数为mimi,∑ki=1mi=N∑i=1kmi=N,那么多项分布表示mimi的联合概率分布 
  P(m1,...,mk|N,μ)=Multi(m1,...,mk|N,μ)=N!m1!⋯mk!∏di=1μmiiP(m1,...,mk|N,μ)=Multi(m1,...,mk|N,μ)=N!m1!⋯mk!∏i=1dμimi 
多项分布的统计量如下: 
  E[mi]=NμiE[mi]=Nμi 
  var(mi)=Nμi(1−μi)var(mi)=Nμi(1−μi) 
  cov(mi,mj)=−Nμiμj,(i≠j)cov(mi,mj)=−Nμiμj,(i≠j) 
详情请参考wikipedia multinomial distribution. 
  下面举一个从多项分布采样的例子,python的numpy库中有多项分布的生成器,其三个参数分别为试验次数、每种可能发生的概率向量和采样次数,如下: 

import numpy 
a = numpy.random.multinomial(n=10, pvals=[0.2,0.4,0.4], size = 1) 


生成a为一个三维向量,如[2,7,1],向量的每个元素位于0-10之间,三个元素之和为10。设置size = 1000,就会得到1000个三维向量,这1000个向量的均值为[2.013,4.058,3.929],可见其均值的分布趋近于概率[0.2,0.4,0.4].

你可能感兴趣的:(机器学习)