在概率论和统计学里,二项分布表示的是 N次独立试验中成功次数 的概率分布。其中的每次独立试验又可称为伯努利试验,伯努利试验是这样的:在每次独立试验中,结果只有成功或失败两种情况,其中成功的概率为 p p p , p ∈ [ 0 , 1 ] p∈[0,1] p∈[0,1] ,失败的概率为 q = 1 − p q=1-p q=1−p 。
二项分布其实是伯努利分布的扩展,当n=1时,二项分布等价于伯努利分布。二项分布也常用于对N次 有放回 抽样进行建模。
更直观点来说,以抛硬币为例,抛一次硬币会有正面和反面两种结果,这里把出现正面作为实验成功的结果,对于质地均匀的硬币,出现正面和反面的概率应该都是0.5,即 p = 0.5 p=0.5 p=0.5 , q = 0.5 q=0.5 q=0.5 。
假设我们对这枚硬币进行了3次独立实验,现在我们想分别统计在这三次实验中正面出现0次、1次、2次与3次的概率,这其实就是二项分布能解决的问题。
掷3次硬币,所有可能出现的结果有8种:正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反 ,其中每种结果出现的概率均为 0.5✖️0.5✖️0.5=0.125。
我们可以计算出:
由上面计算结果可以总结出概率 B i n ( k , n , p ) = C n k p k ( 1 − p ) n − k Bin(k,n,p)=C_{n}^kp^k(1-p)^{n-k} Bin(k,n,p)=Cnkpk(1−p)n−k
其中, n n n 表示抛硬币总次数; p p p 表示正面出现的概率; k k k 表示 n n n 次中出现正面的次数; B i n ( k , n , p ) Bin(k,n,p) Bin(k,n,p) 表示 n n n 次中出现 k k k 次正面的概率,这也是一般二项分布概率质量函数(PMF)的数学表示。
由此可以引出二项分布的公式。设 n n n 是一个正整数,并设 p ∈ [ 0 , 1 ] p∈[0,1] p∈[0,1] 。如果随机变量 X X X 满足:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , . . . , n P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} \ , \ k=0,1,...,n P(X=k)=(kn)pk(1−p)n−k , k=0,1,...,n ,其中 ( n k ) = C n k = n ! k ! ( n − k ) ! \binom{n}{k}=C_{n}^k={n!\over{k!(n-k)!}} (kn)=Cnk=k!(n−k)!n!
那么称 X X X 服从参数为 n n n 和 p p p 的二项分布,记作 X X X~ B i n ( n , p ) Bin(n,p) Bin(n,p) , X X X 的均值为 n p np np ,方差为 n p ( 1 − p ) np(1-p) np(1−p) 。