【机器学习前置知识】二项分布

二项分布

在概率论和统计学里,二项分布表示的是 N次独立试验中成功次数 的概率分布。其中的每次独立试验又可称为伯努利试验,伯努利试验是这样的:在每次独立试验中,结果只有成功或失败两种情况,其中成功的概率为 p p p p ∈ [ 0 , 1 ] p∈[0,1] p[0,1] ,失败的概率为 q = 1 − p q=1-p q=1p

二项分布其实是伯努利分布的扩展,当n=1时,二项分布等价于伯努利分布。二项分布也常用于对N次 有放回 抽样进行建模。

更直观点来说,以抛硬币为例,抛一次硬币会有正面和反面两种结果,这里把出现正面作为实验成功的结果,对于质地均匀的硬币,出现正面和反面的概率应该都是0.5,即 p = 0.5 p=0.5 p=0.5 q = 0.5 q=0.5 q=0.5

假设我们对这枚硬币进行了3次独立实验,现在我们想分别统计在这三次实验中正面出现0次、1次、2次与3次的概率,这其实就是二项分布能解决的问题。

掷3次硬币,所有可能出现的结果有8种:正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反 ,其中每种结果出现的概率均为 0.5✖️0.5✖️0.5=0.125。

我们可以计算出:

  • 正面出现0次的结果在8种结果中有1种,概率为 p 0 q 3 p^0q^3 p0q3✖️ C 3 0 C_{3}^0 C30 = 0.125✖️1 = 0.125
  • 正面出现1次的结果在8种结果中有3种,概率为 p 1 q 2 p^1q^2 p1q2✖️ C 3 1 C_{3}^1 C31 = 0.125✖️3 = 0.375
  • 正面出现2次的结果在8种结果中有3种,概率为 p 2 q 1 p^2q^1 p2q1✖️ C 3 2 C_{3}^2 C32 = 0.125✖️3 = 0.375
  • 正面出现3次的结果在8种结果中有1种,概率为 p 3 q 0 p^3q^0 p3q0✖️ C 3 3 C_{3}^3 C33 = 0.125✖️1 = 0.125

由上面计算结果可以总结出概率 B i n ( k , n , p ) = C n k p k ( 1 − p ) n − k Bin(k,n,p)=C_{n}^kp^k(1-p)^{n-k} Bin(k,n,p)=Cnkpk(1p)nk

其中, n n n 表示抛硬币总次数; p p p 表示正面出现的概率; k k k 表示 n n n 次中出现正面的次数; B i n ( k , n , p ) Bin(k,n,p) Bin(k,n,p) 表示 n n n 次中出现 k k k 次正面的概率,这也是一般二项分布概率质量函数(PMF)的数学表示。

由此可以引出二项分布的公式。设 n n n 是一个正整数,并设 p ∈ [ 0 , 1 ] p∈[0,1] p[0,1] 。如果随机变量 X X X 满足:

P ( X = k ) = ( n k ) p k ( 1 − p ) n − k   ,   k = 0 , 1 , . . . , n P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} \ , \ k=0,1,...,n P(X=k)=(kn)pk(1p)nk , k=0,1,...,n ,其中 ( n k ) = C n k = n ! k ! ( n − k ) ! \binom{n}{k}=C_{n}^k={n!\over{k!(n-k)!}} (kn)=Cnk=k!(nk)!n!

那么称 X X X 服从参数为 n n n p p p 的二项分布,记作 X X X~ B i n ( n , p ) Bin(n,p) Bin(n,p) X X X 的均值为 n p np np ,方差为 n p ( 1 − p ) np(1-p) np(1p)

你可能感兴趣的:(统计知识,机器学习,概率论)