二项分布近似正态分布

中心极限定理下的二项分布近似正态分布

伯努利分布

伯努利分布 0-1分布:X~(0,1)分布,即X值为0,或是X值为1,概率为P

单个样本服从(0,1)分布时:

期望 E(X) =P*1 + (1-P)*0 = P

方差VAR(X) = E( [X-E(X)]² ) = E(X²)-E²(X) = P-P²

伯努利分布→二项分布

n个独立样本,每个样本x1,x2,…xn都服从(0,1)分布时,伯努利分布就会变为二项分布:
(二项分布,其实就是n次伯努利分布)

样本期望E(X)=E(x1+x2+x3+…xn)=nP
样本方差Var(X)=Var(x1+x2+…xn)=Var(x1)+Var(x2)+…Var(xn)=n(P-P²)

样本均值的期望E( X − X^- X) = E( x 1 + x 2 + x 3 + . . . . x n n \frac{x1+x2+x3+....xn}{n} nx1+x2+x3+....xn) = P
样本均值的方差Var( X − X^- X) = Var( x 1 + x 2 + x 3 + . . . . x n n \frac{x1+x2+x3+....xn}{n} nx1+x2+x3+....xn) = Var( x 1 n \frac{x1}{n} nx1) +Var( x 2 n \frac{x2}{n} nx2) + +…Var( x n n \frac{xn}{n} nxn) = P − P 2 n \frac{P-P²}{n} nPP2

二项分布→正态分布

① 当n足够大,二项分布中的样本值之和 X 服从正态分布N(nP,n(P-P²))

样本值 X 表示在n个样本中,有 X 个样本值为1,即 X = nP

其中,样本值X表示每个样本值之和,之所以会服从正态分布,底层原因是由于中心极限定理
——实验:总体进行m次抽样,每次抽样样本容量为n,那么抽样次数m足够大,那么每次样本值之和都会近似为nP

例如,进行500次检验,每次检验抽查100个人的核酸结果,其中阳性概率为10%,那么每次检验时,阳性人数一般会较为相近,大约在10人上下浮动,这500次检验的阳性人数就会接近正态分布。


其中,阳性人数就是每次检验的均值,均值服从正态分布。

② 当n足够大,根据中心极限定理,样本均值 P 服从正态分布(P, P − P 2 n \frac{P-P²}{n} nPP2)

其中,在二项分布中的样本均值,也表示样本比例,即 P = X / n

所以可知,在样本量n较大时,根据中心极限定理,样本比例(即样本均值)服从正态分布(P, P − P 2 n \frac{P-P²}{n} nPP2)。

样本方差和样本均值方差是有差异的!

样本方差:用于衡量样本里,每一个样本之间的离散程度。样本方差的开方,叫做标准差。
进行显著性检验时要注意:让样本方差➗样本量,才能变为样本均值服从正态分布下的显著性检验。

① 当n足够大,二项分布中的样本值之和 X 服从正态分布N(nP,n(P-P²))
则检验统计量 Z = n p − σ n \frac{np-σ}{n} nnpσ

样本均值方差:用于衡量总体里,每个样本均值之间的离散程度。样本均值的方差,开方后叫做标准误。
进行显著性检验时要注意:无需让样本均值方差➗样本量,因为本身就是样本均值服从正态分布下的显著性检验。

② 当n足够大,根据中心极限定理,样本均值 P 服从正态分布(P, P − P 2 n \frac{P-P²}{n} nPP2)
则检验统计量 Z = p − σ p-σ pσ

你可能感兴趣的:(统计学习,机器学习,python,概率论)