手搓积分验证大数定律和中心极限定理

关于大数定律的一种程序验证方式,请参考博客

辛钦大数定律的Python实践_tugouxp的专栏-CSDN博客

本文通过计算,来实际验证一把独立同分布的符合均匀分布的多个变量

X_1,X_2,X_3, \cdots

的加和Z=X_1+X_2+X_3+\cdots的分布情况,来直观上体验中心极限定理所说明的规律。

中心极限定理指出,任何随机分布当样本足够大时,都会逼近正态分布。

假设X_1,X_2,X_3, \cdots符合均匀分布,记为

X\sim U(0,1)

概率密度函数为

f(x)=\left\{\begin{matrix} 1,\ \ \ \ \ 0<x<1\\ 0 \ \ \ \ \ \ \ \ \ \ \ others \end{matrix}\right.

此概率密度函数图形即如下图所示:

手搓积分验证大数定律和中心极限定理_第1张图片

Z=X_1+X_2的概率密度分布函数

f_{X_1+X_2}(z)=\int_{-\infty }^{\infty }f(x)f(z-x)dx

当z<=0的时候,f(x)和f(z-x)如下所示:

所以,f(x)f(z-x)乘积为0,积分也为0。

当z>0&&z<1的时候,图形为:

手搓积分验证大数定律和中心极限定理_第2张图片

 所以

f_{X_1+X_2}(z)=\int_{-\infty }^{\infty }f(x)f(z-x)dx=\int_{0}^{z }1\cdot1dx=z

当z>1&&z<2的时候,图形如下:

手搓积分验证大数定律和中心极限定理_第3张图片

f_{X_1+X_2}(z)=\int_{-\infty }^{\infty }f(x)f(z-x)dx=\int_{z-1}^{1 }1\cdot1dx=2-z

当z>2的时候:

手搓积分验证大数定律和中心极限定理_第4张图片

f(x)f(z-x)乘积为0,所以,积分也为0。

所以,Z=X_1+X_2的概率密度函数为:

f(x)=\left\{\begin{matrix} 0, \ \ \ \ \ \ \ \ \ \ z<0\\z,\ \ \ \ \ 0<z<1\\ 2-z \ \ \ \ \ \ \ \ \ \ \ z>=1 \end{matrix}\right.

图形为:

手搓积分验证大数定律和中心极限定理_第5张图片相比较单个变量的平均分布概率密度曲线,两个变量和的联合概率分布密度曲线是不是更接近正态分布了?

下面计算一下Z=X_1+X_2+X_3 的联合概率密度曲线,它会更接近正态分布,同样道理,将之前那计算的X_1+X_2看成一个随机变量,它和X_3符合独立同分布,仍然可以按照如上两个随机变量的积分进行处理。

当z<=0的时候,f(x)和f(z-x)如下所示:

手搓积分验证大数定律和中心极限定理_第6张图片

 所以,f(x)f(z-x)乘积为0,积分也为0。

当z>0&&z<1的时候,图形为:

手搓积分验证大数定律和中心极限定理_第7张图片

f_{X_1+X_2+X_3}(z)=\int_{-\infty }^{\infty }f(x)f(z-x)dx=\int_{0}^{z }x\cdot1dx=\frac{z^2}{2}

当z>1&&z<2的时候,图形为:

手搓积分验证大数定律和中心极限定理_第8张图片

\\ f_{X_1+X_2+X_3}(z)=\int_{-\infty }^{\infty }f(x)f(z-x)dx=\int_{z-1}^{1 }x\cdot1dx+ \int_{1}^{z }(2-x)\cdot1dx\\ =\frac{1}{2}-\frac{(z-1)^2}{2} + 2z-\frac{z^2}{2}-\frac{3}{2}=-z^2+3z-\frac{3}{2}

z>2&&z<3的时候:

手搓积分验证大数定律和中心极限定理_第9张图片

\\ f_{X_1+X_2+X_3}(z)=\int_{-\infty }^{\infty }f(x)f(z-x)dx=\int_{z-1}^{2 }(2-x)\cdot1dx=\frac{z^2}{2}-3z+\frac{9}{2}

z>3的时候,积分值为0

手搓积分验证大数定律和中心极限定理_第10张图片

所以,函数图形和解析式如下所示,性感的钟形曲线现身了:

手搓积分验证大数定律和中心极限定理_第11张图片

手搓积分验证大数定律和中心极限定理_第12张图片

可以看到Z=X_1+X_2+X_3 更加接近正态分布了。所以从直观上我们能够理解,独立同分布的任何随机变量,只要样本数更多,他们的加合都会符合正态分布了,从形式上看,大数定律是很符合直觉的。如果继续计算下去,这个图形将会越来越接近正态分布,直到最后,当样本数量足够的时候,完全符合正态分布。

拐点,从理论上可以证明,正态分布存在两个拐点,分别在中心对称轴左右两侧,同样的道理,上面得到的解析式也存在两个拐点,分别是x=1和x=2对应,在这方面也和正态分布相似。

手搓积分验证大数定律和中心极限定理_第13张图片

另外,从以上三个图形的均值我们可以发现一个规律,对于n个独立同分布的X加和来说,假设X的均值是u,那n个变量的加和的均值将会是n*u,比如,上图中均值分别是0.5,1,1.5.

总结

辛钦大数定律给出了随机变量平均值的渐近性质,但是并没有给出它的分布情况,我们知道在实际当中用的最多的分布就是正态分布了,但是也有很多随机变量本身不服从正态分布,比如均匀分布,指数分布等等,但是无论随机变量原本的分布状态是怎样的,随着抽样样本数目的增加,平均分布的概率密度曲线会越来越接近于正态分布。上面的例子,我们只算到了N=3的时候,概率密度曲线就已经和原来的形状出现了巨大的差异了。

均匀分布的随机变量有这样的性质,那么其它的分布是不是也是这样呢?答案是肯定的,无论原分布咋样,经过大样本抽样后,样本均值都会逐渐趋于正态分布,样本和和样本均值遵守完全相同的趋势。


结束!

你可能感兴趣的:(人工智能,嵌入式系统,数学,概率论)