山顶洞人学机器学习之——中心极限定理(通俗理解版)

机器学习是实现人工智能的重要技术之一。在学习机器学习的过程中,必须要掌握一些基础的数学与统计知识。中心极限定理(CLT)是数理统计中最重要的定理之一,具有广泛的应用场景。准确理解中心极限定理背后深层次的含义,有助于打牢机器学习的基础。本篇文章将用最通俗的语言来揭示中心极限定理,并结合R语言,通过可视化的途径来还原这一定理。本文的结构安排将从中心极限定理的定义、案例分析、R语言还原、总结四个部分来展开

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第1张图片

中心极限定理

一、 定义

中心极限定理是指,给定足够大的样本量,无论变量在总体中的分布如何,变量均值的抽样分布都将近似于正态分布。详细来讲,给定一个任意分布的总体,从这个总体中抽取n个样本,总共随机抽取m次,计算这m次的样本的平均值,则这些平均值的分布是正态分布,并且这些平均值的均值近似等于总体均值,平均值的方差为总体方差除以n。

在这里,要把握以下关键点,

  • 第一,总体的分布是任意的,可以是卡方分布,可以是指数分布,可以是均匀分布,可以是…….
  • 第二,从总体中要抽n个样本,总共要抽m次,这里的m和n都要求越大越好”。
  • 第三,这m次样本的平均值的分布是正态分布,这种分布叫做抽样分布。
  • 第四,这些样本平均值的均值是近似为总体均值,也就是说,求两次均值。

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第2张图片

中心极限定理提出者法国数学家棣莫弗

二、 案例分析

中心极限定理一个很重要的用途就是根据样本均值来估计总体均值。举个例子,你现在要调查你们整个学校学生的政治成绩,要计算学生政治的平均成绩。你要是去收集每个学生的成绩,然后加总,再除以学生总数,整个工作力度很大,成本也很高。这时候中心极限定理就派上用场了,你先从校园中随机的抽取50个人,然后计算这50个人的平均成绩,记为x1,然后再随机的抽取的50个人,计算平均成绩,记为x2,一直这样随机的抽取,到最后进行了m次,记为xm;中心极限定理说的是x1,x2,x3……xm,它们的分布是正态分布,它们的均值就是该校学生政治的平均成绩。

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第3张图片

样本平均值的均值计算公式

三、 R语言实现

  • 第一步,生成一个总体,这个总体分布是任意的,在这里我们设置成了正态分布,样本总数10000个,并计算总体均值及其方差,结果分别为0.0032与0.966(计算这个结果是为了同后面的样本平均值的均值进行对比,从而验证定理 )

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第4张图片

第一步代码

山顶洞人学机器学习之——中心极限定理(通俗理解版)

原始分布的均值与方差

  • 第二步,设置抽取的次数m,这里抽取的次数为越大越好,这里是10000;设置抽取的样本个数n,在这里分别10,50,100,500,分别画出直方图。

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第5张图片

第二部代码

可以从以下直方图看出,样本均值的分布基本上都服从正态分布。

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第6张图片

直方图分布

  • 第三步,计算样本均值的均值与方差,并与总体均值与方差做出对比。

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第7张图片

样本与总体对比图

我们可以看出,当样本量比较小的时候,样本均值的均值与总体均值相差比较大,因为n的数量没有达到要求;当n逐渐增大的过程中,样本均值的均值越来越与总体均值接近

  • 第四步,在这里我们列出m很小的情况,设置值分别为300与1000。

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第8张图片

m为300的分布状况

山顶洞人学机器学习之——中心极限定理(通俗理解版)_第9张图片

m为1000的分布状况

可以看出,当抽样次数m很小的时候,不是很大的时候,正态分布不是很明显的,所以抽样次数m一定要大,要越极限越好。

四、 总结

中心极限定理描述的是,当样本量和抽样次数很大的时候,纵使总体分布如何,样本的抽样分布趋近于正态分布,且样本平均值的均值近似于总体均值。利用这个定理,可以利用样本来推断整体。但是尤其要注意的是,样本量要求要大,不然,样本平均值不类似于总体均值;抽样次数也要大,不然分布达不到正态分布

你可能感兴趣的:(山顶洞人学机器学习,机器学习,人工智能,统计学,数据分析)