均值与期望:傻傻分不清?

作者: 一人


文章大纲

  • 众多原因造成平均值与期望的混淆
  • 学习与应用过程当中对于二者“不加区分”
  • 二者联系十分紧密
  • 语言文化的影响
  • 区分平均值和期望
    • 明确平均值的研究范畴-数理统计
    • 明确期望的研究范畴-概率论
    • 大数定理的应用与局限
  • 学习建议


前些日子偶然间听到一位新同事问一位做算法的同事:均值是不是期望?老算法回答说:这是不同的概念。说完之后,由于有事就急匆匆的走了。偶听到之后狐疑了一会,打开了搜索引擎。当然,答案是非常明晰且简单的,均值严格来说就是期望。然而在查阅网上相关讨论时发现很多人对它们是分不清的。后来思来想去,为什么造成如此大的误解?直至近日有了答案。

由于语言等方面的原因,通常人们口中说到均值的时候,是在谈论平均值。因此,以上的混乱事实上是对平均值和期望的混乱。而平均值属于《数理统计》的范畴,期望属于《概率论》的范畴,因此,这种混淆更深层次的反映出人们对这两门学科理解的混乱。

众多原因造成平均值与期望的混淆

通过查阅相关资料,发现混淆平均值和期望的现象并不是个例1,因此有理由怀疑这种现象的存在有着本质的原因,经过多方分析,我发现造成人们混淆两者关系的原因是多个方面的:

  1. 学习与应用过程当中对于二者“不加区分”
  2. 二者都是总体趋势的一种度量
  3. 语言文化的影响

学习与应用过程当中对于二者“不加区分”

  • 内容安排与课程设置上没有进行隔离

在学习相关知识的时候教材通常是《概率论与数理统计》,由于概率论与数理统计联系十分紧密,出版社将这两门学科安排在了同一本书中。对于懵懂的大一新生来说,都是一本书、一堂课、一个教学老师,对于习惯了以前不同科目不同老师的划分方式,这样的内容安排以及教学安排是很难接受的。学生在思维上没有及时转变过来,因此,混淆这两者的关系就是情理之中了。

  • 缺少实践机会无法对知识进行修正

我们说实践是检验真理的唯一标准,如果学习到错误的知识,那么在应用过程中就会出错,进而人们对于以前的概念进行修正,最终吸收的知识就一定是正确的。如果缺乏这种应用,那么就失去了发现错误概念并修正的机会。而且,应用实践相比学习难度大了不止一个量级,很多人往往也仅仅是做到了“学”,而放弃了”习“的过程。在《概率论与数理统计》这门课的学习过程中,在教学过程当中缺乏对于这两门知识的实践应用,安排的只是一些纯理论的计算,没有实验验证环节。因此,混淆知识就是十分普遍的了。

二者联系十分紧密

  • 二者都是总体趋势的一种度量

平均值2和中位数、众数、中点距被一起用来描述一组样本的中心趋势,是样本集合的一种中心化趋势的描述。期望的描述引述陈希孺院士《概率论与数理统计》3如下:

数学期望常称为“均值”,即“随机变量取值的平均值”之意,当然这个平均,是指以概率为权的加权平均。……数学期望是由随机变量的分布完全决定。

以上表明数学期望是随机变量的一种中心化趋势的描述。如果认为平均值和期望相同,大脑只需对一个点进行记忆;如果不同,就需要对两个点进行记忆,更何况是随机变量这种十分抽象的概念。因此,忽视前面的修饰(样本集合、随机变量)就是十分普遍的事情了。

  • 大数定理将二者连接起来

大数定理45说明当样本量N趋近无穷大的时候,样本的平均值无限接近数学期望。

In probability theory, the law of large numbers (LLN) is a theorem that describes the result of performing the same experiment a large number of times. According to the law, the average of the results obtained from a large number of trials should be close to the expected value, and will tend to become closer as more trials are performed.

这里有一个限定条件“样本量趋近无穷大”,往往人们容易遗忘的就是这个限定条件。如果样本较小的时候,使用平均值来代替期望就要计算它可信程度了(置信水平)。

语言文化的影响

前面引文说过,数学期望又叫均值;而我们的平均值和均值只是一字之差,少一个字就是相同的。而在英语中平均值写作average,均值写作mean,这两个字体上就差别比较大。

我们的目的是更好的应用,纵然有许多困难,还是需要克服。弄明白了混淆的原因,就要想办法将二者清晰的区分开来了。

区分平均值和期望

本文开头已经叙述过,平均值属于《数理统计》的范围,期望属于《概率论》的范围。文中又说到大数定理的连接作用。接下来我们将对其展开描述。

明确平均值的研究范畴-数理统计

数理统计6是数学的一个分支,通过数据收集、分析、理解来进行推理;应用于科学、工业、社会问题。通常研究的是统计类总体或统计模型的过程。在进行数据普查的时候,统计学家通过设计特定的实验来进行样本收集。其中,典型性抽样假设可以通过合理的方法将基于统计样本的结论和推论应用于整个总体。实验性研究通过设计系统的评价,并对系统进行修改,之后通过相同的过程对系统进行评价,判断通过这种修改系统的方式能否成功的修改系统的测量值。

数据分析领域有两个主要的统计方法:描述统计和统计推断。描述统计使用一些指标如均值、标准差对数据集合进行总结性描述;而统计推断从数据当中得出关于随机变量的结论,是对随机现象的分析,它的基础是概率论

标准的统计过程是关于测试两个数据样本之间的关系的,一个是真实的数据样本,一个是从理想模型当中采样得到的虚拟样本。通常人们开始时,都先假设这两个数据集之家没有关联,称关系假设为空。之后通过在数据集上进行统计测验,来对这种假设进行验证,根据验证结果来判断假设是否合理。这种情况下就会容易出现两种错误:“false positive”(假设被错误的拒绝)与“false negative”(假设被错误的接受),引起这些问题的因素非常的多:从获取足够的数据样本到想象够多的假设等。

对系统进行衡量而产生统计数据的过程也同样会面对误差,这些误差被分为随机误差和系统误差,但是其他类误差如人们无意间犯的错误、数据源错误等也同样重要。数据的丢失和删除可能会导致有偏性的估计值,当然现在已经有以下特定技巧对其进行缓解。

统计的出现可以追溯到公元前5世纪了,但是直到18世纪才开始了基于计算理论和概率论的理论分析。在近些年,统计已经成为更多的使用统计软件进行统计测试了,例如描述性分析。

从以上描述中可以看出平均值就是描述统计当中一个描述性指标,是数据集合总体趋势的一种描述指标。

数理统计以样本数据集合为出发点;概率论则不同,以事件的概率本质为出发点。

明确期望的研究范畴-概率论

概率论7是数学的一个分支,主要研究事件的概率。虽然概率论有很多种不同的解释,但对于它的表示则是建立在一组公理之上,这可是非常严谨的。严格讲,它将0与1之间的一个数值分配给输出集合(样本空间),这样在概率空间中形式化的表示概率。输出集合的任意子集就称作为一个事件。

概率论研究的主题主要包括离散和连续变量、概率分布、随机过程。它是非确定性或者不确定性过程的一个抽象表示,是随机方式出现或运行过程的一种可测性度量。

虽然不能完美的对随机事件进行预测,但是依然说明了很多规律。概率论有两个主要成果:大数定理和中心极限定理。

作为统计学的数学基础,概率论在人们关于数据定量分析有关的活动中扮演非常重要的角色。在复杂系统当中,当只提供部分信息时,概率论中的方法也可以用来对其进行描述。二十世纪最伟大的发现之一是在量子力学中,人们发现了在原子空间中物理现象的本质是基于概率的。

期望就是其中关于随机变量的一种总体性描述,它是事件本质的一种表达。

丛然,世间事物的本质扑朔迷离,对其进行准确的定量描述十分困难。但是经过众多天才科学家的不懈努力,最终找到了一条通往事物本质的大道,那就是大数定理。

大数定理的应用与局限

大数定理将属于数理统计的平均值和属于概率论的期望联系在一起。通过前文描述我们知道,通过收集大量的样本并计算样本集合的平均值可以无限近似期望,而且事物的其他本质属性则可以通过基于期望的变换得来,因此人们可以通过运用大数定律来接近事物本质。

找到接近事物本质的方法无疑是令人振奋的,其强大的魅力使很多人迷恋。但是,我们知道没有放之四海而皆准的东西,大数定理也不例外。

样本量很大的要求限制了大数定理的应用。大数定理强调需要当样本量趋近无限大的时候,平均值才可以无限接近期望,此时可以使用平均值代替期望,但是很多时候,样本收集具有很大的成本,或是时间成本或是金钱成本,因此只能收集到小样本量的数据。此时根据大数定理采用平均值代替期望的方法可信度就会下降,例如在医学临床试验中样本量太少;在行星轨迹观测中收集时间过长。

为了解决这个问题,人们提出了贝叶斯8的方法,此处不再展开,请查阅其他资料。

学习建议

当然,知识混乱我私以为大部分的责任是旁人的,个人只是承担很少的责任。倘若开始学习就看的是经典教材而不是为了照顾本校某位老师编著教科书的销量;倘若上课老师直接就是领域内的泰山北斗而不是某位领导的弟子;倘若课程中设计了动手实验环节而不是仅仅读书朗诵,那么我相信这种基础概念的混淆是不会出现的。当然以上阐述是以少看剧、少打游戏为前提的。


  1. zhihu, 随机变量的期望E(x)与X的平均值之间的区别与联系? ↩︎

  2. wikipedia,Average ↩︎

  3. 陈希孺.概率论与数理统计[M]. 中国科学技术大学出版社, 2009. ↩︎

  4. wikipedia,Law of large numbers ↩︎

  5. zhihu, 大数定律是必然的吗? ↩︎

  6. wikipedia,Statistics, 2018-04-12 ↩︎

  7. wikipedia,Probability theory,2018-03-29 ↩︎

  8. wikipedia, Bayes theorem ↩︎

你可能感兴趣的:(机器学习,老王和他的IT界朋友们,算法,机器学习,期望,均值)