第四讲 随机思想的发展与应用
教学目标与教学指导:
正如英国学者威尔斯所说,统计的思维方法,就像读和写的能力一样,有一天会成为有效率的公民的必备能力。所以概率统计内容的教学要在提高学生的文化修养上下功夫,希望通过本专题的学习,了解统计与概率产生和发展的过程,从而对随机思想有更深刻的体会,能够在日常教学中中捕捉它渗透它,潜移默化地影响学生。
一、随机现象
在自然界和现实生活中,一些事物是相互联系和不断发展的。在它们彼此间的联系和发展中,根据它们是否有必然的因果联系,可以分成截然不同的两大类:一类是确定性的现象。这类现象是在一定条件下,必定会导致某种确定的结果。举例来说,在标准大气压下,水加热到100摄氏度,就必然会沸腾。事物间的这种联系是属于必然性的。通常的,自然科学各学科就是专门研究和认识这种必然性的,寻求这类必然现象的因果关系,把握它们之间的数量规律。
另一类是不确定性的现象。这类现象是在一定条件下,它的结果是不确定的。举例来说,同一个工人在同一台机床上加工同一种零件若干个,它们的尺寸总会有一点差异。为什么在相同的情况下,会出现这种不确定的结果呢?这是因为,我们说的“相同条件”是指一些主要条件来说的,除了这些主要条件外,还会有许多次要条件和偶然因素,这些是人们无法事先一一掌握的。正因为这样,我们对这一类现象的结果,就无法事先做出确定的答案。事物间的这种关系是属于偶然性的,这种现象叫做偶然现象,或者叫做随机现象。
在日常生产生活中,随机现象十分普遍。比如:每期体育彩票的中奖号码、同一条生产线上生产的灯泡的寿命等,都是随机现象。因此,我们说:随机现象就是:在同样条件下,多次进行同一试验或调查同一现象,所得的结果不完全一样,而且无法准确地预测下一次所得结果的现象。随机现象这种结果的不确定性,是由于一些次要的、偶然的因素影响所造成的。
随机现象从表面上看,似乎是杂乱无章的、没有什么规律的现象。但实践证明,如果同类的随机现象大量重复出现,它的总体就呈现出一定的规律性。大量同类随机现象所呈现的这种规律性,随着我们观察的次数的增多而愈加明显。比如掷硬币,每一次投掷很难判断是哪一面朝上,但是如果多次重复的掷这枚硬币,就会越来越清楚的发现它们朝上的次数大体相同。
我们把这种由大量同类随机现象所呈现出来的集体规律性,叫做统计规律性。概率论和数理统计就是研究大量同类随机现象的统计规律性的数学学科。但是应该指出,概率论、数理统计又都各有它们自己所包含的不同内容。下面我们分别来看一看它们的起源与发展。
二、数理统计学的起源(一)
数理统计学是研究收集数据、分析数据并据以对所研究的问题做出一定的结论的科学和艺术。数理统计学所考察的数据都带有随机性(偶然性)的误差。这给根据这种数据所做出的结论带来了一种不确定性,其量化要借助于概率论的概念和方法。因此,数理统计学与概率论成为密切联系的两个学科。
统计学首先起源于收集数据的活动。小至个人的事情,大至治理一个国家,都有必要收集种种有关的数据,如在我国古代典籍中,就有不少关于户口、钱粮、兵役、地震、水灾和旱灾等等的记载。现今各国都设有统计局或相当的机构。当然,单是收集、记录数据这种活动本身并不能等同于统计学这门科学的建立,需要对收集来的数据进行排比、整理,用精炼和醒目的形式表达,在这个基础上对所研究的事物进行定量或定性估计、描述和解释,并预测其在未来可能的发展状况。例如根据人口普查或抽样调查的资料对我国人口状况进行描述,根据适当的抽样调查结果,对受教育年限与收入的关系,对某种生活习惯与嗜好(如吸烟)与健康的关系作定量的评估。根据以往一般时间某项或某些经济指标的变化情况,预测其在未来一段时间的走向等。做这些事情的理论与方法,才能构成一门学问——数理统计学的内容。
这样的统计学始于何时?恐怕难于找到一个明显的、大家公认的起点。一些著名学者认为,英国学者葛朗特在1662年发表的著作《关于死亡公报的自然和政治观察》,标志着这门学科的诞生。中世纪欧洲流行黑死病,该病在欧洲猖獗两个世纪,夺去了2500余万人的生命。自1604年起,伦敦教会每周发表一次“死亡公报”,记录该周内死亡的人的姓名、年龄、性别、死因。以后还包括该周的出生情况——依据受洗的人的名单,这基本上可以反映出生的情况。几十年来,积累了很多资料,葛朗特是第一个对这一庞大的资料加以整理和利用的人,他原是一个小店主的儿子,后来靠自学成才。他因这一部著作被选入当年成立的英国皇家学会,反映出学术界对他这一著作的承认和重视。
这是一本篇幅很小的著作,主要内容为8个表,从今天的观点看,这只是一种例行的数据整理工作,但在当时则是有原创性的科研成果,其中所提出的一些概念,在某种程度上可以说沿用至今,如数据简约(大量的、杂乱无章的数据,须经过整理、约化,才能突出其中所包含的信息)、频率稳定性(一定的事件,如“生男”、“生女”,在较长时期中有一个基本稳定的比率,这是进行统计性推断的基础)、数据纠错、生命表(反映人群中寿命分布的情况,至今仍是保险与精算的基础概念)等。
葛朗特的方法被他同时代的政治经济学家佩蒂引进到社会经济问题的研究中,他提倡在这类问题的研究中不能尚空谈,要让实际数据说话,他的工作总结在他去世后于1690年出版的《政治算术》一书中。
当然,也应当指出,他们的工作还停留在描述性的阶段,不是现代意义下的数理统计学。那时,概率论尚处在萌芽的阶段,不足以给数理统计学的发展提供充分的理论支持,但不能由此否定他们工作的重大意义。作为现代数理统计学发展的几个源头之一,他们以及后续学者在人口、社会、经济等领域的工作,特别是比利时天文学家兼统计学家凯特勒19世纪的工作,对促成现代数理统计学的诞生起了很大的作用。
“电脑算命”看起来挺玄乎,只要你报出自己出生的年、月、日和性别,一按按键,屏幕上就会出现所谓性格、命运的句子,据说这就是你的“命”。
其实这充其量不过是一种电脑游戏而已。我们用数学上的抽屉原理很容易说明它的荒谬。
抽屉原理又称鸽笼原理或狄利克雷原理,它是数学中证明存在性的一种特殊方法。举个最简单的例子,把3个苹果按任意的方式放入两个抽屉中,那么一定有一个抽屉里放有两个或两个以上的苹果。这是因为如果每一个抽屉里最多放有一个苹果,那么两个抽屉里最多只放有两个苹果。运用同样的推理可以得到:
原理1 把多于n个的物体放到n个抽屉里,则至少有一个抽屉里有2个或2个以上的物体。
原理2 把多于mn个的物体放到n个抽屉里,则至少有一个抽屉里有m+1个或多于m+l个的物体。
如果以70年计算,按出生的年、月、日、性别的不同组合数应为70×365×2=51100,我们把它作为“抽屉”数。我国现有人口11亿,我们把它作为“物体”数。由于1.1×=21526×51100+21400,根据原理2,存在21526个以上的人,尽管他们的出身、经历、天资、机遇各不相同,但他们却具有完全相同的“命”,这真是荒谬绝伦!
在我国古代,早就有人懂得用抽屉原理来揭露生辰八字之谬。如清代陈其元在《庸闲斋笔记》中就写道:“余最不信星命推步之说,以为一时(注:指一个时辰,合两小时)生一人,一日生十二人,以岁计之则有四千三百二十人,以一甲子(注:指六十年)计之,止有二十五万九千二百人而已,今只以一大郡计,其户口之数已不下数十万人(如咸丰十年杭州府一城八十万人),则举天下之大,自王公大人以至小民,何啻亿万万人,则生时同者必不少矣。其间王公大人始生之时,必有庶民同时而生者,又何贵贱贫富之不同也?”在这里,一年按360日计算,一日又分为十二个时辰,得到的抽屉数为60×360×12=259200。
所谓“电脑算命”不过是把人为编好的算命语句象中药柜那样事先分别一一存放在各自的柜子里,谁要算命,即根据出生的年月、日、性别的不同的组合按不同的编码机械地到电脑的各个“柜子”里取出所谓命运的句子。这种在古代迷信的亡灵上罩上现代科学光环的勾当,是对科学的亵渎。
三、数理统计学的起源(二)
数理统计学的另一个重要源头来自天文和测地学中的误差分析问题。
早期,测量工具的精度不高,人们希望通过多次测量获取更多的数据,以便得到对量测对象的精度更高的估计值。量测误差有随机性,适合于用概率论即统计的方法处理,远至伽利略就做过这方面的工作,他对测量误差的性态作了一般性的描述,法国大数学家拉普拉斯曾对这个问题进行了长时间的研究,现今概率论中著名的“拉普拉斯分布”,即是他在这研究中的一个产物。
这方面最著名且影响深远的研究成果有二:一是法国数学家兼天文学家勒让德19世纪初(1805)在研究慧星轨道计算时发明的“最小二乘法”,他在估计过巴黎的子午线长这一工作中,曾使用这个方法。现今著作中把这一方法的发明归功于高斯,但高斯使用这一方法最早见诸文字是1809年,比勒让德晚。一种观点现在逐步取得公认——这项发明系由二人独立做出,看来是比较妥当的。另外一个重要成果是德国大学者高斯1809年在研究行星绕日运动时提出用正态分布刻画测量误差的分布。正态分布也常称为高斯分布,其曲线是钟形,故有时又称为“钟形曲线”。它反映了这样一种极普通的情况:天下形形色色的事物中,“两头小,中间大”的居多,如人的身高,太高太矮的都不多,而居于中间者占多数——当然,这只是一个极粗略的描述,要作出准确的描述,须动用高等数学的知识。
正态分布在数理统计学中占有极重要的地位,现今仍在常用的许多统计方法,就是建立在“所研究的量具有或近似地具有正态分布”这个假定的基础上,而经验和理论(概率论中所谓“中心极限定理”)都表明这个假定的现实性。现实世界许多现象看来是杂乱无章的,如不同的人有不同的身高、体重。大批生产的产品,其质量指标各有差异。看来毫无规则,但它们在总体上服从正态分布。这一点显示,在纷乱中有一种秩序存在。提出正态分布的高斯,一生在多个领域里面有不少重大的贡献,但在德国10马克的有高斯图像的钞票上,只画出了正态曲线,以此可以看出人们对他这一贡献评价之高。
四、数理统计学的初步发展
20世纪以前数理统计学发展的一个重要成果,是19世纪后期由英国遗传学家兼统计学家高尔顿发起,并经现代统计学的奠基人之一K·皮尔逊和其他一些英国学者所发展的统计相关与回归理论。所谓统计相关,是指一种非决定性的关系,如人的身高X与体重Y,存在一种大致的关系,表现在X大(小)时,Y也倾向于大(小),但非决定性的:由X并不能决定Y。现实生活和科技领域中,这种例子很多,如受教育年限与收入的关系,经济发展水平与人口增长速度的关系等,都是属于这种性质。统计相关的理论把这种关系的程度加以量化,而统计回归则是把有统计相关的变量,如上文的身高X和体重Y的关系的形式作近似的估计,称为回归方程。现实世界中的现象往往涉及众多变量,它们之间有错综复杂的关系,且许多属于非决定性质,相关回归理论的发明,提供了一种通过实际观察去对这种关系进行定量研究的工具,有着重大的认识和实用意义。
到20世纪初年,数理统计学已积累了很丰富的成果。但是直到这时为止,我们还不能说现代意义下的数理统计学已经建立起来,其主要标志之一就是这门学问还缺乏一个统一的理论框架,这个任务在20世纪上半叶得以完成,狭义一点说可界定在1921—1938年。起主要作用的是几位大师级的人物,特别是英国的费歇尔·K·皮尔逊,发展统计假设检验理论的奈曼与E·皮尔逊和提出统计决策函数理论的瓦尔德等。我国已故著名统计学家许宝禄(1910—1970)在这项工作中也卓有建树。
自二战结束迄今,数理统计学有了迅猛的发展,主要有以下三方面的原因:一是数理统计学理论框架的建立以及概率论和数学工具的进展,为统计理论在面上和向纵深的发展打开了门径和提供了手段。许多在早期比较粗略的理论和方法,在理论上得到了完善与深入,并不断提出新的研究课题;二是实用上的需要,不断提出了复杂的问题与模型,吸引了学者们的研究兴趣;三是电子计算机的发明与普及应用,一方面提供了必要的计算工具——统计方法的实施往往涉及大量数据的处理与运算,用人力无法在合理的时间内完成,所以在早年,一些统计方法人们虽然知道,但很少付诸实用,就因为是人力所难及。计算机的出现解决了这个问题。而赋予统计方法以现实的生命力。同时,计算机对促进统计理论研究也有助益,统计模拟是其表现之一。
在承认上述成就的同时,不少统计学家也指出这一时期发展中出现的一些问题或偏向。其中主要的一点是,数理统计学理论研究中的“数学化”气味愈来愈重,相当一部分研究工作停留在数学的层面,早期那种理论研究与现实问题密切结合的优良传统有所淡化,一些学者还提出了补救的建议,对未来统计学发展的方向进行探讨。同时,现实问题愈来愈涉及到大量的、结构复杂的数据,按现行的数理统计学规范去处理,显得力所不及,需要一些带有根本性创新的思路,使统计学的发展登上一个新的台阶,以适应应用上的需要。考虑这一背景,有的统计学家乐观地认为数理统计学正面临一个新的突破。
另外,由于概率论的概念和方法是数理统计学的理论基础,概率论的进展也必然对数理统计学的发展起促进作用。
五、概率论的产生
概率,又称几率,或然率,指一种不确定的情况出现可能性的大小,例如,投掷一个硬币,“出现国徽”(国徽一面朝上)是一个不确定的情况。因为投掷前,我们无法确定所指情况(“出现国徽”)发生与否,若硬币是均匀的且投掷有充分的高度,则两面的出现机会均等,我们说“出现国徽”的概率是1/2。同样,投掷一个均匀骰子,“出现4点”的概率是1/6,除了这些简单情况外,概率的计算不容易,往往需要一些理论上的假定。在现实生活中则往往用经验的方法确定概率,例如某地区有N人,查得其中患某种疾病者有M人,则称该地区的人患该种疾病的概率为M/N,事实上这是使用统计方法对发病概率的一个估计。
概率的概念起源于中世纪以来在欧洲流行的用骰子赌博。
1654年,有一个赌徒梅累向当时著名的数学家帕斯卡提出了一个使他苦恼了很久的“分赌本问题”。这一问题曾引起热烈的讨论,并经历了长达100多年才得到正确的解决。举该问题的一个简单情况:甲、乙二人赌博,各出赌注30元,共60元,每局甲、乙胜的机会均等,都是1/2。约定:谁先胜满3局则他赢得全部赌注60元,现已赌完3局,甲2胜1负,而因故中断赌博,问这60元赌注该如何分给2人,才算公平?初看觉得应按2:1分配,即甲得40元,乙得20元,还有人提出了一些另外的解法,结果都不正确。正确的分法应考虑到如在这基础上继续赌下去,甲、乙最终获胜的机会如何。至多再赌2局即可分出胜负,这2局有4种可能结果:甲甲、甲乙、乙甲、乙乙。前3种情况都是甲最后取胜,只有最后一种情况才是乙取胜,二者之比为3:1,故赌注的公平分配应按3:1的比例,即甲得45元,乙15元。
当时的一些学者,如惠更斯、帕斯卡、费尔马等人,对这类赌博问题进行了许多研究。有的出版了著作,如惠更斯的《论机会游戏的计算》,曾长期在欧洲作为概率论的教科书。这些研究使原始的概率和有关概念得到发展和深化。
不过,在这个概率论的草创阶段,最重要的里程碑是伯努利的著作《推测术》。在他死后的1713年发表,这部著作除了总结前人关于赌博的概率问题的成果并有所提高外,还有一个极重要的内容,即如今以他的名字命名的“大数律”。大数律是关于(算术)平均值的定理,算术平均值,即若干个数X1、X2……Xn之和除以n,是最常用的一种统计方法,人们经常使用并深信不疑。但其理论根据何在,并不易讲清楚,伯努利的大数律回答了这一问题。在某种程度上可以说,这个大数律是整个概率论最基本的规律之一,也是数理统计学的理论基石。
六、概率论的发展
概率论虽发端于赌博,但很快在现实生活中找到多方面的应用,首先是在人口、保险精算等方面,在其发展过程中出现了若干里程碑:《机遇的原理》,其第三版发表于1756年,法国大数学家拉普拉斯的《分析概率论》,发表于1812年,1933年苏联教学家柯尔莫哥洛夫完成了概率论的公理体系,在几条简洁的公理之下,发展出概率论整座的宏伟建筑,有如在欧几里得公理体系之下发展出整部几何。自那以来,概率论成长为现代数学的一个重要分支,使用了许多深刻和抽象的数学理论,在其影响下,数理统计的理论也日益向深化的方向发展。
特别是近几十年来,随着科技的蓬勃发展,概率论大量应用到国民经济、工农业生产及各学科领域。许多兴起的应用数学,如信息论、对策论、排队论、控制论等,都是以概率论作为基础的。
概率与人民币面值
新中国发行的各套人民币中,除了一套有3元面值之外,其它各套人民币均没有3、4、6、7、8、9这些数值的面值。纵观世界各国的货币,上述面值也不见。
原来这是货币印制部门依据数学概率原理作出的选择。众所周知,国家银行发行货币,总希望用尽量少的币值单位来组合成各种数字,以减少货币总个数的流通量,进而节省流通和印刷费用。因为在1~10这10个自然数中,有“重要数”和“非重要数”之分,若用1、2、5、10这四个“重要数”就能以最少的加减运算,组成另外的那些数,如:1+2=3;2+2=4;1+5=6;2+5=7;10-2=8;10-1=9。如果将这四个“重要数”中的任何一个数用3、4、6、7、8、9这些“非重要数”中的一个来代替,就会出现有的数要两次以上的加减才能组成的繁琐现象。
因此,我国的各套人民币包括纸币、硬币和纪念币主要还是用1、2、5、10作面值。
七、中学数学中概率与数理统计内容的处理
在当今信息社会中,无处不遇到受随机影响的大量信息和数据,需要人们去分析、处理,并作出明智决策。为此,各国纷纷把概率和统计列为中学数学的必修课程。我国的中学数学课程也为此作过长期的尝试,在实践过程中也经历了一条不算短的曲折道路。新课标在认真分析和总结这些年的经验和教训的基础上,对中学数学中概率与数理统计内容的处理提出了如下一些建议:
(1)随机思想是认识随机现象和统计规律的重要思想,统计思想主要体现在把握数据的能力,养成会用数据“说事”,收集数据,整理数据,分析数据,从数据中提取信息,并利用这些信息说明问题,在这个过程中,形成对数据的敏感,养成会用数据“说事”的习惯。随机思想渗透在统计的过程中,这两部分内容联系非常紧密,在中小学阶段,统计的分量要更大一些。在高中阶段,随机思想和统计思想的介绍分为两部分,在必修中,设计了概率初步和统计初步的内容;在选修1-2和选修2-2中,设计了统计案例;在选修2-3中,设计了对于概率的进一步理解,理解随机变量和一些离散的随机变量模型。
(2)必修的统计课程,我们希望学生对统计有一个初步的认识。希望学生通过案例体会统计的全过程:收集数据、利用图表整理和分析数据、求出数据的数字特征、进行统计推断。在这个过程中,进一步体会随机思想和统计的重要性。
(3)必修的概率课程,我们希望学生能够通过对日常生活中的随机现象,对概率的概念有一个较好的认识,例如,降水概率、彩票的中奖率等等随机现象。通过古典概型和随机模拟了解概率的意义和初步的应用。
(4)在选修2-3中,我们能够认识到分布列是描述随机现象的规律。通过一些典型的分布列,例如二项分布、超几何分布等,进一步体会概率在研究随机现象中的作用。
(5)在选修1-2和2-2中,介绍了几种常见的统计案例。
(6)随机思想与传统的数学思想有比较大的不同。有的方法看起来不难,但是理解起来还是有困难的,建议教师通过大量的具体案例来帮助学生理解。在统计课程中,案例教学是基本的教学模式,通过对案例的学习体会数据处理的过程和思想。
讨论与思考:
1、数理统计学的起源是什么?
2、20世纪上半叶数理统计学迅猛发展的原因是什么?
3、概率论的起源是什么?
4、你认为应如何做好概率论与数理统计的教学?