从“数人头”开始
先举个生活中的事——数人头。老师带着孩子们春游,经常要数人头,看看有没有少人。如果你当过老师,就知道其实数人头并不容易,很多时候,孩子总是到处跑来跑去,你刚刚数完一群,没数的和数过的就混在一起了。你看着忘情奔跑打闹的王小帅,都忘了刚刚有没有数过他。怎么办?
生活经验告诉我们,数人头的时候,人不能动,要集合,要排队,然后一个一个数完再解散。这其实就是统计学的思想。当整体在一段时间中不发生数量变化的时候,某个时间点的数字就代表了整体的数字。你可以理解成这是基于时间的抽样。
如果孩子就是不老老实实排队,怎么办呢?统计学还可以帮助你。你给每个学生编个号,班上32个孩子,每个孩子都有个序号,你数数,直接从1号喊到32号,很快就知道谁在谁不在了。这是统计学将每个孩子用编号一一对应,通过抽象的排序来解决孩子到处跑的问题。
而如果人数很多,上升到全国,“数人头”这件事就更难了。全国的数人头就是人口统计。这要数得准,就很难了。数一个班的人,孩子们站着不动,一分钟就数清楚了。数十几亿人,一秒钟数100个人,24小时的数,不眠不休也得数100多天。这100多天,全国人口会不断流动,出差啊,务工啊,孩子出生啊,老人去世啊。而且不仅要数得准,还要能分类数。知道每个家庭有多少人,这是家庭人口构成;还有大学本科毕业的有多少人,这是人口教育情况;男性和女性、不同年龄段各有多少人,这是人口结构。怎么办?
还得靠统计学,每个人的身份证就是一种抽象排序,其实直接数身份证的数量就可以数人头了。但当分类数的时候,身份证这种抽象排序就困难了。一方面,有些人没有准确的身份证信息,比如刚刚出生,还没有办理出生证明的孩子,这时候它还没办身份证呢,再比如因为历史原因,大家的身份证不唯一。另一方面,身份证号码没法知道人口分布、人口教育情况和人口结构这样的分类数据。
你知道的,统计学可以靠人口普查来解决这个问题。
1990年后,我们每十年有一次全国范围的人口普查。你可能不知道,人口普查有个条例,叫《全国人口普查条例》。里面规定的是,每次人口普查的标准时点是11月1日零点。为什么选11月,和孩子数人头要集中一样,这个时间,全国的人口流动是最低的。还有两个月要过年了,外来务工的王小帅就懒得折腾到处跑了。
标准时点是啥意思呢?虽然人口普查的数据一般是第二年三四月份才公布,但公布的数据理论上来说是那个标准时点,也就是上一年的11月1日零点全国的人口数量。普查就是全国统一一个时间点,大家一起数那个时间点下的人头。控制流动,限制变化,都是为了数得尽可能准。
每十年普查一次,间隔有点长,为了及时掌握人口变化情况,统计局还会在两次人口普查之间,进行1%的全国人口抽样调查,通过抽样数据预估每一年的人口变化。这都是用统计学的方法更好地数人头。
统计学是解决真实的问题
生活中,还有很多不准确的事儿,或者说在事情没发生前,没法准确地知道结果。
比如总统大选,既没有办法只通过身边几个人的意见就估计总统大选的结果,条件也不允许把所有投票的人挨个问一遍。统计解决这个问题可以靠抽样,通过简单随机样本,尽可能让样本对总体有代表性。
再比如,就算是抽样调查,有的人也可能会说假话,怎么办?有些人可能不愿意承认自己反对奥巴马这样的黑人总统候选人,在调查中撒了谎,怎么办?这叫“回应误差”(response error)。统计学可以通过分层抽样,适当对误差进行修正。
不仅可以通过统计技巧来减少误差,更重要的是,统计学还有一套对调查质量进行评估的方法。这种方法不仅可以定性地判断调查的好坏,还可以定量地告诉你误差有多大、有多可信。
民意调查还有很大的范围去抽样,而如果数据很少呢?比如那个经典的例子,二战时,盟军通过缴获的德国坦克的编号,估算德国坦克的数量。缴获坦克的数量本来就很少,也容不得你使用各种方法抽样。这样的问题,统计学可以通过“点估计”和“矩估计”的方法去预测。二战时,数学家就是用矩估计的方法,几乎准确地预测了德国坦克的产量。
统计学的思想其实是和现实世界的真实问题相结合的,它的处理手段,其实都是在弥补和修正现实生活中人的各种弱点,比如人到处跑、人不说实话、人无法了解真相等等。
统计学可以解决一些数字问题,而一些看起来与“数”无关的挑战,统计学也可以解决。
比如,《红楼梦》究竟是不是曹雪芹一个人写的,还是说有人续写了后四十章?续写的人是高鹗吗?还有,《西班牙悲剧》的续写者是莎士比亚吗?这些问题,统计学也能解决。
很多年前,统计学家使用词频统计、回归分析、多重检验等一系列方法,对《红楼梦》前80回和后40回进行了比较,发现前后存在巨大的语言断层。常用的形容词、副词、虚词的频率,出现了显著变化,段落长度、分句甚至标点的频率也发生了变化。而一部小说的作者如果是一个人,前后用语、用词以及标点符号的习惯,应该是更为统一的。
传统上,历史学跟数字没什么太大关系,但统计学同样可以对历史进行研究。比如一项发表在《美国国家科学院院刊》上的研究,研究者通过分析100年来的新闻和书籍数据,用统计学的方法,清晰勾勒出了美国性别歧视、种族歧视的发展和演变过程。结果和那些我们已知的妇女解放运动、反种族歧视运动完美匹配了起来。这就为历史这样的学科提出了一个新的分析框架。
还有就是医学领域,验证一个药品、一个疗法是否有效,规避掉我们都知道的安慰剂效应。统计学通过随机实验的双盲设计、假设检验,能够有效地确定药品和治疗手段的用处,目前已经成为医药领域最主流的方法。
举这么多例子,我想告诉你,统计学当然是以数字为基础的,但它想解决的问题不是一个抽象的数学问题,面对的不是枯燥的公式,而是人们真实的生活。
真实世界的挑战,统计学的应对
所以,“数”不“数”并不重要,进入统计学的世界,我们只需要把真实世界中的挑战分为三大类。
第一类,从数据中提取信息。
前面数人头的例子,就代表了这一大类挑战。数孩子的数量,是为了看有没有少人,确定要买多少门票、准备多少午饭。数全国人民的人头,是要知道总人数有多少,人口结构是怎样的,受教育程度如何等等。人口普查是按户进行的,给你几亿户家庭的原始数据,你是发现不了有意义的信息的,必须通过统计的方法,从数据中抽取。
这就好比是文章的中心思想或者演讲要点,听一整段话,看一整篇文章,你可能会不明确什么是重要的,但通过浓缩中心思想或者观看演讲中的PPT,要点就浮现出来了。这就是真实世界的第一类挑战,从一堆数据中获得信息。
第二类挑战是从数据中萃取价值。光有信息还不够,我们还需要从信息中得到决策和判断的依据,这就是价值。就像光知道全国人口的信息是不够的,我还要知道人口增长速度是放缓还是增大了,人口结构是怎么变化的,人口流动是加剧还是收缩了。获得球员比赛的数据信息之后,我得判断这个球员的价值,也就是转会的话,值多少钱。
第三类挑战是从数据中获得未知。像预测总统大选、药品的有效性、德国坦克的生产数量这类事儿,就不仅仅是提取信息和萃取价值了,而是去探索未知世界,去预测,去获取知识。通过观察一类蝴蝶,推测蝴蝶的体长特征。看一家店铺的营业额,推测明年的销售业绩。获得人口普查的数据,去预测十年后中国人口的变化。
小结
所以统计学首先是解决真实世界问题的,无论是数的问题,或不是数的问题。