20220719听书笔记：怎样用数据解决问题？

从“数人头”开始

先举个生活中的事——数人头。老师带着孩子们春游，经常要数人头，看看有没有少人。如果你当过老师，就知道其实数人头并不容易，很多时候，孩子总是到处跑来跑去，你刚刚数完一群，没数的和数过的就混在一起了。你看着忘情奔跑打闹的王小帅，都忘了刚刚有没有数过他。怎么办？

生活经验告诉我们，数人头的时候，人不能动，要集合，要排队，然后一个一个数完再解散。这其实就是统计学的思想。当整体在一段时间中不发生数量变化的时候，某个时间点的数字就代表了整体的数字。你可以理解成这是基于时间的抽样。

如果孩子就是不老老实实排队，怎么办呢？统计学还可以帮助你。你给每个学生编个号，班上32个孩子，每个孩子都有个序号，你数数，直接从1号喊到32号，很快就知道谁在谁不在了。这是统计学将每个孩子用编号一一对应，通过抽象的排序来解决孩子到处跑的问题。

而如果人数很多，上升到全国，“数人头”这件事就更难了。全国的数人头就是人口统计。这要数得准，就很难了。数一个班的人，孩子们站着不动，一分钟就数清楚了。数十几亿人，一秒钟数100个人，24小时的数，不眠不休也得数100多天。这100多天，全国人口会不断流动，出差啊，务工啊，孩子出生啊，老人去世啊。而且不仅要数得准，还要能分类数。知道每个家庭有多少人，这是家庭人口构成；还有大学本科毕业的有多少人，这是人口教育情况；男性和女性、不同年龄段各有多少人，这是人口结构。怎么办？

还得靠统计学，每个人的身份证就是一种抽象排序，其实直接数身份证的数量就可以数人头了。但当分类数的时候，身份证这种抽象排序就困难了。一方面，有些人没有准确的身份证信息，比如刚刚出生，还没有办理出生证明的孩子，这时候它还没办身份证呢，再比如因为历史原因，大家的身份证不唯一。另一方面，身份证号码没法知道人口分布、人口教育情况和人口结构这样的分类数据。

你知道的，统计学可以靠人口普查来解决这个问题。

1990年后，我们每十年有一次全国范围的人口普查。你可能不知道，人口普查有个条例，叫《全国人口普查条例》。里面规定的是，每次人口普查的标准时点是11月1日零点。为什么选11月，和孩子数人头要集中一样，这个时间，全国的人口流动是最低的。还有两个月要过年了，外来务工的王小帅就懒得折腾到处跑了。

标准时点是啥意思呢？虽然人口普查的数据一般是第二年三四月份才公布，但公布的数据理论上来说是那个标准时点，也就是上一年的11月1日零点全国的人口数量。普查就是全国统一一个时间点，大家一起数那个时间点下的人头。控制流动，限制变化，都是为了数得尽可能准。

每十年普查一次，间隔有点长，为了及时掌握人口变化情况，统计局还会在两次人口普查之间，进行1%的全国人口抽样调查，通过抽样数据预估每一年的人口变化。这都是用统计学的方法更好地数人头。

统计学是解决真实的问题

生活中，还有很多不准确的事儿，或者说在事情没发生前，没法准确地知道结果。

比如总统大选，既没有办法只通过身边几个人的意见就估计总统大选的结果，条件也不允许把所有投票的人挨个问一遍。统计解决这个问题可以靠抽样，通过简单随机样本，尽可能让样本对总体有代表性。

再比如，就算是抽样调查，有的人也可能会说假话，怎么办？有些人可能不愿意承认自己反对奥巴马这样的黑人总统候选人，在调查中撒了谎，怎么办？这叫“回应误差”（response error）。统计学可以通过分层抽样，适当对误差进行修正。

不仅可以通过统计技巧来减少误差，更重要的是，统计学还有一套对调查质量进行评估的方法。这种方法不仅可以定性地判断调查的好坏，还可以定量地告诉你误差有多大、有多可信。

民意调查还有很大的范围去抽样，而如果数据很少呢？比如那个经典的例子，二战时，盟军通过缴获的德国坦克的编号，估算德国坦克的数量。缴获坦克的数量本来就很少，也容不得你使用各种方法抽样。这样的问题，统计学可以通过“点估计”和“矩估计”的方法去预测。二战时，数学家就是用矩估计的方法，几乎准确地预测了德国坦克的产量。

统计学的思想其实是和现实世界的真实问题相结合的，它的处理手段，其实都是在弥补和修正现实生活中人的各种弱点，比如人到处跑、人不说实话、人无法了解真相等等。

统计学可以解决一些数字问题，而一些看起来与“数”无关的挑战，统计学也可以解决。

比如，《红楼梦》究竟是不是曹雪芹一个人写的，还是说有人续写了后四十章？续写的人是高鹗吗？还有，《西班牙悲剧》的续写者是莎士比亚吗？这些问题，统计学也能解决。

很多年前，统计学家使用词频统计、回归分析、多重检验等一系列方法，对《红楼梦》前80回和后40回进行了比较，发现前后存在巨大的语言断层。常用的形容词、副词、虚词的频率，出现了显著变化，段落长度、分句甚至标点的频率也发生了变化。而一部小说的作者如果是一个人，前后用语、用词以及标点符号的习惯，应该是更为统一的。

传统上，历史学跟数字没什么太大关系，但统计学同样可以对历史进行研究。比如一项发表在《美国国家科学院院刊》上的研究，研究者通过分析100年来的新闻和书籍数据，用统计学的方法，清晰勾勒出了美国性别歧视、种族歧视的发展和演变过程。结果和那些我们已知的妇女解放运动、反种族歧视运动完美匹配了起来。这就为历史这样的学科提出了一个新的分析框架。

还有就是医学领域，验证一个药品、一个疗法是否有效，规避掉我们都知道的安慰剂效应。统计学通过随机实验的双盲设计、假设检验，能够有效地确定药品和治疗手段的用处，目前已经成为医药领域最主流的方法。

举这么多例子，我想告诉你，统计学当然是以数字为基础的，但它想解决的问题不是一个抽象的数学问题，面对的不是枯燥的公式，而是人们真实的生活。

真实世界的挑战，统计学的应对

所以，“数”不“数”并不重要，进入统计学的世界，我们只需要把真实世界中的挑战分为三大类。

第一类，从数据中提取信息。

前面数人头的例子，就代表了这一大类挑战。数孩子的数量，是为了看有没有少人，确定要买多少门票、准备多少午饭。数全国人民的人头，是要知道总人数有多少，人口结构是怎样的，受教育程度如何等等。人口普查是按户进行的，给你几亿户家庭的原始数据，你是发现不了有意义的信息的，必须通过统计的方法，从数据中抽取。

这就好比是文章的中心思想或者演讲要点，听一整段话，看一整篇文章，你可能会不明确什么是重要的，但通过浓缩中心思想或者观看演讲中的PPT，要点就浮现出来了。这就是真实世界的第一类挑战，从一堆数据中获得信息。

第二类挑战是从数据中萃取价值。光有信息还不够，我们还需要从信息中得到决策和判断的依据，这就是价值。就像光知道全国人口的信息是不够的，我还要知道人口增长速度是放缓还是增大了，人口结构是怎么变化的，人口流动是加剧还是收缩了。获得球员比赛的数据信息之后，我得判断这个球员的价值，也就是转会的话，值多少钱。

第三类挑战是从数据中获得未知。像预测总统大选、药品的有效性、德国坦克的生产数量这类事儿，就不仅仅是提取信息和萃取价值了，而是去探索未知世界，去预测，去获取知识。通过观察一类蝴蝶，推测蝴蝶的体长特征。看一家店铺的营业额，推测明年的销售业绩。获得人口普查的数据，去预测十年后中国人口的变化。

小结

所以统计学首先是解决真实世界问题的，无论是数的问题，或不是数的问题。

20220719听书笔记：怎样用数据解决问题？

你可能感兴趣的:(20220719听书笔记：怎样用数据解决问题？)