wordrepss原文链接：《统计数据会说谎》读书笔记

《统计数据会撒谎》

how to lie with statistics

一本极为简单的入门读物，用生活中的例子介绍最常见的一些统计陷阱，所谓知己知彼，了解别人怎么撒谎，才能避免自己被误导。

第一章“带有偏差的样本”强调数据的来源，即样本的完整性，从抽样调查的角度看，就是确保抽样的样本能代表整体。“幸存者偏见”就是源自我们只关注了部分样本，忽略了其他，比如只关注“返航的飞机”而忽视“被敌人击落的飞机”（只关注幸存者而忽视逝者），比如电视上的犯罪报道会让我们以为世界是黑暗的，这是源自“不完整的样本”得出的结论。

第二章“精挑细选的平均数”介绍平均值这种典型的统计数字，推销员会根据想要的效果选择不同的平均值（均值，中位数，众数）。所以看到含有统计数据的结论时，都应该学会判断“统计数据的真正含义”，看到真正的结论。

第三章 “没有透露的小小数据” 介绍了最常见的几种数据遗漏产生的统计陷阱，最主要的是只看平均值而忽略波动范围（置信区间或显著性水平）。

第四章“无事瞎忙” 介绍的还是误差范围的重要性，强调只有显著性差异才有意义，否则都是瞎折腾。

《统计数据会撒谎》的内容都可以在《看穿一切的统计学》一书中找到对应内容。比如《统计数据会撒谎》前四章的内容都能从以下三章找到对应的内容。比如抽样调查即收集数据过程，忽略误差范围就是没有遵循“分析数据的两个原则”。

第一章介绍了统计学日益重要的大背景，这是一个数据爆炸和不确定的时代。第二章介绍如何收集数据，即“抽样调查”方法，通过“标准误差公式”强调了达到一定抽样数量后的标准误差足以媲美完全调查；第三章介绍如何分析数据，强调了分析数据的两个原则：适当的比较，考虑误差（p值）；不考虑误差的比较都是不准确的！第四章介绍了具体的统计实验方法即随机对照实验，通过随机可以控制误差，提高准确性；通过对照进行比较，比较方法同第三章；第五章介绍了广义统计方法，根据解释变量和结果变量的类型（连续值或二值）选择对应的统计方法；第六章介绍了统计思维的几个应用场景，并强调了频率思维方式和贝叶斯思维方式的方法和使用场景。—《看穿一切的统计学》读书笔记 – Zero

引言

第一章带有偏差的样本

关键词：抽样调查，偏差，随机抽样，分层随机抽样

主要内容：看到一个统计结果，不要着急看它的结论，而是要留意样本是否能代表整体！！

现实中难以做到纯随机抽样，更多使用的是分层随机抽样。

精选案例：电话调查会忽略掉家里没有电话的家庭，学校毕业生信息调查也会忽略掉工作窘迫的学生，而上报自己工作的人也倾向于夸大自己的工资。

当我们拿到一个统计数据，如果数据看起来很精确，比如“耶鲁大学1924届毕业生的平均年收入是25111美元”，我们就更容易相信结果是正确的，而如果我们看到的是“平均年收入是25000美元”，我们更容易意识到是2.5万左右。分析化学老师告诉我们，测量结果的最后一位是“估读位”，看来这也是一种直觉判断，将之前的数字看成是准确结果。

我的补充说明：在解决问题领域，不要着急解决问题，而是要先充分的定义和明确问题。看到统计数据也要有类似的意识，先去回溯“数据是怎么调查而来的”。

第二章精挑细选的平均数

关键词：平均数，均值，中位数，众数，

主要内容：统计数据会撒谎，其中一个经典方法是，在不同的场景使用不同类型的平均数。

精选案例：卖房子时，为了引导消费者以为邻居都是富人，就是用均值；为了让居民意识到大家都很贫穷，就用均值。 对于收入这种差距很大的数据，三种平均值的差别很大，所以是一种常见的统计陷阱。 但是对身高、体重这种范围不大的数据，三种平均值的差别就很小。

我的补充说明：如果比尔盖茨和我们同住一个小区，小区居民的均值就会剧增成千上万倍（平均值被无限抬高），但是众数和中位数几乎不会有变化。

第三章没有透露的小小数据

关键词：优先的样本，平均值，误差范围，小数定律

主要内容：

通过关注遗漏的数据，了解存在的统计陷阱。本章举了几个例子，最主要的例子是，只关注平均值而不关心误差范围。 误差范围就是显著性检验中的显著性水平（95%还是99%）或置信区间。

其次，有些统计结果是使用少量的样本调查而来，所以得到了非常有利的统计结果，然后就大肆宣传。这就是小树定律的概念，如果使用少量的样本，得到极端结果承可能性就比较大；与之相对的是“大数定律”。更有甚甚者，如果少量样本没有得到自己想要的结果，就抛弃重新实验，直到得到有利于自己的数据。

精选案例：厂家说自己的牙膏效果更好，可能是只用了极少的样本得到的统计结果。家长看到孩子身高和年龄的对应关系，就基于此判断自己的孩子发育正常还是缓慢，实际这种对应关系只是一个很粗略的关系，有很大的误差范围，但我们倾向于将具有很大误差范围的统计结果当作绝对结论来使用。

我的补充说明：这一章的两部分内容，一是有限的样本即“小数定律”，二是平均值和误差。前者对应于抽样调查的次数和标准误差的关系，后者强调既要关注平均值又要关注误差范围。

第四章无事瞎忙

关键词：误差范围，

主要内容：强调数据的比较需要关注误差范围，也就是上一章的内容。

精选案例：一种智商测评，学生A得了99分，学生B得了101分，这能说明学生B比学生A聪明吗？不能，因为测评的误差可能是+-5，所以结果之间没有显著性差异。

一个网站测试了市面上主流香烟的尼古丁等有毒物质含量，结果显示香烟之间没有显著性差异，但是某一个品牌发现自己的测试数据都比其他品牌低，因此大肆宣传“某某香烟在某某测评中证明毒性比其他香烟低”，但实际上却没有显著性差异，所以这个结论是毫无意义的。

我的补充说明：直接拿工作中的一个柔顺测试图片作为本章的例子：

2019.2.2 春节回家的高铁上，整理第二三四章的读书笔记并发表

《统计数据会说谎》读书笔记

引言

第一章 带有偏差的样本

第二章 精挑细选的平均数

第三章 没有透露的小小数据

第四章 无事瞎忙

你可能感兴趣的:(《统计数据会说谎》读书笔记)

第一章带有偏差的样本

第二章精挑细选的平均数

第三章没有透露的小小数据

第四章无事瞎忙