读书笔记(赤裸裸的统计学)

作者简介

查尔斯•惠伦(Charles Wheelan),于1997~2002年间担任《经济学人》杂志驻美国中西部地区的记者,还为《芝加哥部报》、《纽约时报》和《华尔街日报》撰稿,现任芝加哥公共电台WBEZ节目财经记者。其所著《赤裸裸的经济学》已由中信出版社于2010年出版。

本书的介绍了生活中联系最为紧密的统计学概念,如大数定律、中心极限定理、随机抽样、回归分析以及由于混淆了准确与精确的概念可能造成的黑天鹅事件等。如果我们懂得了这些概念,会有助于在生活或投资领域做出正确的决策。

一辆车和两头羊的故事

美国的一档节目,三个门后面分别是一辆车、和两只羊,选手随机从三个门中选择一个门,只有选中的门后面是车就可以开回家,这其中有一个环节是当你选好一扇门,主持人会将剩余的两扇门打开一个,每一次主持人都打开门后有羊的那扇门,然后问选手是否更改最初的选择,最后确定最终的结果。咋一看上去凭直觉猜对的概率是1/3,其实呢,只要你更改答案,概率提高到2/3!原因如下:三个门任意两个门的组合有三种,车和羊、车和羊、羊和羊,也就是你选择一扇门之后剩余的两个门的组合情况,这三种组合的前两个组合你只要更改答案就能选对,因为主持人会把门后是羊的这扇门打开,剩下的就一定是车,所以对于这三种组合,你更改最初的选择就有两次机会选对。

大数据时代的统计学

现在各种视频、音乐、读书、购物网站都会给你推荐你喜欢的电影、歌曲、书及商品,那么“它们”是如何知道你的喜好的;各行各业都会应用到统计学,比如刚刚提到的各种网站,比如博彩、保险、金融等领域会利用统计学控制风险,比如体育行业利用统计学评判运动员是否优秀等等。所以说统计学是一把武器,让我们更清楚的理解这个世界的本质。

描述统计学

生活中存在各种描述性数据,对于同样一个问题,使用不同的描述性数据可能会得到不同的答案。因此描述性数据有其优点和局限性,有的时候你往往可以用某一个简单的数据就可以得到想要的答案,比如衡量哪个篮球运动员组织能力最强,场均助攻数量就可以足够说明了,但是你可能还要看这名球员身边是否有超级得分手这个因素,生活中这种例子还很多,那么如果多从几个角度去看,就可以比较准确的进行判断了。或许这些概念可以帮到你,平均数与中位数(四分位数、十分位数、百分位数)、绝对值与相对值、与离散程度有关的标准差及正态分布、百分占比等。

统计学数字会撒谎

“谎言有三种:谎言、该死的谎言、以及统计学”——马克吐温。

由于对于同样一个问题可以有不同的描述性数据来回答,那么如何判断哪个数据是对真相的准确描述就变的至关重要,答案是选择更接近真相的统计数据,在商界流传着一句至理名言“你无法管理你无法衡量的事物”,我想对于投资也是一样。另外要学会区分“精确”和“准确”,”精确“反应所描述事物的精度,即使再精确的统计数据结果,也有可能是不准确的,而准确才是接近真相的前提,所以在得到精确的数据时,前提要看是否符合常识。

相关性与相关系数

前面提到的各种网站如何知道你的喜好所利用的就是统计学中的相关性与相关系数的概念。相关性体现的是两个现象之间互相关联的程度,通过相关系数来描述程度的大小,相关系数范围取-1~1,正数为正相关,负数为负相关,为1时表达完全相关。另外牢记相关性不带标因果关系,比如电视机数量与孩子成绩为正相关性,不能说电视机的数量的多少决定了孩子的成绩好坏,而更有可能是电视机数量多表示家庭的富裕程度或者家长的教育程度决定了孩子的成绩好坏。相关系数的计算步骤详本书或其他材料。

概率与期望值

概率学时研究不确定事件和结果的学问。投资股市存在不确定性,其他如保险、彩票、赌博等也是具有不确定性的因素,因此概率学被应用在这些领域当中,概率可以告诉我们什么最有可能发生,什么最有可能不发生。期望值的概念是所有事件的概率和收益的乘机之和,用来描述可能的总收益,通常拿期望值与成本进行比较,来判断一项投资值不值。那么期望值的运用有没有前提呢?这里即将提到的一个概念就是大数定律,只有当试验的次数足够多,平均值才能接近期望值,所以某一次的投资结果可能高于或低于期望值,但当次数足够多(满足大数定律时),投资的结果是接近期望值的。当然生活中懂点概率学可以让我们做出更优的决策。

黑天鹅事件

在发现澳大利亚的黑天鹅之前,17世纪之前的欧洲人认为天鹅都是白色的。但随着第一只黑天鹅的出现,这个不可动摇的信念崩溃了。黑天鹅的存在寓意着不可预测的重大稀有事件,它在意料之外,却又改变着一切。人类总是过度相信经验,而不知道一只黑天鹅的出现就足以颠覆一切。黑天鹅事件的发生在我看来是人们模糊了一些概念导致的,精确不代表准确,小概率事件(尾部风险)不代表不会发生,不能仅仅以过往的经验来预测未来,两个事件是否是随机独立事件(赌徒谬误、检方谬误)等等,这些概念都需要清晰且明确。

数据与偏见

随机抽样是收集数据的主要方法,核心是必须保证每个对象被抽到的概率完全相等。如果不能保证等概率抽样,抽样数据就会存在“偏见”,就会得出错误结论。印象最深的两种偏见是“选择性偏见”和“幸存者偏见”,选择性偏见常常是由于样本的选择带有倾向性,不具有代表性,比如进行民意调查,如果只选择某一部分群体,即使样本数量再大,得出的调查结果也会出现偏差,不能反映所有人的意见。而幸存者偏见是由于样本中有数据缺失产生的偏见,最常见的或许就是“读书无用论”了吧,只看到少数没好好上学赚大钱的人,就得出这个结论,这类偏见在金融领域也时常发生,这也和前面提到的数据谎言相呼应。

中心极限定理

依据该定理,我们对一个基数庞大的群体做统计调查时,只要对其中的一部分样本进行研究,得出的结论就能反映整个群体的特点,也就是说任意一个群体的样本平均值都会围绕在该群体的整体平均值周围,并且呈正态分布。应用:1. 如果掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取随机样本的情况。2. 如果已知两个样本的基本特性,就能推理出这两个样本是不是来自同一个群体。

ps:读这本书的目的就是想了解统计学到底是怎么和生活中的一些事情产生联系的,虽然读大学的时候概率论与数理统计是必修课程,但是在学习的过程中仅限于课本和考试,根本就没想过会对生活有什么联系,脑子中也没有这些概念,我想即使生活中遇到了什么相关的事情,也不会第一时间或者可能永远都不会产生一丝的想法,如果在以后的生活中能够时刻的运用这些统计学中的概念,规避一些风险和谎言,就体现了读这本书的意义所在了。

你可能感兴趣的:(读书笔记(赤裸裸的统计学))