永野裕之《极简统计学》读书笔记

在信息过剩与价值多样化的现代,能够理解并表达出通过统计学运算得出的结论,已经成为现代人在社会上行走不可或缺的一项技能。

总的来说,统计就是将收集到的数据进行整理并加以分析的学问。

统计学用到的有4种比较有代表性的图表(柱状图、折线图、饼图与带状图),柱状图是一种主要用于比较数量大小的图表;折线图是一种主要用于表示数据变化与推移的图表;饼图适用于表示在一个整体中每个项目各占多少比例;带状图通常用于根据年份等条件,比较同一项目的占比变化情况。

常用一个有代表性的值,表示数据倾向特征,平均值是用得最多的,中位数和众数也可以作为代表值。想要知道数据的分散程度,就要考虑方差标准差。为了更加深入详细地研究数据的分散散程度,可以引入四分位数(首次见到这个概念)这个概念。四分位数是指,将数据从小到大排列并等分为4份后,处于3个分割点上的数。数据的中位数即为第2四位分数,数据前半部分的中位数为第1四分位数,数据后半部分的中位数为第3四分位数。研究数据整体的离散性时,最大值、最小值以及3个四分位数被称为“5大要数”。通过5大要数依次作差,观察各差大小来刻画数据的分散程度。

标准差不仅用于进一步的数据分析,在在推断统计中也经常用到,是一个非常重要的概念,甚至可以把标准差看作统计学的一个核心基础。需要注意的是,在“多峰性分布(有多个峰值)”的数据中,难以考证方差和标准差。因为,在这种数据中,有很多数值与平均值相差较大,以平均数为基准的数值难以确切表征数据与平均值的关系(这种情况如何解决?)。

在现实中,很多情况下的各变量之间并不是严密的函数关系,但存在着大致的关联,如何将这种关系的强弱以数学的方式加以表示和研究呢?答案是使用相关系数。

在研究数据相关性的时候,有两点需要注意。第一:研究得到的相关关系特征不能看作两个变量之间普遍的关系特征,可能含有偶然性。第二:两个变量之间的相关关系不能当作它们的因果关系,要注意区分。

计算相关系数需要用到三个值:两个变量的协方差、变量一的标准差和变量二的标准差。


image.png

根据r的值判断相关关系的强弱,一般按照如下标准:

image.png

如下图所示,以x和y的平均值作为分割线,将数据重新划分为4个象限,根据相关系数的表达式,分母为标准差之乘积大于0,正负只取决于分子。分子为数据与均值之差的乘积再求和,一、三象限的乘积大于0,而二、四象限的乘积小于0,根据数据点的多寡和距离均值线的远近,可以做一个粗略的估计,分子为正,就是我们看到的正相关。


image.png

当然,从图像看,是一种比较直观和粗略的估计,比较快捷(有时候只需要粗略估计,快速判断,就没有必要进行繁杂的操作了),具体相关到了何种程度,还是要使用相关系数的公式去计算。


image.png

推测统计。推测统计分为两个重要部分,一是通过研究样本对总体进行概率预测的“推论”;二是针对已知数据的差值,找出产生差值原因的“检验”。

比如在民意调查中,是从整个公民群体(总体)中选出一部分人(样本)进行调访,用以推论总体情况。在判断“喝咖啡能长寿”,“单身汉更短寿”这些说法的真伪时,则归于“检验”的范畴。

这本书很基础,其他内容基本是为中学数学基础的人准备的,故于此处略过不记。相比于小岛宽之的《极简统计学》而言,重心更在于统计入门所需的一些数学基础。此外,提出了使用“五大要数”考察数据分散程度和“多峰性分布”的情况,并对相关关系作了基本介绍。小岛宽之的书,更注重构成一个连续体系,更容易让人形成一种统计图像和思维,各有所长。但小岛宽之的书更容易让人学会如何提炼模型,分析问题,处理问题等实际应用。总之,因人所需而择之。

你可能感兴趣的:(永野裕之《极简统计学》读书笔记)