前言

前一篇我们说到，统计学是数据分析的理论基础，而计算机科学是工具，业务知识用于辅助理解。学习一样东西，最重要的就是要打好基础，否则等到使用的时候再回顾，费时费力不说，自己也很容易陷入迷茫。统计学作为数据分析的理论支持，里门给出了数据分析的流程以及应该使用的方法，只有这些东西了然于心，使用工具进行分析的时候你才知道自己“在哪里”，才知道下一步应该做什么，而不是根据别人给你流程亦步亦趋，你只会这样走，数据或业务出现任何一点变化你都无法解决，用数据挖掘中的一个术语来说就是过度拟合。就像如果你知道你们城市的主干道路、知道你们城市的特色景点、知道每一所大学在什么地方，那么把你扔在城市中的任何一个地方，你都可以以最快的时间规划处最好的路线，当然如果有手机地图（指导你的人）也可以指导你回家，但是你能保证你的手机每时每刻都有电吗？

1、什么是统计学？

统计学的定义：统计学是一门收集、处理、分析、解释数据并从中得出结论的科学。

统计学是关于数据的科学，它提供咯一套关于数据收集、处理、分析、解释数据并从中得出结论的方法。数据收集就是获取数据；数据处理就是将数据用图表等形式展示出来；数据分析则是用适当的统计方法研究数据，并从数据中提取有用的信息进而得出结论

数据分析的方法可分为描述统计方法和推断统计方法。描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法，描述的是数据的现状；推断统计是研究如何利用样本数据来推断总体特征的统计方法，推断的是数据的“未来”。

统计的应用领域：统计学是适用于所有学科领域的通用数据分析方法，只要有数据的地方就能用到统计方法。

2、统计数据的类型

2.1 分类数据、顺序数据、数值型数据

根据计量尺度不同可以分为分类数据、顺序数据、数值型数据。

分类数据：只能归于某一类别，通常用文字来描述。如性别分为男、女两类，颜色分为暖色调、冷色调等。分类数据可以用数字代码来表示各个类别，如用1表示“男”，用0表示“女”，等等。

顺序数据：只能归于某一有序类别的非数字型数据。顺序数据也是分类数据，但它是有序的。如产品分为一级、二级、三级，评价分为优、良、中、差，等。同样的，顺序数据也可以用数字代码来表示。比如4表示“优”，3表示“良”，2表示“中”，1表示“差”。

数值型数据：这类数据结果表现为具体的数值。现实中处理的大多数都是数值型数据。

PS：分类和顺序数据说明的是事物的品质特征，通常可以用文字来描述，其结果均表现为类别，因此也可统称为定性数据或品质数据；数值型数据说明的是现象的数量特征，通常用数值来表现，因此也可称为定量数据或数量数据。

2.2 观测数据、实验室数据

按照统计数据的收集方法，可以将数据分为观测数据和实验数据。

观测数据：此类数据是通过调查或观测而收集到的数据，这类数据是在没有对事物认为控制的条件下得到的。

实验数据：这是在实验中控制实验对象而收集到的数据。

2.3 横截面数据、时间序列数据、面板数据

按照被描述的现象与时间的关系，可以将之分为横截面数据和时间序列数据。

横截面数据：在相同或近似的时间点上收集的数据，通常是不同空间上获得的。如2017年云南、贵州、四川的GDP分别是8、7、9。

时间序列数据：这类数据是按时间顺序收集到的，用于描述现象随时间变化的情况。如2015、2016、2017年四川省的GDP分别是7.5、8、9。

面板数据：横截面数据通常在不同空间获得，时间序列通常在不同时间获得，面板数据综合了两种数据，既包含空间属性，又包含时间属性。如2015、2016、2017年云南、贵州、四川省的GDP分别是：（2015年，7、6.5、7.5）（2016年，7.6、7、8）（2017年，8,、7、9）

3、统计中的几个基本概念

3.1 总体和样本

总体（population）是包含所研究的全部个体（数据）的结合。

总体通常由所研究的个体组成，如我们研究成都市居民的平均身高，那么所有成都市居民的身高就是我们研究的总体，每一个居民的身高就是一个个体。注意，我们关心的主体是成都市居民的身高，而不是成都市居民本身。

总体根据所包含的单位数目可以分为有限总体和无限总体。有限总体的范围能够明确确定，且数目有限可数，如成都市居民的身高。无限总体是指总体包含的个体是无限的不可数的，如扔骰子，每次实验结果是一个个体，而实验可以无限进行。总体分为有限和无限主要是为了判别在抽样中每次抽取是否独立。对于有限总体，每抽取一个单位，总体就会少一个，前一次的抽样往往会影响后一次的结果，因此不独立；对于无限总体，每次抽取一个单位并不影响下一次结果，所以独立。

样本（sample）是从总体中抽取的一部分元素的集合，构成样本的元素个数成为样本量。

抽样的目的就是根据样本提供的信息推断总体的特征，比如从一批灯泡中随机抽取100个，这100个就构成了一个样本，然后我们可以用这100个灯泡的特征去推断总体的特征。

3.2 参数和统计量

参数（parameter）是用来描述总体的概括性数字度量，是总体的某种特征值。

常用的参数有总体均值（μ）、总体比例（π）、总体标准差（σ）等，通常用希腊字母表示。总体是未知的，所以参数是一个未知的常数，这也是我们抽样的目的，根据样本计算出的值来推断总体参数。

统计量（statistic）是用来描述样本特征的概括性数字度量，是由样本计算出来的一个量。

统计量是样本的函数。假如我们进行抽样，样本容量为100，总共进行了10次。第一次抽样计算出样本均值(读作x bar)到，因为抽样的随机性，每次抽到的100个个体都可能不一样，计算出的样本均值也可能不一样，所以样本均值是样本的函数。除了样本均值外，我们通常还关心样本比例（p）、样本方标准差（s）等，它们通常用英文字母表示。

由于样本是已经抽出来的，所以统计量我们总是可以计算出来，抽样的目的就是根据样本统计量（、p、s）去估计总体参数（μ、π、σ）。

除了样本均值、样本比例、样本方差这类统计量，还有一些是为了统计分析需要而构造出来的统计量，如用于统计检验的z统计量、（卡方）统计量、t统计量、F统计量等。

3.3 变量

变量是说明现象某种特征的概念，其特点是从一次观察到下一次观察结果会呈现差别或变化。

如“商品销售额”、“性别”、“成都市人民的身高”等都是变量，变量的具体取值叫变量值，如“成都市人民的身高”可以取170、165、178等，这些就是变量值。

变量可以分为分类变量、顺序变量、数值型变量，与前面2.1的数据类型对应。其中数值型变量根据取值的不同，又可以分为离散型变量和连续型变量。

2018-12-18 统计学导论

前言