前言
前一篇我们说到,统计学是数据分析的理论基础,而计算机科学是工具,业务知识用于辅助理解。学习一样东西,最重要的就是要打好基础,否则等到使用的时候再回顾,费时费力不说,自己也很容易陷入迷茫。统计学作为数据分析的理论支持,里门给出了数据分析的流程以及应该使用的方法,只有这些东西了然于心 ,使用工具进行分析的时候你才知道自己“在哪里”,才知道下一步应该做什么,而不是根据别人给你流程亦步亦趋,你只会这样走,数据或业务出现任何一点变化你都无法解决,用数据挖掘中的一个术语来说就是过度拟合。就像如果你知道你们城市的主干道路、知道你们城市的特色景点、知道每一所大学在什么地方,那么把你扔在城市中的任何一个地方,你都可以以最快的时间规划处最好的路线,当然如果有手机地图(指导你的人)也可以指导你回家,但是你能保证你的手机每时每刻都有电吗?
1、什么是统计学?
统计学的定义:统计学是一门收集、处理、分析、解释数据并从中得出结论的科学。
统计学是关于数据的科学,它提供咯一套关于数据收集、处理、分析、解释数据并从中得出结论的方法。数据收集就是获取数据;数据处理就是将数据用图表等形式展示出来;数据分析则是用适当的统计方法研究数据,并从数据中提取有用的信息进而得出结论
数据分析的方法可分为描述统计方法和推断统计方法。描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法,描述的是数据的现状;推断统计是研究如何利用样本数据来推断总体特征的统计方法,推断的是数据的“未来”。
统计的应用领域:统计学是适用于所有学科领域的通用数据分析方法,只要有数据的地方就能用到统计方法。
2、统计数据的类型
2.1 分类数据、顺序数据、数值型数据
根据计量尺度不同可以分为分类数据、顺序数据、数值型数据。
分类数据:只能归于某一类别,通常用文字来描述。如性别分为男、女两类,颜色分为暖色调、冷色调等。分类数据可以用数字代码来表示各个类别,如用1表示“男”,用0表示“女”,等等。
顺序数据:只能归于某一有序类别的非数字型数据。顺序数据也是分类数据,但它是有序的。如产品分为一级、二级、三级,评价分为优、良、中、差,等。同样的,顺序数据也可以用数字代码来表示。比如4表示“优”,3表示“良”,2表示“中”,1表示“差”。
数值型数据:这类数据结果表现为具体的数值。现实中处理的大多数都是数值型数据。
PS:分类和顺序数据说明的是事物的品质特征,通常可以用文字来描述,其结果均表现为类别,因此也可统称为定性数据或品质数据;数值型数据说明的是现象的数量特征,通常用数值来表现,因此也可称为定量数据或数量数据。
2.2 观测数据、实验室数据
按照统计数据的收集方法,可以将数据分为观测数据和实验数据。
观测数据:此类数据是通过调查或观测而收集到的数据,这类数据是在没有对事物认为控制的条件下得到的。
实验数据:这是在实验中控制实验对象而收集到的数据。
2.3 横截面数据、时间序列数据、面板数据
按照被描述的现象与时间的关系,可以将之分为横截面数据和时间序列数据。
横截面数据:在相同或近似的时间点上收集的数据,通常是不同空间上获得的。如2017年云南、贵州、四川的GDP分别是8、7、9。
时间序列数据:这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况。如2015、2016、2017年四川省的GDP分别是7.5、8、9。
面板数据:横截面数据通常在不同空间获得,时间序列通常在不同时间获得,面板数据综合了两种数据,既包含空间属性,又包含时间属性。如2015、2016、2017年云南、贵州、四川省的GDP分别是:(2015年,7、6.5、7.5)(2016年,7.6、7、8)(2017年,8,、7、9)
3、统计中的几个基本概念
3.1 总体和样本
总体(population)是包含所研究的全部个体(数据)的结合。
总体通常由所研究的个体组成,如我们研究成都市居民的平均身高,那么所有成都市居民的身高就是我们研究的总体,每一个居民的身高就是一个个体。注意,我们关心的主体是成都市居民的身高,而不是成都市居民本身。
总体根据所包含的单位数目可以分为有限总体和无限总体。有限总体的范围能够明确确定,且数目有限可数,如成都市居民的身高。无限总体是指总体包含的个体是无限的不可数的,如扔骰子,每次实验结果是一个个体,而实验可以无限进行。总体分为有限和无限主要是为了判别在抽样中每次抽取是否独立。对于有限总体,每抽取一个单位,总体就会少一个,前一次的抽样往往会影响后一次的结果,因此不独立;对于无限总体,每次抽取一个单位并不影响下一次结果,所以独立。
样本(sample)是从总体中抽取的一部分元素的集合,构成样本的元素个数成为样本量。
抽样的目的就是根据样本提供的信息推断总体的特征,比如从一批灯泡中随机抽取100个,这100个就构成了一个样本,然后我们可以用这100个灯泡的特征去推断总体的特征。
3.2 参数和统计量
参数(parameter)是用来描述总体的概括性数字度量,是总体的某种特征值。
常用的参数有总体均值(μ)、总体比例(π)、总体标准差(σ)等,通常用希腊字母表示。总体是未知的,所以参数是一个未知的常数,这也是我们抽样的目的,根据样本计算出的值来推断总体参数。
统计量(statistic)是用来描述样本特征的概括性数字度量,是由样本计算出来的一个量。
统计量是样本的函数。假如我们进行抽样,样本容量为100,总共进行了10次。第一次抽样计算出样本均值(读作x bar)到,因为抽样的随机性,每次抽到的100个个体都可能不一样,计算出的样本均值也可能不一样,所以样本均值是样本的函数。除了样本均值外,我们通常还关心样本比例(p)、样本方标准差(s)等,它们通常用英文字母表示。
由于样本是已经抽出来的,所以统计量我们总是可以计算出来,抽样的目的就是根据样本统计量(、p、s)去估计总体参数(μ、π、σ)。
除了样本均值、样本比例、样本方差这类统计量,还有一些是为了统计分析需要而构造出来的统计量,如用于统计检验的z统计量、(卡方)统计量、t统计量、F统计量等。
3.3 变量
变量是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现差别或变化。
如“商品销售额”、“性别”、“成都市人民的身高”等都是变量,变量的具体取值叫变量值,如“成都市人民的身高”可以取170、165、178等,这些就是变量值。
变量可以分为分类变量、顺序变量、数值型变量,与前面2.1的数据类型对应。其中数值型变量根据取值的不同,又可以分为离散型变量和连续型变量。