统计学是通过收集,整理,分析,描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识
统计的本业是消化数据,并产生有营养的结果
数据搜集:调查与试验
数据整理:分组
数据展示:图和表
数据分析:回归分析
统计学是大数据的三大基础学科之一
统计学注重的是方式方法,而大数据则更关注于整个数据价值化的过程
大数据不仅需要统计学知识,还需要具备数学知识和计算机知识
统计学为大数据进行数据价值化奠定了一定的基础
数学研究的是抽象的数量规律,统计学则是研究具体的实际现象的数量规律
数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据
统计学与数学研究中所使用的逻辑方法不同:数学研究所使用的主要是演绎;统计学则是演绎与归纳相结合,占主导地位的是归纳
描述统计是基础,推断统计是主体
①描述统计
收集/整理/展示数据,目的是描述数据特征和找出数据的基本规律
内容包括取得研究所需要的数据,用图表形式对数据进行加工处理和展示,进而通过综合,概括与分析,得出反映所研究现象的一般性特征
②推断统计
参数估计/假设检验,目的是对总体特征做出推断
研究如何利用样本数据对总体的数量特征进行推断的统计学分支
研究者所关心的是总体的某些特征,但总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题
其内容包括:抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等
①按计量尺度(定性数据:分类/顺序数据,定量数据:数值型数据)
分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的
顺序数据:只能归于某一有序类别的非数字型数据,也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的
数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据
②按收集方法
观测数据:通过调查或观测而收集到的数据,在没有对事物人为控制的条件下而得到的
实验数据:在实验中控制实验对象而收集到的数据,自然科学领域的数据大多是实验数据
③按时间状况
截面数据:在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况
时间序列数据:在不同时间上收集到的数据,描述现象随时间变化的情况
总体:所研究的全部个体(数据)的集合,其中每一个个体也称为元素
样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量
参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值
统计量:用来描述样本特征的概括性数字度量,是根据样本数据计算出来的一些量,是样本的函数
变量:说明现象某种特征的概念,特点是从一次观察到下一次观察结果会呈现出差别或变化
间接来源:系统内部,系统外部
直接来源:调查数据,实验数据
①概率抽样
也称为随机抽样,特点是随机,每个单位被抽中的概率是已知的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
分类:简单随机抽样,分层抽样,整群抽样,系统抽样,多阶段抽样
简单随机抽样:从总体N个单位中随机抽取n个单位作为样本,每个单位入抽样本的概率是相等的,这是最基本的抽样方法,是其它抽样方法的基础。特点是简单直观,在抽样框完整时可直接从中抽取样本,用样本统计量对目标量进行估计比较方便。局限性是当N很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难,没有利用其它辅助信息以提高估计的效率
分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立随机地抽取样本。优点是保证样本的结构与总体的结构比较相近,从而提高估计的精度,组织实施调查方便,既可以对总体参数进行估计,也可以对各层的目标量进行估计
整群抽样:将总体中若干单位合并为组(群),抽样时直接抽取群,然后对选群中的所有单位全部实施调查。特点是抽样时只需群的抽样框,可简化工作量,调查的地点相对集中,节省调查费用,方便调查的实施,缺点是估计的精度较差
系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位
多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干单位进行调查
②非概率抽样
抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查
分类:方便抽样,判断抽样,自愿抽样,滚雪球抽样,配额抽样等
方便抽样:调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。优点是容易实施,调查成本低。缺点是样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体
判断抽样:研究人员依据经验,判断和对研究对象的了解,有目的选择一些单位作为样本。是主观的,样本选择的好坏取决于调研者的判断,经验,专业程度和创造性。抽样成本比较低,容易操作。样本是人为确定,没有依据随机的原则,调查结果不能用于推断总体
自愿抽样:被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。自愿样本与抽样的随机性无关,样本是有偏的,不能依据样本的信息推断总体
滚雪球抽样:先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究。优点是容易找到那些属于特定群体的被调查者,调查的成本也是比较低
配额抽样:先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位;操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似;抽取具体样本单位时,不是依据随机原则,属于非概率抽样
实验组和对照组
实验中的若干问题
实验中的统计
抽样误差:由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异,影响抽样误差的大小的因素(样本量的大小,总体的变异性)
非抽样误差:除抽样误差以外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有调查之中(概率抽样,非概率抽样,全面性调查)
集中趋势是一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据一般水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据,选用哪一个测度值来反映数据的集中趋势要根据所掌握的数据的类型来确定
①分类数据:众数
一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可以用于顺序数据和数值型数据
②顺序数据:中位数和分位数
中位数:排序后处于中间位置上的值;不受极端值的影响;主要用于顺序数据,也可用于数值型数据,但不能用于分类数据;各变量值与中位数的离差绝对值之和最小
四分位数:排序后处于25%和75%位置上的值,不受极端值的影响
③数值型数据:平均数
也称为均值,集中趋势的最常用的测度值;易受极端值的影响;有简单平均数和加权平均数之分;根据总体数据计算的叫做平均数,根据样本数据计算的叫做样本平均数
④众数,中位数和平均数之间的比较
三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数处于一组数据中间位置上的值,而平均数则是全部数据的算术平均
如果数据的分布是对称的,众数,中位数,平均数必定相等
如果数据是左偏分布,说明存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值影响,三者关系:众数 > 中位数 > 平均数
如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数 < 中位数 < 平均数
⑤应用场合
众数:不受极端值影响,具有不唯一性,数据分布偏斜程度较大且有明显峰值时应用
中位数:不受极端值影响,数据分布偏斜程度较大时应用
平均数:易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用
①分类数据:异众比率
对分类数据离散程度的测度
非众数组的频数占总频数的比例
用于衡量众数的代表性
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差
②顺序数据:四分位差
对顺序数据离散程度的测度,也称为内距或四分间距
上四分位数与下四分位数之差
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
③数值型数据:方差和标准差(应用最广的离散程度的测度值)
极差:一组数据的最大值与最小值之差,容易受极端值的影响,由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,引而不能准确描述出数据的分散程度
平均差:各变量值与其平均数离差的绝对值的平均数,以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大说明数据的离散程度就越大。为了避免离差之和等于0而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差
方差:是各变量值与其平均数离差平方的平均数,是实际中应用最广泛的离散程度的测度值,因此它能准确地反映出数据的离散程度
标准差:是方差的平方根,具有量纲,与变量值的计量单位相同,实际意义比方差清楚
④相对离散程度:离散系数
①标准分数
是指变量值与其平均数的离差除以标准差后的差
可以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据,也给出了一组数据中各数值的相对位置
②经验法则
当一组数据对称分布时
约有68%的数据在平均数加减1个标准差的范围之内
约有95%的数据在平均数加减2个标准差的范围之内
约有99%的数据在平均数加减3个标准差的范围之内
③切比雪夫不等式
如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用
切比雪夫不等式提供的是下界,也就是“所占比例至少是多少”
对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k^2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数
标准差与其相应的均值之比
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较
集中趋势:指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在(描述集中趋势所采用的测度值分为:众数,中位数,分位数,平均数)
离散趋势:反映的各变量值远离其中心值的程度,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差。描述数据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率,四分位差,方差和标准差,此外还有极差,平均差以及测度相对离散程度的离散系数
数据分布对称性的测度
偏态数据 = 0:对称分布
偏态数据 > 0:右偏分布
偏态数据 < 0:左偏分布
偏态系数越接近0,偏斜程度就越低
数据分布扁平程度的测度
峰态系数 = 0:扁平峰度适中
峰态数据 < 0:扁平分布
峰态数据 > 0:尖峰分布