推断统计学(一)——参数估计

0.0 描述统计学和推断统计学

        统计学是一门围绕数据展开的科学。从应用上看,可分为描述统计(descriptive statistics)和推断统计(inferential statistics)。

        描述统计是对数据整体特征进行描绘,包括集中趋势(平均数、众数、中位数)离散趋势(标准差、极差、四分位差值)变化趋势(同比、环比)分布趋势(偏度、峰度)等非常耳熟能详的概念,并且描述统计也是各类统计工作(如统计年报、企业经营报告等)的主要内容。

        推断统计则是在数据描述的基础上作出更多信息的推断。

1.0 基本概念和原理说明

1.1 总体&参数 vs 样本&估计

        首先需要对总体(population)、参数(parameter)、样本(sample)和估计(estimator)概念进行说明。

        总体就是对某一现象或某一事物的所有可能情况的数据集合。但实际中由于时间、地点、预算、人力等客观条件的限制几乎无法获得数据的全集,只能经济适用地取得其中的一部分数据(及子集),这就是样本。而获取样本的过程即为抽样(sampling),这是一项严谨复杂的工作,这里就不展开说了。

        了解完样本和总体,还需要明确一点:通常的描述统计工作都是针对样本数据进行的,准确地来说是在描述样本,而不是总体,但是可以基于样本数据的描述对总体的数据特征进行估计,这就是参数估计(parameter estimation)。参数(parameter)其实是描述总体数据的指标的统称,如总体均值、总体方差等。由于总体数据无法获得,这些参数实际是未知的,此时就只能通过样本数据对总体参数进行推断。这一过程就是参数估计,推断得出的数值就是参数的估计或估计值,如样本均值、样本方差等。

1.2 抽样分布

        抽样分布(sample distribution)是指样本估计量的分布等(注意!不是样本数据的分布)。单次抽样能够得到一组样本,据此可计算相对应的样本统计量;假设进行无数次抽样,那么这些样本统计量就形成一个分布,即抽样分布。

1.3 中心极限定理

服从以均值为、方差为的正态分布,即:~;而表示样本统计量(sampling statistics)的离散程度,被称为样本误差(sampling error, SE)。

        (中心极限定理是推断统计的核心,参数估计和假设检验都是基于中心极限定理实现的)

        此外,作为样本量,若逐渐增大,则逐渐减小,即抽样分布的方差缩小,从图像上看表现为变“窄”。这是由于随着样本量增大,抽样将逐渐趋近于总体,样本均值将不断趋近于总体均值,因此方差会变小,分布图像会变窄。

2.0 参数估计

        参数估计(parameter estimation)就是使用抽样所得的样本统计量对总体的未知参数进行估计。从估计结果上看,可分为点估计和区间估计。

2.1 点估计

        点估计(point estimation)是最为常见的估计形式,就是直接以样本统计量作为总体参数的估计值,由于样本统计量仅是一个数值,因此称之为点估计。那么区间估计,顾名思义就是以一段数值区间作为总体参数的估计值。

2.2 区间估计

        区间估计(interval estimation)是以数值区间的形式作为参数估计。那么如何确定估计区间呢?

        根据中心极限定理,样本均值服从正态分布,其中为总体均值,为总体方差,为样本量。根据正态分布中取值概率的特征,样本均值应该分别有90%、95%、99%的概率落在以为中心的+/-1.645SE、+/-1.96SE、+/-2.58SE的范围内。

        具体看95%和+/-1.96SE的情况,实际是指与有95%的可能性相距不超过1.96SE,有可能是+1.96SE,也有可能是-1.96SE。利用上述性质,就可以反推得到也有95%的概率落在以为中心的+/-1.96SE的范围内,即:

        这一范围就是对于总体的均值参数的区间估计,因为只有95%的可能性(被称为“置信度”)包含总体均值,因此被称为置信区间。

你可能感兴趣的:(推断统计学(一)——参数估计)