点估计就是用样本统计量来估计总体参数。
概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。
点估计常用方法:矩估计法、顺序统计量法、最大似然法
矩估计是指使用样本矩及其函数去替换相应的总体矩及其函数:
如:用样本均值估计总体均值;用样本方差估计总体方差;用样本中位数估计总体中位数。
矩估计的优点:
不依赖总体的分布,简便易行;只要样本数量N充分大,精确度也很高
矩估计的缺点:
精度较差;要求总体的某个K阶矩存在
是利用已知样本的结果,反推最大概率导致这样结果的参数值。
通过小故事来说明最大似然估计的基本思想:
某位猎场小白同学与一位资深猎人外出打猎,一直野兔从前方窜过。只听到一声枪响,兔子应声倒下。这时候推测:是谁打中了兔子?
这时候我们会想,一枪就中,最有可能(最大概率)就是猎人打中的
最大似然估计优点:
利用了分布函数的形式,得到的估计量精度一般较高
最大似然估计缺点:
要求必须知道总体的分布函数形式
区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。
关于置信水平(置信度)、置信区间和显著性水平:
置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;
例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
置信水平用百分数表示,表示成(1-a)100%;a指的是显著性水平,表示总体参数不落在置信区间的可能性。
关于置信区间的计算:
通过部分样本来计算总体参数的一个置信区间有以下步骤:
注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;
标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号
区间估计分为一个总体参数的估计和两个总体参数的估计
总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;
均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
Z分布: 其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
T分布: 对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
切比雪夫不等式: 对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
卡方统计量的计算公式:
总体方差的双侧置信区间估计公式为:
其中带有a/2的为下标;
如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间
或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。
两个总体均值之差的估计,两个总体方差比的区间估计
两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。
可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性
独立样本和配对样本:
独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。
均值和方差的特点:
两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。
差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:
F分布可用于求取两个正态分布总体方差比的置信区间。
F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
当给定置信水平时,可推出两个正态分布总体方差比的置信区间
在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为: