147、统计学之误差思维和置信区间

一、误差思维
一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量 ,误差是不可避免的。只要有估计,就会有误差。
对于上面这样的情况,我们都会给予其一个误差范围,在统计学中也叫置信区间。
二、置信区间和置信水平
置信区间:误差范围

置信水平:区间包含总体平均值的概率p(a<样本平均值
1.置信区间和置信水平.jpg

下面表示95%的置信水平构造出的置信区间:
2.表示95%的置信水平.jpg

图中黄色横线表示包含总体平均值的区间,红色横线表示不包含总体平均值的区间。
三、大样本如何计算置信区间?
大样本:当一个抽样调查的样本数量大于30。
这时候可以近似看出样本抽样分布趋近于正态分布,因此它符合中心极限定理。
下面以计算全国成年男性的平均身高为例,假设抽取样本100人,平均值167.1cm,标准差0.2cm
1.确定要求解的问题
计算全国成年男性的平均身高范围及精度
2.求样本的平均值和标准误差

标准误差为:
3.标准误差.jpg

3.确定置信水平

这里选常用置信水平%95,即精度为2个标准误差范围内:
4.选用置信水平%95.jpg

4.求出置信区间上下限的值

(1)由于选用的样本大小为100大于30符合正态分布,先求出如下图中两块红色区域面积(概率):
5.求红色区域概率.jpg

(2)通过查z表格查出标准分Z=-1.96
6.查出标准分Z.jpg

(3)求出a和b的值的方法:
7.求出a和b的值方法.jpg

(4)根据中心极限定理,样本平均值约等于总体平均值,最终求出a和b的值:
8.a和b的值.jpg

结论:当我们选用置信水平为%95时,求得置信区间为[167.0608,167.1392],即在两个标准误差范围内,全国成年男性的平均身高为167.0608cm到167.1392cm之间。
5.常用置信水平及其对应Z值(标准分)


9.常用置信水平及对应标准分.png

四、小样本如何计算置信区间?
小样本:当一个抽样调查的样本数量小于30。

这时候抽样分布符合t分布:
10. t分布.jpg

自由度:是指在不影响给定限制条件的情况下,可以自由变换信息的数量。可以将自由度看做估算其他信息时可有的独立信息数量。
在计算自由度的公式中n表示样本数量。
下面是以医院的药物分析为例,已知某种新药物A,现在选取10只小白鼠作为样本注射药物A,对其进行神经刺激并记录反应时间。经过实验发现平均反应时间为1.05秒,样本标准差为0.5秒。
1.确定要求解的问题
新药物A对神经的反应时间范围
2.求样本的平均值和标准误差

药物A标准误差为:
11.药物A的标准误差.jpg

3.查找t表格,求t值
计算自由度:df = n-1 = 10 - 1 = 9
这里依然选用置信水平%95,双侧和单侧表示的是t分布中的面积。

根据自由度df和置信水平查找t表格,求t值:
12.查找t表格并求t值.jpg

4.求出置信区间上下限的值

根据上面查表求得t = 2.262,代入下面的公式,求出置信区间上下限a、b的值:
13.求出置信区间上下限的值.jpg

结论:当我们选用置信水平为%95时,求得置信区间为[0.692,1.407],即在两个标准误差范围内,新药物A对神经的反应时间为0.692秒到1.407秒之间。

你可能感兴趣的:(147、统计学之误差思维和置信区间)