这里先要知道几个概念!
均值(平均值):一组数据的平均值,比如学生时代最喜欢的平均分;
方差:一组数据与平均值的偏离程度;
标准差(标准误差):方差开根号,反应数据的离散程度;
置信区间:统计的数据误差范围,所以有个上下值,比如农产品上写的5kg±5%。
置信水平:让人相信的概率,比如置信水平是95%,如100个数据,有95个数据在上面的置信区间上。
①求均值;
②求标准误差;
③查表的z值,如下表:
置信水平 | |z|值 |
90% | 1.64 |
95% | 1.96 |
99% | 2.58 |
④计算置信区间:
a = 样本均值 - |z| * 标准差
b = 样本均值 +|z| * 标准差
如下代码:
import numpy as np
from scipy import stats
valueList = [95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 200]
if __name__ == '__main__':
averageValue = np.mean(valueList)
print("样本均值为:", averageValue)
standardError = stats.sem(valueList)
print("样本标准误差为:", standardError)
a = averageValue - 1.96 * standardError
b = averageValue + 1.96 * standardError
print("区间估计值:[", a, "," ,b, "]")
pass
运行截图如下:
可以得到的信息:
①样本的平均值是108.33;
②样本的离散程度为8.38;
③这里的置信水平是95%,对应的|z|值为1.96;
④有95%的概率,总体的样本会落到91.90~124.76这个范围中。