统计学L10 抽样分布与中心极限定理(二)

大数法则与中心极限定理

一、课堂内容

1.大数法则的概念

(1)如果选择正确的统计量进行参数估算,样本量越大,统计量越接近参数;
(2)总体的方差、标准差等参数是不变的固定值;
(3)但随着对总体的不同抽样,统计量会发生变化。

2.中心极限定理的概念

(1)样本容量足够大,平均数的抽样分布越接近正态分布。
(2)中心极限定理不适用所有的抽样。适用范围包括但不限于:样本平均数;样本比例;样本平均数的差异;样本比例的差异等。

二、练习内容

大数法则的练习比较简单,就没有做笔记,这里主要是中心极限定理的两个练习。

1.第一组练习

使用样本量为3做实验。

a. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行3次取样

test_1 = np.random.choice(pop_data, 3)

b. 计算这3次取样的平均值

(test_1).mean()

c. 编写一个循环10,000次的程序来模拟这个过程,并将每个均值存储到一个名为 means_size_3 的数组中
means_size_3 = []
for _ in range(10000):
    test_1 = np.random.choice(pop_data, 3)
    means_size_3.append(test_1.mean())
d. 绘制一个样本均值直方图

plt.hist(means_size_3)

e. 使用 means_size_3 与 pop_data 回答下面的测试题目

抽样分布的平均数:

sum = 0
for item in means_size_3:
    sum += item
print(sum / len(means_size_3))

或者将list转为array可以直接使用mean函数
means_size_3 = np.array(means_size_3)
(means_size_3).mean()

总体平均数:
(pop_data).mean()

总体标准差:
(pop_data).std()

抽样分布标准差:
(means_size_3).std()

2.第二组练习

使用样本容量为100做实验。
流程和上面一样,将3改为100即可,不再重复。

三、总结

这部分课程内容中一直在提一个概念叫做样本量足够大才能获得最接近参数的统计值,那么多少样本容量叫做样本足够大呢?课程中未解释,希望后面的内容会提及。

这是Udacity数据分析(入门)课程的统计学lesson10的学习笔记二
Lesson10的课程学习结束
转载请注明出处

你可能感兴趣的:(统计学L10 抽样分布与中心极限定理(二))