统计学——可汗学院

  • 统计入门——可汗学院
    • Sample and population
      • Summary of Population and Sample
    • Law of Large Number
    • Central limit theorem
    • Sampling distribution
      • What is a sampling distribution?
      • Sampling Distribution of Sample Proportion
        • Normal conditions for sampling distributions of sample proportion

统计入门——可汗学院

Sample and population

Sample is a part of population that is so selected to represent the entire group.


统计学——可汗学院_第1张图片
统计学——可汗学院_第2张图片

阅读资料:
Sample Vs Population
Difference between sample and population

Summary of Population and Sample

Measurement of central tendency of a data set: Mean, Median
Measurement of dispersion: Variance, Standard deviation

Concept Description Sample Population
Mean The mean of a sample or a population is computed by adding all of the observations and dividing by the number of observations.
X¯¯¯¯=ni=1xin X ¯ = ∑ i = 1 n x i n
μ=Ni=1xiN μ = ∑ i = 1 N x i N
Variance In a population, variance is the average squared deviation from the population mean.
s2=ni=1(xiX¯¯¯¯)2n1 s 2 = ∑ i = 1 n ( x i − X ¯ ) 2 n − 1
σ2=Ni=1(xiμ)2N σ 2 = ∑ i = 1 N ( x i − μ ) 2 N
Standard Deviation The standard deviation is the square root of the variance
s=ni=1(xiX¯¯¯¯)2n1 s = ∑ i = 1 n ( x i − X ¯ ) 2 n − 1
σ=Ni=1(xiμ)2N σ = ∑ i = 1 N ( x i − μ ) 2 N

方差的另一个公式:

σ2=i(xiμ)2N=ix2i2μixi+iμ2N=ix2iNμ2 σ 2 = ∑ i ( x i − μ ) 2 N = ∑ i x i 2 − 2 μ ∑ i x i + ∑ i μ 2 N = ∑ i x i 2 N − μ 2

Law of Large Number

可以参见之前一篇:大数定理和中心极限定理
谢益辉:大数定理和中心极限定理

概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。 在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。 通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。

所谓大数定律是, X1,X2 X 1 , X 2 ,…是一列独立同分布 (i.i.d) ( i . i . d ) 的可积随机变量, EXn=μXn¯=X1+X2+...+Xnn E X n = μ , X n ¯ = X 1 + X 2 + . . . + X n n ,则 EXn¯μ. E X n ¯ → μ .
最后收敛的方式是依概率收敛的话称作弱大数定律,几乎处处收敛的话称作强大数定律。
统计学——可汗学院_第3张图片
统计学——可汗学院_第4张图片
统计学——可汗学院_第5张图片
统计学——可汗学院_第6张图片
统计学——可汗学院_第7张图片

Central limit theorem

中心极限定理描述随机变量序列收敛于正态分布。
就是说从一个存在均值和方差的总体中简单随机抽样得到的样本均值是服从正态分布的(当n>=30)。
统计学——可汗学院_第8张图片
统计学——可汗学院_第9张图片
图中为随机变量的概率分布,假设样本大小为4,不断抽样,计算样本均值。
统计学——可汗学院_第10张图片
统计学——可汗学院_第11张图片
统计学——可汗学院_第12张图片
绘制频率直方图,可以发现,随着样本大小n的增大,样本均值(随机变量)会越来越接近正态分布。
统计学——可汗学院_第13张图片
统计学——可汗学院_第14张图片
统计学——可汗学院_第15张图片

统计学——可汗学院_第16张图片


统计学——可汗学院_第17张图片

当样本量 n n 逐渐趋于无穷大时, n n 个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布,如上图,这个正态分布的均值会越来越逼近总体均值,并且其方差满足 σ2n σ 2 n σ σ 为总体的标准差,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布的。

中心极限定理和大数定律的区别

Sampling distribution

What is a sampling distribution?

What is the distribution of the values that we could get for the statistics?
what is the frequency with which I can get different values for the statistic that is trying to estimate the parameter?
That distribution is a sampling distribution.
统计学——可汗学院_第18张图片

A sampling distribution for the sample mean with sample size of 2
统计学——可汗学院_第19张图片

统计学——可汗学院_第20张图片

Sampling Distribution of Sample Proportion

从桶里取球,黄球的比例p=0.6。
统计学——可汗学院_第21张图片

p=0.6:
统计学——可汗学院_第22张图片

p=0.1:
统计学——可汗学院_第23张图片

p=0.9:
统计学——可汗学院_第24张图片

sample size n=10:
统计学——可汗学院_第25张图片

sample size n=50 (tighter distribution):
the higher the sample size, the smaller the standard deviation
统计学——可汗学院_第26张图片

Normal conditions for sampling distributions of sample proportion

Under which conditions does the sampling distributions of sample proportion look roughly normal/ right skewed/ left skewed?
统计学——可汗学院_第27张图片

The mean of the sampling distribution of sample proportion is going to be the same thing as the population mean.
统计学——可汗学院_第28张图片
统计学——可汗学院_第29张图片
统计学——可汗学院_第30张图片

你可能感兴趣的:(统计)