随机抽样(Random Sampling)和随机变量(Random Variable)
我们想研究一个总体(Population)或叫母体的某些参数(Parameter),比如均值(平均特征)、方差(分散的特征)、中位数(比例的特征),我们很多情况下,不能把所有的个体分别研究,例如我们想研究中国的成年女性罩杯的大小,总不能把所有中国女人的胸都两个两个拿来测吧?所以,我们只能抽样。相对的,如果全面地,一个一个地查,那叫普查。通常,样本总体可能太大,甚至就是抽象无限的,所以普查不可行,我们只能抽样。可是,我们要研究的是总体的特征啊,你只给我个抽样的,你怎么给我保证,你的抽样能代表总体?这是一个关键的问题。这里有两个前提,第一是,抽样这个行为必须是随机的;第二是,样本中的每个个体有相同的概率被抽中。这两点可以统一归纳为一个名词–随机抽样(Random Sampling)。通过随机抽样抽出的样本,例如,我们抽 n n 个,他们就是这个总体的容量为 n n 的随机样本,记为
X1,X2,X3,⋯,Xn, X 1 , X 2 , X 3 , ⋯ , X n ,
其中每个
Xi,i=1,2,⋯,n X i , i = 1 , 2 , ⋯ , n 为一个服从总体分布的
随机变量(Random Variable),每一个随机变量是
独立同分布(Independent and Identically Distributed,i.i.d. or iid or IID)的。什么是独立?独立就是抽取样本的这个行为互相之间没有影响。可是我们都知道,在概率论里我们经常研究的抽小球的问题中,如果小球抽出不放回,则每次的抽取是会影响总体分布的,不同的抽取实验之间也是不独立的。而很多时候我们抽样是不放回的,例如,意见征求的调查中,我们不希望重复问到一个人,这样的抽样是不放回的。所以照这样分析,这个抽样是独立的吗?实际上,对于抽样我们有一个隐含的
无限总体假设,那就是当样本数
n n 和总体个数
N N 之比小于
5% 5 % 时,即
nN<0.05 n N < 0.05 时,可以认为总体是无限的,此时抽取出来的样本可以视作对总体分布无影响。我们也可以从一个例子来理解这件事,例如,小明有1000块钱,如果我跟他借50块钱,可能他会觉得不痛不痒,可是如果小明只有100块钱,我还是借50块钱,可能他第二天就要找我算账了,就是这个道理,所有有时候我们也可以把这个假设理解成为
借钱假设。那什么是同分布呢?先啰嗦地说一下变量服从分布是什么意思吧。我自己在这一点的理解一开始就是有偏差的,我当时想不明白一个随机变量服从分布是什么意思,一个分布不是要画成一条曲线吗,至少应该有很多点才可以描成一条曲线,然后画出来的曲线像是某个分布的曲线才叫服从吧。实际上,一个变量确实是没办法画成一条曲线,但是却不妨碍它成为曲线的一部分,而我们知道,例如正态分布(Normal Distribution)的曲线,是中间高,两边矮,意思是说在中间分布的比较密集,两边比较稀疏,我们的变量服从这个分布,要求的是抽取出来的这个变量的属性会符合这个分布所描述的特性,例如从所有中国成年男性随机抽取一个人,按照总体的分布,这个人的身高在
170cm 170 c m 概率是比较高的,如果这个人的身高是一个服从总体分布的随机变量,那么这个变量的取值的概率应该是和总体取各值的概率是相近的,这样就叫服从分布。所以,这些随机变量同分布的意思就是,他们取到各个值的概率,都符合总体分布中取到各个值的概率。
一般大学里都是先教概率论再教统计,所以有时候容易忽略总体的数据是难以获得的这一现实,因为在概率论中我们都假设总体就服从某一分布,然后来研究它的一些特性和相关定理和计算的问题。虽然我们不知道总体的分布,但它却是本身就存在的,我们做抽样,就是要用抽样样本的统计特性去估计总体的特性。也是为了达成这个目的,我们需要随机抽样,这些被抽取出来的样本,每个都是一个随机变量,它们之间是相互独立且同分布与总体的分布的。反过来说,总体分布和这些随机变量的分布也是同分布的,从这里也许我们可以发掘出一些抽样数据的意义。
抽样分布大致概念
我们首先要区别总体和样本关于某些特性的不同,下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征:
总体参数μσp样本统计量X¯S2p^ 总体参数 样本统计量 μ X ¯ σ S 2 p p ^
上表从上到下分别对应均值、方差、比例三个特性,在总体中我们管它们叫参数,在抽样的样本中我们叫统计量。它们有什么区别?总体的这些参数,之所以敢叫参数,是因为它们是有把握确定的。例如统计全体中国公民的身高,我把十三四亿人的身高全测了一遍,一个不漏,来算平均值,我可以很有自信的说,这就是中国所有公民的平均身高。这样算出来的均值,它可以为你研究这个总体提供一个参考,因此也配得上叫参数。但样本就不一样所以,首先样本容量肯定是小于而且基本上是远小于总体容量的,比方说我们样本容量
n=500 n = 500 好了,那么我一次抽500个人,有可能求出来的平均身高是
175cm 175 c m ,可是我下一次抽,可能只有
160cm 160 c m 了。
所以说,总体的参数,是这个总体固有的,与生俱来的,例如给定一个总体的身高,它的平均身高也就定了,而抽样的统计量却是根据抽样不同而不同的,可能有时候抽的高有时候抽的矮,是有误差的。更进一步的,这些抽样的统计量,如 X¯,S2,p^ X ¯ , S 2 , p ^ ,它们还是随机变量。例如,总体是中国全体公民,每次抽500个人算平均身高(就把每个样本身高累加除以500),这个身高是一个随机变量(实际上,它就是这些样本的函数,当然会是随机变量,因为这些样本都是服从整体分布的随机变量),这个随机变量可能大可能小,但它服从一定的分布。这些抽样统计量的分布情况,就叫做抽样分布。
抽样分布–统计量的分布
有了以上的基础,我们以统计量的均值和方差为例,简要讨论它们的抽样分布。它们的计算式如下:
X¯=∑i=1nXi X ¯ = ∑ i = 1 n X i
S2=∑ni=1(Xi−X¯)2(n−1) S 2 = ∑ i = 1 n ( X i − X ¯ ) 2 ( n − 1 )
样本均值很好理解,就是把所有的样本值相加除以样本容量。但方差要除以
n−1 n − 1 可能就不太好理解了。既然说讨论分布,我们理所应当就应该讨论一下它们的特性,例如均值,方差等。
对,就是要讨论“均值的均值”。
我们说了,以测量身高为例,可能这个均值一会儿大一会儿小,因此,单个样本的均值是没多大意义的。但是我们也说了这个样本的均值是服从一定分布的。例如我们原来的样本服从标准正态分布,那么可以想象的是这个均值也一定会服从正态分布,不过就不一定是标准的了。还是以身高为例吧,假设我们的样本容量是500,我们就把抽500个人测身高算一次实验,那么我们做多次实验,每次实验算平均身高,再把这些平均身高再平均一次,假设我们的实验足够多,最后肯定会得到跟总体一样的平均身高吧。这其实说明了一件事,那就是
E[X¯]=μ E [ X ¯ ] = μ
即样本的均值的期望等于总体的期望。可以这样理解,对,我们抽500个人,是偶尔会抽到高一点的500个人,但总不可能每次都抽到的都高吧,同理,不可能每次抽到的都矮吧(这里高矮相对总体期望而言),肯定是各种情况都有一点,但是,综合起来,肯定是跟总体的期望差不多的。
那如何理解方差的计算呢?方差就是差异的大小嘛,差异就是跟期望比嘛,我们实在是没有期望,就只好和样本均值比咯。但是我认为关键的地方是要理解为什么要除以一个数。我们还是抽500个人,在中国,要你在街上找1个185的人,很轻松吧,至少不难。要你同时找10个,平均身高185,可能有点难,但还是可能的。这时,我告诉你,给我找500个平均身高185的人……拜托,中国成年男性2010年人口普查平均身高才167……所以嘛,如果500个人,均值要为185,是比随机抽一个人,或10个人均值为185的难度都要大很多对不对,因此,它肯定是更集中分布,也就是那种本来总体就比较少的情况,在样本的均值里面更加小概率出现了。因此它的方差肯定是更小了,要除一个数,那么除什么呢,除 n−1 n − 1 。为什么?可以看这里
暂时没时间写了,遛了……