PH525x series - Central Limit Theorem and t-distribution

Central Limit Theorem

  • 中心极限理论(CLT)

CTL是科学领域最经常使用的一种数学理论,具体是指:当样本量很大时,一个随机样本的平均数满足“以群体均数 为中心、以群体标准差除以样本量的开方为标准差”的正态分布。而一个随机变量的标准差分布便是该变量的标准误。

引申1:若是一个随机变量,且其平均数为、标准差为,为一个常量,那么: (1)的平均数为;(2)的平均数和标准差则分别为和。
由此,可推断出,当多次采取样本量为N的样本时,数据量:

大致满足以0为中心、以1为标准差的正态分布。

引申2:若有两个随机变量和,其各自平均数与方差分别为、和、,那么:(1)的平均数就是,的平均数就是 ;(2)若加上和互相独立,那么与的方差均等于。

总之,(1)若正态分布,那么同样为正态分布;(2)满足正态分布的变量,其和同样满足正态分布。

引申3:在零假设下,群体间的平均数并无差异,也就是大致满足以0为中心,以为标准差的正态分布,而统计量:

则大致满足以0为中心,以1为标准差的正态分布。但由于群体标准差未知,我们可以使用样本的标准差代替他们,即与,他们的定义如下:

WechatIMG126.jpeg

当M和N很大时, 同样满足以0为中心,以1为标准差的正态分布。

t-distribution

若从某一平均数为0的群体中获取一随机变量Y,那么统计量t:

满足t分布,t分布的密度曲线类似标准正态分布,但中间瘦一些、尾巴厚一些,但是当自由度增加时,它的分布就逐渐接近标准正态分布了,因此,在大样本量时,可以用标准正态分布来近似t分布。

补充知识:

  • 来自《统计学:从概念到数据分析》
    中心极限定理成立的一份充分条件是:样本点是独立的,来自一个总体(同分布),总体均值存在,并且有非零有限总体方差。


本章节中的涉及的几个R知识点

Skill 1: Download from within R

library(downloader) ##use install.packages to install
url <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/femaleMiceWeights.csv"
filename <- "femaleMiceWeights.csv" 
download(url, destfile=filename)

Skill 2: Download from within R
有很多个人上传的R包在GitHub中,无法从CRAN中获取,可使用devtools包进行下载,如:

library(devtools)
install_github("genomicsc/dagdata")

#几个可能会用到的函数
#提取dagdata包中的数据
dir <- system.file(package="dagdata")
#列举路径中的文件
list.files(dir)
#生成路径
file.path(dir,"相对路径")

Skill 3: Brief Introduction to dplyr

library("dplyr")
##fileter函数可用来获取数据子集,与subset函数类似,select函数可以返回某数据框的某一列,有点是可以使用管道符链接(%>%),如:

chowVals <- filter(data,=="...") %>% select()

#注意:若data为数据框,返回的chowVals也为数据框,可使用unlist函数将chowVals转变为vectors,如:

chowVals <- filter(data,=="...") %>% select() %>% unlist

上述获取数据框子集的操作也可以这样:
chowVals <- data[ data$=="...", colnames(data)=="..."]

Skill 4: plot ggplot

library(rafalib)
library(igraph)
par(mfrow(1,2)) #将画布分为1行两列
qqnorm(y, ylim, main = "Normal Q-Q Plot",
            xlab = "Theoretical Quantiles", ylab = "Sample Quantiles",
            plot.it = TRUE, datax = FALSE, ...) #绘制qq图
qqline(y, datax = FALSE, distribution = qnorm,
            probs = c(0.25, 0.75), qtype = 7, ...) #绘制theoretical distribution


你可能感兴趣的:(PH525x series - Central Limit Theorem and t-distribution)