在概率论和统计学中,学生t-分布(Student's t-distribution),可简称为t分布。应用在估计呈正态分布的母群体之平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定(Z-test),因为Z检定以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检定来求得近似值,但Z检定用在小样本会产生很大的误差,因此必须改用学生t检定以求准确。
在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检定。在待比较的数据有三组以上时,因为误差无法压低,此时可以用变异数分析(ANOVA)代替学生t检定。
t分布的推导由英国人威廉·戈塞特(Willam S. Gosset)于1908年首先发表,当时他还在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但允许他在不提到酿酒的前提下,以笔名发表t分布的发现,所以论文使用了“学生”(Student)这一笔名。之后t检定以及相关理论经由罗纳德·费雪(Sir Ronald Aylmer Fisher)的发扬光大,为了感谢戈塞特的功劳,费雪将此分布命名为学生t分布(Student's t)。
参见[url=http://zh.wikipedia.org/wiki/%E5%AD%A6%E7%94%9Ft-%E5%88%86%E5%B8%83]维基百科[/url]
T的概率密度函数是[img]http://upload.wikimedia.org/math/2/f/1/2f1cbc52ffbbed4d169e95b9e5870383.png[/img]
v 等于n − 1。 T的分布称为t-分布。参数v 一般被称为自由度。
t分布 - 特征
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线
t分布,在概率统计中,在置信区间估计、显著性检验等问题的计算中发挥重要作用。
set.seed(1000)
x<-seq(-5,5,length.out=1000)
y<-dt(x,1,0)
plot(x,y,col="red",xlim=c(-5,5),ylim=c(0,0.5),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='',
main="The T Density Distribution")
lines(x,dt(x,5,0),col="green")
lines(x,dt(x,5,2),col="blue")
lines(x,dt(x,50,4),col="orange")
legend("topleft",legend=paste("df=",c(1,5,5,50)," ncp=", c(0,0,2,4)), lwd=1, col=c("red", "green","blue","orange"))
结果如下:
[img]http://dl2.iteye.com/upload/attachment/0103/2559/6312c617-5d43-385c-9147-4270b7c31546.jpeg[/img]