T检验:两样本数据的差异性

注:不支持数学公式。 带公式版本的,请浏览博客文章:T检验:两样本数据的差异性
我最近在研究TCGA的RNAseq数据表达差异性的分析,常用的并且最简单的方法是统计量T检验。下面用一个例子来验证T检验的弊端问题所在。

两配对样本的T检验是利用来自两个总体的配对样本,推断总体的两个均值是否显著差异,从而推断两个总体是否存在差异。

通过对T检验的P值来判断是否存在差异,从而判断数据是否来自同一个样本。

下面以sin(x) 为例来说明:
代码:

x=seq(-pi,pi,0.0001)
y1=sin(x)
y2=-y1

png("test.png")
plot(y1~x)
lines(y2~x)
dev.off()

mean(y1)
[1] 9.974243e-11
mean(y2)
[1] -9.974243e-11
t.test(y1,y2)
#结果

        Welch Two Sample t-test

data:  y1 and y2
t = 5.0003e-08, df = 125660, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.007819244  0.007819244
sample estimates:
    mean of x     mean of y 
 9.974243e-11 -9.974243e-11 

图如下所示:


T检验:两样本数据的差异性_第1张图片
数据的图像

可以明显发现,两个数据来自不同分布,差异很明显,但是T检验的P值却为1,表明不存在差异,与图像的结果明显不符合。这就是T检验的不足。

关于T检验的改进方法介绍,在下一次分享中将会介绍。

你可能感兴趣的:(T检验:两样本数据的差异性)