单细胞36计之29- RPKM,FPKM,and TPM是什么

29、第二十九计 树上开花
比喻将本求利,别人收获。
此计是说借助某种局面(或手段)布成有利的阵势,兵力弱小但可使阵势显出强大的样子或者是弱小的部队通过凭借某种因素,改变外部形态之后,自己阵容显得充实强大了。

RPKM,FPKM,and TPM

RNA-seq标准

  • 我们过去使用RPKM(Reads Per Kilobase Million)或FPKM(Fragments Per Kilobase Million)

    • 这些均一化的read计数如下:

      • 测序仪深度(Million)

        • 测序越深,就有越多的read比对到基因上。
      • 基因长度(kilobase)

        • 基因越长,就有越多的read比对到基因上。
  • 现在他们想让我们使用TPM——(Transcripts per million)

为了理解TPM、RPKM和FPKM之间的差异,我们将使用一个假想的RNA-seq数据,对一个有4个基因(A、B、C和D),3个重复(Rep1、2和3),通过数学方法进行计算。Rep3的reads更多,基因B(4kb)的长度是基因A(2kb)的两倍,这就解释了基因B总是得到两倍的read对于基因A。

image

RPKM

首先,我们将使用RPKM标准对数据进行均一化。

第一步均一化read深度

我们计算每个Rep的总reads,然后除以10,真正应该除以1,000,000。因为RPKM的M指的就是million,是百万。Rep1总reads除以10的结果为3.5,然后用每个基因的reads除以3.5,得到RPM。

image

第二步均一化基因长度

用RPM除以基因的长度(kb),比如Rep1的基因A,2.86/2=1.43,得到RPKM

image
image

FPKM

RPKM和FPKM 是非常相近的两个术语:

  • RPKM: Reads Per Kilobase Million

    • RPKM是用于单端测序
  • FPKM: Fragments Per Kilobase Million

    • FPKM用于双端测序

在RNA-seq中:

  • 单端测序,一个片段对应一个read

  • 双端测序,一个片段对应两个read,有时只有一端有质量的read。FPKM会跟踪片段,这样有两个reads就不会被计算两次。

image

TPM

TPM类似于RPKM和FPKM,只是操作顺序被切换了。

第一步均一化基因长度

counts值除以对应基因的长度(kb),得到RPK

image

第二步均一化测序深度

计算出Rep总的RPK,然后除以10,真正应该除以1,000,000。因为TPM的M指的就是million,是百万。Rep1总reads除以10的结果为1.5,然后用Rep1每个基因的reads除以1.5,得到TPM。

image

RPKM VS TPM

TPM,RPKM(和FPKM)“纠正了基因长度和测序深度的偏差。但是每一列的和非常不同。在RPKM 中每一个样本RPKM的和是不同的。在TPM 中每一个样本TPM的和是相同的。

image

考虑3个相同大小的饼状图(10)。3.33大小一块,在每个饼中都是一样的,并且总是大于3.32。TPM表明,在Rep1中,定位到基因A的总read多于Rep3。通过TPM我们更容易发现,在每个重复中,比对到哪些基因上的reads更高或更低。

image

使用RPKM,比较总reads的比例会变得更加困难,因为每个Rep的总read数不同(每个饼图大小不同)。一个1.43大小的切片代表不同的馅饼中不同的读read比例。哈!严肃地说,人们之所以使用TPM,是因为这些数字可以清楚地告诉您每个样本中对应的read的比例。而且由于RNA-seq是关于比较read的相对比例,这个指标似乎更合适。

image

链接:https://www.jianshu.com/p/e896e998aa24
作者:不到7不改名

你可能感兴趣的:(单细胞36计之29- RPKM,FPKM,and TPM是什么)