RPKM, FPKM 和 TPM

在RNA-seq中,某一段基因区域内的read counts取决于测序的深度和基因的长度;基因越长、测序深度越深,比对到该基因所在区域的read counts数目就会相对越多。因此在比较不同样本中基因的差异表达时,首先需要对read counts数据进行标准化,即对基因长度和测序深度进行标准化。目前常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Transcripts Per Million)作为标准化数值。

RPKM (Reads Per Kilobase Million)

RPKM的计算分两步:

  1. 测序深度标准化
  • per million scaling factors : 每个样本中reads的总数并除以10^6
  • 计算reads per million (RPM):每个reads数除以上面得到的“per million scaling factors”,得到对应基因在每百万reads中所占比例;
  1. 基因长度标准化
  • RPM 除以对应基因的长度(通常是所有外显子长度的总和,以kb为单位),得到每百万reads每一千碱基对中包含的reads数,即RPKM。

FPKM (Fragments Per Kilobase Million)

FPKM与RPKM的计算过程相同,只是RPKM用于单端测序结果,FPKM用于双端测序结果。

TPM (Transcripts Per Kilobase Million)

TPM 与RPKM/FPKM的区别在于:TPM先消除基因长度的影响,再消除测序深度的影响。
其计算分两步:

  1. 基因长度标准化
  • 计算RPK (reads per kilobase) : 将每个read counts除以对应基因的长度(外显子区域的长度,单位为kb),得到每千个碱基对应的reads数。
  1. 测序深度标准化
  • per million scaling factors: 每一个样本中的RPK加起来的总数除以10^6;
  • TPM: 用RPK除以“per million scaling factors”。

由计算公式可知,每一个样本中所有基因的TPM之和都等于10^6, 每个基因的均值都等于10^6/N(N为基因总数)。由于每个样本总的TPM值是相同的,这样便于样本间基因差异的比较。

你可能感兴趣的:(RPKM, FPKM 和 TPM)