Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples

Wagner G P , Kin K , Lynch V J . Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples[J]. Theory Biosci, 2012, 131(4):281-285.

百度百科:RPKM ,Reads Per Kilobase per Million mapped reads,代表每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位)。

RNA-seq是二代测序技术中用来表示基因表达量或丰度的方法。在衡量基因表达量时,若是单纯以map到的read数来计算基因的表达量,在统计上是不合理的。因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量

Abstract

RNA丰度的测量对于许多生物学领域都很重要,通常可以从高通量RNA测序方法(例如Illumina序列数据)获得。需要对这些措施进行规范化处理,以消除测序方法中固有的技术偏见,尤其是RNA种类的长度和样品的测序深度。这些偏差已通过广泛使用的每千个百万分之一的读数(RPKM)度量得到纠正。在这里,我们认为RPKM的预期含义是相对摩尔RNA浓度(rmc)的量度,并表明对于每组转录本,平均rmc是一个常数,即映射的转录本数量的倒数。此外,我们表明RPKM不尊重这种不变性,因此不能作为rmc的准确度量。我们建议对RPKM进行轻微修改,以消除这种不一致,并将其称为TPM,表示每百万笔成绩单。 TPM尊重平均不变性,并消除了RPKM度量固有的统计偏差。

关键词:RNA定量; NextGen测序; RPKM

Introduction

① Measuring mRNA abundance at their site of biological function would require not only measurement of mRNA amounts but also cell number, cell volume and sub-cellular( 亚细胞 ) localization.

②  the relative molar concentration (rmc) of each mRNA species

③ All commonly used techniques to measure mRNA abundance, including qPCR, microarray signals(微阵列信号), as well as reads per kilobase per million reads (RPKM) for RNAseq data (Mortazavi et al. 2008), aim at estimating a statistic that is as closely proportional to the relative molar concentration as possible. Here, we discuss estimating rmc from mRNA-seq data.

An invariance property of rmc measures

rmc 测度的不变性

RPKM as a measure of rmc

Transcripts per million (TPM): an alternative to RPKM

a slightly modifified measure of transcript abundance introduced in this paper

Remark about estimating alternative transcript abundance

TPM和RPKM都依赖于特征长度来纠正读取的数字,以适应转录本大小的差异。通常,特征长度被估计为外显子区域的总长度。但是,这种方法存在一个公认的问题,因为细胞类型在它们表达的转录本的剪接变体中可能有所不同

这些要么需要对RNA样品进行预处理以仅专注于转录起始位点的序列,要么需要对所有可能的剪接变体有先验知识。 此时,剪接变体的知识只能是近似的,因为不能保证已经描述了所有可能的剪接变体,特别是对于特定的细胞或组织类型。 在这里,我们建议一种替代方法,该方法依赖事后验证,而不是先验副本建模

Conclusions

在这里,我们认为许多RNA丰度测量,特别是RPKM,的目的是测量一个RNA物种的相对摩尔浓度。我们提出的证据表明,RPKM是一种不一致的相对摩尔浓度测量方法,并提出了一个密切相关的替代方法,TPM,它与RPKM的方式没有偏差。我们表明,RPKM测量可以在样本之间有很大的不同,因此有可能导致夸大的统计显著性值。在概念层面上,RPKM的问题可以追溯到意义问题(Narens 2002;Houle等人2011年)。在测量理论中,意义的概念是对数值测量的物理或生物学解释。

你可能感兴趣的:(Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples)