单细胞转录组标准化

一旦表达矩阵经过初步的质控、过滤,即判断低丰度表达基因、矫正批次效应、过滤低质量细胞等步骤后,接下来需要对表达矩阵进行标准化及归一化操作,继而进行下游分析。单细胞转录组的标准化主要针对由文库大小差异带来的样本表达矩阵差异,在此对常用的标准化方法计算原理及优缺点做个笔记,其中生信宝典文章中的各个标准化方法的标准化效果评估可以参考借鉴。

标准化及归一化都是针对表达矩阵完成的一些统计、数学转化,以消除异常值影响或富集表达量的离散等。

归一化
数学方法将表达量限定在一定区间内,及统一量纲,如log处理。归一化的目的在于让离散的表达量富集在更小区间内,但是不影响低表达的基因。
如果对表达量去一下log10,发现10000变成了4,10变成了1,这样之前离散程度很大的数据就被集中了。

标准化
经过统计变换使表达量分布更符合正态分布,目的是反映表达量的离散程度,如z-score处理。
转换后表达量符合正态分布分布,Z-score只是一个临界值,是标准化的结果,本身没有意义,有意义的在于在标准正态分布模型中它代表的概率值。
所以只要知道Z值, 查对应的正态分布表,就可以知道表达量偏离平均水平的程度。


单细胞转录组标准化

单细胞转录组测序数据来自于样本细胞的混样测序,从而导致各个细胞的文库大小差异较大,因而需要借助一些统计方法来消除因为文库大小导致的差异表达,这一过程就是标准化,用于标准化的因子包括:UQ, SF, CPM, RPKM, FPKM, TPM,最初用于bulk-seq。

CPM,counts per million
即原始reads除以样品总的可用reads数乘以1,000,000获得每百万reads的count数,排除spike-in的表达量。

这种计算方式的缺点是容易受到极高表达且在不同样品中存在差异表达的基因的影响;这些基因的打开或关闭会影响到细胞中总的分子数目,可能导致这些基因标准化之后就不存在表达差异了,而原本没有差异的基因标准化 之后却有差异了。
RPKM、FPKM和TPM是CPM按照基因或转录本长度归一化后的表达,也会受到这一影响。

RLE,Relative Log Expression
首先计算每个基因在所有样品中表达的几何平均值。每个细胞的量化因子(size factor)是所有基因与其在所有样品中的表达值的几何平均值的比值的中位数。其中量化因子 (size factor, SF)用来评估文库大小对表达矩阵的影响程度。

由于几何平均值的使用,只有在所有样品中表达都不为0的基因才能用来计算,所以不适合大批量低深度的scRNA-seq数据。

上四分位数,upperquartile, UQ
样品中所有基因的表达除以该样品处于上四分位数的基因的表达值,同时为了保证绝对表达水平的相对稳定,计算得到的上四分位数值要除以所有样品中上四分位数值的中位数。

对低深度scRNA-seq数据,这个方法的一个缺点是可能处于上四分位数的基因的表达值为0或接近0。这个限制可以通过采用更高的分位数如99%分位数 (scater的默认值)或排除表达值为0的基因后剩余基因的上四分位数。

TMM (M-值的加权截尾均值)
选定一个样品为参照,其它样品中基因的表达相对于参照样品中对应基因表达倍数的log2值定义为M-值。随后去除M-值中最高和最低的30%,剩下的M值计算加权平均值。每一个非参照样品的基 因表达值都乘以计算出的TMM。

这个方法的两个可能问题是,一是Trim后没有足够的非0基因,另外该方法假设大部分基因的表达是没有差异的。

scran
scran采用为scRNA-seq设计的CPM方法的变种. 该方法通过把多组细胞合并到一起来屏蔽较多的0值问题,然后采用类似_CPM的方式计算标准化因子。

因为一个细胞会出现在多个合并的集合里面 (pool),细胞特异的因子可以采用线性代数从非特异性因子中去卷积计算得来。

Downsampling
通过对表达矩阵进行向下抽样使得每个细胞检测到的总分子数相同。

这个方法的优势是计算过程中会引入0值进而消除不同细胞检测到的基因数不同引入的偏差。该方法最大的缺点是其非确定性,每次downsampling获得的表达矩阵都会有些细微不同。通常需要重复多次保证结果的稳定性。

总结
生信宝典对以上几种标准化方法的效果进行了评估,通过PCA方法并计算RLE(relative log expression)值图形化方式展示标准化前后变化趋势。
评估基础:含有更多reads的细胞,其大部分基因的表达比所有细胞的中值表达水平也更高,得到RLE值为正值;含有更少reads的细胞,其大部分基因的表达比所有细胞的中值表达水平更低,得到的RLE为负值。而标准化后的RLE值应该为0。即通过比较标准化后RLE值取值是否为0。标准化方法评估脚本参考

对于以后的单细胞转录组分析,可以查看其采用的标准化方法是什么,作简要评估。

CPM标准化方法的RLE值

scran标准化方法的RLE值

参考1:生信技能树
参考2:生信星球细胞文库标准化
参考3:生信宝典标准化方法对比

你可能感兴趣的:(单细胞转录组标准化)