我们都知道,从数据质控开始已经进入了scRNA分析阶段,在这个阶段开始测试代码,进行实操是很重要的。测试过程中出现的各种问题可能成为你学习路上的拦路虎。作图丫为大家总结单细胞数据分析时,标准化处理的方法和策略。
序言
上一期我们介绍了如何对scRNA-seq数据进行预处理与质控,在得到高质量的barcode by cell计数矩阵之后,我们需要通过基因在不同细胞间的差异表达来对细胞聚类。而数据的标准化(normalization)对于准确的比较细胞间的基因表达则是非常重要且必要的一步。今天我们就来一起了解一下如何对scRNA-seq数据标准化。
计数矩阵标准化的必要性
在scRNA-seq中,由于每个细胞的起始转录分子量有限,每个细胞中转录本的捕获以及扩增效率都会有技术差异,因此很难保证样本之间在文库制备上保持高度的一致性。这也造成了多个样本的测序数据中会存在由于文库测序覆盖率(sequencing coverage) 不同而引入的系统差异。数据的标准化目的就是消除这些差异,使得我们得到的分析结果不受技术噪音的影响。
数据标准化一般分为两大类:
· 样本内的标准化(within-sample normalization): 针对由基因特异性(如基因长度,GC content)产生的偏差,标准化后使得同个样本内的基因表达具有可比性。我们常用的RPKM,FPKM 和TPM就是标准化之后的表达值。
· 样本间的标准化(between-sample normalization): 针对样本间的差异,例如测序深度和转录本捕获率,标准化后的表达值能被用于不同样本间的比较。
在scRNA-seq分析中,我们将每个细胞视为一个独立的样本,来比较细胞内不同基因的表达。我们前期的文章提到过,在droplet-based的方法中,只对转录分子的5' 或 3'端测序,因此此类数据的标准化不需要考虑基因长度的影响,对应的就是方法类别就是样本间的标准化。
目前已经有很多针对bulk RNA-seq 数据的成熟的标准化方法,有些方也被用于单细胞分析。然而需要注意的是,由于scRNA-seq数据的高度稀疏性(sparsity) 和技术噪音,直接使用bulk RNA-seq的方法使得对单细胞数据中的低表达基因造成过度矫正。
下面我们主要给大家介绍两大类用于scRNA-seq的标准化方法[2,3]。
第一类常用标准化方法-log-normalization
大家比较熟悉的标准化方法是scaling。由于每个细胞的总计数(也可称为测序深度)不同,首先通过总计数对每个细胞估算出一个size factor,它代表了细胞间由不同测序深度带来的相对偏差值, 然后对每个细胞的总计数除以特定的size factor,以此来达到消除偏差的目的,得到“normalized expression values”用于下游分析。如果在scRNA-seq中用到了spike-ins 或 UMIs,标准化的操作则要根据它们的结果来进行调整。一些用于scRNA-seq的方法有:
· CPM (counts per million) normalization: 这个方法假设所有细胞包含等量的mRNA分子,测序深度的差异仅来源于抽样,即相对偏差全部都体现在细胞的不同计数总和上;因此估计的size factor与细胞计数总和成正比。这个方法在bulk RNA -seq中也很常用。方法对应的R包: Seurat [3],scater [4] 。
· High-count filtering CPM: 是在CPM的基础上,考虑到少数高表达基因对细胞偏差估计的影响,在估算size factor时剔除细胞中表达量高于5%的总计数的基因。
· Scran: 针对单细胞测序的dropout和0计数现象,scran通过合并 (pool) 总计数类似的细胞,通过它们的计数总和来估算一个size factor,然后将其进一步分解,用到每个细胞表达谱的标准化中。R包: scran [5]。
· BASiCS: 基于spike-ins来推断细胞特异的size factor。R包: scRNAseq [6]。
以上这些方法都基于一个假设:对于样本中所有细胞,它们的转录分子量都是相同的。这样同一个size factor才能被用于细胞中的所有基因。
在标准化之后,计数矩阵还需要做log(x+1) 转化。由于在衡量表达值差异大小的时候,我们通常使用的是表达值的对数倍变化(log-fold change),因此需要对计数矩阵作进一步的对数转化。并且由于很多下游的分析工具 (例如差异表达分析) 都假设数据是正态分布的,然而我们知道scRNA-seq数据实际上并不一定满足,因此对数转换则能帮助我们降低数据的skewness,尽管方法比较粗糙但是对之后的分析很实用。
在log(x+1) 转化中的+1是加上的一个伪计数(pseudo-count) ,用来避免未定义的数值0。伪计数的选择比较多,用+1的原因是能保留原始矩阵中的sparsity,即原始表达值为0的在对数转换后仍然为0。当然,你也可以选择其他的数值,如果选择较大的伪计数,低表达基因之间的对数倍变化则会变小,使得下游的差异分析结果由高表达基因主导;反之选择较小的伪计数则能增加低表达基因在差异分析结果中权重。大家可以根据自己的研究目的来调整选择的参数。
以上两步(scaling & log-trans) 结合起来通常被称作“log-normalization” ,这类方法比较简单并且常用。
第二类常用标准化方法- probabilistic model based approach
另外一类标准化方法比较新颖,也更加复杂,是通过拟合分布来对细胞计数构建模型(model molecule counts using probabilistic approaches),用模型拟合的残差 (residuals) 作为基因表达的标准化定量。一些新的基于UMIs的方法,它们的建模主要是使用NB distribution以及zero-inflation NB distribution (ZINB)。一些常见的方法以及对应的R包/python模块有:
· ZINB-WaVE(R包: zinbwave)[7]
· scVI (python 模块: scvi)[8]
· DCA (python 模块: dca)[9]
regularized negative binomial regression (R包: sctransform; also being wrapped in Seurat) [10]。
与前面估算size factor的方法不同,这类模型拟合类方法通常将批次矫正和数据标准化结合到了一起,不需要分步处理。
Seurat: log-normalization vs. sctransform
或许大家会注意到R包Seurat提供了两种标准化的选择:log-normalization 和sctransform。Hafemeister et al.,[10] 对比了这两种方法,发现log-normalization对不同表达量的基因标准化效果不一致,只有中等以及低表达的基因被有效的标准化了,表明“size factor”并不是对所有基因都有效,并且这个是否有效的差异与测序深度相关 (Figure 1D from [10])。
而在r包sctransform中,他们通过构建regularized negative binomial regression 模型,对比发现模型残差能有效的标准化表达值,而且残差的方差(variance of residuals) 不受测序深度影响 (Figure 3C from [10])。在他们的pipeline中也提到,如果研究涉及到多个不同scran-seq数据的合并 (特别是不同protocols生成的数据),建议使用sctransform,运行时间比传统的log-normalization会短很多。
小tip: 数据标准化(normalization) 和批次矫正(batch correction) 之间有什么区别吗?标准化只考虑技术偏差,与有没有批次效应无关;而批次矫正,顾名思义,是特指出现在不同批次之间的差异,需要同时考虑技术偏差和生物学差异。技术偏差一般对具有相似特征 (例如长度,GC content) 的基因造成的影响也是类似的,而批次之间的生物学差异则要复杂的多,而且难以预估。因此这两个步骤涉及了不同的方法,大家千万主要不要混淆了这两个概念。
小编总结
标准化方法的选择很多,因为毕竟没有一种方法能适用于所有类型的scRNA-seq数据。在大多数的单细胞分析教程中log-normalization还是比较常用的方法,因为它相对简单并且容易实现。从我个人的分析经验来说,我尝试过用不同的数据对比文中提到的两大类方法,在细胞聚类上结果并没有显著的差异。不过因为具体数据的特异性,建议大家在了解方法的基础上,多多尝试不同的方法,特别在当聚类结果不太理想的时候。我们之后也会为大家介绍系统比较这些方法的文章,V信搜索:作图丫,可获取更多精彩内容。
参考资料/文献
1. Hwang, B., Lee, J.H. & Bang, D. Single-cell RNA sequencing technologies and bioinformatics pipelines. Exp Mol Med 50, 96 (2018). https://doi.org/10.1038/s12276-018-0071-8
2. Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol Syst Biol. 2019;15(6):e8746. Published 2019 Jun 19. doi:10.15252/msb.20188746
3. Stuart T, Butler A, Hoffman P, et al. Comprehensive Integration of Single-Cell Data. Cell. 2019;177(7):1888-1902.e21. doi:10.1016/j.cell.2019.05.031
4. McCarthy DJ, Campbell KR, Lun ATL, Willis QF (2017). “Scater: pre-processing, quality control, normalisation and visualisation of single-cell RNA-seq data in R.” Bioinformatics, 33, 1179-1186. doi: 10.1093/bioinformatics/btw777.
5. Lun ATL, McCarthy DJ, Marioni JC (2016). “A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor.” F1000Res., 5, 2122. doi: 10.12688/f1000research.9501.2.
6. Risso D, Cole M (2020). scRNAseq: Collection of Public Single-Cell RNA-Seq Datasets. R package version 2.2.0.
7. Risso D, Perraudeau F, Gribkova S, Dudoit S, Vert J (2018). “A general and flexible method for signal extraction from single-cell RNA-seq data.” Nature Communications, 9, 284. https://doi.org/10.1038/s41467-017-02554-5.
8. Lopez R, Regier J, Cole MB, Jordan MI, Yosef N. Deep generative modeling for single-cell transcriptomics. Nat Methods. 2018;15(12):1053-1058. doi:10.1038/s41592-018-0229-2
9. Eraslan, G., Simon, L.M., Mircea, M. et al. Single-cell RNA-seq denoising using a deep count autoencoder. Nat Commun 10, 390 (2019). https://doi.org/10.1038/s41467-018-07931-2
10. Hafemeister, C., Satija, R. Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression. Genome Biol 20, 296 (2019). https://doi.org/10.1186/s13059-019-1874-1