【单细胞】单细胞数据的批次效应

在数据分析的时候,我们的目标是一般都是找到样本之间真实的生物学差异。但是这种真实的生物学因素往往会受到各种因素影响,举几个场景:

  • 不同样本

  • 同一样本的生物学重复

  • 同一样本的技术重复

  • 同一样本在同一个实验室由同一团队在不同时间点处理

  • 同一细胞系/植物组织在不同实验室

  • 不同建库策略,10X平台,Drop-seq,SMART2-seq

  • 不同测序平台,BGI/Illumina

  • 不同分析流程(甚至一个工具的多个版本,如salmon,CellRanger)

这些因素之间有些是生物学真实的差异,有些是抽样时的随机波动。有些是系统性因素,统称为批次效应(batch effect),顾名思义,不同批次带来的效应。如果效应比较小还可以接受,如果批次效应很严重,就可能会和真实的生物学差异相混淆,让结果难以捉摸。我们需要辨别到底存在多大程度的批次效应,对我们真实的生物学样本会不会产生影响。

如下所示,这两个数据是不同时期做的同一个细胞,几乎没有交集,因此,我们分析的时候需要去除批次效应。

去除批次效应之前:

去除批次效应之后:

 

从直觉上讲,最好是分析的过程中过滤掉这种批次效应。但是即便是同一个人对同一个样本做的相同实验,也有可能因为时间差异导致批次效应,我们需要对这种数据集进行批次效应校正吗?我们对批次效应进行校正的同时也会引入新的问题,它很有可能将生物学本身的差异视为批次效应,然后将其去除。校正批次效应的目的就是:减少batch之间的差异,尽量让多个batch的数据相一致,这样下游分析就可以只考虑生物学差异因素。

我们更希望去除的批次效应,其实是不同实验室,不同建库手段,不同测序平台所引起的批次效应。当我们希望通过合并同一组织数据挖掘出更有意义的信息时,就不可避免的会发现,明明是同个组织的数据,表达量就是存在明显的差异(PCA, t-SNE降维可视化)。

 

之前有人用bulk RNA-seq的方法(limma, ComBat,RUVseq, svaseq)对单细胞数据进行校正,但是这些工具的基本假设都是"bulk RNA-seq数据中的细胞组成相似",可能适用于一些数据集,但是可推广性不强(Haghverdi et al., 2018)。于是就有一些专门用于单细胞转录组批次校正的工具,例如:

  • Seurat/Integration

  • batchelor/FastMNN

  • scran/mnnCorrect

  • Python/BBKNN

  • BBER

  • Conos

  • LIGER

  • Harmony

最后对于不同的实验设计,我看帖子上大牛们推荐的批次矫正方法:

    技术重复: ComBat

    细胞系,生物学重复:ComBat

    同一个人的癌症和癌旁组织:不校正/Harmony

    不同实验室的同一组织:Harmony

    同一个实验室做的不同人的样本: 不校正/Harmony

学习:https://blog.csdn.net/u012110870/article/details/115511818

本文使用 文章同步助手 同步

你可能感兴趣的:(【单细胞】单细胞数据的批次效应)