单细胞技术的最新进展使跨模态和组织位置的细胞高通量分子分析成为可能。单细胞转录组数据现在可以通过染色质可及性、表面蛋白表达、适应性免疫受体库分析和空间信息进行补充。跨模态单细胞数据的可用性越来越高,推动出新的计算方法,以帮助科学家获得生物学见解。随着该领域的发展,驾驭浩瀚的工具和分析步骤变得越来越困难。因此作者总结了单模态和多模态的单细胞分析基准研究,以发现通用的分析工作流程。这篇文章可作为单细胞(多)组学分析领域新手的切入点,也可以指导高级用户了解最新进展。
来自:Best practices for single-cell analysis across modalities, nature reviews genetics, 2023
转录组数据描述通过转录过程将DNA转录成RNA的结果,它反映了细胞中基因的表达水平。表观遗传组数据可以通过多种方式影响转录组的形成和变化,从而调控基因表达。两者密切相关。
单细胞RNA测序(scRNA-seq)技术以前所未有的规模和分辨率测量转录组谱,从而彻底改变了分子生物学。实验技术的进步推动了计算方法的大规模创新,导致目前有1400多个工具可用于分析scRNA-seq。计算框架和软件存储库,如Bioconductor、Seurat和Scanpy使数据分析人员能够在这个空间中快速构建管道。这种实验和计算创新的相互作用使得揭示组织细胞异质性的生物学里程碑式发现成为可能。
然而,scRNA-seq只捕获了关于细胞功能和状态信息的一层。为了补充这一点,已经做出了很大努力来测量单细胞分辨率下的其他模态,包括染色质可及性、表面蛋白、T细胞受体(TCR)和B细胞受体(BCR)库和空间信息,使得能够发现诸如2型糖尿病的regulatory signatures,内脏和适应性免疫系统对SARS-CoV-2的反应失调,并在空间分辨率上更好地理解肿瘤微环境的免疫抑制作用。测量实验的创新激发了许多用于各种单细胞模态的新计算工具,但由于算法开发人员缺乏全局的工作流程认知,改进或开发新工具依然具有挑战性。该文中,作者引导读者认识单模态和多模态单细胞数据分析的各个步骤,并分析挑战(图1)。
scRNA-seq测量每个细胞的mRNA分子丰度。提取的生物组织样本构成了单细胞实验的输入。在单细胞解离(dissociation)过程中消化组织,然后进行单细胞分离,以分别分析每个细胞的mRNA。基于平板(plate-based)的方法将细胞分离到平板上的孔中,而基于液滴(droplet-based)的方法在微流体液滴中捕获细胞。
以液滴方法为例(因为液滴方法更流行),将获得的mRNA序列读数映射到原始数据处理管道中的基因和源细胞,该管道使用细胞条形码或唯一分子标识符(UMI)和参考基因组来产生基因细胞的计数矩阵(图2a)。我们将计数矩阵视为单模态的scRNA-seq数据分析工作流程的起点。
对于图2a:为了确保只捕获高质量的细胞,需要对RNA计数矩阵进行校正,并对双重细胞和低质量或濒死细胞进行过滤,可以通过去除质量控制指标方面的异常值来完成。所有计数都代表mRNA分子的成功捕获。考虑到实验噪声,当比较细胞之间的基因表达时,差异可能仅源于采样效应。我们可以通过标准化来获得细胞之间正确的相对基因丰度缓解该问题。
scRNA-seq数据集可以包含多达30000个基因的计数。然而,大多数基因并没有提供信息。因此,我们需要选择表达变化最大的基因。此外,我们需要对不同批次的数据进行集成,以获得跨样本的校正数据矩阵。为了减轻计算负担和减少噪声,通常应用降维技术。这进一步帮助我们将转录组数据的低维嵌入用于可视化。
对于图2b:我们可以将嵌入空间组织成簇,这些簇表示具有相似基因表达谱的细胞组,并由感兴趣的标签(如细胞类型)进行注释。注释可以使用先验知识手动进行,或者使用自动注释方法进行。连续过程(轨迹推断),如分化可以看作细胞身份的转换。
自动注释:可以分为基于分类器直接预测方法(有监督训练)和参考映射方法(KNN将reference标签映射到query数据集)。
手动注释:利用每个簇的基因特征来注释细胞簇。这些基因特征通常被称为标记基因,可以使用简单的差异表达测试方法(例如 t 检验或 Wilcoxon 检验)来识别。
对于图2c:根据感兴趣的问题和实验设置,揭示具体问题的机制,具体做法通常包括差异基因表达分析,基因富集分析,推断细胞-细胞通信。
对于差异基因表达(DGE)分析:可以根据DGE来鉴定标记基因或在特定条件下上调或下调的基因。目前DGE工具的一致性和稳健性较低,因此,必须对通过DGE测试获得的p值进行多次测试校正,以获得q值(q值用于控制误报率)。
对于基因富集分析:scRNAseq数据的高通量性质使其难以解释。基因集富集分析可以将大量基因总结为可解释的术语,如pathway(即现有研究已知的基因集)。常见的数据库包括MSigDB、Gene Ontology、KEGG或Reactome。常见的富集方法包括超几何测试和GSEA(Gene Set Enrichment Analysis)。富集分析对基因集的选择比对统计学方法更敏感,建议仔细选择数据库,以确保潜在的基因集被覆盖。
对于细胞-细胞通信:细胞之间不断相互作用,以促进组织发育。如果这种相互作用受损,疾病就会随之而来。细胞-细胞通信推理方法通常使用配体、受体及其相互作用的存储库来预测注释簇之间的相互作用。这些数据库偏向于特定pathway、功能类别的蛋白质。
分析调控元件对于解读细胞多样性和理解细胞行为至关重要。基因表达受调控机制的控制,包括表观遗传学比如染色质可及性。为了深入了解单细胞水平上的染色质状态,转座酶可及染色质测序的单细胞分析(scATAC-seq)测量单个细胞中全基因组染色质的可及性(图3)。
对于图3a:scATAC-seq测量单细胞染色质可及性。数据可以用几种不同的方式表示。两种最常见的选择是cell-by-peak矩阵和cell-by-bin矩阵(具体见图3a并对比用于scATAC-seq有监督分类的Cellcano)。
对于图3b:为了确保后续分析侧重于有生物学意义的特征,而不是噪声,对特征矩阵进行质量控制。需要控制每个细胞的片段总数和相关信号的其他几个测试的数据:每个细胞具有非零计数的峰的数量、转录起始位点(TSS)富集分数。然后通过归一化来校正稀疏分布的scATAC-seq矩阵。随后的预处理和可视化工作流程紧密遵循scRNA-seq分析的步骤。
批次整合变成模态整合,由于RNA和ATAC特征不对齐,需要专业的模态整合方法。
对于图3c:如果是手动注释,scATAC-seq数据可以基于已知的 “差异可及区域-细胞类型” 关系进行注释。如果是自动注释,可以将RNA模态的细胞类型参考映射到ATAC模态的细胞上。然后,我们可以利用注释的细胞通过轨迹推断来分析连续过程。
对于图3d:根据特定问题揭示对应机制。我们可以根据共可及性(co-accessibility)确定顺式调节相互作用(cis-regulatory interaction),根据转录因子(transcription factor,TF)活性确定关键调节因子,根据motif用于确定用作TF结合位点的DNA序列模式。
对于co-accessibility:共可及性是指基因组中不同区域的开放性或可及性之间的相关性。在scATAC-seq中,共可及性指的是不同细胞中开放染色质区域的相似性或共同出现的模式。这意味着在某些细胞中,特定的基因组区域或染色质区段呈现开放状态,并且这种开放状态在其他细胞中也得到保留。GLUE中的guidance Graph,在ATAC对应特征下的子图能反映共可及性。
顺式调节相互作用(cis-regulatory interaction)是指在基因组中,调控元件(调控区域)与其附近的目标基因所在区域之间的相互作用。这种相互作用发生在同一染色体上,即在顺式上。
根据共可及性确定顺式调节相互作用:
Hi-C是一种常用的染色质构象捕获技术,用于研究基因组中染色体间的相互作用。Hi-C数据通常以矩阵的形式表示,其中行和列代表基因组的不同区域,矩阵中的元素表示这些区域之间的相互作用频率。通过分析Hi-C数据,可以识别顺式调节相互作用,即具有较高的相互作用频率的染色体区域对。
TF(转录因子)是一类能够结合到DNA上调控基因表达的蛋白质(可以促进也可以抑制),而motif(基序)则是指在DNA序列中存在的具有特定模式的短序列,通常与TF的结合位点相关联。研究转录因子结合位点的基序可以帮助我们理解具体基因调控机制的物理过程(可以想象为建模配体-受体的相互作用)。
从scRNA-seq中获取TF:使用基因注释数据库将scRNA-seq数据中的基因与已知的转录因子基因进行比对和注释。基因注释数据库提供了基因的功能注释和分类信息,其中包括转录因子的注释。
确定关键调节因子(Key Regulators,关键的转录因子)的方法通常涉及以下步骤:
对于motif发现,根据感兴趣TF找到基因调控网络中的相关基因,根据基因发现染色质区域,在该区域上进一步发现motif。
实际产生的产物,即蛋白质,承担细胞内或细胞外的任务,蛋白质的一个子集出现在细胞表面。表面蛋白表达有助于识别细胞类型,如免疫系统的造血细胞。用于结合scRNA-seq和表面蛋白分析的最广泛使用的方案是CITE-seq和REAP-seq(图4a)。
ADT相比RNA,数据不会过度稀疏,在预处理时应与RNA数据单独分开进行。
细胞特性导致异质性捕获效率,从而导致偏差。只有表达靶向蛋白的细胞才会导致Tag计数的增加,这可能只是特定的细胞类型。
对于配对的测量,比如联合测量,输入表现为细胞配对,但特征不匹配。细胞维度充当整合锚点(见图5a)。
整合未配对的多组学数据(即对角整合,见图5b)的主要困难在于不同的特征空间,并且没有细胞维度的anchor信号。GLUE 将细胞状态建模为通过模态特定变分自动编码器学习的低维嵌入,这些变分自动编码器使用到基于先验知识的指导图。
尽管实验测定取得了进展,但同时从同一细胞中捕获几种模态仍然具有挑战性。另外对来自同一生物样本的不同个体细胞进行测量更为常见,这导致配对数据和未配对数据混合存在,因此称为马赛克整合或混合整合(见图5c)。
图5d为多模态场景下的参考映射。该领域的最新发展来自于多模态reference和query的出现。
到目前为止,所有讨论的模态都是基于解离的单细胞组学技术,用于表征细胞身份和状态。然而,在多细胞生物中,细胞具有相互作用并形成空间结构的微环境,这些微环境可能因样本和条件而异。这使得能够发现新的细胞功能,并产生了新的计算挑战,需要不同的分析方法。空间组学在单细胞基因组学中添加两种额外的模态:组织学成像和空间特征测量。单个细胞的空间定位有助于了解组织微环境。细胞的空间坐标可以作为非分子特征。目前,分析空间数据需要专门针对空间模态定制的分析工具。