单细胞转录组学(single-cell transcriptomics)可以在一次实验中分析数千个细胞,并在多种组织和生物体中识别新的细胞类型和状态。标准的实验方案和分析工作流程已经开发出来,可以从组织中创建单细胞转录组图谱(single-cell transcriptomic maps)。本教程重点介绍如何解释这些数据,以识别细胞类型、状态和其他生物学相关模式,从而创建一个带注释的细胞图(annotated map of cells)。我们建议采用三步工作流程,包括自动细胞注释(automatic cell annotation)、手动细胞注释(manual cell annotation)和验证。讨论了经常遇到的挑战,以及应对这些挑战的策略。本文介绍了可用于每个步骤的软件工具和资源的指导原则和具体建议,并提供了一个R notebook,以帮助运行推荐的工作。
单细胞基因组学能够在单个实验中对数千个细胞进行分析,从而创建多细胞系统中细胞异质性的综合图谱。特别是,单细胞RNA测序(scRNA seq)和单核RNA测序可用于测量单细胞转录组,并绘制多种组织和生物体中的新细胞类型和状态。
单细胞转录组学数据通常以二维“图谱”的形式呈现,根据基因表达谱的相似性组织细胞。以这种方式可视化的数据自然地识别出高度相似的细胞群(或“簇”),以及梯度(gradients)和其他基于转录信息的模式(transcript-based pattern)。我们需要对这些人工作品进行解释和注释,以定义支持生物发现(biological discovery)的细胞类型和状态(图1)。标准实验协议和分析工作流程详细说明了如何从组织中创建单细胞转录组图谱。简而言之,组织被分解成单个细胞,并使用单细胞转录组学技术进行分析。然后使用计算分析对结果进行质量控制过滤(例如,去除低质量细胞),量化每个细胞中每个映射基因的表达,使用聚类算法识别相似细胞簇,并使用t-SNE或UMAP等技术二维可视化所有细胞,以生成未标注的“单细胞图”。例如,为了确定在生物学上观察到的细胞群或其他细胞群中哪些是必要的。这些解释可以在图上标注,这有助于将它们置于一个概念框架中,有助于更好地理解组织生物学。本教程提供图谱解释和标记过程的指南,从聚类数据开始,生成一个完整的带注释的单细胞图谱。在scRNA-seq数据中注释细胞的一般工作流程有三个主要步骤:自动注释、手动注释和验证(图2)。
首先,自动注释使用一组预定义的“标记基因(marker genes)”(即在已知细胞类型中特定表达的基因)或参考单细胞数据(即现有的经过专业注释的单细胞图谱),通过将单个细胞或细胞簇的基因表达模式(特征表示,signatures)与已知细胞类型的基因表达模式(特征表示,signatures)匹配来识别和标记单个细胞或细胞簇。
第二个主要步骤是手动注释,包括研究每个细胞簇或模式的特定基因和基因功能(gene functions),以验证自动细胞注释并识别新的细胞类型(novel cell types)和状态。
最后,验证可以使用独立的方法(如新的验证实验)确认选定细胞类型的身份和功能。
marker-based的自动注释根据已知标记基因的特征表示标记细胞或细胞簇。标记基因或基因集(标记基因的集合)应在给定的细胞、簇或细胞类别(例如免疫细胞)中特异且存在一致的表达。标记基因可用于具有良好特征表示的生物体和细胞类型(例如,人类外周血单个核细胞PBMC的样本)。一旦收集到一组相关且足够大的标记基因,基于marker的自动注释就可以很好地起作用。
为了标记单个细胞,最可靠的基于标记基因的注释工具之一是(SCINA,semi-supervised category identification and assignment)。SCINA假设每个marker gene遵循双峰基因表达分布,其中一个峰对应于相关细胞类型的细胞,另一个峰包含实验中的其余细胞。假设特定类型的细胞在该分布的上部表达该细胞类型的所有标记基因,因此要求作为SCINA输入的标记基因只针对一种细胞类型。AUCell是另一种很好的基于marker gene的标记方法,可以对单个细胞或簇进行分类。AUCell通过降低表达值对每个细胞中的基因进行排序,并根据其最活跃(高度表达)的标记基因集对细胞进行标记。AUCell最适合具有足够大的标记基因集的细胞类型,以便在每个细胞中检测到多个标记基因。它的优点是一次对一整套标记基因进行评分,这可能会比独立检查每个标记基因的方法更敏感。
为了标记整个簇,基因集变异分析(GSVA)已被作为基准测试。GSVA的工作原理与AUCell类似:给定一个标记基因集数据库,它可以识别在一个簇的基因表达谱中的富集(一组基因在某个功能节点上是否相比于随机水平过于出现)。GSVA的实际优势是,它可以在一次操作中注释所有簇。
基于marker的自动细胞注释方法通常具有以下优点:它们仅为与已知标记关联的细胞指定标签,而其他细胞将保持未标记状态。然而,这取决于具体的工具和使用的参数;有关哪些工具可以选择不标记细胞的详细信息,请参见表2。这些工具的一个缺点是,并非所有细胞类型都能轻易获得标记。
基于参考的细胞注释基于“guilt by association”的概念,即参考数据中的细胞或簇标签被转移到查询Query数据中具有类似基因表达谱的未标记细胞或簇。因此,只有在高质量和相关注释参考单细胞数据可用的情况下,这种方法才可能实现。研究对参考数据执行的原始聚类和注释步骤有助于确定其质量,并确保参考中的错误不会传播到新数据(研究源域中的处理操作)。
组织特异性参考数据可从公共数据库或大细胞图谱项目(如人类细胞图谱、鼠表细胞或小鼠细胞图谱)获得,尽管所需的相关细胞注释并不总是容易获得。这些图谱通常包含数十万个细胞和几十种不同的注释细胞类型。
scmap是基于参考的自动细胞或簇注释的最佳工具之一,无论是在指定标签的准确性方面,还是在避免新细胞类型出现错误标签方面。用于基于参考的自动注释的其他工具包括SingleCellNet和SingleR。当参考数据中的所有细胞类型都能很好地表示时,SingleCellNet具有较高的精度,但如果参考数据不完整或表示的匹配性较差,SingleCellNet的精度较低。SingleR的主要优点是:该工具包含了一个合理的、通用的参考数据集,但其性能可能不如与查询数据集特别匹配的参考域。使用特定软件包进行基于参考的细胞注释的另一种选择是,在选定的参考数据上训练机器学习模型,如支持向量机或随机森林分类器。然后,该模型可用于在新数据中将细胞或簇分类为特定的细胞类型。这些方法的性能优于任何预先打包的自动工具,但需要统计学的计算专业知识才能使用。
基于参考的细胞注释的另一种方法是使用集成算法将查询数据集与参考数据集集成,从而能够识别跨越两个数据集的簇。然后,可以将参考标签转移到簇内的查询细胞数据中。这种方法支持识别新的细胞类型(不会将新细胞分类成已知细胞)、不同的细胞类型和细胞状态中的梯度,但运行起来可能会在计算上很昂贵,并且可能会遇到额外的问题,例如过度集成。
基准研究显示,自动注释工具的性能各不相同,这取决于待注释细胞类型的数据集和基因表达谱的独特性。例如,区分T细胞和B细胞相对简单,但自动工具有时无法准确区分CD8+细胞毒性T细胞和自然杀伤细胞(图3)。因此,我们建议将多个互补注释工具和多个可用的标记基因数据库应用于单个数据集。
当对一个数据集应用多个细胞注释方法时,细胞或簇将获取多个有时相互冲突的细胞类型标签。如果所有标签一致,细胞或簇上的一组注释可以轻松解析为单个标签。如果存在冲突,大多数工具都会提供标签可信度分数,可用于识别单个高分标签。然而,不同工具之间的信心分数并不标准化,因此它们通常不具有可比性。冲突也可以通过多数规则方法解决,即选择最频繁的标签(图4),或方法之间的权重之和。如果无法确定标签,则必须手动标注单元格或簇。
簇内的冲突注释可能反映有关该簇的重要信息,例如它是否包含细胞亚型(subtype)。但是,如果亚型无法明确定义,则更通用的细胞类型注释可能更合适。例如,如果一个簇通过不同的方法被标注为调节性T细胞、幼稚T细胞和辅助性T细胞,那么最合适的方法可能是指定“T细胞”的通用标签。在这种情况下,应更改原始聚类参数,以更好地捕获细胞亚型。
如果相互冲突的注释不是同一细胞类型的亚型,则该簇可能代表中间细胞状态或基因表达梯度。由于许多自动注释工具采用离散细胞类型,因此它们通常会将较大梯度内的簇或细胞分配给定义良好的端点。然而,梯度通常包含不同表型的细胞;因此,多种方法可能会将同一细胞分配给梯度的不同端。在注释细胞状态和梯度中讨论了处理梯度的建议。或者,细胞上相互冲突的标签可能表明该细胞实际上是一个双体doublet(其中两个或多个不同类型的细胞被同一细胞条形码捕获)。这种情况可以使用doublet查找方法进行检测。
大多数自动注释工具设计用于注释单个细胞(表2)。这种方法的优点是能够识别分辨率不足的细胞类型和细胞梯度,并独立选择聚类分辨率、特征选择和降维参数。有趣的是,产生的注释可以用来标记这些分析选择。例如,细胞注释有助于优化聚类过程,使每种细胞类型产生一个聚类。
最后,簇可能具有参考数据中不存在的新的细胞标识。这通常会导致自动注释方法产生的结果差异很大,或者任何工具都没有足够的信心来指定任何标签。在这种情况下,必须执行手动注释。
尽管自动细胞注释方法方便且系统化,但它们需要一个适当的参考数据库,并且并不总是产生高置信度注释。当这些方法导致置信度较低、细胞标签冲突或缺失时,需要专家手动注释。在手动细胞注释中,使用各种资源手动检查细胞,寻找其功能的线索,遵循与基于marker gene的自动注释相同的原则。为方便起见,手动注释通常在簇级别操作,但罕见的细胞可以单独检查。专家手工注释通常被视为细胞注释的最佳方法;然而,这是缓慢和劳动密集型的,并且可能是主观的。
如果尚未执行自动注释,则应首先手动应用基于标记的注释。通常,每个已知的标记基因在2D投影数据图上单独可视化,以创建“基因表达叠加图,gene expression overlay” (图5)。整个marker gene列表也可以作为热图或点图(图6)跨簇同时可视化。
点图比热图信息更丰富,因为它可以传达检测到的平均基因表达水平和检测到每个基因的簇中细胞的比例,而热图通常只描述每个簇的平均基因表达水平。如果一个已知细胞类型的许多标记基因在集群中的细胞中高度表达,这通常足以支持将其标记为该细胞类型。易于使用的软件,如免费的Loupe Cell Browser for 10x Genomics scRNA seq data,支持这种可视化和分析过程。这种方法面临的挑战是:已知marker的数量往往太少,无法完全注释scRNA-seq数据集,并且一些已知marker在scRNA-seq数据集中可能没有预期的那么特异。额外的marker通常必须通过搜索文献和挖掘现有的单细胞转录组数据来手动寻找与查询数据集相关的基因表达特征。此外,可能没有任何单一的区分基因表达的marker,在这种情况下,必须同时使用多个基因来区分数据中的一种细胞类型和其他细胞类型。
cell-defining基因的思想主要来源是来自相关生物体、器官和疾病背景的单细胞图谱。如果没有这一点,可以从同一组织来源分离的细胞群的大量RNA-seq数据中收集基因表达标记。鉴于蛋白质表达可能与mRNA表达相关,可以从已发表的组织内染色模式证据(即使用免疫组织化学或免疫荧光)、流式细胞术和western blot中收集蛋白质表达标记,并将其用作潜在的基因表达标记。由于列表之间的冲突,整合来自独立来源的marker可能具有挑战性。例如,PanglaoDB包含220个B细胞marker,CellMarker包含1426个marker,但只有66个是共享的。如果缺乏物种特异性数据,则可以通过模型生物或其他模型(如体外细胞培养或类器官)的正畸学传输数据。
实际上,每个簇都将唯一地表达一种细胞类型的makers。然而,在某些情况下,一个簇可能不表达任何已知细胞类型的标记;相反,它可能表达多种细胞类型的标记。表达一种以上细胞类型标记的簇可能代表双倍体doublet。通常,与真正的单细胞簇相比,这些簇非常小,它们可能比单细胞表达更多的基因。有各种doublet检测工具可以帮助确定集群是否由doublets组成。如果簇中不表达任何已知细胞类型的marker,它可能包含质量差的细胞或代表一种新的细胞类型。
一旦来自已知marker的细胞类型信息耗尽,未被可靠注释的细胞必须逐簇手动检查。通过计算一个簇和所有其他细胞之间的差异表达来识别潜在的新标记(图6)。然后手动研究所有标记基因,以找到可能有助于识别与其相关的簇的细胞类型的功能信息。路径富集分析也应当应用于每个聚类,以使用标准工作流程和诸如基因集变异分析(GSVA)或单样本基因集富集分析(ssGSEA)等工具来识别特定于聚类的路径。路径富集分析同时对一个簇内的多个功能相关基因的基因表达活性进行评分,比基于单个基因的分析更敏感。
在分析和表征新的细胞类型时,重要的是确定它们是代表稳定的细胞类型还是包含多个细胞状态。细胞类型和状态的定义尚未标准化,但稳定的细胞类型可能在一个簇中具有同质的基因表达,并且在2D投影图中是紧凑的,而细胞梯度显示为细胞和细胞之间的状态(例如,细胞周期状态,图6)。梯度表明细胞群中存在的连续差异,可能代表细胞周期(cell cycle)、免疫激活(immune activation)、空间模式(spatial patterning)或短暂发育阶段(transient developmental stages)等状态。注意区分具有生物学意义的细胞状态和实验批次效应,这可能以类似的方式表现出来(图7)。
注释梯度的中间阶段通常很困难,因为这些区域很少表达独特的标记基因。通常更容易标记梯度的末端,然后使用特定基因的顺序来描述中间阶段,这些基因标记这些末端在梯度上增加或减少。提取梯度中的细胞并对其执行主成分分析(PCA)通常是梯度的有用可视化,因为它保留了细胞之间的大尺度距离(图6)。目前没有自动梯度注释方法;因此,梯度必须手动注释(利用与特定实验相关的已知结构和细胞类型)。
类似地,同质或相似的细胞状态或细胞类型通常很难注释,因为它们共享许多相同的标记基因(图3)。例如,在组织样本中注释T细胞时,所有T细胞亚型都表现出共同的T细胞标记基因;亚型特异性标记隐藏在一般T细胞信号之内或之下。在这种情况下,通常有用的方法是对群体进行亚群聚类,或针对其他相关聚类方法对每个亚群进行专门测试,以确定特定于亚型的marker。高度相似的细胞类型之间的细微差别可能在转录数据上不可见,可能仅在其他基因组层数据可见,例如染色质状态(使用测序(ATAC-seq)和DNA甲基化分析转座酶可及染色质)。
上述工具和方法可以为 scRNA-seq 数据提供可靠的细胞类型标记。实际上,基于 mRNA 检测只能部分定义细胞类型和功能,确认新的细胞类型必须要经过实验验证。例如可以使用T细胞受体(TCR)和 B 细胞受体(BCR)克隆分型来细化组织中免疫细胞的类型。同时,借助单细胞 ATAC-seq 和空间转录组共同验证注释的细胞类型。另外,肿瘤组织的突变对于区分癌症和正常细胞类型很重要,结合 scRNA-seq 数据分析拷贝数变异(CNVs)的情况,CNV 的变化会导致基因组上连续基因的一致的上调(扩增事件)或下调(缺失事件)表达值。
自动注释分为基于marker基因的,和基于参考库的。
基于marker基因的自动注释:用已知的标记基因注释细胞或细胞簇,缺点是:标记基因不能定义所有细胞类型,可能导致注释缺失或者注释重叠。
基于参考的:参考数据中的细胞或簇标签被转移到查询Query数据中具有类似基因表达谱的未标记细胞或簇。因此,只有在高质量和相关注释参考单细胞数据可用的情况下,这种方法才可能实现。缺点是:参考库的数据与查询数据不匹配时准确率很低,注释要求遵循一致的批校正,参考库的部分错误注释会误导结果。
自动注释的细化:多种方法混合增加注释的置信度(细化注释中的分析部分还是需要人工进行)。
手动注释:靠专家去分析基因的差异表达,细胞的状态和梯度注释一般通过2D投影图辅助专家去分析基因的差异表达,从而实现注释。
注释验证:验证可以使用独立的方法(如新的验证实验)确认选定细胞类型的身份和功能。
自动注释:需要有计算机能力,目前也有一些point-and-click的工具,例如:Loupe Browser, GSEA, Cerebro;
手动注释:建议在已知大类注释的前提下进行注释,目前细胞注释仍有很多挑战,例如:细胞亚型注释,gradients注释,高度同源的细胞注释,poorly defined cluster的注释;
对于基于marker基因的注释,如果基因没有被证实一致存在于这个细胞内,容易导致错误的结论。