cellassign:基于Tensorfiow 框架的sc-RNA细胞类型鉴定方法

Zhang, A.W., O’Flanagan, C., Chavez, E.A. et al. Probabilistic cell-type assignment of single-cell RNA-seq for tumor microenvironment profiling. Nat Methods 16, 1007–1015 (2019) doi:10.1038/s41592-019-0529-1

cellassign自动将单细胞的RNA-seq数据注释到数千个已知细胞类型中,这些数据可用于说明患者和批次的具体影响。细胞类型矩阵以(二进制)标记基因的形式提供给有关已知细胞类型的计算模型。然后cellassign概率性地(probabilistically)将每个cell分配到一个类型,消除了典型无监督聚类的偏见。

单细胞 RNA 测序 (scRNA-seq) 改变了生物医学研究,使复杂组织分解为分解的、功能不同的细胞类型。对于许多应用,研究者希望鉴定具有已知标记基因的细胞类型。通常,这样的细胞类型分配是通过无监督聚类,然后根据这些标记基因进行手动注释,或者通过映射程序到现有数据来进行的。然而,前一种情况下所需的人工判读难以扩展到大型数据集,这也往往容易产生批次效应,而纯化细胞类型的现有数据必须可用于后者。此外,无监督的聚类可能容易出错,导致感兴趣的细胞类型聚类不足或过度。为了克服这些问题,我们提出了 CellAssign,一种利用细胞类型标记基因的先验知识将 scRNA-seq 数据注释到预定义和从头细胞类型的概率模型。CellAssign 自动化处理以可高度扩展的方式跨大型数据集分配细胞,同时控制批次和患者影响。我们通过广泛的模拟证明了 CellAssign 的分析优势,并例证了真实效用,以描述高级别浆液性卵巢癌的空间动力学和滤泡性淋巴瘤的时间动力学。我们的分析揭示了亚克隆恶性表型,并指出免疫和癌细胞群之间的进化相互作用,癌细胞不会识别为免疫细胞。

在人体组织中以单细胞分辨率观察到的基因表达能够在多种生物学背景下研究混合细胞群的细胞类型组成和动力学过程,包括癌症发展。从单细胞 RNA-seq (scRNA-seq) 数据推断的细胞类型通常分两步进行注释,首先使用无监督算法对细胞进行聚类,然后根据聚集的簇级表达谱对细胞类型进行标记 。目前已经提出了无数无监督的 scRNA-seq 聚类方法,如 SC3 、Seurat 、PCAReduce 和PhenoGraph ,以及在一系列设置下评价其性能的研究 。然而,由于 i)低维投射未编码高维输入中存在的变异 和 ii)未充分变异的种群过度聚类,低维投射的聚类可能限制生物可解释性。

此外,即使在概括生物细胞状态或类别的稳健聚类的背景下,也存在一些将细胞簇注释为已知细胞类型的原则方法。与无监督统计框架相比,后一步是监督或分类问题。典型的工作流采用不同簇之间的差异表达分析,根据高差异表达标记物手动分类细胞,辅之以最近的数据库将细胞类型与基于标准基因的标记物联系起来 。在研究者希望跨多个样本或重复样本鉴定和定量已知标记基因的特定感兴趣细胞类型的情况下,这样的工作流程会很繁琐,聚类策略的差异会影响下游解读 。或者,可以通过门控(gating on)标记基因表达来指定细胞类型,但这种策略在实践中很难实施,因为 (i) 门控难以用于多个基因,并且依赖于对标记基因表达水平的了解,(ii) 落在这些门控之外的细胞不会被指定为任何类型,而不是被随机指定为最可能的细胞类型。

另一种细胞类型注释的方法是利用来自标记和纯化细胞类型的单细胞转录组数据建立稳健的图谱,新的数据可根据该图谱进行比较和分类。例如,scmap-cluster 计算已知转录组数据中每个细胞类型的 medioid 表达谱,然后根据这些谱的最大相关性分配输入的细胞。然而,这种方法需要目标纯化细胞群的现有 scRNA-seq 数据。鉴于与实验设计和处理差异相关的技术影响,参考群体的表达谱可能无法与其他单细胞 RNA-seq 实验直接比较 。

我们断言,利用文献(或实验)中的先验知识的统计细胞类型分类方法将是对无监督方法的有效补充,用于从 scRNA-seq 数据中定量分解异质性组织。因此,为了解决聚类和映射方法固有的分析挑战,我们开发了 CellAssign,这是一个可扩展的统计框架,在 scRNA-seq 数据中注释和量化已知的和新生的细胞类型。CellAssign 为每种细胞类型编码一组先验标记基因,自动完成注释过程。然后统计模型使用标记基因矩阵(细胞类型-基因)对输入数据中每个细胞最可能的细胞类型进行分类。模型允许灵活表达的标记基因,假设标记基因在它们定义的相对于其他的细胞类型中表达得更高。CellAssign 在 Googles Tensorfiow 框架中实现,CellAssign 具有高度可扩展性,能够在数秒内注释数千个细胞,同时控制批间、患者和研究中心的变异性。我们评估了 CellAssign 在不同分化阶段的 FACS-纯化 H7 人胚胎干细胞 (HSCs) 的一系列模拟背景和真实数据,表明 CellAssign 比聚类和基于相关性的方法更容易区分密切相关的细胞类型,并且对标记基因规范的错误具有稳健性。此外,我们应用 CellAssign 生成的两个新的数据集来分析人类癌症的时空肿瘤微环境 (TME) 动力学。使用 CellAssign 方法,我们通过包括 TME 在内的间质和免疫细胞类型的可变成分以及包括免疫逃避、上皮间质转化和缺氧在内的恶性肿瘤细胞群关键通路的变化,证明了未治疗的高级别浆液性卵巢癌中的肿瘤生态系统空间多样性。还使用 CellAssign 方法举例说明了时间动力学。我们从匹配的诊断和复发的滤泡性淋巴瘤样本中生成了 scRNA-seq 文库,其中一个病例已经发生了向侵袭性淋巴瘤的组织学转化。我们展示了组成和表型变化,包括转化后癌细胞中 T 细胞活化和 HLA 下调,表明转化后癌细胞逃避免疫识别的进化相互作用。总之,我们得出的结论是,CellAssign 方法提供了一个稳健的新统计框架,通过该框架,可对由混合细胞群组成的组织中的疾病动力学进行定量和解释,以最终揭示疾病进展的新特性。

CellAssign: probabilistic and automated cell type assignment

CellAssign 框架(图 1)将观察到的异质细胞群的基因表达建模为多种因素的复合,包括细胞类型、文库大小和批次。输入包括原始单细胞 RNA-seq 读段计数和每个感兴趣细胞类型的标记基因集。假定标志基因在细胞类型中过表达,在细胞类型中它们不一定是标志基因,与那些没有标志基因的细胞水平相似。可选择在标准设计矩阵中编码其他实验和生物学协变量,如批次和患者来源。利用这些信息,CellAssign 采用分层贝叶斯统计框架来确定每个细胞属于每个模型细胞类型的概率,并使用期望最大化推断算法估计模型参数,包括每个细胞类型中标记基因的相对表达和其他协变量对标记基因表达模式的系统影响。当存在未知细胞类型(在标记物矩阵中未指明)时,细胞分配将不属于任何提供的细胞类型的细胞指定为未分配。方法中描述了详细的模型规范、实现和运行时性能。

cellassign:基于Tensorfiow 框架的sc-RNA细胞类型鉴定方法_第1张图片
Discussion

我们开发了一种计算方法,根据预先定义的标记基因信息,将单细胞 RNA 测序数据自动注释到细胞类型中。我们的方法系统性地确定细胞类型表达模式和分配概率仅仅是基于标记基因在它们各自的细胞类型中高度表达的假设,而不需要人工的聚类注释或现有的细胞类型图谱分析方法的训练数据。在模拟和来自纯化群体的真实 scRNA-seq 数据上,CellAssigns 精度与基于无监督聚类和映射方法的最先进的工作流相当或更优,并在成千上万个细胞的数据集上一分钟运行。我们还展示了散装 RNA-seq 数据如何能够实现标记基因识别,以便使用 CellAssign 准确区分表型相似的细胞类型。

随后,我们应用 CellAssign 分析从 HGSC 和滤泡性淋巴瘤中收集的空间和时间样本的微环境组成。我们展示了 CellAssign 不仅可以描述多种恶性和非恶性的上皮细胞、间质细胞和免疫细胞类型,还可以鉴别由任意标记基因定义的亚群,揭示滤泡性淋巴瘤中非恶性 B 细胞中 IGKC:IGLC 的比例与正常淋巴结构一致 。虽然这些分析受限于有限的队列规模,但它们提供了首个通过利用主要统计学方法中细胞类型的先验知识解释时空动力学和微环境相互作用的示例。

我们注意到,CellAssign 适用于已知标记基因存在的情况。特征不明确的细胞类型(或未知的细胞类型或细胞状态)可能是 CellAssign 方法无法注释的。此外,我们没有预先区分相同标记物在两种不同细胞类型中的中等或高表达,尽管这些可以通过扩展模型来适应不同参数之间的限制。然而,我们建议临床应用的很大一部分复杂组织分析始于已知细胞类型组成与疾病状态相关的假设。

scRNA-seq 数据量将随着时间的推移以两种重要方式增加:(i) 分析的细胞类型数量将增加,从而扩大已知标记基因的数据库和 (ii) scRNA-seq 数据将在研究和临床环境中变得更加广泛可用 [34]。因此,CellAssign 准备根据已知感兴趣的参数,如细胞类型、克隆特异性标志物或与药物反应相关的基因,提供可扩展的、系统的和自动化的细胞分类。此外,通过适当的可扩展的模型 CellAssign 可以很容易地扩展到注释其他单细胞测量技术(如 mass cytometry)生成的数据中的细胞类型。我们预计 CellAssign 方法将有助于通过在一个稳健的概率框架中编码生物学先验知识,从而为人类疾病和其他复杂组织的细胞组成的大规模群体范围研究提供新的途径。

安装
install.packages("tensorflow")
library(tensorflow)
install_tensorflow(extra_packages = "tensorflow-probability")


cellassign
Probabilistic cell-type assignment of single-cell RNA-seq for tumor microenvironment profiling

你可能感兴趣的:(cellassign:基于Tensorfiow 框架的sc-RNA细胞类型鉴定方法)