学习一篇综述文献:Single-cell transcriptomics in cancer: computational challenges and opportunities,2020年发表于Experimental & Molecular Medicine,DOI号:https://doi.org/10.1038/s12276-020-0422-0。(第一作者Jean Fan是Harvard大名鼎鼎的BIG生信项目的PhD,目前在霍普金斯当AP)。
癌症在基因组、表观基因组、转录组、蛋白质组水平的分子畸变的驱动下,表现出高度异质性,从而展现出表型的多样性。然而bulk RNA-seq测得的是癌症样本中的细胞混合物,因此基因表达定量结果是细胞混合物的平均结果,会受到特定转录谱及样本内不同细胞类型和状态丰度的影响。而single-cell resolution的转录组分析提供了识别和表征不同转录亚群和状态的机会。
本文主要综述执行癌症相关单细胞分析的计算方法:
- 从多个scRNA-seq数据集中识别患者和疾病状态之间共享的常见细胞类型和状态;
- 在scRNA-seq数据集中,利用marker和融合基因检测、CNV推断和体细胞突变calling来区分肿瘤细胞和非肿瘤细胞;
- 从编码受体和配体的基因表达推断细胞间的通信;
- 以bulk基因表达谱评估细胞类型的比例;
- 使用轨迹推断和RNA速率分析表征转录动力学。
对多患者和疾病状态进行统一分析
当细胞是按样本或批次聚集而不是按感兴趣的细胞类型或状态聚集时,从数据中识别共享的细胞类型或状态可能会很困难。这种关于批次效应的挑战可能导致错误的发现,并使下游分析和生物学解释所必需的共享细胞类型和状态的识别变得复杂。而癌症固有的真正独特的患者特异性差异的存在使得问题进一步复杂化。(各算法逻辑会在后续的学习工作中深入研究,现在先初步了解)
核心思想1:
Computational methods for unified single-cell transcriptomics analysis generally search for shared aspects of transcriptional variation that can be aligned across datasets from multiple samples, batches, or conditions.
- MultiCCA(局限:根据数据集在分析中的顺序,有不同的结果)
- Mutual nearest-neighbor (MNN) Correct(局限:同上)
- Scanorama
- Conos
- LIGER(基于NMF)
上述方法的一个显著局限是使用单一分类变量来编码batch label。
- Harmony(可以多变量)
核心思想2:
Alternatively, rather than explicitly taking into consideration batch information, other computational methods for unified single-cell transcriptomics analysis learn a function that maps a dataset onto a low-dimensional latent space and then apply this function to map datasets from different samples or batches onto the same space.
- scCoGAPS+projectR
这些方法在分析时,将不同样本的不同细胞类型分配到同一个cluster中,可能会导致过度校正,而被误认为是相同的细胞类型。除了离散的细胞类型和细胞状态外,癌症数据集还可能包含显示出平稳发展和进化轨迹的细胞。当数据集整合不能保持这些生物轨迹的拓扑时,统一的分析方法可能会导致另一种形式的过度校正。使用来自整合分析的聚类注释单独分析每个数据集可以帮助评估整合结果的质量。
基于deep neural network:
- scVI
- SAUCIE
与PCA、CCA和NMF等矩阵分解方法(在这些方法中,我们可以检查每个基因对每个因子的贡献)相比,从深度学习方法获得的隐空间可能不那么容易解释。这引起了对技术特征的过度拟合或数据中其他不必要的变化方面的担忧。因此,需要更多的努力来证明来自深度神经网络的隐空间反映的是不同癌症组织的生物和临床相关的模式。
在对来自多个患者的癌症数据集进行整合分析时,由于肿瘤细胞与非肿瘤细胞在患者间的异质性程度不同,非肿瘤细胞可能按细胞类型聚集,而肿瘤细胞则按患者分离。
区分肿瘤细胞和非肿瘤细胞
肿瘤细胞通常在各种生化通路和致癌程序中表现出广泛的改变,它们可能在转录上与非肿瘤细胞完全不同,从而可以通过聚类分析进行区分,然而对这些细胞亚群进行肿瘤或非肿瘤的细胞注释具有一定挑战。在某些癌症中,检测不同的marker基因或联合的marker基因可以区分肿瘤细胞和非肿瘤细胞,比如多发性骨髓瘤(multiple myeloma)细胞以CD38+/CD138+抗原表达为marker,可以通过在scRNA-seq数据中共同检测高CD138(SDC1)和CD38基因的表达来识别肿瘤细胞。
然而,scRNA-seq数据可能会受到许多技术的影响,例如drop-outs,当一个基因表达但未被检测到,或者是高稀疏性,使得这种基于marker检测的二元分类容易出现假阴性。此外,对于一些其他癌症,仅marker基因不足以区分肿瘤细胞和非肿瘤细胞。例如,在一项胰腺导管癌(pancreatic ductal carcinoma)的研究中,聚类分析产生了多个细胞簇,根据marker基因的表达确定为导管细胞,如果没有额外的信息,这种聚类分析无法确定所确定的导管细胞群的恶性状态。尽管异常表达程序如癌症相关通路(如血管生成和增殖)的上调可能涉及特定的细胞簇,但仅基于通路表达的注释可能是模糊的。因为肿瘤细胞也可以以我们意想不到的方式表达典型非肿瘤细胞相关的基因和通路。因此,除marker基因或通路表达外往往需要更多的可靠证据来区分肿瘤细胞和非肿瘤细胞。
为此,计算方法已经发展到可以直接从scRNA-seq数据中识别DNA水平的畸变。可以通过将伴随CNV的肿瘤细胞的平均基因表达谱与恰当的正常组织参考进行比较来推断大片段的拷贝数改变(CNV)。平滑归一化表达幅度偏差的分层聚类可以区分伴有CNV的细胞和正常二倍体细胞。然而,这种基于表达的CNV推断的可靠性取决于癌症表达谱与正常参考的匹配程度,需要一个适当的正常参考来确保观察到的表达量偏差是潜在的拷贝数变化的结果,而不是平台或细胞类型特异性差异的结果。如果癌细胞类型的起源是未知的,确定一个适当的正常参考可能非常具有挑战性。另一种识别CNVs的计算方法是基于杂合生殖系单核苷酸多态性(SNPs)的变异等位基因频率(VAFs)。拷贝数的变化使scRNA-seq数据中观察到的VAFs出现偏态,缺失的存在导致丢失的等位基因持续损耗,而扩增将导致扩增的等位基因丰度增加。由于基于等位基因的方法依赖于许多SNP位点的高覆盖度,因此来自能够实现全转录本覆盖的 scRNA-seq protocols的数据最适合这些分析(例如Smart-seq2)。
有些癌症并没有如此大片段的CNV。其他较小片段的DNA水平的改变,如体细胞点突变也可以从scRNA-seq数据中识别,并用于区分肿瘤细胞。然而,从scRNA-seq数据中检测体细胞点突变仅限于在具有足够read覆盖度的位点的外显子内的突变。一些新技术如靶向位点特异性扩增或基于定量聚合酶链反应的靶向突变检测,可以直接从scRNA-seq数据中或与scRNA-seq数据一起,稳健地检测选定的点突变状态。由RNA编辑导致的假阳性也需要加以考虑。
除了区分肿瘤细胞和非肿瘤细胞,CNV推断和体细胞mutation calling可以用来区分基因层次上不同的肿瘤亚克隆。
推断与肿瘤微环境的通信
除了表征肿瘤微环境的异质性外,计算方法也被发展用来推断不同细胞类型之间的通信。由于scRNA-seq方法需要制备单细胞悬液,原始组织中细胞排列的空间背景就丢失了。因此,从 scRNA-seq数据推断细胞间通信的计算方法需要失去细胞spatial proximity信息后的其他证据,普遍依赖于比较受体基因在一种细胞类型和配体基因在另一种细胞类型中的表达水平。
- CellPhoneDB
- NicheNet
由于所分析的患者和样本数量有限,仅关注scRNA-seq数据集在统计效能方面可能受到限制。为了充分利用大容量RNA-seq样本的更大可用性,已经开发了去卷积(deconvolution)的方法,在从scRNA-seq数据中识别细胞类型特异性标记物后,来推断bull RNA-seq样本不同免疫细胞和基质细胞的比例。
描述肿瘤和微环境的进化
虽然像scRNA-seq这样的单细胞转录组分析技术提供了单细胞分辨率的全转录组范围的分子度量,但这些度量最终代表的是时间上的单个快照(snapshot)。因为癌症进化的连续性质,更广泛地说,细胞发育的连续性质,这种时间信息的缺乏对于癌症和其他动态过程的研究是很有局限性的。虽然scRNA-seq提供的是单个时间点上每个细胞的快照,但代表一系列进化阶段的许多细胞的快照可以让我们在伪时间和轨迹内对这些细胞进行排序。
虽然轨迹推断方法能够沿某些轴定位细胞,但目前的方法并不能通过轨迹推断,评估关于进展速率或方向的潜在时间动力学。RNA速率分析可以为推断的轨迹提供方向性。RNA速率分析利用scRNA-seq数据中内含子(即未剪接的,未成熟的)和外显子(即剪接的,成熟的)reads的相对比率来推断转录丰度的变化率,从而估计细胞未来的转录状态。但需排除剪接机器突变可能导致的异常选择性剪接,再导致的不同调控性内含子保留的干扰。
- Trajectory inference
- RNA velocity analysis
讨论和展望
- 一些根本上的限制:基于ploy-A选择,测不了非多聚腺苷酸化的转录本;基于droplet,限制在测3'/5'末端,相比其他能够测全转录本的protocols,做基于allele的CNV推断、call突变、call基因融合,都会受限。
- 转录异质性与潜在基因组、表观基因组、空间上下文的对应关系和相互作用值得深入研究。
- 具有空间分辨率的单细胞转录组数据,将会推动新计算流程和方法的革新。
- 单细胞转录组对癌症异质性、发病机制、肿瘤进化、微环境相互作用都有推动,进而为新的治疗创新奠定基础。