文献阅读 NBT:通过整合bulk和single-cell测序数据识别表型相关亚群

介绍一篇文献:Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data,2021年发表于Nature Biotechnology,DOI号:10.1038/s41587-021-01091-3。算法已经写成了R软件包,放在GitHub上供使用:https://github.com/sunduanchen/Scissor。

要从单细胞数据中识别关键亚群,标准方法是执行无监督聚类来定义细胞群,检查每个细胞群的marker基因,并在已知的细胞类型和通路中评估marker基因的富集情况,以计算每个细胞群的重要性。然而,识别驱动表型(如疾病阶段、肿瘤转移、治疗反应和生存结果)的细胞亚群具有不可缺少的重要性,这有利于细胞类型靶向治疗和预后生物标志物的发现。大多数单细胞实验涉及不到20个患者样本,缺乏统计功效来识别驱动表型的细胞亚群。

有价值的临床表型信息可以从TCGA等大型项目中获取。因此可利用这些表型信息来指导对单细胞数据的细胞亚群识别。本研究提出了Single-Cell Identification of Subpopulations with bulk Sample phenOtype coRrelation (Scissor) 算法,通过利用bulk数据和对应表型信息,该算法自动从单细胞数据中选择与表型差异最有关联性的细胞亚群。

1. 概述

为了使用bulk数据和表型信息来协助单细胞数据分析,作者开发了一种算法Scissor,从单细胞数据中识别与给定表型相关度最高的细胞亚群。 简而言之,Scissor的三个数据源是单细胞表达矩阵bulk表达矩阵感兴趣的表型。每个bulk样本的表型注释可以是一个连续型因变量、二元变量或临床生存数据

Scissor的关键步骤是量化单细胞数据和bulk数据之间的相似性,如每对细胞和bulk样本的皮尔森相关性。之后Scissor优化了相关性矩阵与样本表型的回归模型。回归模型的选择取决于输入表型的类型,例如,连续型变量—线性回归,二分类变量—logistic回归,临床生存数据—Cox回归。因为驱动感兴趣表型的细胞往往是一个小子集,对回归模型施加稀疏惩罚和图正则化,以高置信度选择对给定表型具有重要性的相似细胞。根据估计的回归系数的符号,系数非零的细胞可表示为Scissor阳性细胞(Scissor+)和Scissor阴性细胞(Scissor−),它们分别与感兴趣的表型呈正相关和负相关。系数为零的细胞表示为背景细胞。此外,为了控制单细胞和bulk数据之间的假关联,作者设计了一个可靠显著性检验,以确定所选数据是否适合表型-细胞关联(基于置换检验)。

这里用和分别表示单细胞数据的细胞数和bulk样本数,样本表型记为,构建皮尔森关联矩阵,量化单细胞数据和bulk数据之间的相似性。(此处巧妙地将bulk数据和单细胞数据相关联,生成的关联矩阵,将样本转化为观测,每个观测对应表型标签,个细胞则可看作个特征)。进而建立一个关联矩阵与表型之间的回归模型:

是细胞的系数向量,是针对不同类型选择的对数似然函数,同时加了两项惩罚项,一个是常规的正则,有利于参数稀疏化,使对于给定表型识别到的细胞具有高置信度,一个是受Seurat启发,基于细胞-细胞相似性网络,计算得到的拉普拉斯惩罚项。其中和是模型超参数。

2. 在模拟数据中捕获表型相关的细胞亚群

利用软件模拟不同表型的单细胞细胞亚群数据和对应bulk数据。在模拟时,存在两种表型特异性细胞亚群间有真实差异表达基因,但标准单细胞分析流程却因为两种亚群被聚在一个cluster中而无法识别的情况。此时利用Scissor进行识别,可以发挥很好的效果,因为Scissor不需要对单细胞数据进行任何无监督聚类,从而避免了对细胞聚类数量或聚类分辨率的主观决定。

3. 在肺癌数据中确定肿瘤和正常表型的亚群。

以577个TCGA LUAD bulk样本指导Scissor的分析,表型是二元的,1代表肿瘤样本,0代表正常样本。对共29,888个细胞的单细胞数据进行识别,得到361 Scissor+细胞,534 Scissor−细胞。

4. 发现与较差生存相关的缺氧亚群,与TP53突变相关的细胞亚群

癌症细胞是异质性的,包括癌症干细胞等亚群,众所周知,这些细胞会推动肿瘤进展和不良预后。以471个TCGA LUAD匹配生存信息的bulk样本指导Scissor的分析,从与上述同一个肺癌单细胞数据集的4102个癌细胞中识别侵袭性癌细胞亚群。得到201个Scissor+ 细胞,关联于更差的预后,Scissor+细胞与其他细胞进行差异表达分析,发现23个与缺氧相关的基因过表达,功能富集分析证明了这一点。

以498个匹配了TP53突变信息的TCGA LUAD bulk样本指导Scissor的分析,得到414个Scissor+细胞和318个Scissor−细胞。对两组细胞进行差异表达分析,得到在Scissor+细胞中,337个基因上调,14个基因下调。上调的基因包括E2F靶基因和细胞周期进程相关的基因,如AURKA, CDK1, CCNB2和TOP2A,通过主要调控因子分析,得到转录因子FOXM1和MYC上调,而它们在正常的TP53野生型状态下处于抑制状态,FOXM1还与不良的预后相关。下调的基因包括HLA-A, B2M和CD74

5. 鉴定与免疫治疗相关的T细胞亚群

为了理解免疫检查点阻断响应的机制,作者对黑色素瘤单细胞数据集进行了Scissor分析,以识别与免疫检查点阻断响应的T细胞亚群。利用70个有免疫治疗反应信息的bulk样本,对单细胞数据1,894个T细胞进行识别,得到105个T cells作为Scissor+细胞,高表达与记忆T细胞相关的CCR7和SELL及生存相关的IL7R和转录因子TCF7,低表达抑制性基因HAVCR2, LAG3, PDCD1和CTLA4及MHC II类基因HLA-DRB5, HLA-DRB1, HLA-DPA1, HLA-DQB2和HLA-DRB6这些结果表明,单细胞数据的Scissor分析能够识别与特定表型相关的亚群,即使单细胞数据本身没有这样的表型信息。在非癌症数据中,Scissor的有效性也得到验证。

最后的最后,按惯例重温一下重点和摘要:

One of the advantages is that Scissor does not require any unsupervised clustering on single-cell data, which avoids subjective decisions of cell cluster numbers or clustering resolution. Most importantly, Scissor provides a flexible framework to integrate various external phenotypes in bulk data to guide single-cell data analysis, enabling hypothesis-free identification of clinically and biologically relevant cell subpopulations.

参考:
https://sunduanchen.github.io/Scissor/vignettes/Scissor_Tutorial.html

你可能感兴趣的:(文献阅读 NBT:通过整合bulk和single-cell测序数据识别表型相关亚群)