单细胞---HGSTOC卵巢癌的单细胞数据分析--subcluster的深入挖掘思路

  • 文献:High-grade serous tubo-ovarian cancer refined with single-cell RNA sequencing: specific cell subtypes influence survival and determine molecular subtype classification
  • PMID | Journal | Date | IF:34238352 | Genome Med 2021 Jul 9 | 11


1、文章背景与实验设计

  • High-grade serous tubo-ovarian cancer(HGSTOC,高级别浆液性输卵管卵巢癌)全球每年有近24w女性患者,易复发、生存率低...
  • 根据Bulk RNA-seq的研究可将HGSTOC分为4种亚型:mesenchymal(间充质型), immunoreactive(免疫反应型),differentiated(分化型) and proliferative(增殖型)。但分类标准不一并且临床指导意义不大,究其原因可能是肿瘤微环境里的基质细胞类型种类混杂。
  • 因此弄清楚HGSTOC肿瘤微环境的细胞类型具有很大意义。

2、实验设计

  • 主要对来自7个病人的12个组织样本进行单细胞测序;
  • 包括不同组织:ovarian 卵巢、peritoneal腹膜、omental 网膜的tumor / normal tissue
  • 数据链接:http://blueprint.lambrechtslab.org/#/5c631864-a678-4986-9c25-38d8d9d6e36d/*/welcome

2、数据分析主要思路

2.1 Seurat 标准流程

  • 对来自cellranger的20483个细胞(12 samples)过滤得到18403个细胞的23152个基因的表达矩阵。(Cells: nGene < 200 & > 6000 & mito > 15%; Genes: nCell < 10)
  • 标准化、寻找高变基因(Variable genes)、归一化、降维

注意:归一化的同时对三个可能影响基因表达的协变量因素进行回归校正,包括nUMI、mito-percentage、细胞周期评分。
对细胞周期回归校正的原因: cell cycle genes was particularly important for the T cell/natural killer (NK) cell subcluster. 详见Fig S1B-F

  • 聚类分群(primary clusters):第一次聚类目的区分出主要的细胞类型,使用marker gene进行注释;marker gene文件详见附件Table S3
    resolution=0.38;21 clusters ; 8 main celltype,如下图包括:B细胞、T细胞、树突细胞、内皮细胞、纤维细胞、髓系细胞、卵巢基质细胞。
    其中用CNV score(inferCNV包)评价细胞的拷贝数变异情况,用于辅助确认肿瘤细胞、区别纤维细胞。


  • 再次聚类分群(subclusters) :确认了主要的细胞类型之后,作者对8种细胞类型分别再次聚类分群,以深入挖掘肿瘤微环境的异质性。recluster参数各有差异,以符合作者预期的分群效果。
    最终得到35个基质细胞类型亚群与11个肿瘤细胞亚群

(1)为了验证分群结果的鲁棒性,作者用了NMI(Normalised Mutual Information);ARI(Adjusted Rand Index)两个参数评价不同参数(pc±5、resolution±5~10%)分群的稳定性;
(2)为了验证分群结果在样本间的均匀分布,作者用了Shannon index;过低表明specific distribution,可能是潜在的是潜在的批次效应(CCA去除)
(3)为了验证subcluster是否为doublet,作者采用了方法为:是否有subcluster同时表达两种细胞类型的marker gene,详见Fig S3

2.2 slucluster的功能注释与特征分析

(1)功能注释
  • 首先作者借用了Qian等人注释的49种基质细胞类型尝试对35种细胞类型注释,通过合并small subcluster、rare/tissue-specific subcluster最终注释到32种基质细胞亚群的功能分类,详见附件Table S5。


例如recluster的5个内皮细胞亚群功能注释为:


(2)特征基因表达分析
  • 这一步主要目的是找到每个subcluster的marker gene sets。
  • 作者采用了两种思路:(1)Transcriptomic marker(TM):采用Seurat 包的FindAllMarkers()[logfc>0.25 & p<0.01]函数先找到每个subcluster的差异基因,然后再设定一系列过滤手段,最后得到42个sucluster的809 TMs(per subcluster ranged from 1 to 86)

具体思路,结合下图为:首先对8 main celltypes内部的subcluster做FindAllMarkers()。然后用得到的所有差异基因,在全部subcluster间做FindAllMarkers(),筛选;然后每个subcluster的TMs的表达百分比>40%,在第二大高表达的subcluster里表达百分比<50%;最后在所有subcluster的表达比中位数<10%

(2) xCell主要采用gene signature-based deconvolution method,可分析出每个subcluster的 gene enrichment signatures。最终得到43个 subcluster的 648个signatures。(具体流程还没有看明白,但目的还是同上,方法不同。之后会去学习那片文章。)

2.3 slucluster的临床诊断意义分析=

  • 首先作者收集到6个HGSTOC Bulk RNA-seq队列,然后计算每个上述subcluster的TMs/xCell signature在每个病人Bulk RNA-seq的表达程度评分;

TMs score用Subcluster-Specific Z-score (SSZ score)表示,具体含义是 the average of all z-scores of the TMs of one particular subcluster.

  • 然后分别使用每个subcluster的两个评分,结合病人的生存数据 overall survival (OS) 进行COX比例风险模型分析(metafor R package),得到具有显著意义的subcluster。如下图所示


    image.png
  • 再使用 Kaplan-Meier analysis,根据这些significant subcluster SSZ score对病人进行分组,进行生存分析,绘制生存曲线。
    分组标准为:high (> 66%,T3), medium (33–66%, T2) and low (< 33%, T1)


2.4 深入分析significant slucluster

根据上一步分析得到的与病人生存显著相关的subcluster进行深入的生物学分析。可以结合subcluster在不同的病人、取样组织分布差异,2.2.1步骤里的功能注释;并结合每个subcluster的以下三种分析结果进行阐述。具体分析就不多做介绍了。

(1)ssGSEA
  • single-sample gene set enrichment analysis;
  • 50 hallmark gene sets of MSigDB (Molecular Signatures Database)
(2)ssGSVA
  • single-sample gene set variation analysis


  • the metabolic pathway signatures as listed by Gaude and Frezza*.

Tissue-specific and convergent metabolic transformationof cancer correlates with metastatic potential and patient survival. NatCommun. 2016;7(1):1–9. Nature Publishing Group. Available from: https://doi.org/10.1038/ncomms13041.

以上两种方法进行单样本的基因集分析,挖掘出每个subcluster的相关涉及通路

(3) gene regulatory networks 调控网络分析
  • To detect transcription factors driving these 43 different subclusters;


  • SCENIC identifies regulons—gene sets that are co-expressed with known transcription factors—by cis-regulatory motif analysis.

  • pySCENIC package

2.5 Final 2 generous analysis

  • (1)探索4种HGSTOC molecular subtypes的cell subcluster的分布比例特点及相关深入分析
    具体还是根据Bulk RNA-seq数据,根据之前的研究分为4种亚型,再结合2.3步骤计算的subcluster SSZ/xCell score展开讨论;


  • (2)Cell-cell interactions细胞通讯分析:探索不同cluster/subcluster间的interaction( CellphoneDB software)


3、To further study

3.1 需要进一步学习的分析方法

  • ssGSEA、ssGSVA
  • SCENIC
  • CellPhoneDB

3.2 相关文章扩展

  • A pan-cancer blueprint of the heterogeneous tumor microenvironment revealed by single-cell profiling
    https://pubmed.ncbi.nlm.nih.gov/32561858/
  • xCell: digitally portraying the tissue cellular heterogeneity landscape
    https://pubmed.ncbi.nlm.nih.gov/29141660/

你可能感兴趣的:(单细胞---HGSTOC卵巢癌的单细胞数据分析--subcluster的深入挖掘思路)