- 文献:High-grade serous tubo-ovarian cancer refined with single-cell RNA sequencing: specific cell subtypes influence survival and determine molecular subtype classification
PMID | Journal | Date | IF:34238352 | Genome Med 2021 Jul 9 | 11
1、文章背景与实验设计
- High-grade serous tubo-ovarian cancer(HGSTOC,高级别浆液性输卵管卵巢癌)全球每年有近24w女性患者,易复发、生存率低...
- 根据Bulk RNA-seq的研究可将HGSTOC分为4种亚型:mesenchymal(间充质型), immunoreactive(免疫反应型),differentiated(分化型) and proliferative(增殖型)。但分类标准不一并且临床指导意义不大,究其原因可能是肿瘤微环境里的基质细胞类型种类混杂。
- 因此弄清楚HGSTOC肿瘤微环境的细胞类型具有很大意义。
2、实验设计
- 主要对来自7个病人的12个组织样本进行单细胞测序;
- 包括不同组织:ovarian 卵巢、peritoneal腹膜、omental 网膜的tumor / normal tissue
- 数据链接:http://blueprint.lambrechtslab.org/#/5c631864-a678-4986-9c25-38d8d9d6e36d/*/welcome
2、数据分析主要思路
2.1 Seurat 标准流程
- 对来自cellranger的20483个细胞(12 samples)过滤得到18403个细胞的23152个基因的表达矩阵。(Cells: nGene < 200 & > 6000 & mito > 15%; Genes: nCell < 10)
- 标准化、寻找高变基因(Variable genes)、归一化、降维
注意:归一化的同时对三个可能影响基因表达的协变量因素进行回归校正,包括nUMI、mito-percentage、细胞周期评分。
对细胞周期回归校正的原因: cell cycle genes was particularly important for the T cell/natural killer (NK) cell subcluster. 详见Fig S1B-F
-
聚类分群(primary clusters):第一次聚类目的区分出主要的细胞类型,使用marker gene进行注释;marker gene文件详见附件Table S3
resolution=0.38;21 clusters ; 8 main celltype,如下图包括:B细胞、T细胞、树突细胞、内皮细胞、纤维细胞、髓系细胞、卵巢基质细胞。
其中用CNV score(inferCNV包)评价细胞的拷贝数变异情况,用于辅助确认肿瘤细胞、区别纤维细胞。
- 再次聚类分群(subclusters) :确认了主要的细胞类型之后,作者对8种细胞类型分别再次聚类分群,以深入挖掘肿瘤微环境的异质性。recluster参数各有差异,以符合作者预期的分群效果。
最终得到35个基质细胞类型亚群与11个肿瘤细胞亚群
(1)为了验证分群结果的鲁棒性,作者用了NMI(Normalised Mutual Information);ARI(Adjusted Rand Index)两个参数评价不同参数(pc±5、resolution±5~10%)分群的稳定性;
(2)为了验证分群结果在样本间的均匀分布,作者用了Shannon index;过低表明specific distribution,可能是潜在的是潜在的批次效应(CCA去除)
(3)为了验证subcluster是否为doublet,作者采用了方法为:是否有subcluster同时表达两种细胞类型的marker gene,详见Fig S3
2.2 slucluster的功能注释与特征分析
(1)功能注释
-
首先作者借用了Qian等人注释的49种基质细胞类型尝试对35种细胞类型注释,通过合并small subcluster、rare/tissue-specific subcluster最终注释到32种基质细胞亚群的功能分类,详见附件Table S5。
例如recluster的5个内皮细胞亚群功能注释为:
(2)特征基因表达分析
- 这一步主要目的是找到每个subcluster的marker gene sets。
- 作者采用了两种思路:(1)
Transcriptomic marker(TM)
:采用Seurat 包的FindAllMarkers()
[logfc>0.25 & p<0.01]函数先找到每个subcluster的差异基因,然后再设定一系列过滤手段,最后得到42个sucluster的809 TMs(per subcluster ranged from 1 to 86)
具体思路,结合下图为:首先对8 main celltypes内部的subcluster做
FindAllMarkers()
。然后用得到的所有差异基因,在全部subcluster间做FindAllMarkers()
,筛选;然后每个subcluster的TMs的表达百分比>40%,在第二大高表达的subcluster里表达百分比<50%;最后在所有subcluster的表达比中位数<10%
(2) xCell主要采用gene signature-based deconvolution method,可分析出每个subcluster的 gene enrichment signatures。最终得到43个 subcluster的 648个signatures。(具体流程还没有看明白,但目的还是同上,方法不同。之后会去学习那片文章。)
2.3 slucluster的临床诊断意义分析=
- 首先作者收集到6个HGSTOC Bulk RNA-seq队列,然后计算每个上述subcluster的TMs/xCell signature在每个病人Bulk RNA-seq的表达程度评分;
TMs score用Subcluster-Specific Z-score (SSZ score)表示,具体含义是 the average of all z-scores of the TMs of one particular subcluster.
-
然后分别使用每个subcluster的两个评分,结合病人的生存数据 overall survival (OS) 进行COX比例风险模型分析(metafor R package),得到具有显著意义的subcluster。如下图所示
-
再使用 Kaplan-Meier analysis,根据这些significant subcluster SSZ score对病人进行分组,进行生存分析,绘制生存曲线。
分组标准为:high (> 66%,T3), medium (33–66%, T2) and low (< 33%, T1)
2.4 深入分析significant slucluster
根据上一步分析得到的与病人生存显著相关的subcluster进行深入的生物学分析。可以结合subcluster在不同的病人、取样组织分布差异,2.2.1步骤里的功能注释;并结合每个subcluster的以下三种分析结果进行阐述。具体分析就不多做介绍了。
(1)ssGSEA
- single-sample gene set enrichment analysis;
- 50 hallmark gene sets of MSigDB (Molecular Signatures Database)
(2)ssGSVA
-
single-sample gene set variation analysis
the metabolic pathway signatures as listed by Gaude and Frezza*.
Tissue-specific and convergent metabolic transformationof cancer correlates with metastatic potential and patient survival. NatCommun. 2016;7(1):1–9. Nature Publishing Group. Available from: https://doi.org/10.1038/ncomms13041.
以上两种方法进行单样本的基因集分析,挖掘出每个subcluster的相关涉及通路
(3) gene regulatory networks 调控网络分析
-
To detect transcription factors driving these 43 different subclusters;
SCENIC identifies regulons—gene sets that are co-expressed with known transcription factors—by cis-regulatory motif analysis.
pySCENIC package
2.5 Final 2 generous analysis
-
(1)探索4种HGSTOC molecular subtypes的cell subcluster的分布比例特点及相关深入分析
具体还是根据Bulk RNA-seq数据,根据之前的研究分为4种亚型,再结合2.3步骤计算的subcluster SSZ/xCell score展开讨论;
-
(2)Cell-cell interactions细胞通讯分析:探索不同cluster/subcluster间的interaction( CellphoneDB software)
3、To further study
3.1 需要进一步学习的分析方法
- ssGSEA、ssGSVA
- SCENIC
- CellPhoneDB
3.2 相关文章扩展
- A pan-cancer blueprint of the heterogeneous tumor microenvironment revealed by single-cell profiling
https://pubmed.ncbi.nlm.nih.gov/32561858/ - xCell: digitally portraying the tissue cellular heterogeneity landscape
https://pubmed.ncbi.nlm.nih.gov/29141660/