文献：High-grade serous tubo-ovarian cancer refined with single-cell RNA sequencing: specific cell subtypes influence survival and determine molecular subtype classification

PMID | Journal | Date | IF：34238352 | Genome Med 2021 Jul 9 | 11

1、文章背景与实验设计

High-grade serous tubo-ovarian cancer（HGSTOC，高级别浆液性输卵管卵巢癌)全球每年有近24w女性患者，易复发、生存率低...
根据Bulk RNA-seq的研究可将HGSTOC分为4种亚型：mesenchymal(间充质型), immunoreactive（免疫反应型）,differentiated(分化型) and proliferative（增殖型）。但分类标准不一并且临床指导意义不大，究其原因可能是肿瘤微环境里的基质细胞类型种类混杂。
因此弄清楚HGSTOC肿瘤微环境的细胞类型具有很大意义。

2、实验设计

主要对来自7个病人的12个组织样本进行单细胞测序；
包括不同组织:ovarian 卵巢、peritoneal腹膜、omental 网膜的tumor / normal tissue
数据链接：http://blueprint.lambrechtslab.org/#/5c631864-a678-4986-9c25-38d8d9d6e36d/*/welcome

2、数据分析主要思路

2.1 Seurat 标准流程

对来自cellranger的20483个细胞(12 samples)过滤得到18403个细胞的23152个基因的表达矩阵。(Cells: nGene < 200 & > 6000 & mito > 15%; Genes: nCell < 10)
标准化、寻找高变基因(Variable genes)、归一化、降维

注意：归一化的同时对三个可能影响基因表达的协变量因素进行回归校正，包括nUMI、mito-percentage、细胞周期评分。
对细胞周期回归校正的原因： cell cycle genes was particularly important for the T cell/natural killer (NK) cell subcluster. 详见Fig S1B-F

聚类分群(primary clusters)：第一次聚类目的区分出主要的细胞类型，使用marker gene进行注释；marker gene文件详见附件Table S3
resolution=0.38；21 clusters ； 8 main celltype，如下图包括：B细胞、T细胞、树突细胞、内皮细胞、纤维细胞、髓系细胞、卵巢基质细胞。
其中用CNV score(inferCNV包)评价细胞的拷贝数变异情况，用于辅助确认肿瘤细胞、区别纤维细胞。
再次聚类分群(subclusters) ：确认了主要的细胞类型之后，作者对8种细胞类型分别再次聚类分群，以深入挖掘肿瘤微环境的异质性。recluster参数各有差异，以符合作者预期的分群效果。
最终得到35个基质细胞类型亚群与11个肿瘤细胞亚群

(1)为了验证分群结果的鲁棒性，作者用了NMI(Normalised Mutual Information);ARI(Adjusted Rand Index)两个参数评价不同参数(pc±5、resolution±5~10%)分群的稳定性；
(2)为了验证分群结果在样本间的均匀分布，作者用了Shannon index；过低表明specific distribution，可能是潜在的是潜在的批次效应（CCA去除）
(3)为了验证subcluster是否为doublet，作者采用了方法为：是否有subcluster同时表达两种细胞类型的marker gene，详见Fig S3

2.2 slucluster的功能注释与特征分析

（1）功能注释

首先作者借用了Qian等人注释的49种基质细胞类型尝试对35种细胞类型注释，通过合并small subcluster、rare/tissue-specific subcluster最终注释到32种基质细胞亚群的功能分类，详见附件Table S5。

例如recluster的5个内皮细胞亚群功能注释为：

（2）特征基因表达分析

这一步主要目的是找到每个subcluster的marker gene sets。
作者采用了两种思路：（1）Transcriptomic marker(TM)：采用Seurat 包的FindAllMarkers()[logfc>0.25 & p<0.01]函数先找到每个subcluster的差异基因，然后再设定一系列过滤手段，最后得到42个sucluster的809 TMs(per subcluster ranged from 1 to 86)

具体思路，结合下图为：首先对8 main celltypes内部的subcluster做FindAllMarkers()。然后用得到的所有差异基因，在全部subcluster间做FindAllMarkers()，筛选；然后每个subcluster的TMs的表达百分比>40%，在第二大高表达的subcluster里表达百分比<50%；最后在所有subcluster的表达比中位数<10%

(2) xCell主要采用gene signature-based deconvolution method，可分析出每个subcluster的 gene enrichment signatures。最终得到43个 subcluster的 648个signatures。（具体流程还没有看明白，但目的还是同上，方法不同。之后会去学习那片文章。）

2.3 slucluster的临床诊断意义分析=

首先作者收集到6个HGSTOC Bulk RNA-seq队列，然后计算每个上述subcluster的TMs/xCell signature在每个病人Bulk RNA-seq的表达程度评分；

TMs score用Subcluster-Specific Z-score (SSZ score)表示，具体含义是 the average of all z-scores of the TMs of one particular subcluster.

然后分别使用每个subcluster的两个评分，结合病人的生存数据 overall survival (OS) 进行COX比例风险模型分析(metafor R package)，得到具有显著意义的subcluster。如下图所示

image.png
再使用 Kaplan-Meier analysis，根据这些significant subcluster SSZ score对病人进行分组，进行生存分析，绘制生存曲线。
分组标准为：high (> 66%,T3), medium (33–66%, T2) and low (< 33%, T1)

2.4 深入分析significant slucluster

根据上一步分析得到的与病人生存显著相关的subcluster进行深入的生物学分析。可以结合subcluster在不同的病人、取样组织分布差异，2.2.1步骤里的功能注释；并结合每个subcluster的以下三种分析结果进行阐述。具体分析就不多做介绍了。

（1）ssGSEA

single-sample gene set enrichment analysis；
50 hallmark gene sets of MSigDB (Molecular Signatures Database)

（2）ssGSVA

single-sample gene set variation analysis
the metabolic pathway signatures as listed by Gaude and Frezza*.

Tissue-specific and convergent metabolic transformationof cancer correlates with metastatic potential and patient survival. NatCommun. 2016;7(1):1–9. Nature Publishing Group. Available from: https://doi.org/10.1038/ncomms13041.

以上两种方法进行单样本的基因集分析，挖掘出每个subcluster的相关涉及通路

（3） gene regulatory networks 调控网络分析

To detect transcription factors driving these 43 different subclusters；
SCENIC identifies regulons—gene sets that are co-expressed with known transcription factors—by cis-regulatory motif analysis.
pySCENIC package

2.5 Final 2 generous analysis

（1）探索4种HGSTOC molecular subtypes的cell subcluster的分布比例特点及相关深入分析
具体还是根据Bulk RNA-seq数据，根据之前的研究分为4种亚型，再结合2.3步骤计算的subcluster SSZ/xCell score展开讨论；
（2）Cell-cell interactions细胞通讯分析：探索不同cluster/subcluster间的interaction（ CellphoneDB software）

3、To further study

3.1 需要进一步学习的分析方法

ssGSEA、ssGSVA
SCENIC
CellPhoneDB

3.2 相关文章扩展

A pan-cancer blueprint of the heterogeneous tumor microenvironment revealed by single-cell profiling
https://pubmed.ncbi.nlm.nih.gov/32561858/
xCell: digitally portraying the tissue cellular heterogeneity landscape
https://pubmed.ncbi.nlm.nih.gov/29141660/

单细胞---HGSTOC卵巢癌的单细胞数据分析--subcluster的深入挖掘思路