hello,大家好,今天是个好日子,女神节,什么是女神呢?我百度了一下,意思指对女性的神明或至尊的称谓,特指神话传说中的女性至高者。后来引申为善良、纯洁、高素质、气质脱俗以及容貌美的女性。在现代社会,女神常用来定义男性心目中喜爱,但还未成为真正恋爱对象的女生,那么女孩子们,你们是不是女神,看来还是取决于男性的内心啊 ,~~~~
今天我们来分享一篇关于女性的研究文章,妇科恶性肿瘤的研究内容,文章在A multi-omic single-cell landscape of human gynecologic malignancies,发表于Molecular Cell, IF 18分,从实际来讲,女性确实需要更多的保护。
文章种最重要的分析点就是单细胞和ATAC联合分析 Peak-to-gene correlation analysis with empirically derived FDR (eFDR),放在最前面,供大家参考
SUMMARY
驱动癌细胞转录程序的调节机制的Deconvolution是理解肿瘤生物学的关键。在此,研究了手术切除后立即处理的human ovarian和子宫内膜肿瘤的单细胞分辨率匹配的转录组 (scRNA-seq) 和染色质可及性 (scATAC-seq) profiles。该数据集揭示了这些肿瘤复杂的细胞异质性,能够定量地将染色质可及性的变异与基因表达联系起来。分析表明,恶性细胞获得了以前unannotated regulatory elements 来驱动标志性的癌症途径。此外,来自同一患者体内的恶性细胞显示出与转录输出相关的染色质可及性的显著变化,突出了肿瘤内异质性的重要性。最后,推断出转录因子的恶性细胞类型特异性活性。通过定义癌细胞的调控逻辑,这项工作揭示了对致癌调控元件的重要依赖,并强调了匹配的 scRNA-seq/scATAC-seq 揭示妇科癌症中肿瘤发生的临床相关机制的能力。
INTRODUCTION
实体瘤中各种类型的恶性和非恶性细胞之间的动态相互作用促成了从癌症进展到治疗反应的一系列生物学现象。 单细胞技术提高了我们研究肿瘤潜在细胞异质性的能力,但迄今为止,大多数努力仅限于通过单细胞 RNA 测序 (scRNA-seq) 进行的转录组学。 尽管最初的报道具有变革性,但很明显,基因组的非编码区,包含调节元件(例如,顺式远端增强子元件),对肿瘤生物学有着深远的贡献。 这些调节元件通常被癌细胞重新连接和重新利用,以驱动致癌转录。 因此,对癌细胞调控逻辑的更深入理解将为肿瘤生物学和异质性的分子基础提供新的见解。
在单细胞水平 (scATAC-seq) 转座酶可接近染色质分析的进展使染色质可及性图谱的强大分析成为可能,揭示了包括顺式调节元件在内的基因调控层。 scRNA-seq 和 scATAC-seq 共同提供了前所未有的分辨率,以揭示肿瘤生物学背后的复杂表观遗传事件,并为发现超出细胞类型标准分类学鉴定的肿瘤发生途径提供了潜力。
很少有与 scRNA-seq 和 scATACseq 匹配的癌症数据集存在,并且没有关于人类妇科肿瘤的数据集的报道。卵巢癌 (OC) 和子宫内膜癌 (EC) 是女性中最致命的两种癌症。这部分是由于这些癌症的侵袭性、缺乏靶向治疗以及通常处于诊断后期。值得注意的是,OC 预示着预后不良,虽然不如乳腺癌常见,但其致死率是其三倍。 EC 是全球第六大女性最常诊断的癌症,也是死亡率上升的少数癌症之一。癌症基因组图谱 (TCGA) 联盟已经提出了这些癌症的分子亚型,但这些分层系统无法解释肿瘤内的细胞类型组成和恶性细胞异质性。假设患者肿瘤内和肿瘤之间的细胞群由驱动癌基因表达的非编码调控元件delineated,从而增强增殖、耐药性和/或存活率。
在这里,提供了 11 种人类妇科肿瘤的匹配 scRNA-seq 和 scATAC-seq 数据catalog。 该数据集包含超过 170,000 个单细胞,在单细胞基因组学和癌症生物学领域具有广泛的用途。 通过使用匹配的 scRNA-seq 和 scATAC-seq 分析这些肿瘤,揭示了 EC 和 OC 的肿瘤内异质性和发病机制的临床相关非编码机制。 还推断了与恶性细胞类型特异性调节元件相互作用的转录因子 (TF) 的活性,并根据预测的成药性对 TF 进行优先排序(看来涉及到一些临床验证)。
RESULTS
Matched scRNA-seq and scATAC-seq of human gynecologic tumors
11 名未接受过治疗的患者接受了以治愈为目的的减瘤手术,以切除在子宫内膜或ovary 中发现的肿瘤。 手术切除后,每个肿瘤被分离成活细胞悬浮液,并准备用于基于脂滴的 scRNA-seq 和 scATACseq。 肿瘤标本从未以任何方式冷冻或固定,从而在单细胞中实现高水平的细胞活力和稳健的测序覆盖率。 除患者 6 被诊断为转移至ovary 的 EC 和患者 11 被诊断为转移至 ovary 的胃肠道间质瘤 (GIST) 外,所有肿瘤均为原发性肿瘤。 在对每个患者数据集进行质量控制和双细胞去除后,获得了 75,523 个使用 scRNA-seq 进行分析的细胞和 74,621 个使用 scATAC-seq 进行分析的细胞。
为了分析整个队列中的 scRNA-seq 细胞,使用所有 75,523 个细胞中前 2,000 个最可变表达的基因进行了主成分分析 (PCA)。 使用前 50 个主成分 (PC) 将细胞分类为具有基于图形的聚类的转录不同cluster,并使用统一流形近似和投影 (UMAP) 图进行可视化。 这表明可以将cluster注释到已知的细胞类型,并且批次效应不是主要的混杂因素。 为了识别整个队列中的恶性cluster,使用了临床生物标志物基因表达和推断的拷贝数扩增/缺失事件。 使用美国食品和药物管理局 (FDA) 批准的生物标志物 MUC16/CA125 和 WFDC2/HE4 的表达来识别 EC 和 OC 癌症clusters。 KIT/CD117 的表达用于鉴定 GIST 癌clusters。 推断的拷贝数变异 (CNV) 用于帮助识别 OC 和 GIST,而不是 EC,因为该疾病很少表现出 CNV事件。
为了分析整个队列中的 scATAC-seq 细胞,在整个基因组中创建了一个连续基因组切片矩阵,我们在其中量化了片段计数。 对前 25,000 个可变性最大的基因组 bin 执行了iterative latent semantic indexing。 为了将匹配的 scRNAseq 数据中的细胞类型cluster标签分配给 scATAC-seq 细胞,使用了 Seurat 第 3 版跨模式整合方法(仅限于同一患者肿瘤的细胞)。 这揭示了主要按细胞类型而非患者聚集的 scATAC-seq 细胞,突出了数据集的质量.
总体而言,我们在整个队列中发现了 10 种 general 细胞类型,两种模式中都存在 36 个subcluster。 尽管这些亚群的大小各不相同,但免疫亚群在所有患者中包含大致相等比例的细胞,而恶性和成纤维细胞亚群仍然具有高度的患者特异性。 这部分反映在每个肿瘤的每个推断的 CNV 谱的独特性上。 观察结果与之前关于 OC、肺癌和鼻咽癌的 scRNAseq 报告一致。 这些模式可能反映了所有患者中非恶性细胞的生物学重叠,并突出了每个肿瘤内恶性细胞的独特且可能易于处理的生物学特征。
Systematic discovery of cancer-specific distal regulatory elements in human gynecologic cancers
接下来,分析探索了染色质图谱,以确定可以帮助解释这些恶性细胞的不同生物学状态的远端调节元件 (dRE)。 为了在所有 scATAC-seq 细胞中识别推定的调节元件,我们首先在每个细胞类型subcluster内进行峰值调用,并使用迭代重叠峰值合并程序生成逐个峰值矩阵。In order to link variation in chromatin accessibility to differences in gene expression, we executed a largescale peak-to-gene linkage analysis and developed a robust empirical false discovery rate (eFDR) procedure for determining statistically significant peak-to-gene associations in single-cell data(峰与基因的相关性)。
简而言之,汇总了通过 k 最近邻识别的相似 scATAC-seq 细胞组内的稀疏峰计数,为我们的峰-基因相关性分析生成更多信息的metacell观察。然后,使用 scATACseq metacell(即相似细胞的聚集体)来计算每个峰的可及性与 cis 中每个基因的表达之间的相关性,为每个 scATAC-seq 细胞估算。这种峰-基因相关性分析产生了 2,748,906 个顺式峰-基因组合。为了估计 eFDR,我们选择了 1e 12 的原始 p 值阈值,并记录了与原始 p 值 <=1e 12 观察到的峰基因关联的数量。峰-基因相关性分析在置换条件下重复 100 次,对于每个置换,改组 scATAC-seq metacell 标签以打破峰可访问性和基因表达之间的联系。对于每个排列,与观察到的数据相比,峰-基因对之间的相关性较小,原始 p 值分布接近均匀。然后通过将与原始 p 值 <= 1e 12 的空峰与基因关联的中位数除以与原始 p 值 <=1e 12 观察到的关联数来计算 eFDR。这些数据突出了观察数据中峰值可及性和基因表达之间的真正生物学关系.
峰基因相关性分析揭示了 345,791 个具有统计学意义的峰基因链接(p 值 <= 1e 12,eFDR = 0.00014)。为了确定积极的调节效应(即峰可及性和基因表达之间的正相关),专注于相关性 R >= 0.45 (n = 133,811) 的峰与基因之间的联系。大多数这些峰到基因的联系涉及内含子峰(50.2%)和远端峰(28.3%)。在这组中,启动子和外显子峰到基因的联系最低(分别为 11.3% 和 10.2%)。为了揭示这些妇科肿瘤中活跃的远端调节机制,在下游分析中继续进行了 37,833 个远端峰到基因的链接。我们进一步将峰到基因的链接分类为 36 k-means cluster,并观察到推断的基因表达和关联的峰可访问性之间高度一致的模式。将这些相连的远端峰称为推定的 dRE。大多数已识别的 dRE 由 ENCODE 注释,为我们的计算方法提供支持,并表明它们是真正的bona fide regulatory elements。
为了识别所有患者癌细胞特异性的 dRE,我们从富含癌症的 k-means 组中提取了远端峰,并使用来自非癌组织的表观基因组图谱进行了基因组区间重叠分析。 将 14,043 个富含癌症的远端峰的基因组坐标与在源自正常 ovary 表面上皮和正常输卵管分泌上皮组织的细胞系中活跃的假定增强子元素(由 H3K27ac 定义)重叠。 还筛选了所有现有的 ENCODE regulatory elements。 重叠分析揭示了正常 ovary 表面上皮、正常输卵管分泌上皮或 ENCODE 数据库中不存在的 3,688 个远端峰。 因此,这 3,688 个远端峰参与了 5,827 个峰到基因的链接,代表了癌症特异性 dRE。 剩余的远端峰 (n = 22,166) 代表在正常组织中活跃的调控元件。
为了进一步表征癌症特异性 dRE,量化了癌症特异性和正常峰组中每个远端峰的相关靶基因。 引人注目的是,与非恶性峰(平均值 = 1.44)相比,癌症特异性峰与更多基因(平均值 = 1.58)相关(p <= 1.6e-05,Wilcoxon 秩和检验)。 以前的研究已经对每个 dRE 的推定靶基因数量提出了类似的估计,预计这种差异会在更大的患者群体中被放大.
发现了许多与使用 scRNA-seq 测量的恶性细胞群中上调基因相关的癌症特异性 dRE 的显著实例。 例如,标志性 mTOR 通路调节因子 RHEB 在标记为 3 卵巢癌的亚群中显著上调,该亚群来自被诊断患有子宫内膜样 OC 的患者 7。 这种恶性细胞亚群也显示出 mTOR 通路基因特征的阳性富集(p < 0.01,Kruskal-Wallis 检验)。 在所有恶性 population 的 RHEB 启动子处发现了强烈的染色质可及性信号,但我们强调了在 3 卵巢癌亚群中富集的四种癌症特异性 dRE 的可及性显著增加。 总之,这为通过富含子宫内膜样 OC 恶性细胞的致癌 dRE 提供了 mTOR 通路失调的可能机制。 事实上,高 RHEB 表达预示着 OC 患者的预后较差。
eFDR peak-to-gene linkage和基因组区间重叠分析分别揭示了 EC/OC 和 GIST 中临床生物标志物 CA125 和 CD117 的额外推定的癌症特异性 dRE。 这些基因也分别预示着 OC 和胃癌的不良生存率。 连同我们对 RHEB 的研究结果,这表明 dRE 的分子重新布线在妇科恶性肿瘤的发病机制中起关键作用,并具有重要的临床意义。
为了从完整的队列分析过渡到癌症类型特异性分析,并确定更精细的转录组和表观基因组差异,我们进行了 pseudo-bulk 聚类分析。 该分析揭示了两组患者肿瘤,这些肿瘤在数据类型中是保守的:患者 1-5(子宫内膜样 EC [EEC])和患者 8 和 9(高级别浆液性 OC [HGSOC])。有趣的是,患者 6 和患者 10 的肿瘤在pseudo-bulk RNA-seq 方面更类似于 HGSOC 肿瘤,但在pseudo-bulk ATAC-seq 方面更类似于 EEC 肿瘤。
Cancer-specific regulatory mechanisms in EEC
EC 是美国最常见的妇科恶性肿瘤,子宫内膜样组织学类型占大多数病例。为了分析 EEC 患者队列,合并了来自患者 1-5 的所有细胞,产生了使用 scRNA-seq 分析的 32,234 个细胞和使用 scATAC-seq 分析的 32,155 个细胞。发现细胞主要按细胞类型而非患者聚集,这表明批次效应不是主要的混杂因素。总体而言,在患者 1-5 中观察到 8 种 general 细胞类型,在 scRNA-seq 中有 29 个亚群,在 scATAC-seq 中有 28 个亚群。在 scATAC-seq 中,第 20 个成纤维细胞亚群只有 10 个细胞,因此从下游分析中删除。接下来使用 EC 生物标志物 MUC16/CA125 和 WFDC2/HE4 筛选恶性亚群。同样,观察到成纤维细胞/基质和 EC 亚群具有高度的患者特异性。分析还强调,四个亚群几乎完全由来自患者 3(6-、14-、15-和 21-子宫内膜癌)的细胞形成,表明该肿瘤内具有高度的瘤内异质性。
接下来,为了想更好地了解这些 EEC 亚群之间的转录差异,以及是否有任何模式可以通过染色质可及性的变化来解释。 在 EEC 队列中进行了cancer-specific peak-to-gene linkage analysis,并确定了 324,626 个peak-to-gene linkage(p <= 1e 12,eFDR < 5.5e 5),其中 34,231 个位于远端,相关性 > 0.45 . 与正常参考表观基因组图谱的比较确定了 1,943 个推定的癌症特异性远端峰,形成 2,950 个癌症特异性peak-to-gene linkage。 有趣的是,观察到与 EEC 患者队列的正常峰相关的与癌症特异性峰相关的基因数量同样增加(p = 4.23e-05,Wilcoxon 秩和检验)。
为了评估这些 dRE 是否在 EEC 患者中共享,使用来自完整 EEC 分析的同一组峰分别对每位患者重复peak-to-gene linkage analysis。 我们 query 每位患者在 34,231 个 dRE 或峰值基因对中的可恢复比例。 患者 1-5 的患者特异性分析分别恢复了原始 EEC dRE 的 49.68%、52.03%、40.91%、62.17% 和 52.32%。 此外,发现在每个患者特异性分析中恢复了 17.23% 的原始 EEC dRE。 因此,多个患者参与这些假定的调节关系。
接下来,想研究癌症特异性 dRE 在恶性细胞群中相对于 EEC 队列的正常细胞群的重新连接程度。 独立重复了 EEC 队列中恶性和非恶性部分的peak-to-gene linkage analysis,并评估了在每个部分中回收了多少癌症特异性 dRE。 在恶性特异性分析中鉴定出 27,738 个 dRE,在非恶性分析中鉴定出 34,172 个 dRE。 恶性特异性分析比非恶性分析恢复了更多的 2,950 个癌症特异性 dRE(分别为 47.5% 和 6.3%)。 这些数据表明,相对于正常细胞状态,远端调控landscope在恶性肿瘤中被rewired。
然后,确定了三个明确的癌症特异性 dRE 例子,这些例子解释了恶性 population 中相对于 EEC 队列中正常细胞群的基因表达上调。例如,EEC 队列的恶性部分中 IMPA2 表达增加,并且 IMAP2 基因座内癌症特异性 dRE 的染色质可及性增加。 IMPA2 编码参与磷脂酰肌醇信号传导的肌醇单磷酸酶 2 蛋白。尽管很少有研究报道 IMPA2 在癌症中的作用,但 IMPA2 的高表达预示着子宫内膜样癌 (UCEC) 患者的存活率低。还发现了三个明确的癌症特异性 dRE,这些 dRE 与 EEC 队列恶性部分中 SOX9 表达增加有关。由于高 SOX9 表达预示着 UCEC 患者的预后较差,并且 SOX9 与 EC 中子宫内膜增生性病变的形成有关,这些数据可能为子宫内膜癌变背后的非编码机制提供见解。最后,注意到 CD24 在 EEC 队列的恶性部分中高度表达,并且我们强调了与 CD24 表达相关的三种癌症特异性 dRE。据报道,CD24 是子宫内膜增生性病变和 EC 之间的有效鉴别因子。此外,增加的 CD24 表达提供了对化疗剂的抗性,并促进了子宫内膜癌细胞中巨噬细胞吞噬作用的免疫逃逸。这些临床相关的致癌 dRE 只是 EEC regulatory landscape 改变的一个snapshot。
Cancer cell populations of HGSOC acquire cancerspecific dREs for genes involved in drug resistance
HGSOC 是 OC 最常见的组织学类型,其特点是高拷贝数改变和很少的驱动突变,这被认为是这种疾病的临床侵袭性的原因。为了分析 HGSOC 患者队列,我们合并了来自患者 8 和 9 ,产生了 13,646 个由 scRNA-seq 分析的细胞和 17,677 个由 scATAC-seq 分析的细胞。总体而言,在患者 8 和 9 中观察到六种general细胞类型,在 scRNA-seq 中有 24 个亚群,在 scATAC-seq 中有 19 个亚群。在 scATAC-seq 中,五个细胞类型subcluster的细胞少于 30 个,因此从下游分析中删除。使用推断的 CNV 事件和 OC 生物标志物 MUC16/CA125 和 WFDC2/HE4 的表达来鉴定恶性亚群。同样,观察到成纤维细胞/基质和 OC 亚群具有高度的患者特异性,这反映了来自每个患者肿瘤的恶性和成纤维细胞群的生物学独特性,这部分得到了它们不同推断的 CNV 谱的支持。值得注意的是,患者 9 有四个恶性亚群,表明该肿瘤内具有高度的瘤内异质性。
为了了解这些亚群的regulatory landscape,我们进行了 peak-to-gene linkage analysis,以确定推定的癌症特异性 dRE,这些 dRE 驱动了恶性population的转录谱。 该分析确定了 486,293 个具有统计学意义 (p <= 1e-12, eFDR < 2.1e-06) 的peak-to-gene links,其中 62,087 个位于远端,相关性 > 0.45。 基因组区间重叠分析确定了 5,202 个推定的癌症特异性远端峰,形成 11,134 个癌症特异性peak-to-gene links。 总体而言,与 HGSOC 队列的正常峰相比,癌症特异性峰平均与更多基因相关(p = 6.6e 12,Wilcoxon 秩和检验)。 再次调查了癌症特异性 dRE 在 HGSOC 队列的恶性细胞群中重新连接的程度,发现恶性特异性分析比非恶性分析恢复了更多的 11,134 个癌症特异性 dRE(63.6% versus 3.9%, respectively).
在 HGSOC 队列中的 11,134 个癌症特异性 dRE 中,重点介绍了恶性部分中癌症特异性基因调控的两个例子。 PI3 编码肽酶抑制剂 3(Elafin 蛋白),在恶性部分中高度表达,其上调可以用四种癌症特异性 dRE 来解释。 PI3 不仅可以预测浆液性 OC 患者的不良生存率,它还与 OC 化学抗性有关,并通过激活 MEK-ERK 信号使 OC 细胞具有增殖优势.
分析还强调了两种癌症特异性 dRE,它们与 HGSOC 患者队列的恶性部分中 LAPTM4B 表达增加密切相关。 LAPTM4B 可预测 OC 患者的不良生存率,据报道是化疗药物流出和 PI3K/AKT 信号传导的有效促进剂。将 LAPTM4B 癌症特异性 dRE 标记为增强子 2 (Enh2) 和增强子 4 (Enh4),并且我们注意到在该基因座内注释了三个额外的 dRE(Enh1、3 和 5)。To interrogate TF occupancy at these dREs, we performed find individual motif occurrences (FIMO) analysis for each putative enhancer region using the patient 9 DNA sequence after accounting for single-nucleotide variants in the malignant fraction (subclusters 0-, 7-, 11-, and 16-ovarian cancer) of patient 9. 有趣的是,来自患者 9 恶性部分的细胞在 Enh2 内含有一个 SNP(rs10955131),但我们无法确定这种突变是否是体细胞获得的,因为我们在这个特定基因组区域的正常免疫细胞中没有达到足够的读取深度来执行variant calling。在每个假定的增强子区域内观察到统计学上显著的 TF motif 匹配,并通过患者 9 恶性部分中的 scRNA-seq TF 表达进一步对它们进行排序。值得注意的是,在 Enh2、Enh4 和 LAPTM4B 启动子区域内发现了 YY1 motif,这表明这些癌症特异性增强子参与了患者 9 恶性细胞内的活性增强子启动子连接。
Functional validation of LAPTM4B enhancers and predicted TF regulators
为了进一步验证dRE 识别流程,进行了实验以确认这些 dRE 和 TF 是 LAPTM4B 表达的真正增强剂。 首先,在 HGSOC 细胞系 OVCAR3 中使用 dCas9-KRAB 介导的 CRISPR 干扰测定来抑制 LAPTM4B 基因座中最活跃的癌症特异性 dRE (Enh2) 和谱系特异性 dRE (Enh3)。 用靶向 Enh2 和 Enh3 的单向导 RNA (sgRNA) 转染稳定表达 dCas9-KRAB 的 OVCAR3 细胞,以诱导局部染色质抑制。 然后测量了对基因表达的影响,发现 LAPTM4B 在靶向 Enh2 和 Enh3 时显著降低。 因此,得出结论,Enh2 和 Enh3 是 LAPTM4B 的真正增强剂,为整个研究中确定的剩余 dRE 提供支持(体外实验基因敲除验证,这个很有意义啊)。
接下来通过 OVCAR3 细胞中的 RNAi 介导的敲低验证了 LAPTM4B 的预测 TF 调节剂。 在敲除每个预测的 TF 调节因子后测量了 LAPTM4B 的表达:YY1、CEBPD 和 KLF6。 事实上,当靶向 YY1、CEBPD 和 KLF6 时,我们观察到 LAPTM4B 表达在统计学上显著下降,但在靶向阴性对照 GAPDH 时则没有。 因此,YY1、CEBPD 和 KLF6 是 LAPTM4B 的真正 TF 调节剂,为 TF 预测提供了信心。
Linking dREs to TF activity in human gynecologic malignancies
在确定了可能在癌症进展中起关键作用的 dRE 之后,在整个数据集中query了这些 dRE 中存在的反式作用因子,以更好地了解这些肿瘤的调控逻辑。我们采用了我们已发表的方法,称为增强子元素的总功能评分 (TFSEE),以预测哪些 TF 在恶性细胞类型中的活性 dRE(增强子样元素)中富集。通过将此方法应用于匹配的 scRNA-seq 和 scATAC-seq,TFSEE 允许同时评估 TF 表达、增强子活性、增强子位置和增强子上存在的 TF。在整个患者队列中,根据患者特异性、推断的 CNV 事件和/或癌症生物标志物表达模式选择 11 个恶性细胞类型亚群进行 TFSEE 分析。进行了 TFSEE 分析并观察到恶性细胞类型倾向于按患者和癌症类型聚集。为了进一步优先考虑跨活性增强子元素的富集 TF,我们通过 canSAR 数据库通过基于结构和基于配体的评估确定的预测成药性状态(二进制)突出显示每个 TF。
为了用单细胞数据举例说明 TFSEE 的效用,研究了两名具有罕见组织学亚型的患者的肿瘤内异质性。 对于被诊断为转移至 ovary 的浆液性组织学 EC 的患者 6,有两个不同的肿瘤亚克隆(19 和 34 子宫内膜癌),其不同的 CNV 特征highlighted。 可视化了这两个亚克隆之间 TF 活性的差异,并观察到了在每个亚克隆中富集的几个值得注意的 TF。 值得注意的是,发现 MAFB 在患者 6 肿瘤的 19 子宫内膜癌亚克隆中相对于 34-endometrial cancer 亚克隆富集。 此外,根据 canSAR 数据库,通过基于配体的评估预测 MAFB 可成药。 还观察到 STAT1 在患者 6 肿瘤的 34 个子宫内膜癌亚克隆中富集。这些 TF 活性的差异可能为浆液性 EC 的瘤内异质性提供有价值的见解。
还选择调查诊断为卵巢癌肉瘤的患者 10 肿瘤的两个组织病理学部分(16 和 17 卵巢癌)。尽管这两种组织病理学部分具有相似的推断 CNV 谱,但对所有恶性细胞类型的pseudo-bulk基因集变异分析 (GSVA) 揭示了 16-卵巢癌亚群。这表明 16 卵巢癌亚群代表肉瘤部分,而 17 卵巢癌亚群代表癌部分。 16-卵巢癌与 GIST subcluster 0-/27-GIST 的聚类以及 17-卵巢癌与 HGSOC subcluster 9-/10-卵巢癌的聚类也支持这些分数身份分配。为了揭示患者 10 肿瘤的癌部分(17-卵巢癌)和肉瘤部分(16-卵巢癌)之间 TF 活性的差异,可视化了比例 TFSEE 评分的差异,并确定了每个部分中富集的许多 TF。相对于癌部分,ZEB1 在肉瘤部分中富集。这一结果与 ZEB1 在 EMT 和抑制上皮特异性基因中的作用一致。我们还观察到相对于肉瘤部分富含癌部分的上皮特异性 TF ELF3。这些不同的 TF 活性谱,以及卵巢癌肉瘤组织病理学部分之间的共同推断 CNV 事件,可能有助于研究人员和临床医生更好地了解妇科癌肉瘤的病因。
TFSEE 分析使我们能够对浆液性与子宫内膜样 OC、浆液性与 EEC 以及 GIST 与浆液性 OC 进行额外比较。在每种情况下,我们都确定了富含任一组织学类型的重要 TF 调节剂。值得注意的是,观察到 RARG 相对于子宫内膜样 OC 富含浆液 OC,MAFB 相对于 EEC 富含浆液 EC,ZEB1 相对于浆液 OC 富含 GIST。总体而言,TFSEE 分析是单细胞基因组学中的一个新框架,它揭示了与 TF 表达耦合的 TF 活性的可靠推断。该策略试图通过丰富具有非零表达的 TF 并为具有零或可忽略不计表达的 TF 赋予较低的权重来降低基于基序的 TF 预测的误报率。在某些情况下,一些 TF 在没有被主动转录的情况下仍然可以发挥作用。因此,我们选择通过省略与 TF 表达式矩阵的最后一个元素乘法来探索与 TF 表达式无关的 TFSEE 分析的替代版本,并发现了类似的结果。
DISCUSSION
迄今为止,OC 和 EC 的护理标准是手术、化学疗法和放射疗法的组合。尽管有这些积极的治疗方法,但大多数晚期 EC 和 OC 的女性都会死于他们的疾病,这凸显了开发更好的靶向治疗的必要性。我们的工作代表了一种有价值的多组学资源,它以单细胞分辨率绘制了妇科肿瘤的转录和调控格局。该数据集的反卷积确定了促进肿瘤发生的新机制,并优先考虑了使用批量基因组方法隐藏的治疗干预的潜在途径。我们还阐明了许多临床相关生物标志物和参与癌症发病机制的主要参与者的非编码调控机制。此外,我们预计该数据集将有助于启发 EC 和/或 OC 中的新治疗策略,作为 (1) 临床医生了解肿瘤内异质性的参考,(2) 癌症生物学中的假设生成,(3) 细胞类型注释在未来的单细胞数据集中,以及 (4) 开发新的生物信息学方法。
我们重申分析这个单细胞数据集的四个重要发现。 首先,证明癌细胞从头获得非编码 dRE,这些 dRE 以癌症特异性方式调节标志性癌症通路,包括 mTOR 信号传导。 这与最近在 OC 患者联合治疗中测试 mTOR 抑制剂的临床试验一致。 由此,我们推测富含 mTOR 的患者 7 可能受益于 mTOR 抑制剂治疗,尽管需要进一步研究。 尽管如此,这些数据证明了癌细胞如何由于染色质可及性和 TF 占有率的变化而获得侵袭性表型的重要非编码机制。
此外,与谱系特异性 dRE 相比,每个分析队列中发现的癌症特异性 dRE 平均与更多靶基因相关。 根据我们的数据,我们预计这一趋势在更大的患者肿瘤组中会更大,并假设显著的癌症特异性 dRE 相对于在正常组织中活跃的 dRE 具有更高的“调节负荷”。 这可以通过拓扑关联域边界和高阶染色质结构的改变来解释,但这需要进一步研究
接下来,患者肿瘤内部和之间的恶性群体在与转录输出相关的染色质可及性方面表现出显著的异质性。 这对 EC 和 OC 治疗构成了具有挑战性的障碍,并突出了肿瘤内异质性的重要性以及对更多实体瘤单细胞数据集的日益增长的需求,特别是在对化疗的反应中。 恶性细胞群在多大程度上可以被描述为不同的“细胞类型”或“细胞状态”仍然难以捉摸,并激发了对时间调控的致癌调控元件和恶性细胞群的谱系追踪的进一步研究。
最后,我们推断恶性细胞群之间差异 TF 活性的方法揭示了在癌细胞中重新利用的另一个复杂的基因调控层。 我们的 TFSEE 分析是一个强大的工具,可以促进 scRNA-seq 和 scATAC-seq 数据集的整合,以探究复杂的基因调控机制。 这有助于优先考虑 TF 进行后续调查,并有助于激发妇科恶性肿瘤的新治疗途径。
Method
单细胞分析部分(质控的部分大家要注意)
CNV分析(inferCNV)
单细胞注释
ATAC分析
单细胞ATAC联合分析(Seurat && ArchR)
Pseudo-bulk clustering of patient tumors
Peak-to-gene correlation analysis with empirically derived FDR (eFDR)
Genomic coordinate overlap analysis with normal epigenome profiles
生活很好,有你更好