hello,大家好,又是周一,新一周的开始,第一天分享一个简单的内容,就是一个新的单细胞空间分析的软件,CellTrek,这个软件最新的地方在于添加了细胞之间的共定位分析,文章在Spatial charting of single cell transcriptomes in tissues,我们还是先来看看文章,最后看看代码,我也把之前的单细胞空间联合分析的软件分享列在下面,供大家参考。
MIA用于单细胞和空间的联合分析
10X单细胞和空间联合分析的方法---cell2location
10X空间转录组和10X单细胞数据联合分析方法汇总
10X单细胞空间联合分析之四----DSTG
10X单细胞空间联合分析之三----Spotlight
10X单细胞空间联合分析之五----spatialDWLS
10X单细胞空间联合分析之六(依据每个spot的细胞数量进行单细胞空间联合分析)----Tangram
10X单细胞-10X空间转录组联合分析之七----CellDART
当然还有依据marker注释空间转录组的方法,10X空间转录组数据分析之思路总结(针对肿瘤样本)
10X单细胞-10X空间转录组联合分析之八----STRIDE(三维重构)
10X空间转录组数据分析之空间注释(解卷积,STdeconvolve)
10X单细胞空间联合分析之十(RCTD)
好了,开始我们的分享
Abstract
单细胞 RNA 测序 (scRNA-seq) 方法可以分析单细胞的转录组,但不能保留空间信息。 相反,空间转录组学 (ST) 分析可以描绘组织切片中的空间区域,但没有单细胞基因组分辨率。 在这里,作者开发了一种称为 CellTrek 的计算方法,它结合了这两个数据集来实现单细胞空间映射。 测试使用模拟研究和两个原位数据集对 CellTrek 进行了基准测试。 然后,应用 CellTrek 从正常小鼠大脑和肾脏组织的现有数据集中重建细胞空间结构。 分析还对两个导管原位癌 (DCIS) 组织进行了 scRNA-seq 和 ST 实验,并应用 CellTrek 来识别仅限于不同导管的肿瘤亚克隆,以及与肿瘤区域相邻的特定 T 细胞状态。 数据表明,CellTrek 可以准确地绘制不同组织类型中的单个细胞,以解析它们的空间组织。
Introduction
单细胞 RNA 测序 (scRNA-seq) 方法极大地扩展了我们对不同细胞类型的基因表达程序及其在发育和疾病中的作用的理解。然而,scRNA-seq 在组织解离步骤中固有地丢失了细胞空间信息,这对于理解细胞微环境和细胞间相互作用至关重要。虽然空间测序方法,包括空间转录组学 (ST) 和 Slide-seq,可以在空间上描绘跨组织切片的基因表达,但它们仅限于测量具有细胞混合物的小区域,并且不能轻易提供单细胞信息。为了解决这个问题,已经设计了计算方法(例如,cell2location、RCTD)来将 ST spot解卷积为不同细胞类型的比例。然而,空间去卷积方法仅限于推断每个spot的细胞类型比例,无法实现单细胞分辨率。此外,去卷积方法将细胞类型进一步解析为反映不同生物学功能的更细粒度的“细胞状态”(表达程序)的能力有限。最后,大多数反卷积方法只能预测分类标签,而不能以空间分辨率推断连续的细胞信息(例如,谱系轨迹、基因特征、连续表型)。
在这里,作者开发了 CellTrek,这是一种计算工具包,可以根据 scRNA-seq 和 ST 数据将单个细胞直接映射回组织切片中的空间坐标。 这种方法提供了一种不同于 ST 反卷积的新模式,能够更灵活、更直接地研究具有空间地形的单细胞数据。 CellTrek 工具包还提供了两个下游分析模块,包括用于空间共定位分析的 SColoc 和用于空间共表达分析的 SCoexp。 使用模拟和原位数据集对 CellTrek 进行了基准测试。 然后,将 CellTrek 应用于来自正常小鼠大脑和肾脏组织的现有数据集以及从两个人类导管原位癌 (DCIS) 样本生成的数据,以研究单细胞空间分辨率下细胞类型/状态的组织。
Results
Overview of CellTrek toolkit
CellTrek 首先将 ST 和 scRNA-seq 数据集成并共嵌入到共享特征空间中
- Overview of the CellTrek workflow. CellTrek first co-embeds scRNA-seq and ST datasets into a shared latent space. Using the ST data, CellTrek trains a multivariate random forests (RF) model with spatial coordinates as the outcome and latent features as the predictors. A 2D spatial interpolation on the ST data is introduced to augment the ST spots. The trained RF model is then applied to the co-embedded data (ST interpolated) to derive an RF-distance matrix which will be converted into a sparse graph using mutual nearest neighbors (MNN). Based on the sparse graph, CellTrek transfers the coordinates to single cells from their neighboring ST spots.
CellTrek 使用 ST 数据训练multivariate random forests (RF) model,以使用共享降维特征预测空间坐标。 引入了对 ST 数据的空间非线性插值以增加空间分辨率。 然后将训练后的模型应用于共嵌入数据以导出 RF 距离矩阵,该矩阵测量 ST spot和由空间坐标监督的单个细胞之间的表达相似性。 基于 RF 距离矩阵,CellTrek 在阈值化后使用相互最近邻 (MNN) 生成稀疏spot细胞图。 最后,CellTrek 从相邻spot传输细胞的空间坐标。 为了提高兼容性,CellTrek 可以接受从其他方法(例如 novoSpaRc)计算的任何细胞位置概率/距离矩阵作为细胞空间图表的输入。 此外,提供了一个图形用户界面 (GUI),用于对结果 CellTrek map进行交互式可视化。
为了概括不同细胞类型之间的空间关系,开发了一个下游计算模块 SColoc,它将 CellTrek 结果汇总为图形抽象
- 注:The SColoc module. Based on the CellTrek result map, three different spatial dissimilarity methods, i.e., KL, DT, KD, can be applied to calculate a cell-type spatial dissimilarity matrix, and an MST is used to generate a tree structure. These steps are conducted repetitively on bootstrapped samples to calculate a consensus matrix on dissimilarity matrices or MSTs, which produces a final cell-type spatial graph representation
提供了三种方法,即 Kullback-Leibler 散度 (KL)、Delaunay 三角测量 (DT) 和 K-最近邻距离 (KD),用于计算细胞类型之间的空间差异。 基于相异度矩阵,SColoc 可以构造一个最小生成树 (MST),表示简化的空间细胞邻近度。 上述步骤将在引导样本上迭代执行以生成共识矩阵(在差异或 MST 上)。 此后,图形将通过具有可调边缘阈值和颜色映射功能的 GUI 呈现。 此外,SColoc 提供了一个 Kdistance 度量,用于测量细胞到选定参考组的空间距离。
为了研究不同的表达程序是否分布在不同的地形区域,作者开发了 SCoexp,它利用 CellTrek 坐标来检测目标细胞内的共表达基因模块。
- 注:The SCoexp module. For cells of interest, based on the CellTrek map, SCoexp first calculates a spatial kernel matrix using RBF based on their spatial distance. Next, based on the spatial kernel matrix and cell-gene expression matrix, SCoexp calculates the spatial weighted gene co-expression. Gene modules are then identified using CC or WGCNA. For the identified co-expression modules, module activity scores can be computed and mapped back to the CellTrek coordinates.
首先,SCoexp 根据它们的空间距离计算空间核权重矩阵。 使用这个权重矩阵,SCoexp 计算空间加权基因共表达矩阵。 此后,SCoexp 利用共识聚类 (CC) 或加权相关网络分析 (WGCNA) 来识别基因模块。 对于识别的模块,我们可以计算模块分数并investigate它们的空间组织。
Benchmarking and simulations
为了对 CellTrek 的性能进行基准测试,利用了三个空间数据集,1) 具有自定义空间模式的模拟 scRNA-seq 数据集
- 注:(a) UMAP of a simulated scRNA-seq data with 5 cell groups. (b) Spatial organization of the simulated data as the ground truth
-
基于荧光原位杂交 (FISH) 的果蝇胚胎单细胞数据集
- 注:(d) UMAP of Drosophila embryo FISH-generated single cell data. (e) Spatial organization of Drosophila embryo cells as the ground truth.
3)小鼠胚胎的seqFISH数据集
- 注:(g) UMAP of mouse embryo seqFISH data (Group1: Cardiomyocytes; Group2: Cranial mesoderm; Group3: Definitive endoderm; Group4:Dermomyotome; Group5: Endothelium; Group6: Erythroid; Group7: Forebrain midbrain hindbrain; Group8: Gut tube; Group9: Haematoendothelial progenitors; Group10: Intermediate mesoderm; Group11: Lateral plate mesoderm; Group12: Mixed mesenchymal mesoderm; Group13: Neural crest; Group14: Presomitic mesoderm; Group15: Spinal cord; Group16: Splanchnic mesoderm; Group17:Suface ectoderm). (h) Spatial organization of the mouse embryo cells as the ground truth.
生成了三个相应的 ST 数据集,每个spot聚合了五个空间最近的细胞
- 注:(f) mouse embryo ST data generated based on panel (h). In (c), (f) and (i), each ST spot aggregates the 5 nearest cells to generate the ST data.
将 CellTrek 应用于 scRNA-seq 和 ST 数据以重建它们的空间细胞图。 然后,将CellTrek 与另外两种细胞制图方法进行了比较:1) NVSP-CellTrek,它使用基于参考的 novoSpaRc(一种空间重建方法)来计算细胞空间概率矩阵,然后利用 CellTrek 生成空间图,以及 2) Seurat coordinate transfer (SrtCT) which uses the data transfer approach to transfer ST coordinates to single cells。 CellTrek 和 NVSP-CellTrek 都重建了模拟数据的原始空间格局,而 SrtCT 只重建了细胞之间的粗略空间关系,不能准确地映射细胞
与 NVSP-CellTrek 相比,CellTrek 以更高的空间密度绘制了更多的细胞。 为了定量评估这些方法,我们使用 KL 散度将细胞绘图结果的空间密度与不同细胞类型的原始空间分布进行了比较。 CellTrek 和 NVSPCellTrek 均以低 KL 散度实现了良好的性能,而 SrtCT 与参考分布的差异要大得多
在果蝇胚胎数据中,CellTrek 准确重建了原始空间布局,三种方法中 KLdivergences 最低
在 CellTrek 结果中进一步研究了几种已知的果蝇胚胎发生基因,并发现了与先前研究一致的空间模式
在小鼠胚胎数据中,我们发现 CellTrek 和 NVSP-CellTrek 准确地重建了原始空间结构,而 CellTrek 在第 5、9 和 17 组中显示出略高的 KL-divergences
为了研究 CellTrek 是否可以揭示小鼠胚胎发育的空间模式,我们选择了一组肠管细胞,发现一些标记基因与之前的研究存在空间一致性
然后我们使用 Monocle 进行了轨迹分析,结果表明伪时间反映了肠管细胞的空间发育模式以及前后轴
接下来评估了 CellTrek 在三种不同模拟设置下对模拟数据的性能:1)read counts,2) 空间随机性,以及 3) 组织密度。 我们使用 KL 散度和 Pearson 相关性在 CellTrek 地图和参考之间的细胞空间坐标上评估 CellTrek 性能。 在三个模拟中(每个模拟有八个条件),与置换测试相比,CellTrek 实现了良好的空间重建性能,并显示出更低的 KL 散度和更高的相关性。 然而,增加空间随机性会影响 CellTrek 的性能并降低统计显著性,同时减少read counts或spot/cell密度将导致稀疏的细胞图。 总体而言,该数据表明 CellTrek 是一种在不同实验条件下进行单细胞空间映射的稳健方法。
Topological organizations of mouse brain cells
将 CellTrek 应用于公共小鼠大脑 scRNA-seq (Smart-seq2)和 ST 数据集(Visium,10X Genomics)。 我们将 CellTrek 与 NVSP-CellTrek 和 SrtCT 方法进行了比较。 CellTrek 按照 L2/3 端脑内 (IT)、L4、L5 IT、L6 IT、L6 皮质丘脑 (CT) 和 L6b 的顺序重建了层流兴奋性神经元亚型的清晰层结构,与大脑皮层结构相匹配。 NVSP-CellTrek 显示出类似的空间层趋势,从而证明了 CellTrek 方法的灵活性和一致性。 然而,NVSP-CellTrek 在某些区域导致了稀疏的细胞映射。 SrtCT 未能准确地将细胞位置投影到组织学图像上。 然后我们使用 Seurat 标签转移 (SrtLT) 来预测每种细胞类型的空间分布作为我们的参考。 细胞制图结果与参考文献之间的 KL 散度表明 CellTrek 成功地恢复了空间细胞结构,并且在三种方法中具有最低的 KL 散度
- 注:CellTrek reconstructs spatial organization in a mouse brain tissue. a, Comparison of CellTrek, NVSP-CellTrek and SrtCT results for single cell spatial charting in a mouse brain tissue. b, KL-divergence of spatial cell charting methods for each cell type using SrtLT as a reference.
接下来,验证 CellTrek 是否可以进一步揭示同一细胞类型内细胞状态的拓扑模式。 例如,L5 IT 细胞包含五种表达状态,并在 UMAP 上以 Hsd11b1-Endou、Whrn-Tox2、Batf3、Col6a1-Fezf2 和 Col27a1 的顺序显示出连续趋势。 L5 IT CellTrek map发现了一个精炼的子层架构,这与之前的研究一致。 为了总结细胞空间共定位,我们使用基于 KL 的 MST 共识图将 SColoc 应用于 CellTrek 结果。 谷氨酸能神经元细胞类型按层结构的顺序构建了图形的线性主干。 到 L2/3 IT 细胞的空间 K 距离在图表的相同顺序中显示出显著增加的趋势(Spearman's rho = 0.91,P < 2.2e-16)
- 注: c, UMAP (left) and CellTrek map (right) of scRNA-seq data of L5 IT cell states. d, Spatial colocalization graph of glutamatergic neurons using SColoc. e, CellTrek-based spatial K-distance of glutamatergic neurons to L2/3 IT cells. Boxplots show the median with interquartile ranges (25–75%); whiskers extend to 1.5X the interquartile range from the box.
然后,使用 SCoexp 研究了基因如何在 L5 IT 细胞中空间共表达。 鉴定了两个共表达模块(K1、K2)并显示出不同的生物学功能富集。 K1 模块在细胞状态 Hsd11b1-Endou、Whrn-Tox2 中高度活跃并在空间上位于外层,而 K2 模块在 Col27a1、Col6a1-Fezf2 和 Batf3 中高度活跃,主要位于内层。 这些结果表明 SCoexp 能够识别相同细胞类型内的细微转录差异并推断它们的拓扑异质性。
- 注: f, Spatial co-expression modules (K1 and K2) identified in L5 IT cells using SCoexp. g-h, UMAPs of L5 IT cells showing the K1 module activity scores (g) and the K2 module activity scores (h) and their corresponding CellTrek maps.
- 注:(a-b) GO enrichment analyses (left) and module-correlated genes (right) for mouse brain L5 IT K1 and K2 modules, respectively
Spatial cell charting of the mouse hippocampus
还将 CellTrek 应用于来自小鼠海马体的 Slide-seq v230 和 scRNA-seq 数据 。 Slide-seq 数据的无监督聚类确定了 12 个具有高度组织空间结构的聚类 (G01-G12)。 CellTrek 将单个细胞映射到它们的空间位置,这与 Slide-seq 集群一致。 值得注意的是,G06 与 Cornu Ammonis (CA) 区域匹配,而 CellTrek 揭示了 CA1、CA2 和 CA3 主细胞的顺序映射,这些主细胞无法单独通过 Slide-seq 聚类解决。 这些结果表明 CellTrek 可以广泛应用于不同的空间基因组平台,以实现更精细的空间细胞分辨率。
Spatial reconstruction of a mouse kidney tissue
将 CellTrek 应用于公共小鼠肾脏数据 32 并将其与 NVSP-CellTrek 和 SrtCT 进行比较。 CellTrek 使用位于不同组织学区域(例如,皮质、外髓质和内髓质)的不同细胞类型准确重建了细胞空间结构。与 CellTrek 相比,NVSP-CellTrek 显示出相似的空间模式,而 SrtCT 无法重建小鼠肾细胞的准确空间组织。使用 SrtLT 作为参考,CellTrek 和 NVSP-CellTrek 都实现了整体低 KL 散度,NVSP-CellTrek 显示出更高的 VSMC 和 RenaCorp 细胞的 KL 散度。 SrtCT 显示与参考分布的最高 KL 散度。为了进一步研究空间细胞表达动态,我们分别推断了 ProxTub 和 DistTub 细胞的轨迹,并基于 CellTrek 对它们的伪时间进行了空间映射。对于 ProxTub 细胞,我们观察到从皮层外部到内部的连续空间轨迹。 ProxTub 细胞的这种连续解剖变化与之前的研究一致。同样,DistTub 细胞也显示出具有清晰空间模式的连续轨迹。总的来说,这些结果表明 CellTrek 可以解决组织中单细胞连续表达程序的拓扑排列。
- 注:CellTrek reconstructs spatial organization in a mouse kidney tissue. a, Comparison of CellTrek, NVSP-CellTrek and SrtCT results for single cell spatial charting in a mouse kidney tissue. (DistTub: distal tubule cells, T: T cells, ProxTub: proximal tubule cells, VSMC: vascular smooth muscle cells, Inter: intercalated cells, Prin: principal cells, TLLH: the loop of Henle, Vasc: vascular cells, Macro: macrophages, RenaCorp: renal corpuscle cells) b, KL-divergence of spatial cell charting methods for each cell type using SrtLT as a reference. c, Trajectory analysis for proximal tubule cells (left) and spatial mapping of the pseudotime values in the tissue section (right). d, Trajectory analysis for distal tubule cells (left) and spatial mapping of the pseudotime values in the tissue section (right).
接下来使用 SColoc 总结了一个细胞空间图。 ProxTub 细胞被确定为枢纽并连接到 RenaCorp、DistTub 和其他细胞类型。共识热图和层次聚类显示出与图抽象相似的模式。由于 scRNA-seq 数据是从小鼠肾脏的不同区域显微解剖中收集的,我们询问 CellTrek 是否可以在没有先验知识的情况下重述实验区域信息。根据 CellTrek 结果,我们计算了 TLLH、DistTub 和 Prin 细胞到中心区域的一组细胞的 K 距离。观察到一致的趋势是 Kdistances 从皮质到外髓质,然后到内髓质,这表明 CellTrek 成功揭示了小鼠肾脏的带状结构。此外,在 DistTub 细胞中,我们使用 SCoexp 确定了两个不同的空间共表达模块(K1 和 K2)。 K1 模块富含代谢途径、肾系统发育,并与一些远曲小管 (DCT) 基因高度相关。相比之下,K2 富含细胞基质途径、嘌呤代谢途径,并与远端直管 (DST) 经典基因相关。这两个模块在 UMAP 和 CellTrek 地图上显示了不同的模式。 K1在皮质区高度活跃,而K2在髓质区活跃,这与DCT和DST的解剖定位一致
- 注:e, Spatial colocalization graph of different renal cell types using SColoc. f, Spatial consensus matrix of different renal cell types. g, CellTrek-based spatial K-distance of TLLH, DistTub and Prin cells to the tissue center cells across experimental zonal dissections (left). Center cells as reference are shown on the right panel. *** indicates P < 0.001. Boxplots show the median with interquartile ranges (25–75%); whiskers extend to 1.5X the interquartile range from the box. h, Spatial co-expression modules (K1 and K2) identified in distal tubule cells using SCoexp. i-j, UMAPs of distal tubule cells showing the K1 module activity scores (i) and the K2 module activity scores (j) and their corresponding CellTrek maps.
进一步query CellTrek 是否可以通过利用空间信息来提高我们对细胞间通讯的理解。 我们使用 CellChat 对 scRNA-seq 数据进行了细胞-细胞相互作用分析,并使用 SColoc 图通过假设共定位的细胞将有更高的机会相互作用来过滤细胞-细胞对。 与原始 CellChat 结果相比,预测了所有细胞类型之间的许多非特异性相互作用,空间过滤提供了一组更简洁、更具体的减少的相互作用。 重要的是,分析确定了之前报道过的几种相互作用,包括 ProxTub 表达的 Vegfa 与其受体 Flt1 和 Kdr 相互作用,后者由 Vasc 表达
Spatial subclone heterogeneity in a DCIS breast cancer
将 3' scRNA-seq(10X 基因组学)和 ST(Visium,10X 基因组学)应用于 DCIS 样本 (DCIS1),以分析 6,828 个单细胞和 1,567 个 ST spot。 对于 scRNA-seq 数据,聚类和差异表达 (DE) 分析确定了 5 种主要细胞类型,包括上皮细胞、内皮细胞、成纤维细胞、髓细胞和自然杀伤 (NK)/T 细胞
应用 CopyKAT 从 scRNA-seq 数据推断拷贝数分布。在所有肿瘤细胞中观察到一些克隆拷贝数改变 (CNA),包括染色体 3q (PIK3CA)、8q (MYC) 和 19p (STK11) 的增加以及染色体 8p (PPP2R2A)、10q (PTEN) 和 14q 的丢失。 AKT1)。 CNA 谱的 UMAP 和 dbscan 聚类确定了三个主要肿瘤亚克隆 (clone1-3) 具有一些不同的改变,包括克隆 2 和克隆 3 中的 17q (ERBB2) 增益和 11q (ATM) 丢失,克隆 2 中的 1q(MDM4 和 EPHX1)增益和克隆 3 中的 6q (FOXO3) 丢失。基于共有的 CNA 谱,我们构建了一个系统发育树,显示克隆 1 是较早的亚克隆,与主要谱系不同,其次是克隆 2 和克隆 3。值得注意的是,这三个亚克隆表现出转录异质性。 Hallmark 基因集富集分析确定了所有三个亚克隆的几种常见途径,包括 MYC 靶标、氧化磷酸化和 DNA 修复。我们还确定了亚克隆特异性特征,包括富含克隆 2 和克隆 3 的雌激素反应途径,以及富含克隆 2 的干扰素 α/γ 反应、凝血和补体途径。
- 注:CellTrek identifies the spatial subclone heterogeneity in DCIS1. a, A heatmap of copy number (CN) profiles inferred by CopyKAT on the scRNA-seq data in DCIS1. The lower part represents a consensus CN profile of each cluster with some breast cancer-related genes annotated. b, CN-based UMAP of DCIS1. c,Phylogenetic tree based on the consensus CN profiles. d, Hallmark GSEA analysis of the expression data from three tumor subclones
为了了解三个肿瘤亚克隆的空间分布,我们将 CellTrek 应用于 scRNA-seq 和 ST 数据。大多数肿瘤细胞映射到 H&E 载玻片上的 DCIS 区域。此外,不同的肿瘤亚克隆映射到不同的导管区域,反映了广泛的肿瘤内空间异质性。具体而言,clone2 主要位于中间 (M) 导管,而 clone3 主要位于右侧 (R) 导管,而 clone1 分布在许多导管区域。 ST 肿瘤spot的无监督聚类确定了五个 ST cluster,它们显示空间和基因表达与肿瘤 CellTrek 图一致。基于每个导管的亚克隆组成,我们进行了聚类分析并计算了香农指数,产生了四个具有不同亚克隆组成和空间模式的主要导管簇。总体而言,来自组织右侧部分的导管显示出较低的克隆多样性,而来自中间和左侧区域的一些导管显示出较高的克隆多样性
- 注:e, Spatial cell charting of three tumor subclones using CellTrek. f, Tumor subclonal compositions within different ducts. The diamond symbol in each bar represents the Shannon index which measures the diversity of tumor subclones. g, H&E image of the DCIS tissue section with Shannon diversity index for each duct.
使用 SCoexp 进一步研究了肿瘤细胞的空间共表达模式,并确定了三个基因模块(K1、K2 和 K3)。 K1 模块在 Clone1 中含量较高,并富含肌动蛋白相关通路。 CellTrek 显示具有高 K1 分数的细胞在空间上对应于肿瘤克隆 1。 相比之下,K2 在 Clone2 和 Clone3 中含量较高,并且富含对雌二醇、乳腺导管形态发生和一些分解代谢过程的反应。 有趣的是,K3 模块在增殖肿瘤细胞方面非常活跃,并且与细胞周期相关过程有关。 K3 评分的空间映射显示增殖的肿瘤细胞主要位于几个导管的外围区域附近。 总之,这些数据表明 CellTrek 工具包可以描绘不同肿瘤亚克隆的拓扑图及其在 DCIS 组织中的表达程序。
Spatial tumor-immune microenvironment of a DCIS tissue
在另一个具有同步侵入性成分 (DCIS2) 的 DCIS 样本中,我们分析了 3,748 个单细胞(10X Genomics)和 2,063 个 ST spot(Visium,10X Genomics)。 无监督聚类和 DE 分析确定了 10 个簇,包括三个上皮簇、内皮细胞、周细胞、成纤维细胞、髓细胞、NK/T、B 和浆细胞样树突细胞 (pDC)。 CopyKAT 揭示了一个带有 CNA 的非整倍体上皮Cluster(上皮 3)
H&E 图像的组织病理学分析确定了 11 个带有肿瘤细胞的导管区域 (T1-T11) 和包含基质和免疫细胞的中间区域。为了研究肿瘤免疫微环境,我们专注于来自 scRNA-seq 数据的非整倍体细胞和免疫细胞。使用 CellTrek,我们将大部分非整倍体细胞映射到组织学定义的 DCIS 区域,将免疫细胞映射到导管和基质区域周围的区域。有趣的是,我们发现一些免疫细胞,包括 T、B、骨髓细胞和 pDC,聚集在导管外的区域,尤其是 T1、T2、T6 和 T7。将 CellTrek 结果与 H&E 图像相结合,我们假设这些区域中存在三级淋巴结构 (TLS)。为了进一步研究这个问题,我们计算了 ST spot水平的 TLS 分数,发现具有高 TLS 分数的spot通常对应于我们 CellTrek 图中的混合免疫细胞聚集体。此外,我们发现 ST 级 TLS 分数与绘制的免疫细胞计数呈正相关(Pearson's R = 0.36,P = 1.2e-10)。总之,这些结果表明 CellTrek 能够基于 scRNA-seq 和 ST 数据重建空间肿瘤免疫微环境。
- 注:CellTrek displays the spatial tumor-immune microenvironment in DCIS2. a, H&E image of the tissue section from the DCIS2 patient. Histopathological annotations of tumor regions are highlighted in red circles with labels from T1 to T11. b, UMAP of DCIS2 scRNA-seq data (tumor cells, B cells, NK/T cells, myeloid and pDC cells). c, CellTrek spatial mapping of tumor cells, B cells, NK/T cells, myeloid and pDC cells. Yellow boxes highlight potential locations of tertiary lymphoid structures (TLS) with aggregation of mixed immune cells. d, ST spot-level TLS signature scores. e, Boxplot showing the association between CellTrek-based immune cell counts and ST spot TLS score quantiles.
接下来,发现一些 T 细胞靠近肿瘤区域,一些位于肿瘤区域的远端。我们进一步分析了 T 细胞并将它们重新聚集成六种细胞状态,包括幼稚 T (NaiveT)、CD4+ T (CD4T)、CD8+ T (CD8T)、调节性 T 细胞 (Treg)、耗竭 CD4+ T (CD4Te) 和耗尽的 CD8+ T (CD8Te) 。研究了这些 T 细胞状态在 CellTrek 图中的分布。值得注意的是,Tregs、CD4Te 和 CD8Te 细胞大多靠近肿瘤细胞。进一步构建了 T 细胞内的空间图,发现来自相同谱系的细胞倾向于在空间上共定位。计算了 T 耗竭分数,发现耗竭分数高的 T 细胞倾向于定位在肿瘤区域附近。 T 细胞与其最近的 15 个肿瘤细胞的 K 距离显示出与 UMAP 上的 T 耗竭评分相反的趋势。正如预期的那样,与非抑制性 T 细胞相比,免疫抑制性 T 细胞(Treg、CD4Te 和 CD8Te)具有更高的耗竭评分。根据 K 距离将 T 细胞二值化为肿瘤远端 (TD) 和肿瘤近端 (TP) 组,发现 TP 组显示出明显高于 TD 组的耗竭评分(P = 1.1e-4),表明存在DCIS 导管区域附近的免疫抑制微环境。还发现了类似的趋势,其中 TP 与 TD 相比,CD4T 和 Treg 细胞的耗竭分数更高,而 NaiveT 细胞的趋势相反。重要的是,TD 组只包含很少的免疫抑制性 T 细胞,这与发现一致,即耗尽的 T 细胞倾向于共定位在 DCIS 区域附近。
- 注: f, CellTrek spatial mapping of different T cell states. The contour plot represents the tumor cell densities. g, UMAP of scRNA-seq data showing different T cell states. h, Spatial colocalization graph of T cell states using SColoc. i, CellTrek spatial mapping of the T exhaustion scores. j, UMAP of T cells showing the exhaustion scores. k, UMAP of T cells showing the spatial K-distances to their 15 nearest tumor cells. l, Boxplot comparing the T cell exhaustion scores between different T cell states. m, Boxplot comparing the T cell exhaustion scores between T cells proximal to tumor cells (TP) and T cells distal to tumor cells (TD). n, Boxplot comparing the T cell exhaustion scores between TP and TD within each T cell state. In l, m and n, * indicates P < 0.05, *** indicates P < 0.01, *** indicates P < 0.001 using Wilcoxon rank-sum test. Boxplots show the median with interquartile ranges (25–75%); whiskers extend to 1.5X the interquartile range from the box.
髓细胞的重新聚类确定了四种细胞状态,包括常规树突状细胞 (cDC)、单核细胞和两种巨噬细胞亚群(Macro1 和 Macro2)。CellTrek 将大部分 cDC 投影到肿瘤近端区域。空间图显示 Macro2 细胞与Macro1和cDC共定位。然后我们计算了骨髓细胞到肿瘤细胞的K-距离,发现cDCs总体上显示出最低的K-距离,而Macro1细胞具有更高的K-距离。K-距离密度 图显示了类似的趋势。我们进一步检查了 Macro1 细胞的空间共表达,并使用 SCoexp 确定了两个主要基因模块(K1、K2)和一个次要模块。K1 模块在来自肿瘤远端区域的巨噬细胞中更活跃,并且相关 具有多个 C1Q 基因、HAVCR2、CD74、HLA-DRA 等。相反,K2 模块显示出相反的空间模式并与 CHIT1、CSTB、APOC1、MARCO 等相关
为了正交验证 CellTrek 推断的肿瘤和免疫细胞的空间分布,我们对来自 DCIS2 和另一个 DCIS 样本 (DCIS3) 的组织切片的靶向探针进行了免疫荧光 (RNAscope) 实验。该数据表明,DCIS 肿瘤细胞区域具有 ERBB2 的高表达,而 TAGLN 标记了导管的基底上皮层。此外,免疫抑制性 T 细胞标志物,包括 CTLA4 和 FOXP3,在 DCIS2 的 DCIS 区域附近具有高表达,这与 CellTrek 结果一致。同样,在 DCIS3 中,我们在导管附近发现了具有 CTLA4 和 FOXP3 的免疫抑制性 T 细胞。此外,该数据显示 B 细胞 (MS4A1)、单核细胞/巨噬细胞 (CD68) 和树突状细胞 (CD1C) 也在 DCIS 导管区域附近,表明存在 TLS,并且与 DCIS2 的 CellTrek 结果一致。相比之下,在同一组织切片的正常小叶上皮区域中观察到的免疫细胞较少,尤其是免疫抑制性 T 细胞标志物。这些数据证实了我们对使用 CellTrek 推断的 DCIS 肿瘤免疫微环境的发现。
DISCUSSION
在这里,作者开发了一种新的计算工具 CellTrek,用于基于 scRNA-seq 和 ST 数据重建空间细胞图。与传统的去卷积方法相比,CellTrek 提供了一种新范式,可以将单个细胞直接投影到组织切片中的空间坐标,从而充分利用 scRNA-seq 数据。我们还开发了两个下游计算模块(SColoc 和 SCoexp)来进一步分析 CellTrek 结果。通过重建蜂窝空间图,CellTrek 提供了几个优势。首先,它提供了一种灵活的方法来以空间方式研究单个细胞的任何特征(例如,细胞类型/状态、伪时间),而大多数 ST 解卷积方法只能将SPOT分解为细胞类型,无法实现单细胞级特征映射.其次,CellTrek 非常灵活,可以将任何细胞位置概率/相似性矩阵作为输入来重建细胞图,从而实现进一步的下游分析。第三,通过利用度量学习方法和非线性插值,CellTrek 允许以更高的空间分辨率进行更准确的细胞绘图。最后,随着更高空间分辨率测序技术的发展,CellTrek 完全能够将单个细胞绘制到其他空间测序数据,以提供更高的空间粒度。
首先使用模拟和原位数据集对 CellTrek 性能进行基准测试,然后评估不同数据条件下的准确性和稳健性。 通过将 CellTrek 工具包应用于来自小鼠大脑和肾脏的两个“完善”的数据集,我们展示了其恢复不同细胞类型拓扑结构的能力。 进一步表明,CellTrek 可以通过将分类(即细胞状态)和连续特征(即伪时间)映射到组织切片来识别高分辨率子结构。 SColoc 还可以将不同细胞类型的空间关系重建为图形,可进一步用于细胞间通讯分析。 此外,SCoexp 可以检测多种细胞类型内的空间共表达模块,显示组织切片中的拓扑模式。
在研究中,我们对两个 DCIS 样本进行了匹配的 scRNA-seq 和 ST 实验,并应用 CellTrek 工具包来描绘不同导管区域中肿瘤亚克隆的空间分布和肿瘤免疫微环境的拓扑组织。 在 DCIS1 中,我们发现三个肿瘤亚克隆定位于具有不同克隆多样性水平的不同导管。 尽管先前已经观察到形态学和基因组肿瘤内异质性,但在这里我们报告了 DCIS 组织中导管网络内的空间异质性。 在 DCIS2 中,CellTrek 准确映射了肿瘤和免疫细胞,并表明在 DCIS 区域附近存在富含免疫细胞的 TLS。 T 细胞和骨髓细胞的进一步分析揭示了它们相对于肿瘤细胞的空间定位。 这些发现使用 RNAscope 进行了正交验证。
虽然 CellTrek 是分析 scRNA-seq 和 ST 数据的强大工具,但它有几个显著的局限性。 首先,正如我们在模拟数据中显示的那样,CellTrek 可以在某些组织区域进行稀疏细胞映射。 为了克服这个问题,人们可以 1) 收集细胞密度较高的组织进行 ST 分析; 2)对更多细胞进行测序或整合多个scRNA-seq数据集。 其次,CellTrek 根据稀疏图将细胞映射到它们最相似的spot,这需要具有相对较高细胞纯度的 ST spot。 增加空间随机性(降低 ST spot纯度)的模拟表明,CellTrek 可能会过度简化“组织较少”的组织结构的空间复杂性。 最后,仅基于 CellTrek 存在过度解释数据的风险,因为它是一种计算推理工具。 尽管使用相对严格的参数作为默认值来控制假阳性,但建议使用正交验证来确认生物学发现。
In the future, CellTrek could be improved by including image recognition or deep learning approaches for cell segmentation and identification. Additionally, epigenetic regulation is of great interest in developmental biology and cancer research. Therefore, another future direction is to adapt CellTrek for epigenome data (e.g., scATAC-seq) to understand spatial epigenetic regulation in the tissue sections. Overall, we expect that CellTrek will have a multitude of applications for studying basic biology and human disease in spatial context, as applying scRNA-seq and ST experiments to the same tissues is becoming ever more commonplace.
Method
CellTrek toolkit
示例代码
options(stringsAsFactors = F)
library("CellTrek")
library("akima")
library("randomForestSRC")
library("packcircles")
library("dplyr")
library("magrittr")
library("dbscan")
library("pheatmap")
library("spatstat")
library("Seurat")
library("SeuratData")
library("reshape2")
library("visNetwork")
library("shiny")
library("plotly")
library("viridis")
library("RColorBrewer")
library("ConsensusClusterPlus")
library("philentropy")
示例数据
brain_st_cortex <- readRDS("brain_st_cortex.rds")
brain_sc <- readRDS("brain_sc.rds")
## Visualize the ST data
SpatialDimPlot(brain_st_cortex)
## Visualize the scRNA-seq data
DimPlot(brain_sc, label = T, label.size = 4.5)
Cell charting using CellTrek
We first co-embed ST and scRNA-seq datasets using traint
brain_traint <- CellTrek::traint(st_data=brain_st_cortex, sc_data=brain_sc, sc_assay='RNA', cell_names='cell_type')
## We can check the co-embedding result to see if there is overlap between these two data modalities
DimPlot(brain_traint, group.by = "type")
After coembedding, we can chart single cells to their spatial locations. Here, we use the non-linear interpolation (intp = T, intp_lin=F) approach to augment the ST spots.
brain_celltrek <- CellTrek::celltrek(st_sc_int=brain_traint, int_assay='traint', sc_data=brain_sc, sc_assay = 'RNA',
reduction='pca', intp=T, intp_pnt=5000, intp_lin=F, nPCs=30, ntree=1000,
dist_thresh=0.55, top_spot=5, spot_n=5, repel_r=20, repel_iter=20, keep_model=T)$celltrek
After cell charting, we can interactively visualize the CellTrek result using celltrek_vis
brain_celltrek$cell_type <- factor(brain_celltrek$cell_type, levels=sort(unique(brain_celltrek$cell_type)))
CellTrek::celltrek_vis([email protected] %>% dplyr::select(coord_x, coord_y, cell_type:id_new),
brain_celltrek@images$anterior1@image, brain_celltrek@[email protected]$lowres)
Cell colocalization analysis
Based on the CellTrek result, we can summarize the colocalization patterns between different cell types using SColoc module. Here, we are using glutamatergic neuron cell types as an example. We first subset the glutamatergic neuron cell types from our charting result.
glut_cell <- c('L2/3 IT', 'L4', 'L5 IT', 'L5 PT', 'NP', 'L6 IT', 'L6 CT', 'L6b')
names(glut_cell) <- make.names(glut_cell)
brain_celltrek_glut <- subset(brain_celltrek, subset=cell_type %in% glut_cell)
brain_celltrek_glut$cell_type %<>% factor(., levels=glut_cell)
Then we can use scoloc module to perform colocalization analysis.
brain_sgraph_KL <- CellTrek::scoloc(brain_celltrek_glut, col_cell='cell_type', cell_min=15, use_method='KL', eps=1e-50)
## We extract the minimum spanning tree (MST) result from the graph
brain_sgraph_KL_mst_cons <- brain_sgraph_KL$mst_cons
rownames(brain_sgraph_KL_mst_cons) <- colnames(brain_sgraph_KL_mst_cons) <- glut_cell[colnames(brain_sgraph_KL_mst_cons)]
brain_cell_class <- [email protected] %>% dplyr::select(id=cell_type, class=class) %>% unique
CellTrek::scoloc_vis(brain_sgraph_KL_mst_cons, meta_data=brain_cell_class)
Spatial-weighted gene co-expression analysis within the cell type of interest
Based on the CellTrek result, we can further investigate the co-expression patterns within the cell type of interest using SCoexp module. Here, we will take L5 IT cells as an example using consensus clustering (CC) method. L5 IT cells first are extracted from the charting result.
brain_celltrek_l5 <- subset(brain_celltrek, subset=cell_type=='L5 IT')
brain_celltrek_l5@[email protected] <- matrix(NA, 1, 1)
brain_celltrek_l5$cluster <- gsub('L5 IT VISp ', '', brain_celltrek_l5$cluster)
DimPlot(brain_celltrek_l5, group.by = 'cluster')
We select top 2000 variable genes (exclude mitochondrial, ribosomal and high-zero genes)
brain_celltrek_l5 <- FindVariableFeatures(brain_celltrek_l5)
vst_df <- brain_celltrek_l5@[email protected] %>% data.frame %>% mutate(id=rownames(.))
nz_test <- apply(as.matrix(brain_celltrek_l5[['RNA']]@data), 1, function(x) mean(x!=0)*100)
hz_gene <- names(nz_test)[nz_test<20]
mt_gene <- grep('^Mt-', rownames(brain_celltrek_l5), value=T)
rp_gene <- grep('^Rpl|^Rps', rownames(brain_celltrek_l5), value=T)
vst_df <- vst_df %>% dplyr::filter(!(id %in% c(mt_gene, rp_gene, hz_gene))) %>% arrange(., -vst.variance.standardized)
feature_temp <- vst_df$id[1:2000]
We use scoexp to do the spatial-weighted gene co-expression analysis.
brain_celltrek_l5_scoexp_res_cc <- CellTrek::scoexp(celltrek_inp=brain_celltrek_l5, assay='RNA', approach='cc', gene_select = feature_temp, sigm=140, avg_cor_min=.4, zero_cutoff=3, min_gen=40, max_gen=400)
We can visualize the co-expression modules using heatmap.
brain_celltrek_l5_k <- rbind(data.frame(gene=c(brain_celltrek_l5_scoexp_res_cc$gs[[1]]), G='K1'),
data.frame(gene=c(brain_celltrek_l5_scoexp_res_cc$gs[[2]]), G='K2')) %>%
set_rownames(.$gene) %>% dplyr::select(-1)
pheatmap::pheatmap(brain_celltrek_l5_scoexp_res_cc$wcor[rownames(brain_celltrek_l5_k), rownames(brain_celltrek_l5_k)],
clustering_method='ward.D2', annotation_row=brain_celltrek_l5_k, show_rownames=F, show_colnames=F,
treeheight_row=10, treeheight_col=10, annotation_legend = T, fontsize=8,
color=viridis(10), main='L5 IT spatial co-expression')
We identified two distinct modules. Based on our identified co-expression modules, we can calculated the module scores.
brain_celltrek_l5 <- AddModuleScore(brain_celltrek_l5, features=brain_celltrek_l5_scoexp_res_cc$gs, name='CC_', nbin=10, ctrl=50, seed=42)
## First we look into the coexpression module based on the scRNA-seq embedding
FeaturePlot(brain_celltrek_l5, grep('CC_', colnames([email protected]), value=T))
Next we investigate the module scores at the spatial level.
SpatialFeaturePlot(brain_celltrek_l5, grep('CC_', colnames([email protected]), value=T))
生活很好,有你更好