stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析

空间转录组学技术的最新进展进一步使细胞的基因表达谱和空间组织图谱同时实现。在这些技术中,基于成像的方法可以提供更高的空间分辨率,但它们受到成像基因数量少或基因检测灵敏度低的限制。尽管已经提出了几种增强空间分辨率的方法,但基因表达预测的准确性不足和细胞群识别能力不足仍然阻碍了这些方法的应用。

来自清华大学的科研团队提出了stPlus一种基于参考序列的方法,利用scRNA-seq数据中的信息来增强空间转录组学分析。

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第1张图片

stPlus是什么?

stPlus旨在通过准确预测未检测基因的表达和有效输入检测基因的表达来增强空间转录组学分析。stPlus的输入是目标空间数据和参考scRNA-seq数据,这些数据来自与空间数据相匹配或相似的组织。这两个数据可以分别用两个基因-细胞矩阵来表示。注意,这两个数据之间的细胞是不匹配的,参考数据中的基因通常包括空间数据中的大部分基因。用户可以指定参考数据中的任何基因来进行预测。stPlus的输出是一个基因-细胞矩阵,包含空间数据中每个细胞的每个指定基因的预测表达。

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第2张图片

stPlus的增强过程可分为三个主要步骤:(i) 数据处理,为联合嵌入做准备;(ii) 将单个细胞联合嵌入空间转录组数据和参考scRNA-seq数据中;(iii) 根据细胞嵌入和参考scRNA-seq数据预测空间上无法检测的基因表达。

stPlus的性能测试结果

科研团队比较了stPlus与四种基线方法(包括SpaGE、Seurat、Liger和gimVI)的性能:

  • stPlus在准确预测未检测的基因表达方面优于基线方法;

  • stPlus通过增强空间转录组学有助于细胞群体的识别;

  • 预测scRNA-seq独特基因的空间表达也为细胞异质性的特征提供了潜力;

  • 此外,stPlus对不同基因检测灵敏度水平、样本量和空间检测基因数量的数据集具有稳定性和可扩展性。

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第3张图片

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第4张图片

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第5张图片

# stPlus能够准确预测空间转录组数据

比较stPlus与其他方法在基因和细胞水平上的Spearman相关系数:1)基因水平。在所有数据集中,stPlus始终显著优于Seurat和Liger;在osmFISH_-Zeisel和osmFISH_AllenSSp数据集上,stPlus显著优于SpaGE,并提升了Spearman相关系数中值;在包含95000多个单元格的MERFISH_Moffit数据集上,stPlus始终取得比其他方法更好的性能,Spearman相关系数中值至少提高了8.8%;在STARmap_AllenVISp数据集上,stPlus的性能明显优于gimVI,而与SpaGE的性能相当。2)细胞水平。在所有五个数据集中,stPlus始终比其他四个方法取得明显更高的系数(单侧配对Wilcoxon测试P值<0.01),并且在Spearman相关系数中值上比排名第二的方法平均提高23.2%。所有这些结果表明,stPlus在预测空间上无法检测的基因表达方面具有优越的性能。

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第6张图片

# stPlus有助于识别细胞群 

使用计算预测的基因表达可以显著提高聚类性能。例如,SpaGE和gimVI在基于osmFISH数据集的前三个数据集上以较小的方差实现了更好的聚类性能。Seurat在前三个数据集上提供了最低的聚类性能,而在MERFISH数据集上观察到了Seurat优于其他方法,这再次表明Seurat的性能受两个数据集之间共享的基因数量的影响很大。在这四个数据集中,stPlus取得了总体最佳的聚类性能,尤其是在前三个数据集上。交叉验证实验的进行可以看作是数据增强的一种策略。正如预期的那样,使用所有基因的数据,基线性能显著提高。在前三对数据集上,只有使用stPlus预测的基因表达数据,聚类性能才能超过基线。在MERFISH_Moffit数据集上,stPlus再次优于基线和其他计算方法。这些结果不仅表明stPlus能够预测空间上不可检测的基因表达,还表明stPlus增强的数据可以提供比现有方法甚至原始分析的空间转录组数据更好的细胞群识别性能。

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第7张图片

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第8张图片

# stPlus可扩展至大型数据集 

科研团队在MERFISH_Moffit数据集上展示了stPlus优越的增强性能,该数据集由64373个空间转录组细胞和31299个scRNA-seq细胞组成。stPlus在大型数据集中提供了令人满意的计算效率和可扩展性,而SpaGE实现了最好的计算效率,Seurat、Liger和gimVI的计算效率相对较差。在可视化结果中,与其他方法相比,使用stPlus增强的空间基因的表达可以更好地重新描述各种细胞类型的模式和区分变异。

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第9张图片

# stPlus对超参数的选择是稳定的 

stPlus:利用scRNA-seq数据中的信息精确增强空间转录组学分析_第10张图片

# stPlus预测的scRNA-seq数据中特有基因的空间表达将继续加深对细胞异质性特征的理解

研究团队提供了用户友好的界面、详细的文档和快速入门教程,以促进stPlus的应用。

带有详细文档的stPlus,可通过如下链接获取:http://health.tsinghua.edu.cn/software/stPlus/

源代码可通过如下链接获取:

https://github.com/xy-chen16/stPlus  

参考文献

Chen Shengquan, Zhang Boheng, Chen Xiaoyang, Zhang Xuegong, Jiang Rui, stPlus: a reference-based method for the accurate enhancement of spatial transcriptomics, Bioinformatics, Volume 37, Issue Supplement_1, July 2021, Pages i299–i307, 

图片来源于Bioinformatics官网和参考文献,如有侵权请联系删除。

你可能感兴趣的:(空间转录组,算法,机器学习,人工智能)