10X空间转录组重点分析合集3

作者,Evil Genius

国庆第一天,我们不搞新的,来一篇大盘点,盘点的内容包括以下的几点,包括应用与技术,大家也要随时进行总结。

之前总结过两篇,放在这里,希望大家一起学习,多多交流

10X空间转录组重点分析合集2
10X空间转录组重点分析合集

这一篇合集包括的内容如下:一些内容是总结,另外一些是运用场景。

  • 空间转录组数据分析方法最新进展
  • 空间转录组技术在肿瘤免疫治疗中的应用潜力
  • 空间高变基因
  • 空间转录组聚类方法讨论(重点在BayesSpace)
  • 利用空间转录组技术探索组织结构
  • 单细胞空间联合分析合集(重点介绍国产软件STRIDE & DSTG & SpatialDWLS & stereoscope)
  • 空间转录组数据集分析转座因子表达

第一章,空间转录组数据分析方法最新进展

空间转录组学是一个迅速发展的领域,有望以单细胞或亚细胞分辨率全面表征组织结构。计算方法的发展对从原始数据中提取生物信号起着重要作用;下游分析工具将空间组织和细胞间通信描述为可量化属性,并提供算法来推导此类属性;集成管道进一步将多个工具组合在一个包中,使生物学家能够方便地从头到尾分析数据。

近日,来自美国的研究人员在《Genome Research》发表Perspective,总结了空间转录组数据分析方法和管道的最新进展,并讨论了它们如何在不同的技术平台上运作。

图片.png
  • 注:不同于综述文章,Perspective中的描述和观点会相对主观。

无论目前空间转录组技术的差异如何,空间转录组分析的共同目标是连接和整合来自基因表达和细胞或转录位置的信息。这对于提取有用的生物信息、与细胞形态联系以及产生新的假设至关重要。

对原始空间转录组数据进行预处理

空间转录组学分析方法概述

从空间转录组数据中识别细胞类型

细胞类型识别和定位可能是空间转录组数据分析的最基本任务。


图片.png

利用空间转录组数据进行细胞类型鉴定的策略

如果数据具有单细胞分辨率,例如在multiplexed FISH方法中,无监督聚类与手动或自动注释相结合是以无偏方式识别细胞类型的常用方法。由于细胞类型识别不需要空间信息,因此该任务与scRNA-seq分析非常相似,已经为其开发了许多方法,例如Louvain、Leiden clustering是细胞类型识别的常用选择,其中聚类结果被用作初始指导,随后通常是繁琐的手工注释或自动分析流程。

当数据不足以以无偏的方式发现未知细胞类型时,研究人员通常会利用额外的scRNA-seq分析对基因特征已知的细胞类型进行注释。虽然最简单的方法是确定基因特征具有最高相关性的细胞类型,但缺点是它不能将细胞类型标记基因与转录组背景区分开来。为了优化精度,已经开发了许多计算方法,例如一种方法是基于scRNA-seq数据建立一个支持向量机分类器,但只使用来自seqFISH中也被分析的基因子集的信息。也可以使用似然比检验。重要的是,需要跨平台归一化来校准从不同技术检测到的信号。更普遍的是,可以估计和减少平台特有的技术变化。此外,已经开发了贝叶斯模型,以考虑细胞分割不确定性对细胞类型注释的影响。

商用的基于阵列的空间转录组技术(如10x Genomics Visium和NanoString GeoMx)通常没有单细胞分辨率。由于基因表达谱的变化可能与细胞类型组成的变化相关,而不是与新的细胞类型相关,因此不适合将聚类算法直接应用于此类数据并将产生的聚类解释为细胞类型。此外,只有在已知潜在基因表达特征的情况下,才有可能估计细胞类型组成。有两种估计细胞类型组成的一般方法:第一种方法是评估细胞类型特异性标志物在每个点的表达基因中的富集程度;第二种方法去卷积,旨在定量地估计每个位置不同细胞类型的比例。许多去卷积方法已经被开发出来,并为RNA-seq数据分析提供了基准。原则上,这些工具也可用于空间转录组分析,但考虑到空间转录组数据具有某些独特的性质。因此,使用为空间转录组分析量身定制的方法通常更准确,例如RCTD、stereoscope、Cell2location、SpatialDWLS、SPOTlight等。

研究细胞类型定位的一种补充方法是使用scRNA-seq数据作为起点,然后基于与空间表达谱的相似性重构空间信息。随着空间转录组技术在过去几年中的快速发展,现在可以直接测量空间信息,并进一步与scRNA-seq数据集成以进行进一步完善。因此,较新的方法以更平衡的方式集成scRNA-seq和空间转录组数据,例如一个平台无关的相互最近邻算法(MNN)已被用于对齐这些数据类型,从而形成细胞位置映射;DEEPsc使用人工神经网络来预测空间位置;GLUER结合NMF、MNN算法和深度神经网络来对齐数据,Tangram对齐scRNA-seq和空间转录组数据集,同时优化scRNA-seq数据和空间数据中每个基因的空间相关性(类似的方法还有NovaSparc和D-CE),Tangram对齐的确定性模式也可以作为一种去卷积方法。

表征转录组谱的空间模式
图片.png
图片.png
空间模式分析

空间转录组分析的关键贡献不仅在于描述细胞类型,还在于描述它们的空间组织方式。这对于研究组织结构和细胞-细胞相互作用的影响至关重要。可以使用成对富集分析(pair-wise enrichment analysis)来识别可能相邻的细胞类型对。细胞领域模式分析可识别多细胞类型邻域的重复模式。另一种识别富集模式的方法是使用topic models。此外,细胞状态的连续性可以被纳入隐马尔科夫随机场(HMRF)模型,以识别连贯的空间域。BayesSpace使用来自空间邻域的信息来增强空间转录组数据的分辨率并进行聚类分析。而SPICEMIX将HMRF与NMF相结合。staNMF将NMF与稳定性准则研究相结合,识别空间模式。

许多工具根据预先定义的过程对基因表达的空间模式进行建模,例如spatialDE、SOMDE、Trendsceek、SPARK、binSpect等。其中,作为一个具体的例子,binSpect被用来识别MERFISH冠状脑切片数据中具有空间一致性模式的基因,排名靠前的基因显示上图F。

亚细胞结构分析

亚细胞分辨率的空间转录组学分析示意图

随着新技术的进步,现在可以实现亚细胞转录物的研究。除了基于FISH的方法(众所周知这些方法具有单分子分辨率),ISS方法也提供非常高的分辨率。此外,高密度阵列或基于珠子的技术还实现了亚细胞分辨率。

已经开发了许多方法来使用亚细胞基因表达模式来规避细胞分割,例如SSAM、stLearn、Spage2vec等。基于已知细胞类型特异性特征的监督细胞类型映射策略已经开发出来,例如使用朴素贝叶斯模型为HDST数据分配细胞类型。亚细胞基因表达模式反过来可以用来改善细胞分割,例如Baysor、Sparcle、JTSA等。

对基因表达的亚细胞模式的分析也可以提供新的生物学见解。例如已经开发了一种原位RNA速度方法,以使用亚细胞RNA定位信息来推断转录率。

此外,通过使用过氧化物酶APEX2(一种称为APEX-seq的方法)对RNA进行直接邻近标记,可以高分辨率地识别细胞质中的共定位mRNA物种。此外,在核位置富集的mRNAs倾向于编码在核斑点和核质中富集的蛋白质。或者,也可以通过ATLAS-seq检测亚细胞RNA共定位。

了解细胞如何与组织环境沟通

图片.png

从配体-受体相互作用推断的细胞通讯

空间转录组分析的一个重要目标是研究细胞如何与组织环境通信。Giotto引入了一种双向比较方法,通过比较同一细胞类型内但被不同相邻细胞包围的细胞亚群之间的基因表达模式来识别相互作用改变的基因。值得注意的是,与单独使用基因表达信息相比,使用空间信息可以显著减少假阳性配体-受体活性预测的数量。CellPhoneDB v3.0中使用了类似的方法。为了克服空间转录组数据没有单细胞分辨率这一挑战,研究人员应用Cell2location来推断不同细胞类型的位置,然后比较与不同细胞邻域相关的基因表达模式。其他方法也被用来量化相邻细胞类型的影响,包括convolutional neural networks、optimal transport和multioutput regression。另一种方法是将基因表达谱明确分解为空间和非空间成分,然后利用邻域的细胞类型组成来估计空间成分。配体-受体相互作用的分析也被扩展到包括多单位蛋白复合物中辅助因子的影响,以提高预测的准确性。值得注意的是,还开发了从细胞-细胞相互作用模式重建空间位置的算法。

用于空间数据分析和可视化的综合探索性工具

图片.png

交互式探索性分析管道的概述

生物学家将受益于集成和交互式管道,允许他们执行各种分析步骤,从原始数据导入到图像分析,然后生成最终分析结果和可视化图像,这些操作最好是在个人计算机上完成。目前,有许多综合工具包可用,例如Giotto、Seurat、Squidpy等。

这些软件包或工具箱大多是由独立的实验室开发的,这就导致了多个不同的数据结构不一定共享相同的数据格式。为了克服其中的一些挑战,R/Bioconductor社区正致力于精心设计普遍适用的数据结构,并在最近发布了spatialExperiment类的第一个版本。这是一个新的S4类,扩展了流行的singleCellExperiment类,旨在与几种类型的空间转录组数据集一起操作,包括多细胞和亚细胞分辨率。已经有几个空间R包使用这种数据结构,如SpatialLIBDSpaniel,它们都擅长于创建交互式R/Shiny应用程序来可视化空间转录组数据集。

近年来空间组学领域取得了很多进展。新的方法已经被开发出来以应对各种特定的空间转录组挑战。综合性的软件包使生物学家能够轻松地从头到尾分析他们自己的数据,并通过交互式可视化对数据进行互动探索。这些工具在使空间转录组技术广泛适用方面发挥了重要作用。

近年来,出现了一种范式的转变,即根据转录组图谱对细胞类型进行分类,有时还辅以其他分子模式。由于ST技术的快速发展,现在可以对同一细胞同时进行转录组分析和形态学分析,从而为系统研究这两种根本不同的方法之间的关系提供了很好的机会。

一个研究的新方向是空间多元组学。新技术的发展使得在保存蛋白质和RNA、内含子和成熟mRNA、DNA和RNA等信息的同时,可以分析同一细胞中的多种形态信息。这些技术使分析不同分子模式之间的相关性成为可能,并提供了机理上的见解。分析这些数据需要开发新的计算方法和工具包。

第二章,空间转录组技术在肿瘤免疫治疗中的应用潜力

肿瘤内异质性对癌症患者的准确诊断和个性化治疗策略的制定提出了重大挑战。此外,这种异质性可能是治疗耐药性、疾病进展和癌症复发的基础。虽然免疫疗法可以获得很高的成功率,但选择压力加上肿瘤内部的动态进化推动耐药克隆的出现,使肿瘤在某些患者中持续存在。为了提高免疫疗法的疗效,研究人员已经使用空间转录组技术来识别并随后阻断肿瘤异质性的来源。

原位杂交

原位杂交(ISH)是一种使细胞或组织中特定DNA或RNA分子可视化的分子技术。ISH是基于DNA/DNA或DNA/RNA双链的互补性,将标记的核酸探针原位杂交到目标上。通过这种方式,我们可以获得有用的空间信息。

荧光原位杂交

FISH是检测微生物、诊断实体瘤和血液瘤以及指导癌症治疗的有效临床工具。例如,FISH通常用于检测慢性髓系白血病中的BCR-ABL1 t(9;22)易位和各种癌症中的许多融合基因。FISH还被用于确认乳腺癌中HER2基因的扩增,从而确定最有可能受益于曲妥珠单抗(一种抗HER2的单克隆抗体)治疗的患者。另一个重要的例子是在非小细胞肺癌中检测EML4-ALK融合基因。随着越来越多的免疫疗法被开发和批准,研究人员试图用FISH来预测癌症免疫治疗的反应性。为了扩大FISH的有效性,可以将FISH与IHC或IF结合起来,同时检测不同细胞类型的RNA和蛋白质,以更好地表征肿瘤微环境(TME)。

smFISH和RNAscope

为了解决传统FISH的局限性,研究人员从研究DNA转移到研究单分子RNA,并采用高通量的方法,由此产生了smFISH技术,其能够可视化和量化单个mRNA分子,并表征内源性基因表达的空间模式。通过靶向细胞mRNA而不是DNA分子,smFISH已经成为评估肿瘤内转录异质性的有力工具。

RNAscope是一种商业化的基于ISH的技术,可以检测多达12个不同的RNA靶点,并且可以方便地与IHC和/或IF结合,以自动化的方式同时研究RNA和蛋白质。相对于其他基于FISH的技术,RNAscope已经设计了13000个以上的RNA探针,并通过商业化的流程进行验证。因此,它是一种用于基础研究和临床实验的省时和友好的方法。RNAscope已经广泛应用于各个学科,包括传染病、癌症、免疫治疗、炎症和神经科学。特别是,它是IHC的一种强有力的替代方法,可以评估各种实体瘤中免疫检查点的表达,如PD-L1。通过检测特定RNA,RNAscope阐明了TME、免疫逃逸机制以及新的预测和预后癌症生物标志物。

在免疫疗法的背景下,RNAscope在理解CAR-T细胞疗法方面发挥了宝贵的作用。RNAscope已被用于评估靶基因表达的特异性,并跟踪CAR-T细胞在异种移植小鼠模型中的分布。扩展到人类样本,已有研究验证了BCMA的表达是多发性骨髓瘤CAR-T细胞免疫治疗的靶点。

Multiplexed smFISH

尽管可以从RNAscope等技术中获得更高的灵敏度和特异性,但最终需要基于FISH的技术,允许进行高通量转录组分析,以更好地表征显示独特基因表达谱的稀有细胞群和细胞类型。MERFISH和seqFISH,不仅提供了改进的RNA定量、信号放大和检测,而且提供了基于图像的转录组分析。

MERFISH从smFISH改良而来,采用了基于条形码的组合标记方法,然后进行多轮杂交,以确保荧光信号的高亮度和一次可检测到的大量RNA。

图片.png
MERFISH原理

seqFISH是另一种基于连续几轮条形码杂交标记的Multiplexed smFISH技术例如,seqFISH被用来对小鼠胚胎干细胞和脑组织中>10000种mRNA进行成像,具有较高的准确性和分辨率。相关研究已证明seqFISH是研究和获得T细胞成熟过程中调控基因表达动态的有力工具。另一项研究将微流体技术与Multiplexed smFISH技术结合起来研究乳腺癌中的肿瘤异质性证明,Multiplexed smFISH可以从不同角度进一步优化。

尽管smFISH技术前景广阔,但由于探针设计、验证、图像分析和解码的复杂性,基于smFISH的复合技术尚未广泛应用于转化研究或临床应用。使用非多重FISH、定量PCR、IHC和IF在mRNA或蛋白质水平上研究单个基因的表达通常更为方便,尤其是当研究的基因数量较少时,如一组预后标志物。另一个限制是,由于序列杂交的性质,总成像时间加起来至少为18小时,还不包括最初的36~48h的探针杂交时间,因此与其他技术相比(如DSP和Visium),总体通量较低。此外,Multiplexed smFISH技术只能评估新鲜冷冻组织中一种类型的分析物,如RNA。新兴的技术如DSP,可以评估新鲜冷冻组织和病理学常规使用的标准福尔马林固定石蜡包埋(FFPE)组织中的蛋白质和RNA。

图片.png
图片.png

不同成像方式的概述和比较

DSP

DSP是一种高复杂度的空间分析方法,其克服了Multiplexed smFISH技术的主要限制。DSP使用寡核苷酸检测技术来量化FFPE组织样本中的蛋白质或RNA。

图片.png
用于RNA靶标检测的DSP原理

与顺序杂交技术(如MERFISH)不同,DSP提供了更高效的工作流程,可在48小时内从10~20个组织切片或多达384个目标区域产生结果。此外,与只分析RNA的Multiplexed smFISH相比,DSP可以同时检测96种蛋白质或1400个mRNA。这一特征与癌症免疫治疗特别相关,因为mRNA和蛋白质表达模式的差异可用于阐明转录后调控和翻译后修饰,从而导致蛋白质不稳定,影响预后和治疗反应。同时,DSP还保存了组织样本的完整性,可以储存珍贵的样本,并用于将来的进一步分析。

DSP在免疫治疗领域有着广泛的应用,例如已有研究用DSP评价了接受化学免疫治疗的弥漫性大B细胞淋巴瘤患者的免疫微环境;DSP在免疫检查点阻断治疗方面也有研究,包括抗PD-L1和抗PD-1治疗。DSP可以作为一种辅助诊断工具,对TME中空间定义的区域内PD-L1蛋白表达进行标准化、定量和客观评估。在另一项研究中,DSP成功地识别了20种以上的生物标志物,这些标志物可以预测黑色素瘤患者对免疫治疗的反应。

空间转录组技术(ST)

在单细胞RNA测序过程中,由于组织通常被均质化以获得转录组的平均概况,造成空间信息丢失。最近,空间转录组技术(Spatial Transcriptomics)被开发,该技术利用空间条形码寡脱氧胸腺嘧啶微阵列实现完整组织切片中的转录组定量可视化和分析。

这项新技术首先在小鼠嗅球上得到证实,并遵循如下标准工作流程:组织切片、固定、苏木精和伊红(H&E)染色、亮视野成像、组织渗透、cDNA合成、组织切除、探针释放、文库制备、测序、数据处理、数据可视化和分析。

通过ST对乳腺癌、前列腺癌和皮肤恶性黑色素瘤活检的数据分析显示,肿瘤内和肿瘤间的异质性达到了前所未有的水平,以及通过RNA测序分析和/或标准形态学注释,注释肿瘤区域和外周之间的基因表达谱存在明显差异。此外,利用这种技术进行的体内实验已经发现了通过重新增殖小胶质细胞诱导IL-6信号,这在治疗方面可能有价值。

为了利用ST的潜力,研究人员最近开发了一种称为MIA的分析方法,其整合了单细胞RNA测序和ST技术产生的数据集,将细胞定位到组织上特定的区域。作为概念证明,MIA是在胰腺导管腺癌的数据集上进行的,并且揭示了特定的细胞类型和亚群在空间限制区域的富集,这些区域以前是未知或不可检测的。

基于空间转录学的概念,10× Genomics发布了Visum空间基因表达解决方案,与ST技术的第一次迭代相比,它具有更高的分辨率和更高的灵敏度。其被用于深入研究与组织结构和功能相关的疾病,除了用于癌症免疫治疗外,还可以用于神经系统疾病。

图片.png
Visium空间基因表达解决方案原理

尽管转录空间分析技术相对较新,但在肿瘤免疫治疗中已被广泛探索。FISH和RNAscope是诊断和预测实体瘤和血液瘤的有效临床工具。较新的技术,如MERFISH和Visium,通过前所未有的分辨率和灵敏度实现批量转录组分析。这类技术的可获得性不断增加,能够发现新的生物标记物,用于预测免疫治疗的反应,并允许基于其独特TME的异质性的个性化治疗方法。这些空间分析技术还可能与降维技术相结合,例如UMAP用于可视化TME的免疫景观。

图片.png
显示组织样本中UMAP和缺氧梯度的示意图

展望未来,DSP提供了mRNA表达的空间分析和数字表征,但仍然受到可同时研究的基因靶点数量的限制。尽管Visium在市场上相对较新,但其在短时间内不断改进,在疾病病理学和临床转化研究方面有着巨大的潜力。

研究人员可利用各种不断发展的空间转录组技术,重要的是既要考虑技术特征,包括空间分辨率、敏感性、特异性和组织类型,又要考虑实际因素,如成本,与可用资源的兼容性和周转时间。研究人员必须仔细考虑其研究问题,并选择一种与其研究和临床目标密切相关的适当技术。

第三章,空间高变基因

空间转录组研究中的一项关键任务是识别跨空间位置具有不同空间表达模式的空间变异基因(SVG)。识别SVG为系统分析特定位置的细胞状态、推断细胞间的通讯以及确定生物体中重要的表型和功能提供了机会。此前《Molecular Therapy-Nucleic Acids》发表综述文章,对目前可用于SVG分析的最先进的计算方法和工具进行了最新的系统性概述。该研究将指导医学和生命科学家寻找专用资源和更有效的工具来表征基因表达的空间模式。

图片.png

空间转录组的数据存储

图片.png

空间转录组的资源和数据库概述

SpatialDB(https://www.spatialomics.org/SpatialDB/):是一个手动管理的空间转录组资源,供研究人员有效研究和重复使用已发布的数据。当前版本的SpatialDB包括5个物种(人类、小鼠、果蝇、秀丽隐杆线虫和斑马鱼)的24个空间转录组数据集。此外,SpatialDB展示了SpatialDE和trendsceek识别的SVG,以及数据可视化、比较、GO和KEEG富集分析。

Single Cell Portal (https://singlecell.broadinstitute.org/single_cell):是一个不断发展的综合性单细胞数据库,该数据库收集并整合了来自400项研究(包括空间转录组的研究和数据集)的17640076个细胞;其中大部分来自Broad研究所开发的空间转录组技术。

SVG识别的计算方法

在过去的几年里,已经开发了许多计算方法/工具来帮助阐明基因表达的空间变异。根据内在原理可分为三类:(1)基于统计建模的方法;(2) 基于机器学习的方法;(3)基于空间网格的方法。

图片.png

SVG识别的计算工具和方法综述

基于统计建模的方法

图片.png
图片.png
基于统计建模方法的工作流程示意图

基于已知细胞空间坐标及其基因表达水平的统计建模方法为阐明空间基因表达异质性提供了统计框架。其一般工作流程:首先,输入基因表达谱和细胞位置信息。根据输入的信息,构建统计框架来阐明基因表达值与细胞空间位置之间的相关性。随后,通过不同的统计方法确定显著SVG。

trendsceek使用标记点过程来模拟基因表达和细胞坐标之间的关联;SpatialDE是一种基于高斯过程回归的方法;与SpatialDE相比,SPARK做了一些具体的改进,其基于具有多个空间核的空间广义线性混合模型识别SVG,直接对空间计数数据建模;SPARK-X基于非参数建模,有效地减少了内存需求和计算时间,同时保持了可靠模型的有效性;GPcounts利用高斯过程回归方法,通过负二项似然模型对空间转录组数据进行建模,在处理计数数据时实现了比高斯似然函数更好的拟合;BayesSpace是一种完全贝叶斯统计方法,它使用来自空间邻域的信息来增强空间转录组数据的分辨率并进行聚类分析。

基于机器学习的方法

图片.png
图片.png
图片.png
基于机器学习策略的工作流程示意图

基于光谱的方法已经成为一种根据特征和基础结构之间一致性程度进行无监督特征选择的方式。

RayleighSelection扩展了基于图的Laplacian方法,使用了一个简单的复合体,显著简化了数据之间的关联,并对具有复杂组合结构的特征进行了特征选择。

由于输入数据的特征丰富且结构良好,神经网络作为机器学习的另一个重要分支,已被广泛用于分析scRNA-seq和空间转录组数据。

SOMDE使用自组织映射(SOM),在保持原始空间信息的前提下,根据输入数据的密度和拓扑结构构造一个节点数较少的压缩映射,然后用高斯过程(GP)检测SVG;SPADE使用成像数据和空间转录组数据作为输入,通过卷积神经网络提取每个点周围的形态特征,并将其与基因表达数据相结合,以识别与空间和形态异质性相关的关键基因。此外,可以基于这些关键基因进行功能分析,以进一步阐明负责不同形态特征的生物过程。

基于空间网格的方法

图片.png
图片.png

基于空间网格方法的工作流程示意图

这类方法旨在将空间划分为多个网格,并对不同细胞之间的空间关系进行编码或推断细胞的分布,然后应用后续步骤,例如对细胞的空间相邻关系或基因表达水平进行二值化以识别SVG。

SingleCellHaystack将空间划分为网格,并根据细胞的密度确定该网格上的多个网格点。对于每个基因,SingleCellHaystack通过阈值将所有细胞聚成两类(检测到该基因的细胞和未检测到该基因的细胞)。然后,SingleCellHaystack计算这两类细胞的分布,并将它们与空间中细胞的随机分布进行比较。Kullback-Leibler散度用于计算每个基因的DKL分数作为变异程度,并识别在多维空间中不均匀表达的基因。基于这个分数,可以评估基因的空间变异性。Merungue通过三角剖分算法(Delaunay)将空间转录组数据中的每个细胞视为一个邻域,然后根据这些邻域确定每个细胞对是否相邻,并应用二进制邻接权重矩阵来表示这种关系。根据构建的邻接矩阵和基因表达矩阵,Merungue计算出空间自相关统计量,即Moran's I,以获得重要的空间基因。此外,Merungue通过空间交叉相关指数,将确定的空间基因分类为多种空间表达模式。Giotto已被开发为分析和可视化空间转录组数据的工具箱,并结合了四种识别空间基因的方法,包括trendsceek、SpatialDE、SPARK和BinSpect。BinSpect首先使用Delaunay创建一个空间网格来表示细胞之间的关联。对于每个被输入的基因,BinSpect将通过K-means聚类或等级阈值对基因表达值进行二值化,并根据这些二值化的表达值计算出相邻细胞之间的或然率表。通过统计学上的富集测试,如果一个基因在相邻细胞中的表达量很高,这个基因将被视为SVG。作为一种基于图的模型,隐马尔科夫随机场模型(HMRFs)利用空间基因和空间邻域网络来总结主要的空间域。

空间分辨率转录组数据的下游分析方法

由于识别基因的空间表达模式以及它们在不同组织中的变化是空间转录组学的一个关键目标,因此许多专门用于分析这种数据的工具旨在识别空间变异基因(SVG)。基于scRNA-Seq分析中高度可变基因的概念,SVG的表达模式取决于其在组织中的位置,并能深入了解生物功能。分析这些空间转录组学数据集的一个复杂问题是准确地解释样本之间的空间相关性。目前各种软件包主要是用R或Python开发的,可用于识别空间转录组数据集中的SVG。

识别SVG
图片.png

SpatialDE是一个基于高斯过程(GP)回归的流行软件包,它可以清楚地识别含有时间和/或空间注释的数据集的局部基因表达模式。SpatialDE可以通过创建一个包含两个不同项(空间和非空间)的模型来识别SVG,这两个项反映了数据集中存在的不同差异。SpatialDE的另一个功能是,它可以实现一种建立在高斯混合模型上的无监督学习技术,以应用自动表达组织学(AEH),通过使用从数据中学习到的隐藏模式,根据SVG的空间表达模式将SVG分组。SpatialDE可能通过将低表达水平的基因标记为SVG而引入假阳性的观察结果,这是一个需要进一步研究的领域,并且可以在未来版本的软件包中加以改进。

与SpatialDE具有相同目标的软件包是SPARK该软件包使用具有不同空间核的广义线性空间模型(GLSM)来识别SVG。虽然SpatialDE和SPARK共同使用参数测试统计,但这两个软件包之间有一些关键的区别。SPARK不对归一化数据进行建模,而SpatialDE只能对p值进行近似计算,SpatialDE计算一个精确的p值,一旦获得初始的有统计学意义的基因集,就进行额外的分析以确定其p值。当对多个数据集进行验证时,SPARK的表现与SpatialDE和Trendsceek一样甚至更好。在计算效率方面,当用10个并行的CPU线程运行时,SPARK的计算效率高于在单线程SpatialDE上运行的相同分析(尽管在参考文献例子中差异很小),而Trendsceek,其单线程性能在4个不同大小的数据集上的效率始终低于SpatialDE。

Trendsceek是较早开发的软件包之一,用于使用非参数方法识别SVG。Trendsceek单独评估每个基因,并通过log10转换将其表达归一。Trendsceek与SpatialDE和SPARK的一个关键区别在于其非参数测试统计的计算,这意味着它缺乏一个基础生成模型。Trendsceek针对模拟数据集进行测试,如果数据集中不到5%的细胞具有不同的表达水平,则当SVG存在时,其识别SVG的能力非常低。即随着SRT数据集的不断扩大,Trendsceek将无法区分组织内非常小的细胞子集中存在的SVG。与SpatialDE和SPARK相比,Trendsceek在两个空间转录组学数据集上识别的SVG较少(数量几乎比其他软件包低10倍)。

每一个新开发的软件包都旨在解决已出版软件包的缺点,例如BOOST-GP,其提出了一个新的贝叶斯层次模型,旨在解释空间数据集中存在的相当数量的zero-counts,而到目前为止发表的其他软件包都忽略了这一点。与其他软件包的一个关键区别是,BOOST-GP在建立计数数据模型时采用了负二项分布。当数据中存在false zeros时,BOOST-GP的性能高于SpatialDE、SPARK和Trendsceek。根据基因表达的空间模式,BOOST-GP的准确性可能略有不同。在对人类乳腺癌数据的分析中,BOOST-GP识别的SVG比SPARK少,但其能够在GO分析中发现新的、生物相关功能,增加了它在空间转录组学数据分析中的价值。

随着更大的数据集变得越来越普遍,必须创建软件包来有效分析空间转录组学实验产生的大量数据。其中一个较新的软件包是SOMDE,其在python中构建,通过使用自组织地图(SOM)神经网络和高斯过程对数据进行建模,它可以比SpatialDE、SPARK或Trendsceek更快地在大数据集中识别SVG。与Giotto和SpatialDE相比,SOMDE在用于验证的三个不同大小的数据集上的运行时间更快。在模拟数据集上,将SOMDE性能与scGCO和SpatialDE进行比较时,SOMDE的性能始终优于scGCO,但只有在将高dropout rate纳入数据集时,其性能才优于SpatialDE。在实际数据集上进行性能测试时,SOMDE识别的大多数SVG与scGCO、SPARK和SpatialDE等识别的SVG重叠。

还有其他已开发的软件,比如在python包中实现的scGCO,其采用了图形切割算法来识别空间基因。与SpatialDE非常相似,scGCO使用高斯混合模型,但使用它对每个基因的表达进行分类,以确保基于它们的基因表达更准确地分类细胞类型。scGCO在小鼠嗅球、乳腺癌活检等数据中表现出稳定的性能。

识别SVG及其他目标
图片.png

以上回顾的软件包证明GPs是分析空间转录组学数据的流行方法,因为它们可以建立其空间依赖性模型。为此,随着新软件包的开发,许多软件包都是建立在替代的GP回归模型上,如GPcounts可用于建立空间或时间的大规模scRNA-Seq数据模型,通过使用负二项式(NB)似然对计数数据进行建模。与高斯似然模型相比,NB似然模型应更准确地捕捉基因表达数据的分布,因为它考虑到了可能的异方差噪声和许多zero-counts的存在,但需要应用UMI规范化。GPcounts的主要目的不是识别SVG,它还能够识别差异表达基因,执行伪时间推断,然后识别分支基因并发现时间轨迹,与大多数软件包相比,它的范围更广。以SpatialDE为基准,GPcounts建立在SpatialDE实施的许多步骤之上,并对其进行了修改。这适用于从用于确定SVG和差异表达基因P值的测试程序到应用于数据的归一化类型。GPcounts还实施了额外的步骤,在其核函数超参数估计期间进行内置检查,以最大限度地减少卡在局部最优的问题,在怀疑有这种情况时重新启动优化。这是迄今为止唯一的基于优化的方法之一,它实现了这种自我检查,使GPcounts在准确识别SVG方面具有明显的优势。在真实的小鼠嗅球数据集测试中,GPcounts在所有软件包中识别了最多的SVG,绝大部分识别的SVG与SpatialDE和SPARK识别的SVG重叠;GPcounts识别的独特SVG空间模式与Allen Brain Atlas描述一致,说明这些发现具有高可信度;GPcounts还识别了数据集中表达的90%的生物学上重要的标记基因(vs SPARK80% vs SpatialDE 30%)。

某些框架的开发考虑到了特定的SRT技术,并结合解决开发者认为缺乏的数据分析领域。其中之一是用R语言创建的STUtility(? 了解详情)工作流程,它是基于Seurat分析工具而建立的。

第四章,空间转录组聚类方法讨论(重点在BayesSpace)

新兴的空间转录组(ST)领域的技术发展开辟了一个未经探索的领域,将转录信息置于空间环境中。聚类通常是分析这类数据的核心组成部分。

ClusterMap
图片.png

ClusterMap是一个无监督和无注释的计算工具,其基于两个关键的生物学现象:首先,细胞内RNA分子的密度高于细胞外;其次,不同基因编码的细胞RNA在不同的亚细胞位置、细胞类型和组织区域富集。因此,开发团队推断,通过对RNA的物理密度和基因身份进行联合聚类,可以直接从原位转录组数据中确定有生物学意义的模式和结构。随后,根据基因身份和空间尺度对空间聚类进行解析,以表示亚细胞定位、细胞分割和区域识别。

性能评估:与此前的方法相比,ClusterMap在模拟数据集和生物数据集中均表现出稳定的高性能。此外,ClusterMap广泛适用于各种实验方法,包括但不限于STARmap、MERFISH、ISS和osmFISH。实验结果表明ClusterMap从不同组织样本的原位转录组数据中准确地创建了RNA注释的亚细胞和细胞图谱,这些组织样本具有不同的RNA定位、细胞密度、形态和连接。

工具获取:
https://github.com/wanglab-broad/ClusterMap
https://github.com/LiuLab-Bioelectronics-Harvard/ClusterMap

CoSTA
图片.png

CoSTA是一种通过卷积神经网络(ConvNet)聚类学习基因表达矩阵之间空间相似性的新方法。CoSTA方法使用ConvNet聚类结构,重复(1)通过ConvNet生成特征,(2)通过GMM聚类生成软分配,以及(3)使用软分配来更新ConvNet。一旦完成训练,只保留训练好的ConvNet用于特征提取。由于ConvNet主要由卷积层组成,ConvNet提取的每个基因的最终向量应该是一个空间表示。利用这个空间表示可以在一个空间转录组数据集中量化任何两个基因之间的关系,利用UMAP将这个数据集中的所有SE基因可视化,并通过常见的聚类算法分配模式。

性能评估:通过分析模拟和此前发表的空间转录组数据,研究团队证明CoSTA学习基因之间的空间关系的方式是强调更广泛的空间模式而不是pixels级的相关性。CoSTA为每对基因之间的表达模式相似性提供了一个定量的衡量标准,而不仅仅是将基因归类。与其他方法相比,CoSTA识别的范围更窄,但在生物学上是显著相关的基因集。CoSTA可以成功地实现从计算机视觉的深度学习思想来推断空间基因表达关系,其可以应用于任何为每个基因输出基因表达信息的图像类型矩阵的技术,不仅包括性能测试中探讨的Slide-seq和MERFISH,还包括STARmap、10×Visium和HDST。

工具获取:
https://doi.org/10.5281/zenodo.3948711

BayesSpace
图片.png

BayesSpace是一种完全贝叶斯统计方法,它使用来自空间邻域的信息来增强空间转录组数据的分辨率并进行聚类分析。BayesSpace是一种基于空间转录组模型的聚类方法,通过对基因表达矩阵的低维表示进行建模并通过空间先验鼓励相邻点属于同一簇来实现空间聚类。与以前的方法相比,BayesSpace允许对聚类结构和错误项进行更灵活的规范。BayeSpace通过广泛使用的Bioconductor SingleCellExperiment数据结构将预处理数据作为输入,无缝集成到空间转录组分析工作流中,输出同样存储在SingleCellExperiment对象中,该对象可用于下游分析。这些方法都实现为一个R包,可以在Bioconductor上公开访问(http://www.bioconductor.org/packages/release/bioc/html/BayesSpace.html)。

性能评估:研究人员将BayesSpace与现有的空间和非空间聚类方法进行基准测试,结果表明其改善了从大脑、黑色素瘤、浸润性导管癌和卵巢腺癌样本中识别不同的组织内转录谱的能力。通过使用免疫组化和一个由scRNA-seq数据构建的模拟数据集,研究人员发现解析了在原始分辨率下无法检测到的组织结构,并识别了组织学分析无法识别的转录异质性。这些结果说明了BayesSpace在促进从空间转录组数据中发现生物学洞见方面的实用性。

工具获取:
http://www.bioconductor.org/packages/release/bioc/html/BayesSpace.html
https://github.com/edward130603/BayesSpace

FICT
图片.png

FICT是一种在分配细胞类型时结合了表达和邻域信息的新方法。FICT最大化了联合概率似然函数,该函数考虑了每个细胞中基因的表达和细胞类型的联合多变量空间分布。其首先定义了一个生成混合模型:每个细胞根据其邻域分配一个细胞类型,然后从细胞类型的特定分布中提取基因表达水平的降维表示。接下来通过最大化基因表达和细胞位置的联合可能性来学习这个生成模型的参数。然后通过这个生成模型的后验分布推断出细胞类型,并给出基因表达水平和细胞位置。

性能评估:使用模拟数据FICT可以正确地确定每个细胞的表达和提供相邻细胞类型分布信息的参数,改进了仅依靠表达水平的生成和鉴别方法,以及没有考虑到每个细胞完整邻域的方法。对于真实的数据,研究表明FICT对不同动物的相同组织所学到的模型有很好的一致性,它确实可以利用空间信息来纠正表达值中的噪声所造成的错误,而且即使在表达谱相似的情况下,它也可以用来识别空间上不同的细胞亚型。

工具获取:
https://github.com/haotianteng/FICT

SpatialCPie
图片.png

SpatialCPie是一个易于使用的R包,可以让用户直观地了解ST数据中的“簇”是如何相互关联的,以及二维ST阵列上的每个区域与每个“簇”的关联程度。SpatialCPie被设计成R工作流的一部分,使用户可以高度灵活地定制和快速迭代他们的分析。数据在多种分辨率下进行聚类--即采用不同数量的聚类或超参数设置--从而避免了为分析预先指定单一的超参数集,用户可以自由定义使用哪种聚类算法。结果以两种方式可视化:用聚类图显示不同分辨率之间的聚类重叠情况;用二维数组图,其中每个点用饼图表示,表示其与不同聚类中心点的相似度。SpatialCPie的用户界面是用Shiny实现的。该界面主要由两部分组成:Cluster graph和Array plot。

性能评估:SpatialCPie可以用来分析任何具有空间分布的计数数据的数据集,开发团队展示了其在三个公开的ST数据集(发育中的人类心脏、原位乳腺癌和黑色素瘤)上的实用性,在此之前所有数据均使用Seurat进行了归一化。

工具获取:
https://github.com/jbergenstrahle/SpatialCPie

重点介绍,BayesSpace(实现更高分辨率的空间转录组分析)

空间基因表达技术能够在保留空间背景信息的同时,全面测量转录组谱。然而,现有的分析方法并没有解决技术分辨率有限或有效利用空间信息的问题。

来自美国的科研团队开发了BayesSpace,这是一种完全贝叶斯统计方法,它使用来自空间邻域的信息来增强空间转录组数据的分辨率并进行聚类分析。基准测试证明BayesSpace在识别具有相似表达谱的空间簇和提高空间转录组学分辨率方面的效用,其既克服了有效利用空间信息进行表达数据聚类的挑战,又克服了目前空间转录组技术分辨率有限的问题。

图片.png
BayesSpace是什么?

BayesSpace是一种基于空间转录组模型的聚类方法,通过对基因表达矩阵的低维表示进行建模并通过空间先验鼓励相邻点属于同一簇来实现空间聚类。与以前的方法相比,BayesSpace允许对聚类结构和错误项进行更灵活的规范。BayeSpace通过广泛使用的Bioconductor SingleCellExperiment数据结构将预处理数据作为输入,无缝集成到空间转录组分析工作流中,输出同样存储在SingleCellExperiment对象中,该对象可用于下游分析。这些方法都实现为一个R包,可以在Bioconductor上公开访问(http://www.bioconductor.org/packages/release/bioc/html/BayesSpace.html)。

图片.png
BayesSpace工作流程
BayesSpace的基准测试

研究人员将BayesSpace与现有的空间和非空间聚类方法进行基准测试,结果表明其改善了从大脑、黑色素瘤、浸润性导管癌和卵巢腺癌样本中识别不同的组织内转录谱的能力。通过使用免疫组化和一个由scRNA-seq数据构建的模拟数据集,研究人员发现解析了在原始分辨率下无法检测到的组织结构,并识别了组织学分析无法识别的转录异质性。这些结果说明了BayesSpace在促进从空间转录组数据中发现生物学洞见方面的实用性

图片.png
图片.png

BayesSpace可在如下链接获取Bioconductor软件包:http://www.bioconductor.org/packages/release/bioc/html/BayesSpace.html
原代码是公开的,可通过如下链接获取:https://github.com/edward130603/BayesSpace.

第五章,利用空间转录组技术探索组织结构

高通量测序和成像方法的技术进步确立了空间转录组学在整个组织空间系统地检测所有或大多数基因表达水平的能力。近日,来自美国的科研团队在《Nature》发表综述文章,回顾了常见的空间转录组技术,讨论了这些方法产生的数据的探索原则,检查了空间转录组在不同的实验设计中的效用,并强调了该技术通过与其他模式的整合实现生物学洞察的前景。

图片.png
空间转录组技术

本文回顾的方法侧重于能够跨组织区域进行转录组水平检测的技术。空间转录组学技术主要分为:(1)基于NGS的技术,在NGS前将位置信息编码到转录本上;以及(2)基于成像的方法,包括基于原位测序(ISS)的方法--转录本在组织中被扩增和测序,以及基于ISH的方法--成像探针在组织中被连续杂交。这些不同的技术可以被看作是汇聚在一个基因表达矩阵上,该矩阵捕获了每个点(即一个像素、一个细胞或一组细胞)的转录组。

图片.png
空间转录组学技术提供了基因表达矩阵

本篇对选择空间转录组学方法的考虑因素做了如下总结:

> 基因通量。

基于NGS的方法是无偏向性的,因为它们捕获所有多聚腺苷酸化的转录本,因此非常适合探索新的系统。相比之下,ISH和大多数基于ISS的方法(FISSEQ和ExSeq除外)是有针对性的,需要对感兴趣的基因有先验知识。尽管如此,这些方法的通量近年来有所增加,达到了10000个基因。靶向的空间转录组学方法也可以与scRNA-seq结合使用,这样就可以更精确地定位已经识别的感兴趣的基因。此外,非多聚腺苷酸化转录物的探针可用于查询其他RNA,如成熟的microRNA和tRNA。

> 序列信息

基于NGS和ISS的方法能够检测融合转录物、剪接异构体和单核苷酸变体及点突变。当与基因表达矩阵结合时,这些数据可以通过RNA速度或谱系追踪帮助重建时间过程。

> 灵敏度

基于ISH的方法具有很高的灵敏度,与金标准单分子荧光ISH(smFISH)相比,最近达到了80%的检测效率。基于NGS的方法的灵敏度明显较低,仍低于scRNA-seq,但正在迅速提高到约100个独特转录本/μm2。一般来说,灵敏度和基因通量之间存在一种权衡,这可以从基于ISS的靶向方法相对于无偏向方法的更高灵敏度中看出。

> 分辨率

原位方法的分辨率仅受光学衍射极限的限制,在扩张显微镜下,分辨率已达到100 nm左右。因此,这些方法非常适用于有关亚细胞组织的问题。基于NGS的方法受限于斑点的直径,但其分辨率自最初的方法以来迅速提高,最近达到约1μm。

> 尺寸范围

尽管在组织大小和成像时间之间存在权衡,但原位方法可以跨越广泛的尺寸范围。相比之下,基于NGS的方法是标准化的,阵列大小约为10 mm2(目前商用的10X Genomics Visium为6 mm2),这可能不适用于较小或较大的样本。

> 可行性

尽管这些技术非常强大,但它们的广泛应用仍存在障碍,包括获得用于原位方法的单分子成像,以及用于基于NGS方法的捕获阵列的制造。商业化在某些情况下促进了这些技术的应用,如10X Genomics Visium。

对发育、生理和疾病的洞察

由于空间转录组技术提供了一个无偏向的空间组成图,已被用于生成组织图谱。

在神经生物学方面:基于空间转录组学的方法已经建立了整个小鼠大脑或特定区域的详细图谱,如视觉皮层、初级运动皮层、中颞回、下丘脑视前区、海马和小脑。相关研究在对背外侧前额叶皮质的分析中确定了已知精神分裂症和孤独症相关基因的空间模式,从而提出了精神分裂症遗传易感性的机制。

在发育生物学中:时间分辨的空间转录组图谱有助于阐明心脏发育、精子发生和肠道发育的空间动力学。同样,对人类子宫内膜在月经周期的增殖期和分泌期的全面研究发现了WNT和Notch信号在调节向纤毛或分泌型上皮细胞分化中的作用。这些图谱一直是合作项目协调努力的重点,为研究界提供有效资源,并得到Human Cell Atlas项目和Allen Institute for Brain Science的支持。

除了正常的发育和生理之外,空间转录组学很适合研究疾病中的组织结构紊乱。空间转录组学能够识别在癌症中起作用的机制,即正常生理功能的组织结构发生改变。随着人们对肿瘤微环境重要性的日益认识,空间转录组学已被用于研究其与不同状态癌细胞的关系。特别是,空间转录组学能够研究癌症和正常组织之间的分子特征。例如,在皮肤鳞状细胞癌中发现了免疫调节性癌细胞状态。空间转录组学还为神经退行性疾病(包括阿尔茨海默病和肌萎缩侧索硬化症)、感染和炎症过程(如麻风病、流感和败血症)以及风湿病(包括类风湿性关节炎和脊柱关节炎)中组织失调机制提供了见解。

探索性数据分析

空间转录组技术产生了一个基因表达矩阵,对其进行分析既可以检验现有的假设,也可以通过探索性分析产生新的观察结果。鉴于空间转录组数据集的复杂性和高维度,采用一种开放的思维方式,通过数据分析找到意想不到的关系,可以产生新的见解。

分析空间转录组数据通常需要排除低质量数据和基因表达矩阵上的初始转换,以提高信噪比,这可以使用分析软件包(如Giotto、Seurat、STutility和stLearn)执行。平滑算法可应用于数据,以提高灵敏度,并消除技术和生物变化的不必要来源。基于相邻点之间可以共享信息的前提,沿空间坐标在移动窗口中平均物理相邻点之间的基因表达可以减少噪声。为了比较基因在不同点上的表达,转录组通常通过除以转录总数量(百万分转录本(TPM))或使用正则化负二项回归进行标准化。类似地,通过调整数据比例,使数据在不同点上具有相同的平均值和方差(z-score),可以帮助进行基因间的比较。

图片.png
图片.png
利用空间转录组数据集进行探索性数据分析

用于研究空间转录组数据的五类操作

> Cluster:聚类操作揭示了数据中的结构,最基本的定义是具有相似转录组的点集,或者正交地,识别在点之间具有相似表达模式的基因。点之间的相似性可以用相关或欧氏距离直接在转录组之间计算,或在降维后计算,如PCA、t-SNE和UMAP。然后,这些相似性被用于聚类--例如,使用K-means、Louvain或分层聚类。这些聚类可能对应于研究组织中的不同区域或细胞类型,然后可以对其进行注释。基因聚类使用相同的方法,可以识别与细胞类型或细胞状态相对应的共表达基因模块。目前正在开发诸如BayesSpace之类的聚类方法,这些方法侧重于空间转录组学的特定特征。

> Select:典型的空间转录组数据集包含的生物信息比任何单一分析都有意义。因此,通常应该选择一个感兴趣的区域,例如大脑的一个特定层,或肿瘤和微环境之间的界面。基因选择方法比比皆是,那些专门针对空间转录组数据的方法试图识别具有高变异性的基因,其表达在整个组织中不是随机的。可以根据基因的空间自相关性(使用Moran's I或Geary's C)、邻近富集(如在BinSpect中)或函数(如在Haystack中)对基因进行评分。Trendsceek使用标记点处理方法,能够识别表达的热点和梯度等。SpatialDE使用高斯过程回归将给定基因的表达变异性分解为空间和非空间成分,并在SPARK中扩展了类似的方法。

> Score:虽然基因和斑点是空间转录组学的主要观察数据,但基础生物学意味着基因作为模块共同表达,斑点转录组反映有限的细胞类型和状态。这是评分函数的前提,评分函数用于将一组相似的点总结为单一基因表达谱,或正交地将一组连贯的基因总结为单一模式,以这种方式总结数据可以识别功能特性。评分可以简单地通过对集合的值求平均值来完成,或者根据Seurat工作流中实现的空模型对表达式进行评分。

> Characterize:通过对空间转录组数据的操作所确定的对象--斑点群和基因组--必须为生物学理解和解释提供特征。当一组斑点与组织学区域相匹配时,可以手动对其进行表征,如在MERFISH中对大脑中的单个细胞类型进行注释等。聚类也可以通过识别一组标记基因并对其进行表征来间接注释。具体而言,可以通过量化其与注释基因集的重叠来表征基因集。这是多模式交叉分析(MIA)和基因集富集分析(GSEA)的基础,该分析可以从GO、KEGG、Hallmark 和其他数据库中查询获得。

> Relate:鉴于其系统性,空间转录组学很适合识别基因群和组织区域之间的相似性、差异和关系。通过查询表达基因、空间重叠或发育或功能关系,可以关联斑点簇。例如RNA velocity利用未切片的转录本来推断斑点在时间上是如何相互关联的,并被应用于皮层来绘制神经发育的动力学图谱。基于RNA-seq的拷贝数变异推断识别染色体非整倍体,可用于区分恶性斑点和非恶性斑点,并识别不同的亚克隆。当两组点在空间上相邻时,可以通过使用已知数据库(如CellPhoneDB或NicheNet)检查它们的成对受体和配体来提出细胞之间的潜在相互作用模式。

假设生成与检验

健康或疾病组织的空间转录组学图谱自然有助于无偏见的探索和假设生成。即使是那些设计用于研究特定生物过程的空间转录组数据集,如时间进程研究或微扰实验,也可以探索以揭示意想不到的变化并提出新的假说。此外,空间转录组数据可以被纳入经典的假设驱动的实验设计中,使用充分有力的实验来检验一个定义明确的预测。事实上,随着空间转录技术变得更加容易,它已经准备好作为一种常规的检测方法,与流式细胞仪或RNA测序相提并论。在实验设计的指导下,空间转录组学在作为扰动或时间历程实验的读数时可以证实或证伪一个假设。每个样本都可以由一个单独的数据点进行汇总,并在不同的重复和条件下进行比较,因此需要收集足够数量的数据,以确保统计的严谨性和有效性。研究可能在同一样本的多个切片上纳入空间转录组学,以解释技术变异性,或每个条件下的多个生物重复。该假设可在模型系统、体外或体内或临床数据中进一步验证。

图片.png
图片.png
利用空间转录组学的假设生成和检验

与其他模式的融合

随着空间转录组学技术的分辨率和灵敏度的提高,与其他数据模式的集成可以提供更好的组织表征的机会。虽然目前常常未得到充分利用,但组织图像本身可用于提取高分辨率信息,尤其是当结合组织病理学领域获得的大量知识来手动识别和注释区域时。组织中检测到的形态特征,如细胞形状或细胞核大小,可直接纳入分析。深度学习也被用于从基因表达和组织学预测细胞类型注释,优于单独从两种模式预测的注释。随着可用于训练的转录组数据的增加,机器学习算法也被用于从组织病理学图像预测基因表达。这些算法不依赖于预定义的形态特征,而是通过将整个图像分解来提高性能。将空间转录组学与这种机器学习方法相结合,可以提高组织病理学的可解释性及其在临床决策中的应用,以指导治疗和告知预后。

在亚细胞分辨率下,染色质的空间组织可能为不同环境下基因表达的调控提供线索。将空间转录组数据集与基因组原位高通量成像、组织内组蛋白标记的空间分布相结合将是非常有价值的。最近,利用完整组织内的同步DNA测序对基因组组织进行空间定位已成为可能。这表明将空间基因组测序与原位转录组分析相结合的目标有望实现,从而加深我们对基因组组织和功能编码方式的理解。

用蛋白质联合检测等补充方式来增强基因表达数据,也可以阐明空间转录组学没有捕捉到的过程,如蛋白质的翻译后修饰和亚细胞定位及其在疾病中的失调。靶向蛋白联合检测可与空间转录组学同时进行,在同一组织切片上使用免疫染色,如Visium所支持的那样。DBiT-seq使用抗体衍生的DNA标签实现组织中mRNA和蛋白质的共映射。用于蛋白质检测的高通量空间方法,如MIBI、CODEX、t-cyCIF和自动质谱分析,为组织切片内的蛋白质组提供了无与伦比的快照。将这些高通量蛋白质组学方法与空间转录组学相结合的技术进步将极大地提高我们研究组织复杂性的能力。

空间转录组学领域正以指数级的速度增长。目前空间转录组学方法所面临的挑战--包括对分辨率和灵敏度的限制,以及通量和可及性--正在被迅速克服。空间转录组学方法正在与石蜡包埋组织兼容,为回顾性分析几十年来收集的生物样本打开大门。随着未来的创新,有可能对更大的组织区域进行系统化检测,以重建三维器官或生物体层面的图谱,并将转录组范围内的基因表达变化随着时间的推移进行可视化。除了克服这些技术挑战之外,未来的工作还需要开发新的计算工具和创造性的分析思维。这将使数据探索能够识别空间模式(空间转录组数据集的核心特征),并揭示潜在生物学的深刻见解。

当我们推测该领域未来的里程碑时,人类基因组计划可能是一个有用的平行项目。人类基因组初稿于2001年发表,为研究遗传变异的来源和结果提供了参考。然而,基因组不同区域的功能和调控仍在积极研究中。在空间转录组学中,未来的项目可能同样受益于研究不同条件的参考。然而,绘制每个基因在空间的表达水平图谱只是阐明组织生物学的组织原则的第一步。正是这些高分辨率细胞图谱与无假设查询的耦合,将有助于获得新的见解并揭示生理学和疾病中组织结构的显著特征。

该领域的一个关键挑战将是迭代构建一个模型,说明多细胞空间模式如何从细胞水平属性中产生。独立于空间转录组学技术,实施一个简单的原则,即每个细胞总体上与其相邻细胞最相似,这足以恢复果蝇胚胎中复杂的空间模式。基于这一理念,对空间转录组数据集的探索将使我们能够揭示指导组织水平空间组织建模的基本原则,并将有助于研究这些模式的机制基础及其结果。这些更深层次的生物学洞察将把对简单组织的理解扩展到更复杂的结构,包括发育中的生物体和患病组织,使我们更接近于征服空间前沿。

第六章,单细胞空间联合分析合集(重点介绍国产软件STRIDE & DSTG & SpatialDWLS & stereoscope)

软件 发表文献、杂志及影响因子 参考文章
Seurat 没有专门针对单细胞空间联合的文章,但有高分文章引用 人鳞状细胞癌成分和空间结构的多峰分析(空间转录组与单细胞文章)、10X空间转录组和10X单细胞数据联合分析方法汇总
cell2location Cell2location maps fine-grained cell types in spatial transcriptomics(Nature Biotechnology,IF 55分) 10X单细胞和空间联合分析的方法---cell2location、10X单细胞空间联合分析之再次解读cell2location、10X单细胞空间联合分析之cell2location的详细梳理
SPOTlight SPOTlight: seeded NMF regression to deconvolute spatial transcriptomics spots with single-cell transcriptomes(Nucleic acids research,IF 17分) 10X单细胞空间分析回顾之SPOTlight、10X单细胞空间联合分析之三----Spotlight
RCTD Robust decomposition of cell type mixtures in spatial transcriptomics(nature biotechnology、IF 55分) 10X单细胞空间联合分析之十(RCTD)
STdeconvolve Reference-free cell-type deconvolution of pixel-resolution spatially resolved transcriptomics data(biorxiv) 10X空间转录组数据分析之空间注释(解卷积,STdeconvolve)
Stereoscope Multi-resolution deconvolution of spatial transcriptomics data reveals continuous patterns of inflammation(biorxiv) Multi-resolution deconvolution of spatial transcriptomics data reveals continuous patterns of inflammation
DSTG DSTG: Deconvoluting Spatial Transcriptomics Data through Graph-based Artificial Intelligence(Briefings in Bioinformatics、IF 11分) 10X单细胞空间联合分析之四----DSTG
spatialDWLS SpatialDWLS: accurate deconvolution of spatial transcriptomic data(biorxiv) 10X单细胞空间联合分析之五----spatialDWLS
Tangram Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram(Nature Methods, IF 28.5) 10X单细胞空间联合分析之六(依据每个spot的细胞数量进行单细胞空间联合分析----Tangram)
CellDART CellDART: Cell type inference by domain adaptation of single-cell and spatial transcriptomic data(biorxiv) 10X单细胞-10X空间转录组联合分析之七----CellDART
STRIDE STRIDE: accurately decomposing and integrating spatial transcriptomics using single cell RNA sequencing(biorxiv) 10X单细胞-10X空间转录组联合分析之八----STRIDE(三维重构)
Adroit AdRoit: an accurate and robust method to infer complex transcriptome composition(Communications Biology,designed for bulk RNA-seq data, IF 5分) 10X空间转录组和10X单细胞数据联合分析方法汇总
scanpy 没有专门针对单细胞空间联合的文章 Integrating spatial data with scRNA-seq using scanorama、10X单细胞(10X空间转录组)批次去除(整合)分析之Scanorama
细胞类型组成的评估
图片.png

识别SVG是最初开发的软件包的主要重点,但需要注意的是,具有其他目的的软件包正在越来越多地被公布。例如,SpatialDWLS的创建是为了改善数据集中不具备单细胞分辨率的位置的不同细胞类型的识别,即细胞类型去卷积。SpatialDWLS可以概括为两个步骤,第一个步骤使用细胞类型富集分析方法来确定哪些类型的细胞在每个位置具有较高的概率,第二个步骤使用阻尼加权最小二乘法(DWLS)的扩展来确定指定位置的细胞类型的精确组成。对一个模拟的空间转录组学数据集进行评估时,SpatialDWLS在具有较低的均方根误差(RMSE)和计算时间方面优于RCTD和stereoscope。然而,当它的性能针对真实的小鼠大脑Visium数据集进行测试时,SpatialDWLS的性能没有与其他三个软件包进行比对,因此它在真实数据上的性能并不清楚。尽管如此,作者报告说,SpatialDWLS分配的细胞类型的空间位置与Allen Mouse Brain Atlas中的报告一致。SpatialDWLS这个软件的一个有趣的应用是确定在整个胚胎心脏发育过程中细胞类型组织在空间和时间上的变化。

将细胞类型分配给空间转录组学数据集的方法不止一种。通过将先验知识纳入概率似然函数,FICT可以混合表达和空间信息,将细胞类型分配给空间转录组学数据集。使用三个模拟和真实数据集对FICT进行了验证,并将其与GMM、scanpy、Seurat和smfishHmrf的结果进行了比较:在所有三个模拟数据集中,FICT的中位精度最高,在其中一个模拟数据集中达到了约0.89;在真实的MERFISH小鼠下丘脑数据集中,FICT在分配细胞类型聚类方面的性能更优越,其有潜力在数据集中识别新的子群。FICT在应用于更大的数据集时具有更高的准确性,但其在这些情况下的运行时间仍然可以改进。

RCTD是另一个软件包,其最终目的是识别空间转录组学数据集中的细胞类型。RCTD利用注释的scRNA-Seq数据创建数据中预期细胞群的细胞类型概况,然后使用监督学习方法用细胞类型标记空间转录组pixels。由于这一分析的主要障碍之一是目前的空间转录组学数据集可能在一个pixel内包含多种细胞类型,RCTD还可以拟合一个统计模型,以确定一个pixel内存在的多种细胞类型,并将scRNA-Seq和SRT数据集之间的平台效应归一化。使用这种方法,RCTD能够跨平台对细胞进行分类,准确率接近90%。与其他监督学习方法一样,使用该工具可以检测的细胞类型受限于参考数据集的准确和完整注释。

点到点聚类
图片.png

空间转录组将转录信息置于空间环境中。聚类通常是分析这类数据的核心组成部分。然而,在这些类型的分析中,选择适当的超参数,例如使用正确数量的聚类,是一个挑战。为了解决这些问题,相关研究团队开发了一个名为SpatialCPie的R包,可以让用户直观地了解空间转录组数据中的“簇”是如何相互关联的,以及二维空间转录组阵列上的每个区域与每个“簇”的关联程度。

Pipelines
图片.png

随着空间转录组学领域的不断扩大,综合分析管道将变得更加普遍。第一批用R语言编写的管道之一:Giotto是一个可以用于转录组学和蛋白质组学数据的平台;它分为数据分析和可视化模块。由于注重用户友好和可重复性,Giotto确实提供了使用HMRF模型进行更复杂空间分析的机会。作为一个基础,Gioto创建了一个用于下游分析的细胞和空间网格的邻域网络,包括配体受体识别、基因表达模式分析和确定优先细胞邻接。Giotto提供了三种不同的识别标记基因的算法(Gini、Scran、Mast),每种算法的灵敏度和特异性在不同的细胞群体中略有不同。Giotto也有专门为低分辨率空间转录组学数据集设计的分析管道。多个算法的可用性使得需要不同输入的Giotto能够灵活地应用到许多不同的数据集。

Squidpy开发了一个新框架,用于结合和涵盖空间组学技术分析的所有方面。虽然不是专门为分析空间转录组学数据而建立的,但用Python开发的Squidpy框架为任何空间组学数据带来了通用的分析和可视化工具,并利用可用的附加信息来改善探索。Squidpy提供了一种比Giotto更广泛、更模块化的方法,其他软件包可以轻松地集成到其预先存在的框架中,以扩展其功能。Squidpy将图像数据存储在一个图像容器中,并创建一个空间坐标的邻接图,这样它就可以在各种技术上使用。Squidpy的一个特点是其内置的图像分析工具,虽然到目前为止讨论的软件包都需要图像作为分析输入的一部分,但没有一个软件包能像Squidpy那样让用户对该图像中的数据进行分析,这是Squidpy与Giotto的最大区别。

单细胞空间联合分析

空间分辨转录组学实验分析的关键步骤之一是确定细胞类型。细胞类型去卷积,是用于估计混合物(数据点)中每种细胞类型的比例以及每个细胞的基因表达水平(在同一数据点内)的算法。

SPOTlight
图片.png

SPOTlight能够将空间转录组与scRNA-seq数据集成,从而推断复杂组织中细胞类型和状态的位置。其基于一个种子的非负矩阵因子分解回归(Seeded NMF regression ),使用细胞类型标记基因和非负最小二乘(NNLS)初始化,随后去卷积空间转录组数据捕获位置(spot)。

性能评估:通过模拟不同的参考数量和质量数据证实SPOTlight在低深度测序或小规模的scRNA-seq参考数据集中也具有较高的预测精度;小鼠大脑的SPOTlight去卷积正确地映射了皮质层的细微神经元细胞状态和海马的特定结构;作为概念验证,开发团队将SPOTlight应用于胰腺癌(PDAC)数据,并确定了肿瘤微环境中临床相关的免疫细胞状态的空间组织。

工具获取:

https://github.com/MarcElosua/SPOTlight

SpatialDWLS
图片.png

SpatialDWLS可以概括为两个步骤,第一个步骤使用细胞类型富集分析方法来确定哪些类型的细胞在每个位置具有较高的概率,第二个步骤使用阻尼加权最小二乘法(DWLS)的扩展来确定指定位置的细胞类型的精确组成。与现有的去卷积方法相比,关键区别在于SpatialDWLS包含额外的过滤步骤,以去除不相关的细胞类型,从而增强特异性。

性能评估:对一个模拟的空间转录组学数据集进行评估时,SpatialDWLS在具有较低的均方根误差(RMSE)和计算时间方面优于RCTD和stereoscope;开发团队应用SpatialDWLS分析了10X Genomics Visium数据集,该数据集映射了小鼠大脑中的空间转录组谱;此外,SpatialDWLS还被应用于确定在整个胚胎心脏发育过程中细胞类型组织在空间和时间上的变化。

工具获取:在Giotto中可以轻松访问SpatialDWLS方法,这是一个用户友好的软件包,包含大量用于空间转录组数据分析和可视化的计算工具。

https://github.com/RubD/Giotto

RCTD
图片.png

RCTD利用注释的scRNA-Seq数据创建数据中预期细胞群的细胞类型概况,然后使用监督学习方法用细胞类型标记空间转录组pixels。由于这一分析的主要障碍之一是目前的空间转录组学数据集可能在一个pixel内包含多种细胞类型,RCTD还可以拟合一个统计模型,以确定一个pixel内存在的多种细胞类型,并将scRNA-Seq和SRT数据集之间的平台效应归一化。使用这种方法,RCTD能够跨平台对细胞进行分类,准确率接近90%。与其他监督学习方法一样,使用该工具可以检测的细胞类型受限于参考数据集的准确和完整注释。

性能评估:RCTD可以准确地发现模拟和真实空间转录组数据中细胞类型的定位。此外,RCTD还可以检测细微的转录组差异,从而在空间上映射细胞亚型。最后,开发团队使用RCTD计算预期的细胞类型特异性基因表达,从而能够根据细胞的空间环境检测基因表达的变化。

工具获取:

https://github.com/dmcable/RCTD

DSTG
图片.png

DSTG是一种新的基于图形的人工智能方法,其通过基于图形的卷积网络对空间转录组数据(ST)进行去卷积,可利用scRNA-seq数据揭示ST数据中的细胞混合物。首先,DSTG从scRNA-seq数据构建合成pseudo-ST数据。DSTG使用共享邻近算法学习pseudo-ST数据和real-ST数据的spot映射链接图,链接图捕获spot之间的内在拓扑相似性,并将pseudo-ST和real-ST数据合并到同一个图中进行学习。然后,基于链接图,使用半监督图卷积网络(GCN)学习局部图结构和基因表达模式的潜在表示,以解释spot的各种细胞组成。

性能评估:DSTG不仅在不同技术生成的合成空间数据上表现出优异的性能,而且还有效地识别了小鼠皮层、海马切片和胰腺肿瘤组织中细胞的空间组成:通过对从外周血单核细胞(PBMC)和其他组织生成的合成数据进行基准评估,DSTG在预测的细胞混合和实际的细胞组成之间显示了良好的准确性;同时,DSTG在复杂组织(包括小鼠皮层、海马和人胰腺肿瘤切片)的ST数据上也显示出与H&E染色观察高度一致的结果。

工具获取:

https://github.com/Su-informatics-lab/DSTG

stereoscope
图片.png

stereoscope首先使用单细胞数据来描述每个细胞类型的表达谱,然后在每个捕获位置内找到这些类型的组合,以最好地解释空间数据。该模型框架利用单细胞数据推断空间数据中每个捕获位置的每个细胞类型的比例估计,从而消除了对空间数据分析时对要素或簇等抽象实体的任何解释或注释的必要性。

性能评估:为了证明stereoscope的实用性,研究团队使用来自不同实验平台的数据,并对来自小鼠大脑和发育期心脏的细胞类型进行了空间映射,其排列方式与预期一致;为了说明stereoscope如何与其他空间技术结合使用,研究团队分析了海马和小脑的Slide-seq数据,这些数据成功地再现了该技术最初发表的结果;此外,研究团队设计了一个程序从真实的单细胞数据中收集类似于从空间技术获得的合成数据,将stereoscope与两种最近发表的方法(DWLS和deconvSeq)进行比较,结果证实stereoscope的实现优于其他两种方法。

工具获取:

https://github.com/almaan/stereoscope

重点介绍1、DSTG

图片.png

最近发展的空间转录组学(ST)能够将组织切片中不同点的空间信息与每个spots内细胞的RNA丰度联系起来,这对了解组织细胞结构和功能尤为重要。然而,对于这样的ST数据,由于一个spot通常比单个细胞大,在每个spot测量的基因表达是来自具有异质细胞类型的混合细胞。因此,需要对每个spot的ST数据进行拆分,以揭示该空间spot的细胞组成。

DSTG是什么?

研究团队提出了一种新的基于图形的人工智能方法即DSTG,通过基于图形的卷积网络对ST数据进行去卷积。DSTG可利用scRNA-seq数据揭示ST数据中的细胞混合物。

研究团队假设在一个spot上捕获的基因表达是由位于该spot上的细胞混合物贡献的。其策略是使用scRNA-seq衍生的合成ST数据,称为 "pseudo-ST",通过半监督学习预测real-ST数据中的细胞组成。

图片.png

首先,DSTG从scRNA-seq数据构建合成pseudo-ST数据。DSTG使用共享邻近算法学习pseudo-ST数据和real-ST数据的spot映射链接图,链接图捕获spot之间的内在拓扑相似性,并将pseudo-ST和real-ST数据合并到同一个图中进行学习。然后,基于链接图,使用半监督图卷积网络(GCN)学习局部图结构和基因表达模式的潜在表示,以解释spot的各种细胞组成。

DSTG的性能评估

DSTG不仅在不同技术生成的合成空间数据上表现出优异的性能,而且还有效地识别了小鼠皮层、海马切片和胰腺肿瘤组织中细胞的空间组成:通过对从外周血单核细胞(PBMC)和其他组织生成的合成数据进行基准评估,DSTG在预测的细胞混合和实际的细胞组成之间显示了良好的准确性;同时,DSTG在复杂组织(包括小鼠皮层、海马和人胰腺肿瘤切片)的ST数据上也显示出与H&E染色观察高度一致的结果。

图片.png
图片.png

DSTG在基准测试数据集上的性能:研究团队将DSTG和SPOTlight应用于10个PBMC合成数据进行比较,结果表明与SPOTlight相比,DSTG的JSD值较低(平均JSD=0.12),说明在不同技术平台生成的PBMC数据集上,DSTG的精确度高于SPOTlight。除PBMC外,为了检查DSTG在其他不同组织上的性能,研究团队纳入了来自不同组织和技术的八个其他scRNA-seq数据,以生成基准合成数据。根据这八个额外scRNA-seq数据的合成数据,将DSTG与SPOTlight进行比较,使用JSD评估指标,DSTG的预测结果仍然优于SPOTlight。

此外,研究团队还利用不同spot数量、库大小和可变基因的离散合成数据验证了DSTG的稳定性。

***** JSD是一种度量两个概率分布之间相似性的距离指标。JSD值越小,表示两个分布之间的相似性越高,因此表示跨点估计的细胞类型组成的准确性越高。

图片.png
图片.png

利用scRNA-seq数据,DSTG对ST数据的空间去卷积准确地重建了小鼠大脑皮层的结构。每个定位点的识别的异质细胞比例由各点的饼状图显示,这些异质细胞在皮层区域的存在得到证实,表明DSTG的预测具有很高的准确性和敏感性。

图片.png
图片.png

DSTG对ST数据的空间分解准确地识别了海马切片内的不同细胞类型;DSTG还准确预测了细胞类型特异性基因的表达。

图片.png
图片.png

在胰腺导管腺癌(PDAC)数据集上,DSTG的结果与独立的组织学注释一致,证明了其从肿瘤组织的ST数据中准确识别细胞成分的能力。

DSTG为推断异质细胞亚群之间的功能关系铺平了道路,其依据是它们在组织spots中的组成和共定位。这包括跨越相邻spots的细胞间交流,这为未来以空间分辨率的方式研究完整的相互作用组提供了可能性。此外,由于组织的精确组成可能因病人个体而异,未来细胞亚群的空间组成对病人有预后价值。研究团队预计,使用DSTG的空间去卷积将有助于未来病人的预后和病理评估。

文中提到的所有函数都是作为Python软件实现,可通过Github获取:https://github.com/Su-informatics-lab/DSTG.

重点介绍2、国产空转工具推荐 | STRIDE:使用scRNA-seq对空间转录组进行精准的整合分析

2022年3月,来自同济大学的科研团队在《Nucleic acids research》发表了一种基于主题模型的空间转录组学去卷积方法:STRIDE,通过机器学习方法及数据整合,将空间转录组学数据提升至单细胞精度。


图片.png
STRIDE是什么?

STRIDE是一种基于主题模型的去卷积方法,通过与匹配的scRNA-seq整合用于空间转录组学分析。STRIDE首先通过进行主题建模从注释的单细胞转录组中发现细胞类型相关的主题。然后,STRIDE应用预先训练好的主题模型来推断空间转录组中每个位置的细胞类型组成。


STRIDE 工作流程的示意图

首先,STRIDE估计来自scRNA-seq的基因-主题分布和主题-细胞分布。然后通过贝叶斯定理将逐个主题的分布总结为逐个主题的细胞类型分布。接下来,应用预训练的主题模型来推断空间转录组学中每个位置的主题分布。通过结合细胞类型-主题分布和主题-位置分布,可以推断每个空间位置的细胞类型比例。STRIDE还提供多种下游分析功能,包括特征检测和可视化、空间域识别和从同一组织的连续ST切片重建空间结构。

STRIDE的性能测试

开发团队通过使用模拟的空间转录组数据,验证了STRIDE预测细胞类型比例的高精度和灵敏度。为了证明STRIDE的广泛效用,开发团队将其应用于三个不同组织的空间转录组学数据集,包括小鼠小脑、人类鳞状细胞癌(SCC)和人类发育中的心脏,证明了STRIDE产生的主题可以准确地反映每种细胞类型的空间特征,提高空间聚类的分辨率,最终有助于在整合多个切片的基础上重建组织的三维结构。


图片.png
图片.png

首先验证了主题建模发现细胞类型特定主题的能力。开发团队得出了28个不同的主题,这些主题在不同的细胞类型中富集(上图A),表明主题与特定的细胞类型之间存在关联。

此外,当使用用于训练的相同scRNA-seq数据集验证训练后的主题模型时,STRIDE取得了较高的细胞类型分配准确性(87.13%,n = 33043个细胞)(上图B)。

接下来,开发团队比较了STRIDE与其他已发布的细胞类型去卷积工具的性能:STRIDE显示了预测与基础事实之间的最高一致性,而RCTD和cell2location的一致性稍差(上图D);STRIDE实现了灵敏度和特异性之间的平衡,而其他方法以牺牲低灵敏度为代价实现了高特异性(上图E)。

上述结果表明,STRIDE能以较高的精度估计不同类型细胞的比例,并能兼容空间共定位的细胞类型分布以及低测序深度。


图片.png

STRIDE可以基于潜在主题去卷积空间转录组学的细胞类型组成。另一方面,单细胞和空间转录组学的共享主题也可用于将单细胞映射到空间位置。这样,单细胞多组学数据(如scNome-seq和scNMT-se),可以通过scRNA-seq与空间转录组学整合,以揭示空间调控机制。随着时空转录组学和调控谱的积累,STRIDE可以进一步加强,以阐明组织发育或肿瘤发展过程中的时空多组学动态。此外,目前大多数空间技术都是在二维空间中量化基因表达和推断细胞类型分布。尽管基于主题的多个空间转录组学样本的整合被证明有助于组织结构的三维重建,但预计在成像数据和其他方式的数据的帮助下,将有可能通过STRIDE建立一个更全面和多尺度的三维组织图谱。

STRIDE是一个开源python包,其源代码可以在如下链接获取: https://github.com/wanglabtongji/STRIDE

重点介绍3、stereoscope

空间转录组技术正在广泛应用,然而目前一些转录组的空间分析还达不到单细胞的分辨率水平。为了达到将基因表达置于空间环境中并划定组织内细胞类型空间分布的目的,来自瑞典的科研团队提出一种基于模型的概率方法:stereoscope,使用单细胞数据来解析空间数据中的细胞混合物。

图片.png

stereoscope是什么?

该模型框架利用单细胞数据推断空间数据中每个捕获位置的每个细胞类型的比例估计,从而消除了对空间数据分析时对要素或簇等抽象实体的任何解释或注释的必要性。

图片.png

stereoscope概述:首先使用单细胞数据来描述每个细胞类型的表达谱,然后在每个捕获位置内找到这些类型的组合,以最好地解释空间数据。

研究团队已经在代码中实现了这个方法,并将其作为一个名为stereoscope的开源python包发布,它可执行去卷积过程并对细胞类型进行空间映射,该过程是无缝的,可通过多种技术转换,并且不需要对数据进行任何预处理。

单侧配对Wilcoxon符号秩检验结果

技术应用

通过设计,stereoscope适用于任何类型的空间数据,其应用也十分广泛:
在癌症中评估肿瘤浸润性免疫细胞的存在和特性,或者描绘出构成肿瘤微环境的细胞类型;
从空间共定位模式推断出细胞类型的相互作用;
通过检查比例值在组织中的分布情况,确定相关解剖区域内细胞类型的丰富程度;

有关细胞类型的空间分布信息可以作为多种不同分析的基础。
stereoscope软件包可在如下链接获取:https://github.com/almaan/stereoscope.

第七章,空间转录组数据集分析转座因子表达

空间转录组学(ST)正在改变我们研究基因表达的方式。然而在大量转录组数据中,转座因子(TE)由于其高度重复性而未被研究。近年来,TEs被认为是基因表达的重要调节因子。因此,以空间分辨率的方式进行TE表达分析,可以进一步帮助了解它们在组织内基因调节中的作用。

近日,《International journal of molecular science》发表了一个从ST数据集分析TE表达的工具:SpatialTE。


图片.png
SpatialTE是什么?

为了提高ST分析的潜力,科研团队开发了SpatialTE,这是一个定量的生物信息学工具,可以从ST获得的组织(如大脑、脊髓、肾脏等)数据集中检查和分析TE表达。


图片.png

根据使用的ST技术,虚线框对应于SpatialTE的输入文件(以文件图标和名称显示)。绿色框对应于外部ST分析流程的运行(执行每个空间点的基因表达的读取对齐和识别),而黄色框对应于SpatialTE中的关键过程:首先,具有至少1个read的TEs被选中;其次,对于这些被选中的TEs计算两个指标:覆盖率和映射分数;第三,TEs可以通过用户定义的覆盖率阈值进行过滤;最后,SpatialTE根据TEs的映射分数生成两个输出文件(TEs按位置和分类)。

SpatialTE的基准测试和验证

根据科研团队的基准和验证实验表明:SpatialTE可以精确地确定TE表达的空间位置。


图片.png

图片.png

将SpatialTE应用于ALS患病小鼠脊髓的数据,显示TEs确实在不同的空间位置表达。有趣的是,TEs在背角和腹角的表达比在脊髓的内侧或远端区域观察到的表达要高。

根据LINE、SINE、LTR和DNA转座子的类别分析TE表达显示:除了DNA转座子外,所有类别都有助于TE的总表达。这些结果与证据一致,表明一些LTR和non-LTR TE(如LINE和SINE)在疾病中被激活。此项研究结果揭示了TE类别之间的差异。

图片.png

图片.png

研究团队还将SpatialTE的使用扩展到其他高度异质的组织,如成年小鼠大脑的10×空间转录组数据集,其研究结果表明在所有的大脑切片中都可以看到TE的表达,每一类都显示出不同的活动模式。这些结果表明TEs具有不同的空间表达,进一步表明TEs以特定方式对每个大脑区域的基因调控网络特征作出贡献。

图片.png

图片.png

最后研究团队想将SpatialTE应用于尚未研究过TEs的样本。为此,其使用了成年小鼠肾脏的相应冠状切片。结果显示:TEs在肾脏中确实有不同的表达,而且它们的表达,至少对某些TE来说,是受空间控制的;TEs在肾脏的各个区域(髓质与皮质)发挥着调节作用。

了解TEs在基因调控中的作用与发生在大脑或周围器官的许多其他退行性疾病有关。未来的研究将从SpatialTE中受益,并开始揭示TEs表达差异背后的机制。重要的是,阐明TEs是否在以细胞特异性方式调节基因表达方面发挥作用。

SpatialTE是作为一个开源的Bash脚本实现的,其详细的使用说明可在GitHub存储库的README文件中找到:
https://github.com/bvaldebenitom/SpatialTE

参考文献

Dries R, Chen J, Del Rossi N, et al. Advances in spatial transcriptomic data analysis[J]. Genome Research, 2021, 31(10): 1706-1718.
Nerurkar S N, Goh D, Cheung C C L, et al. Transcriptional Spatial Profiling of Cancer Tissues in the Era of Immunotherapy: The Potential and Promise[J]. Cancers, 2020, 12(9): 2572.
Li K, Yan C, Li C, et al. Computational elucidation of spatial gene expression variation from spatially resolved transcriptomics data[J]. Molecular Therapy-Nucleic Acids, 2021.
He, Y., Tang, X., Huang, J. et al. ClusterMap for multi-scale clustering analysis of spatial gene expression.Nat Commun 12, 5909 (2021).
Xu, Y., McCord, R.P. CoSTA: unsupervised convolutional neural network learning for spatial transcriptomics analysis. BMC Bioinformatics 22, 397 (2021).
Zhao, E., Stone, M.R., Ren, X. et al. Spatial transcriptomics at subspot resolution with BayesSpace. Nat Biotechnol (2021).
Teng H, Yuan Y, Bar-Joseph Z. Clustering spatial transcriptomics data[J]. Bioinformatics, 2021.
Bergenstråhle J, Bergenstråhle L, Lundeberg J. SpatialCPie: an R/Bioconductor package for spatial transcriptomics cluster evaluation[J]. BMC bioinformatics, 2020, 21: 1-7.
Rao, A., Barkley, D., França, G.S. et al. Exploring tissue architecture using spatial transcriptomics. Nature 596, 211–220 (2021).
Zhao, E., Stone, M.R., Ren, X. et al. Spatial transcriptomics at subspot resolution with BayesSpace. Nat Biotechnol (2021).
Song Q, Su J. DSTG: deconvoluting spatial transcriptomics data through graph-based artificial intelligence[J]. Briefings in Bioinformatics, 2021.
Sun D, Liu Z, Li T, et al. STRIDE: accurately decomposing and integrating spatial transcriptomics using single-cell RNA sequencing[J]. Nucleic acids research, 2022, 50(7): e42-e42.
Andersson A, Bergenstråhle J, Asp M, et al. Single-cell and spatial transcriptomics enables probabilistic inference of cell type topography[J]. Communications biology, 2020, 3(1): 1-8.
Valdebenito-Maturana B, Guatimosim C, Carrasco MA, Tapia JC. Spatially Resolved Expression of Transposable Elements in Disease and Somatic Tissue with SpatialTE. Int J Mol Sci. 2021 Dec 20;22(24):13623.

生活很好,有你更好

你可能感兴趣的:(10X空间转录组重点分析合集3)