2021-11-10

Nature Methods | 空间转录组学整合分析可能带来新革命

原创 风不止步 图灵基因 今天

收录于话题#前沿生物大数据分析

撰文:风不止步

IF= 28.544

推荐度:⭐⭐⭐⭐⭐

亮点:

内质网 (ER) 中错误折叠蛋白的积累导致ER应激,从而激活旨在恢复蛋白质稳态的未折叠蛋白反应 (UPR)。作者批判性地审查了现有的内质网应激和UPR导向的类药物分子,强调它们的价值和局限性。


2021年10月28日,CSHL癌症中心的Jesse Gillis等人在《Nature Methods》上发表了一篇“Integrative analysis methods for spatial transcriptomics”的综述。

多细胞生物体是由组成它们的细胞以及这些细胞之间的关系来定义的,其中部分是由细胞的空间组织来体现的。尽管单细胞转录组测序(scRNA-seq)在描述细胞作为独立元素的特征方面产生了变革性的影响,但这种技术使细胞关系的许多方面丢失,包括空间分布。新开发的工具专注于检测组织中细胞的空间组织,但在空间分辨率和所检测的独特的RNA转录物的数量之间往往存在权衡。Scalia等人和Hu等人介绍了将空间分辨率转录组数据与scRNA-seq和/或组织学数据整合的计算工具,以弥补这些权衡,并提供对空间组织的更好理解。


虽然专注于分析过程的不同部分,但SpaGCN2和Tangram1,即Scalia等人和Hu等人的方法,都是数据整合的计算方法,以改善空间表达的解释(图1)。SpaGCN的重点是结合现有的组织学来确定空间域,并随后确定在空间簇之间有差异表达的基因。虽然Tangram也结合了这些步骤的某些方面,但其主要重点是提供与scRNA-seq数据的跨模式数据整合。在这种整合之后,可以用Tangram完成一些分析任务,如在非转录组范围的空间数据中输入额外的基因,或将非细胞分辨率的空间数据解卷为细胞类型比例。Tangram和SpaGCN完成的不同形式的分析基本上是互补的。

SpaGCN和Tangram是空间转录组学计算方法发展的大趋势的一部分。这种发展是由越来越多的空间分辨率的数据和产生数据的技术所推动的。SpaGCN在分析上是不寻常的,因为它结合了解决空间域和计算差异表达的方法(而不仅仅是其中之一)。与SpaGCN一样,Tangram使用组织学数据,但它的重点是将任何类型的单细胞(或单核)RNA-seq与空间数据进行整合,整合后的方法学工具非常广泛。Tangram作为一个单细胞和空间整合工具,将有助于满足人们对一个直接的工具的需求,以可视化从scRNA-seq获得的原位簇。早期的一些工具是专门针对一种类型或一类空间实验的,而SpaGCN和Tangram都可以应用于各种实验检测,是为了成为空间领域的通用工具。

随着实验技术的不断改进,高空间分辨率和所分析的转录组百分比之间的差距继续缩小。然而,在承诺以亚细胞分辨率覆盖整个转录组的新技术易于获得和访问之前,计算数据集成对于弥合这一差距是必要的。虽然最近的方法是为空间数据定制的,但基本模型通常更通用。本质上,信息以结构化的方式在数据集中的单元之间共享以最小化噪声,然后单元在数据集中对齐。如果其中一组单元格的空间元数据可用,或者单元格之间共享信息的方式由已知位置定义,那么这些数据集成方法就成为空间数据集成方法。


Scalia 等人中的一个突出讨论点是数据集成方法的承诺,它通过创建大型集成数据集(例如人类细胞图谱)使我们更接近对生物学的真正多模态理解。由于蜂窝位置是最基本的元数据类型之一,因此空间数据的集成对于将大规模数据集成到通用框架中非常重要。这将允许对基础数据和方法进行评估,这是目前该领域的主要挑战。随着方法的改进和参考数据的出现,发现导致疾病或其他表型差异的变异性的新驱动因素也应该成为可能。尽管一些表型差异反映了细胞自主变异性,但很大一部分可能来自细胞之间的关系。揭示这些细胞-细胞关系如何促进组织功能的逻辑是这些综合方法及其背后的数据开辟的一条重要途径。


分析方法技术改进的一个重要领域在于当前的评估本质上是相当定性的。虽然这并没有直接限制方法的有效性,但它确实限制了我们对如何最好地应用它们或改进它们的理解。例如,空间聚类方法或细胞类型空间分布的识别通常用显微镜图像进行可视化,并且当这些计算定义的特征与组织的细胞结构和形态相匹配时,被认为是很好的表示。有一些流行的统计度量,例如用于确定空间自相关的统计度量,但这些度量并不能捕获所有类别的空间分析任务的性能。与任何新领域一样,为了更好地了解许多空间分析工具的优缺点,需要对空间转录组学分析工具进行独立、严格和定量的基准测试。


今后,像SpaGCN2和Tangram1这样的工具在建立直接来自基因表达数据的空间区域方面将是非常有价值的,而不是根据传统上商定的解剖学边界来定义。虽然基因表达不一定是万能的,但它提供了一个统一的定量框架,将细胞和组织层面的活动联系起来。由空间表达定义的边界将把诸如细胞-细胞通讯、细胞迁移和器官形成中的形态发生等过程联系起来。空间分辨率转录组学的分析工具通常采取数据优先的方法来理解生物学,有时被描述为 "无偏见",但与现有的生物学知识整合以理解因果机制,最终需要结合高质量的数据提出可检验的假设。


未来的研究特别重要的是与进化和发育有关的问题,以及它们之间的相互作用,因为空间领域的模块化扩展以创造新的功能是两者的一个重复主题。进化和发展提供一个收集数据的广阔空间,有一类新的整合需要考虑,为此,像SpaGCN和Tangram这样的系统工具将是必不可少的。尽管这些工具可以捕捉生物现象,但聚类很难区分进化的副产品和作为选择的直接产品的表型特征。跨发育期的空间表达应该为分子机制提供有价值的洞察力,而跨物种的空间表达则有助于捕捉选择和保护。空间基因组学,谱系追踪及克隆鉴定分子工具的快速平行发展,加上SpaGCN和Tangram等计算方法,将使实验设计和发现进入一个新时代。


教授介绍

Jesse Gillis 副教授;癌症中心会员;博士

Gillis 实验室专注于通过共表达网络表征这些共享的基因活动模式,并展示它们如何导致细胞功能的变化,特别是在单细胞表达数据中。

计算生物学主要是分析基因网络以深入了解不同水平的功能活动,通常从调节相互作用开始,然后发展到对理解系统动力学很重要的更分散的关联。但了解基因如何相互作用以产生功能是一个非常复杂的问题,而且随着基因组信息变得更加详细,这个问题似乎变得更加复杂。从历史上看,许多通过网络理解基因功能的尝试都利用了一种称为“关联内疚”的生物学原理。这表明具有相关功能的基因倾向于共享属性(例如,物理相互作用)。在过去的十年中,这种方法已被扩大应用于大型基因网络,成为在面对大量基因组学和蛋白质组学数据时处理基因功能复杂相互依赖性的一种受欢迎的方式。Gillis的工作集中在确定该方法的局限性并对其操作进行根本性改进,并将这些改进应用于理解细胞生物学。

参考文献

Shaina Lu, Daniel Fürth andJesse Gillis. Integrative analysis methods for spatial transcriptomics.(2021)

你可能感兴趣的:(2021-11-10)