Nat Methods | 将任意模型拟合到基于坐标的SMLM数据的通用框架
原创 风不止步 图灵基因 2022-12-29 10:49 发表于江苏
收录于合集#前沿生物大数据分析
撰文:风不止步
IF=47.99
推荐度:⭐⭐⭐⭐⭐
亮点:
文章提出了一个开源框架LocMoFit(定位模型拟合),用于将任意模型与定位坐标相匹配。它从单个结构中提取有意义的参数,并能选择最合适的模型。提供了广泛的模拟和可视化程序,以验证LocMoFit的稳健性,并提供教程,使任何用户能够增加他们从SMLM数据中提取的信息含量。
2022年12月15日,欧洲分子生物学实验室(EMBL)的Jonas Ries博士等人在《Nature Methods》上发表了一篇“Maximum-likelihood model fitting for quantitative analysis of SMLM data”的文章,作者开发了定位模型拟合,这是一个将任意模型拟合到基于坐标的SMLM数据的通用框架。它从一类模型中找出最可能的模型,并估计出描述实验结构的最可能的模型参数。
单分子定位显微镜(SMLM),如PALM(光激活定位显微镜)、STORM(随机光学重建显微镜)或新的MINFLUX技术,实现了纳米级的光学超分辨率,在细胞和结构生物学中有着广泛的应用。由于其分子特异性和高对比度,它是原位结构生物学的电子显微镜的理想补充,即研究细胞中蛋白质的结构或相对排列。因此,它可以帮助探测蛋白质在复合物中的排列,即使它们对电子显微镜来说太小或太灵活,并能调查动态和不规则的结构。为了从数据中获得可靠的机理理解,特别是当使用高通量SMLM产生大量的数据时,一个可以轻松扩展的定量分析是不可缺少的。这种定量分析的目的是为生物系统的属性提供信息,或以统计学的信心来探测不同条件下的功能差异。
在SMLM中,主要数据是荧光团的坐标列表,通常还有其他信息,如对定位不确定性的估计。将标准的图像分析算法应用于渲染的像素化的SMLM图像是可能的,但由于SMLM的独特信息内容,其性能往往受到限制。因此,直接使用这些坐标的算法可以利用额外的信息,并可以产生更准确和稳健的结果。已经开发了许多这样的方法,可以归为几类。
首先,空间描述性统计学根据一维(1D)剖面来分析数据,不需要分割结构。第二,分类法将类标签分配给单个分割的结构。第三,几何分析包括对线型轮廓进行单高斯或双高斯拟合,或对圆进行拟合以提取环形结构的直径。最后,粒子平均化或融合,一种广泛用于电子显微镜的方法,通过登记和平均数百个粒子,产生一个具有改进的分辨率和信号的最终模型。这种方法已被应用于SMLM的平均化和从二维图像中重建三维平均,感兴趣的结构可以从超分辨率图像的视觉检查或基于结构生物学技术的预先知识中推断出来。然后,数据分析任务包括首先从一类可能的模型中选择最可能的几何形状,其次,提取描述该几何形状的精确参数。这种分析将适用于单个结构,因此可以量化生物和功能异质性。
图1:LocMoFit的概述。
文章开发了定位模型拟合(LocMoFit;图1),一个将任意模型拟合到基于坐标的SMLM数据的通用框架。它从一类模型中找出最可能的模型,并估计出描述实验结构的最可能的模型参数。通过拟合一个任意的、参数化的模型来提取细胞结构的定量描述符,以适应SMLM数据。这种单一结构的分析(例如,图2)将有助于调查绝大多数异质性和复杂性的细胞结构。这些结构目前很难用经典的结构生物学技术(如电子显微镜)进行量化,通常需要对许多相同的结构进行平均化以达到足够的信噪比。因此,LocMoFit可能是使SMLM成为原位结构生物学的一种补充方法的关键。
图2:单个结构的量化。
将大型数据集整合到蛋白质分布图中,可以成为对从单个位点提取的参数进行统计分析的一种有用的补充方法。LocMoFit可以通过确定参考结构的精确位置和方向来计算这种分布图,并利用它来对准目标蛋白,在第二通道中成像。通过额外评估一个随时间单调变化的参数,LocMoFit可以将这种方法扩展到动态、时间分辨的定位图。这种从固定细胞内拍摄的快照中重建结构和动态的新方法可以为目前不兼容活细胞的所有超分辨率技术增加时间信息。最近使用LocMoFit来量化单个凝集素衣壳的形状和可视化其结构动态的工作突出了这种能力。 这解决了关于哺乳动物细胞中内吞衣壳重塑机制的长期争议。
图3:模型选择。
LocMoFit取决于选择一个能够代表数据的模型。一个不正确的模型仍然会产生参数,但这些参数随后可能变得难以解释或毫无意义。这就引发了一个问题:如何为生物结构构建一个有意义的模型。通常,根据对数据的目测或基于其他技术的先验知识,可以推断出一个简单的几何形状或对称性。然后,关键是要以一种确保模型尽可能通用并能描述一大类实验结构的方式来定义参数。例如,本研究中使用的模型不是刚性的模板,它们的大小和形状在优化过程中可以改变。在有竞争性模型的情况下,可以根据其较低的AICC选择更可能的模型(图3)。当结构先验缺失时,无模型粒子平均法可以在相同的基础结构的前提下产生一个蛋白质分布图。这种分析也在LocMoFit中实现了(图5a-e),它能够以优异的质量重建Nup96的三维蛋白分布图(图5e-h),显示出以前的粒子平均法中看不到的单个蛋白的特征。
图4:平均蛋白质分布图。
对选择正确的模型同样重要的是数据的质量,它必须包含足够的信息来明确定义多个模型参数。在标记密度低、定位误差大或结构特征少的情况下,自由参数少的简单模型比复杂模型的过拟合风险低。即使是一个精心选择的模型也可能不会收敛到全局最优。在这些情况下,在第一个拟合步骤中用较简单的模型选择适当的初始参数,甚至是手动选择,可以提供一个很好的解决方案,同时在LocMoFit中选择一个优化器,在定义的区间内执行参数搜索,而不是梯度下降。
图5:无模型的粒子平均化。
LocMoFit配备了一些工具来验证分析工作流程的合理性和稳健性。其中一个工具是可视化,它使用户能够有效地检查拟合的结果,这也是我们一贯的建议。鉴于在不知道数据的基本事实的情况下很难定量评估一个拟合工作流程,LocMoFit提供了一个模拟引擎,从一个给定的模型和已知的参数生成现实的SMLM坐标数据。这样就可以调查参数估计的精度、模型对特定质量的数据的适合性以及初始参数对收敛的影响。未来LocMoFit扩展到重复荧光团闪烁和非定量标记的概率模型,可以进一步提高鲁棒性和准确性,在集群或图形处理单元上部署可以减少运行时间。
LocMoFit是开源的,可以作为SMLM软件平台SMAP的一部分随时使用,使用户能够使用图形用户界面轻松地用众多预定义模型中的任何一个来拟合自己的数据。另外,LocMoFit可以独立于SMAP运行,并提供了一个应用编程接口,用于整合到自己的软件中。本研究中使用的所有模型都是现成的,可在公共领域使用,并可组合成复杂的复合模型。新的模型可以用基本的编程知识来创建。LocMoFit将使许多研究人员大大增加可以从他们的数据中提取的信息,并开发新的和复杂的数据分析工作流程,推动生物发现。
教授介绍
Jonas Ries博士
Ries小组开发了超分辨率显微镜技术,以在纳米尺度上观察细胞内分子机器的结构和动态。利用这些技术来研究驱动凝血酶介导的内吞作用的机器的动态结构组织。
研究内容:
通过开发光学、生物和计算方法来推动超分辨率显微镜的极限;
开发了新的参考样本,利用核孔复合体(NPC)明确的对称性和化学计量学的优势。这些标准允许对显微镜的分辨率、标记效率和复合体中蛋白质的精确拷贝数进行量化;
正在开发新的分析工具和新的显微镜技术超临界角定位显微镜和4Pi-SMLM;
高通量超分辨率显微镜和综合分析软件使我们能够获得大量的数据集,并通过强大的统计数据对其进行解释。
参考文献
Yu-Le Wu , Philipp Hoess et al.Maximum-likelihood model fitting for quantitative analysis of SMLM data(2022)