2021-10-19

Nat Biotech | 整合空间转录组进行单细胞分割

原创 huacishu 图灵基因 今天

收录于话题#前沿分子生物学技术

撰文:huacishu

IF=54.901

推荐度:⭐⭐⭐⭐⭐

亮点:

1、研究人员描述了一种分割方法 Baysor,在考虑转录组成和细胞形态的联合可能性的情况下优化二维 (2D) 或三维 (3D) 细胞边界;

2、虽然 Baysor 可以考虑基于 co-stains 的分割,但它也可以单独根据检测到的转录本进行分割


近日哈佛医学院Peter Kharchenko教授团队在国际知名期刊Nat Biotechnol在线发表题为“Cell segmentation in imaging-based spatial transcriptomics”的研究论文。基于原位测序或多重RNA荧光杂交的单分子空间转录组学可以揭示详细的组织结构。然而,区分这些数据中单个细胞的边界是一项挑战,如果发生区分错误可能会妨碍后续分析。目前的方法通常使用细胞核染色来确定细胞位置。该研究中作者描述了一种分割方法叫做Baysor,该方法考虑转录组成和细胞形态的可能性,优化二维(2D)或三维(3D)细胞边界。虽然Baysor可以考虑基于共染色的分割,但它也可以单独基于检测到的转录数据执行分割。为了评估其性能,作者将多重误差荧光原位杂交(MERFISH)扩展到细胞边界的免疫染色。使用此基准和其他基准,结果表明,在某些情况下,与现有工具相比,Baysor分割可以将单元数量增加近一倍,同时减少分割的伪影。并且证明Baysor在使用五种不同协议获取的数据上表现良好,使其成为基于成像的空间转录组学分析的通用工具。

如scRNA-seq研究所示,根据细胞的转录组成,可以很容易地区分不同的细胞类型和许多表型状态。在空间测量中,不同类型的细胞将产生具有转录成分的小分子邻域,为了捕捉这种结构,通过获取每个分子的NNs并估计相邻分子中不同基因的相对频率来计算每个分子的邻域组成向量(NCV)(图1a)。将NCV的整个集合嵌入3D空间会导致颜色编码,其中具有相似转录成分的邻域由相似的颜色表示。当k与细胞大小相当时,在这种颜色编码下,不同类型的细胞及其边界在视觉上变得明显(图1)。原则上,NCV表达载体可以被视为“伪细胞”,并使用为scRNA-seq开发的现有方法进行分析,包括聚类,单元类型注释和嵌入(图1b,c)。然而,由于NCV是为数据集中的每个分子生成的,它们的绝对和相对丰度与组织的真实成分不匹配。在细胞边界附近检测到的分子的NCV可能代表不同细胞类型的混合物,类似于scRNA序列数据中的双倍体。基于这些原因,下面作者将开发更复杂的定量方法来对被测分子进行分类。然而,NCVs方法提供了数据中存在的转录成分信号的有效且稳健的可视化方法。

空间转录组学中的许多分析可以表述为标签分配问题。例如,细胞分割是观察到的分子指定细胞标签。同样,细胞间背景的分离是一个将分子标记为“信号”与“背景”的问题。这些问题的显著特点是,标签往往表现出强烈的空间聚集性;例如,附近的两个分子可能属于同一个细胞,因此有一个共同的标签。从数学上讲,这种空间聚类趋势可以在简单的细分图上使用MRF来捕捉。标签本身可以建模为潜在变量,并使用期望最大化(EM)算法从观测数据推断。通过选择合适的标签概率模型和可观测数据,可以解决不同的标签问题。例如,通过使用分子的基因身份作为可观察和多项式分布来模拟与不同标签相关的转录组成,这种基于MRF的方法产生了有意义的分子邻域聚类(图2a,b)。此外,还可以使用从scRNA序列数据获得的不同细胞类型的表达谱作为不同标签的多项式分布的检验。这使得该方法能够在不进行细胞分割的情况下有效地将细胞注释从scRNA-seq转移到被测分子。基于MRF的推理可以明显快于传统的聚类。标记问题的另一个例子是区分背景分子和细胞体。在此设置中,可以假设细胞形成密集区域,而背景噪声分子出现在稀疏区域。将到第k个NN的距离作为稀疏度的度量,使用相同的EM算法分割背景(图2c,d)。有趣的是,在不同的数据集中,作者发现背景分子的转录组成显示出微弱但明显的区域差异,这是因为扩展的细胞过程不容易追溯到相应的胞体。总的来说,MRF提供了解决各种空间标记问题的通用方法,尽管每个问题都需要EM算法的自定义公式。

空间分辨数据的许多下游分析和解释取决于分辨单个细胞的能力。这些包括分析相关的细胞表达状态、细胞类型之间的物理相互作用和空间依赖性、细胞迁移和组织结构的形成。因此,作者着手开发一种细胞分割方法,该方法可以考虑细胞边界信息数据的不同方面。细胞胞体内分子空间密度的增加是一个方面,而局部分子邻域的转录组成是另一个方面。为了优化基于多个数据源的细胞分割,作者开发了一种称为Baysor的算法,该算法基于上述MRF分割的思想。该方法可用于分析来自各种实验方案的数据(图3),并可单独使用分子位置或通过合并附加信息来执行细胞分割。该方法结合每个分子的空间位置和基因特性将每个细胞建模为一个分布。因此,整个数据集被视为这种特定于单元分布的混合物。然后,Baysor使用贝叶斯混合模型(BMM)来分离混合物。优化依赖于MRF,以确保细胞的空间可分性,并编码有关分子空间关系的附加信息。

接下来,评估了Baysor和其他分割方法在使用五种不同协议生成的数据集上的性能(图4)。通过检查汇总统计数据,发现Baysor报告的细胞包含的分子数量和面积与最初发表的(“论文”)片段大致相同,而Waterline和pciSeq报告的片段较小,主要捕获细胞核内的分子。与已发表的分段相比,Baysor报告了更多的细胞和更高比例的分子被识别为细胞的一部分(图4a,b)。Baysor通常只依赖一个用户指定的参数来确定所有其他设置。分子背景概率的初始确定是最敏感的步骤,可以使用NCV可视化和诊断图进行可视化监测(图2d)。研究还分析了Baysor运行的时间和内存使用情况,其中包含370万个分子的MERFISH数据集的最长运行时间为51分钟,包含1020个基因的STARmap数据集的最大内存使用量为40.4GB。考虑到在建立细胞分割的基本事实方面存在的挑战,作者设计了一个相对质量度量来检查分段之间的差异,并评估在分段不一致的情况下哪个算法表现更好。具体而言,在比较任何两个分割结果时,确定了一个分割(“源”)中的一个细胞与另一个分割(“目标”)中的多个细胞相匹配的所有情况。对于每一种情况,都从源分割中选取了与目标分割中的单个细胞相匹配的最大部分细胞。然后,估计该匹配部分和源细胞其余部分之间的表达谱相关性(图4c)。如果源分割是正确的,那么匹配的部分应该显示出与源细胞其余部分相似的转录组成,由此产生的相关性度量将很高。相反,如果第二次(目标)分割是正确的,则表达相关性将很低(图4d)。对于可以进行评估的所有方案,重叠区域平均显示出与相应Baysor分配的表达相关性高于与备选分段的表达相关性,表明Baysor分段结果的准确性高于备选分段(图4e-h)。

作者进一步调查了Baysor和发表的分段之间的差异最为显著的两个数据集:osmFISH(图5)和MERFISH数据集。在这两种情况下,分割差异优先影响某些细胞类型。在osmFISH的案例中,已发表的分割忽略了大多数非神经元亚型的细胞;Baysor检测到的血管和星形细胞只有10%出现在原始分割中(图5d)。关于MERFISH数据集的分歧不那么偏颇,观察到的内皮细胞差异最大,公布的分割报告显示细胞减少42%。这一结果并不令人惊讶,因为许多内皮细胞的细胞核由于这些细胞的长细胞形态而不存在于物理切片中。还有一种亚型(室管膜细胞),Baysor区分的细胞减少了25%。在那里,细胞形成了一个同质区域,没有信号来区分一些紧密相邻的细胞,这导致了一定程度的欠分化。

虽然多聚(A)和DAPI染色可以提供适合于在细胞稀疏组织(如大脑)中分割的特征丰富的共沉淀,但是这种染色对于细胞密集组织中的分割没有那么有用。为了应对这一挑战,开发了将泛细胞型细胞表面标记物Na+/K+-ATP酶的免疫荧光(IF)与MERFISH相结合的方案。简而言之,抗Na+/K+-ATP酶一级抗体的二级抗体用该抗体特有的MERFISH读出序列标记。与该读出序列互补的读出探针杂交显示由Na+/K+-ATP酶标记的细胞边界位置(图6a)。然后,在小鼠小肠中使用该细胞膜IF-MERFISH协议,以提供具有定义细胞边界的额外基准数据集(图6b)。通过新鲜冷冻方案制备小鼠回肠冷冻切片,然后在4mM核糖核苷钒基复合物(RVC)中进行mRNA保存步骤。然后,用MERFISH编码探针文库对组织切片进行染色,探针文库针对241个基因,包括先前定义的大多数肠道细胞类型的标记。用抗Na+/K+-ATPase一级抗体、寡糖标记二级抗体和DAPI对样品进行染色。在多个视野和九个z平面上进行MERFISH测量,以提供靶向mRNA分布的重建,细胞边界用Na+/K+-ATP酶IF标记,细胞核用DAPI染色(图6c)。该模型数据集为将Baysor扩展到致密和复杂的组织类型提供了有用的设置。首先,在肠道拥挤的细胞环境中,细胞边界可以在切片的中等厚度上发生很大变化(图6c)。其次,MERFISH文库包含了几个亚细胞定位的基因。为了应对这些挑战,作者扩展了Baysor以在三维中执行分割,并添加了一个选项。将Baysor应用于400×600μm大小的回肠切片部分(图6b,d),将mRNAs分割成细胞,当细胞聚集时,可复制小鼠回肠中预期的丰富多样的细胞类型(图6e,f)。在上皮层,鉴定了肠干细胞和转运放大(TA)细胞,肠细胞沿绒毛成熟的不同阶段,潘氏细胞,杯状细胞和罕见的簇状细胞;在上皮下隔室中,确定了预期的免疫细胞多样性,包括B细胞、T细胞、巨噬细胞和树突状细胞。此外,还鉴定了一系列基质细胞,包括平滑肌细胞、ICC、末端细胞、周细胞、内皮细胞和与肠道神经系统相关的细胞。值得注意的是,Baysor能够在致密复杂的组织中恢复这种细胞多样性,进一步强调了Baysor利用mRNA分布中包含的丰富信息的能力。由于Na+/K+-ATP酶IF-costain提供了对细胞边界的高精度独立评估,作者量化了Baysor分割以及其他方法的分割与IF膜信号一致的程度。总体而言,发现Baysor优于其他方法(图6g–j)。Cellpose估计的DAPI片段在IF片段内,但正如预期的那样,严重低估了细胞大小。pciSeq似乎过度延伸DAPI,远远超出IF边界,报告的片段几乎是IF的两倍大。Baysor也显示出细胞尺寸增大,尽管程度较小。虽然Baysor显示出与IF的总体一致性(图6h),但在某些情况下,Baysor超出或低于分段细胞边界。然而,Baysor能够恢复更多的非上皮细胞,并发现在IF分割中不明显的某些细胞类型,如周细胞或终末细胞。

正如研究所展示的,辅助染色在解决疑难问题中非常有价值。改进的染色,如在这里介绍的外膜标记,以及改进的图像分割方法,可能是改善整体分割结果的关键。然而,两者都面临着各自的挑战。在对DAPI进行初始分割时,仍然需要手动处理。类似地,正如作者所展示的,甚至膜信号在组织间也可能是不均匀的,并且不能分辨某些细胞的边界。因此,最佳分割可能依赖于转录成分信号和来自辅助染色剂的信息的组合。由于Baysor可以利用不确定的预测,概率辅助图像分割方法将在这方面提供优势。作者希望Baysor实现和基于MRF的计算方法将进一步促进基于成像的空间转录组学方法的发展和应用。

教授介绍

Peter Kharchenko博士是哈佛医学院教授。他的团队致力于用现代基因组分析方法分析和模拟细胞状态开发必要的定量工具。这包括噪声数据的统计分析、给定样本中细胞变化背后的随机过程的表征,以及细胞群和组织建模。主要的方法学和生物学方向包括:单细胞测量、肿瘤内异质性和表观遗传调控。并且Peter Kharchenko教授以通讯作者在国际权威期刊Nat Biotechnol、Nature、Nature Methods上发表论文多篇。

参考文献

Petukhov V, Xu RJ, Soldatov RA, et al. Cell segmentation in imaging-basedspatial transcriptomics. Nat Biotechnol. 2021;10.1038/s41587-021-01044-w.doi:10.1038/s4 1587-021-01044-w

你可能感兴趣的:(2021-10-19)