2022-10-09

Nucl Acids Res | 多模态单细胞数据的综合分析

原创 huacishu 图灵基因 2022-10-09 16:41 发表于江苏

收录于合集#前沿生物大数据分析

撰文:huacishu

IF=19.16

推荐度:⭐⭐⭐⭐⭐

亮点:

1、作者提出了一个名为SAILERX的深度学习框架,用于高效、稳健和灵活地分析多模态单细胞数据;

2、SAILERX包括一个可变自动编码器,用于纠正测序过程中的技术噪声,以及一个多模式数据对齐机制,用于整合来自不同模式的信息。这种策略有助于各种下游分析,如聚类、插补和标记基因检测;

3、作者指出SAILERX能够对多模态和单模态数据集进行综合分析,使其成为适用于更一般场景的可扩展工具。


加州大学欧文分校Xiaohui Xie教授课题组在国际知名期刊Nucleic Acids Res在线发表题为“Integrated analysis of multimodal single-cell data with structural similarity”的论文。多模式单细胞测序技术提供了前所未有的细胞异质性信息。然而,如果对两种模态进行联合分析而没有正确处理噪声,往往会导致一种模态被另一种模态过度拟合,并且聚类结果比普通单模态分析更差。如何有效地利用来自单细胞多组学的额外信息来描绘细胞状态并识别有意义的信号仍然是一个重大的计算挑战。


在这项工作中,作者提出了一个名为SAILERX的深度学习框架,用于高效、稳健和灵活地分析多模态单细胞数据。SAILERX包括一个可变自动编码器,用于纠正测序过程中的技术噪声,以及一个多模式数据对齐机制,用于整合来自不同模式的信息。这种策略有助于各种下游分析,如聚类、插补和标记基因检测。此外,SAILERX能够对多模态和单模态数据集进行综合分析,使其成为适用于更一般场景的可扩展工具。

单细胞测序(sc-seq)提供了对单个细胞遗传信息的全基因组测量。最近的技术进步允许同时分析同一细胞中的多种形态,允许从多个层面上分离细胞异质性,并以尽可能高的分辨率研究转录组和表观基因组之间的相互作用

为了处理数据集成的一些关键因素,已经开发了几种计算方法,例如在保持scRNA序列数据生物模式的同时纠正批处理效应,以及在没有相应信息的情况下将多模式数据嵌入到一起。然而,由于诸如不平衡信噪比(SNR)、缺少模态的数据集、处理模态特定噪声因素和批次效应等问题,有效利用跨模态信息仍然是一个挑战。

因此,为了解决这些问题,作者提出了一个名为SAILERX的深度学习框架,以改进多组学分析或单模式和多模式单细胞测序数据集的混合分析。与现有方法不同,SAILERX可以处理并行scRNA序列和scATAC序列多组数据、单峰scATAC测序数据以及这两种数据的混合。

为了解决模式的异质性并避免过拟合,作者使用更稳健的基因表达信息作为参考模式,以规范染色质可及性模式的学习过程。具体来说,scATAC序列数据是用可变自动编码器(VAE)建模的,scRNA序列数据的嵌入是预先训练的,而不是在训练时明确建模的。

作者进一步通过最小化两种模式之间嵌入空间中成对相似性之间的距离(图1)来实施。SAILERX的建模选择允许将数据集与scATAC序列测量值和数据集与成对的scRNA序列和scATAC测序进行混合集成,有效利用来自高多模态数据的信息来改进单模态数据集的分析。


作者用现有的最先进(SOTA)方法对SAILERX进行了基准测试,以对三个流行的单细胞数据集进行多/单模式单细胞数据分析,这些数据集采用不同的测序技术和组织类型。结果表明,SAILERX生成的细胞表示可以提供更好的聚类和插补。作者还演示了单峰scATAC序列数据集如何从混合训练中受益。对于生物应用,这些改进极大地有利于染色质可及性数据的下游分析。

SAILERX通过融合来自两种模式的信息实现更好的聚类

首先在PBMC 10k数据集上对框架进行基准测试,该数据集由人类PBMC的11 331个细胞的成对转录和染色质可及性序列组成。该数据集由10X基因组学生成。PBMC数据集中的一些成熟和分化血细胞具有明确的细胞类型分离,如B细胞和T细胞。然而,在这些细胞类型中,一些亚细胞类型(如单核细胞)仍在进行分化过程,导致细胞簇不断分布,这常常给聚类算法带来挑战。

在训练期间,SAILERX促使scATAC序列数据局部结构接近其scRNA序列对应关系。scATAC-seq的嵌入由VAE的编码器网络生成,该数据集的scRNA seq模式的嵌入由其中一种scRNA seq-嵌入方法生成。

在本研究中,作者主要使用Seurat的PCA作为scRNA序列参考嵌入,但其他方法也在该数据集中进行了演示(图2C)。通过这种灵活的加权机制,scATAC序列测量结果较差的细胞可以从其scRNA序列对应关系中获得更多信息,而scATAC测序数据质量较好的细胞可以保留其信息部分。训练后,对这些细胞进行聚类。用三种最先进的(SOTA)方法(即Signac、Schema和Cobolt)进行了基准测试,这三种方法可以处理多组分数据集成。


图2A显示了不同方法生成的嵌入的2D可视化,通过可视化已知细胞类型特异性标记基因的一些丰富表达来验证这些基本真值细胞类型标签,例如pDC细胞(具有已知标记基因CLEC4C和NRP1)和Treg细胞(具有未知标记基因FOXP3和RTKN2)。从结果中,可以看到这里的基本真理单元类型与众所周知的单元类型标记很好地对应,因此将这些标记视为“基本真理”标签,用于以下分析。

为了定量评估这些聚类方法,使用ARI、NMI和Silhouette来评估聚类结果。ARI和NMI评估从低维嵌入导出的计算簇与基本真值单元标签重叠的程度;Silhouette系数测量嵌入空间中细胞簇的分离。分数越高,说明匹配和分离越好。指标得分如图2B、C所示,SAILERX在ARI、NMI和轮廓系数方面得分最高。

然而,当我们将SAILERX与Seurat进行比较时,可以看到SAILERX保持了从其参考基因表达模式继承的细胞簇的稳健分离,同时保留了染色质可及性模式中出现的有用信号。红色和蓝色的B细胞亚簇的分离(图2A)以及被鉴定为B细胞的较高标记基因表达也可以证明这一点。这表明,通过对两种模式的信息进行适当整合,SAILERX可以发现新的(亚)类型的细胞,这些细胞以前只能通过基因表达模式识别。

此外,从结果中,可以看到这种整合有助于描述连续分布的细胞类型,例如CD4细胞。据报道,CD4细胞以前使用染色质可及性信息更容易识别。当试图识别CD4细胞的亚型时,这一点可以得到证实。与其他方法相比,SAILERX鉴定的CD4细胞具有更高的标记基因表达。这表明跨模态整合也有助于模糊亚型的细胞类型识别。

为了进行稳健性评估,这种进一步测试了该方法是否可以在不同的参考嵌入上持续改进。作者使用其他三种scRNA序列嵌入方法(scVI、scANVI和Scanorama)来生成参考嵌入,然后使用这些嵌入来帮助训练SAILERX模型。如图2C所示,联合嵌入结合了两种模式的信息,并始终优于其参考嵌入。这表明了SAILERX信息融合策略的有效性和稳健性。

使用不同的测序技术对SNARE seq数据集进行类似分析。SNARE序列数据来自小鼠脑组织。该数据集中的大多数细胞处于静止状态,因此与PBMC细胞相比更稳定。与来自10X基因组学的PBMC 10K相比,SNARE序列数据在染色质可及性读取方面的读取深度往往要浅得多,这使得此处的染色质可及性数据比之前分析中的scATAC序列数据更稀疏。

从结果(图3)中可以看到,当将两种模式的数据投影到一个共享的潜在空间时,一些集成方法会受到严重影响。在这种情况下,SAILERX生成的嵌入形成了更紧密的簇(图3A),并在定量结果方面取得了最佳性能(图3B)。通过不同方法鉴定的细胞的标记基因表达也证明了细胞类型的分离,其中SAILERX显示出比其他方法更好的结果。


作者还对最新的小鼠皮肤组织Share-seq数据集进行聚类分析。SAILERX在量化分数方面取得了更好的结果。在所有不同类型的组织和测序技术中,SAILERX使用的集成策略大大优于其他方法,显示了框架的有效性。

SAILERX通过将单峰scATAC seq数据集与多峰数据集对齐,改进了对该数据集的分析

除了在一个数据集中融合来自两种模式的信息外,SAILERX还能够对缺失模式的数据集执行多样本数据对齐。通过将批次指标变量指定为混杂因素,该模型可在培训期间自动校正批次效应。当整合缺失模式的数据集时,作者忽略了只有一种测量类型的细胞的正则化项。对于这种情况,作者使用PBMC 10k Multiome数据集和配对scRNA-seq和scATAC-seq测量值,以及单峰PBMC 3k数据集和scATAC seq。

如上所述,联合训练两个数据集。然后,使用Louvan社区检测从PBMC 3k数据集中获取潜在的表示并对细胞进行聚类。如图4所示,通过标记基因识别基本真值细胞类型。作者评估聚类指标,并将其与Cobolt进行比较,Cobolt还能够将多模态数据与缺失模态进行整合,Signac仅与scATAC seq模态进行整合。Cobolt方法采用具有共享潜在空间的多模VAE。

如图4B-C所示,SAILERX实现了最佳的聚类指标,表明与Cobolt相比,灵活的融合机制对有噪声的单细胞多组分数据更有效,数据质量较低的单模态数据可以从这种多样本对齐中获益。


除了在一个多模态数据集和一个单模态数据集之间进行批量校准外,SAILERX还可以校准多个多模态数据库中的数据。作者用完整的PBMC 3k和10k数据集证明了这一点。当存在明显的批次效应时,SAILERX可以调整不同批次的数据,同时保持高质量的聚类结果。当这些数据一起处理以进行批处理对齐时,作者发现唯一的细胞簇被保留下来。这表明SAILERX在执行批效应校正时可以保留生物信号。

跨模态整合有助于染色质可及性数据的下游分析

作者已经证明了SAILERX能够在不同的场景下生成更好的嵌入。接着作者探讨了这种优势如何有利于染色质可及性数据的下游分析。作者对上述SNARE序列数据进行了模体富集和模体活性分析,这些数据更多地受到染色质可及性信号的稀疏性和缺失的影响。

首先使用方法中描述的chromVAR偏差z评分进行差异测试。使用Pvalb和Sst细胞(图3A)来计算这两种细胞类型之间的差异基序。然后,通过Seurat的FindMarkers函数计算的p值,绘制了前6个主要在两种细胞类型之间富集的基序。如图5所示。在scATAC序列数据中,Mef家族的基序在Pvalb特异峰中富集,六分之四的Mef家族基序在这些Pvalb特异性区域中。这些调查结果与以前的报告一致。

此外,Mef2c基序也参与了Pvalb中间神经元的发育,并作为差异基序之一表现出丰富性(图5)。为了量化这些丰富基序的性能,从每种方法的聚类结果中选择最可能代表Pvalb细胞的细胞组,然后计算这些细胞内的z评分值。如图5所示,作者的方法在所有方法中获得了最高的模体偏差z值,表明SAILERX更有可能基于这种聚类发现新的模体。

此外,还比较了L4和L5 PT细胞,并计算了这些细胞之间的丰富基序。先前的报道称,POU3F2蛋白与双相情感障碍相关,并参与小鼠新皮质的发育。从作者能找到的前6个丰富的基序中,有几个与POU家族相关的基序在细胞中富集,包括POU3F2。因此,利用chromVAR计算的POU1F1和POU3F2基序偏差z评分来探索L5 PT细胞的基序富集结果。结果如图5B所示。作者发现SAILERX仍然获得了最高的基序偏差z分数,进一步证明了该方法在促进染色质可及性数据下游分析方面的有效性。

SAILERX通过插补恢复染色质可及性空间中的细胞类型景观

sc-seq测量的高通量以最佳分辨率提供了表达和染色质可及性信息。然而,由于读取深度和覆盖范围的限制,sc-seq数据在测序阶段由于随机丢失而严重稀疏。在数据分析过程中,通常使用插补来恢复缺失的值。作者测试了他们的方法如何在整合来自scRNA序列模式的信息后对原始scATAC序列数据进行去噪。以MAGIC(利用数据扩散进行数据插补)和scOpen(基于矩阵分解的方法)为基准。

在这里,估算数据分别由SAILERX、MAGIC和scOpen生成。如图6,与MAGIC和scOpen相比,SAILERX生成的插补数据更好地保留了细胞类型景观,不同类型的细胞形成不同的簇。由于SAILERX可以在插补阶段控制读取深度,因此插补数据不存在这些技术伪影。与其他插补策略相比,深度生成模型的插补能够更好地保留细胞簇,并保持细胞的特征。

为了进一步验证插补结果,使用了SAILERX生成的插补SNARE序列数据,并对Pvalb和L5 PT细胞进行了模体富集分析。如图5所示,用小提琴曲线图直观显示了偏差z分数。从结果中,我们可以看到,SAILERX插补的数据显示出明显较高的富集分数,这表明某些细胞类型插补了一些缺失的峰值。

结论

多模态单细胞数据提供了一种更全面的细胞流形测量方法。然而,由于信噪比交叉模式不平衡,利用这些多元组学数据更好地描述细胞间特异性的生物学观点在计算上仍具有挑战性。自然界中的一些模式覆盖率较低,因此更容易受到噪音等的影响。当前的方法通常通过将这些多模态数据投影到同一个潜在空间来融合这些数据。这些方法假设两种模式的测量值具有相同的分布,并且两种模式对细胞状态信息的信息量相等。

同时,由于测序过程中存在技术噪音,可能会使细胞的观察状态朝不同方向偏移,因此将不同模式的观察数据投影到同一点可能会有问题。实验表明,将两种模式投影到一个共享的潜在空间可能会导致噪声的过度拟合,并导致对细胞状态景观的描绘较差,尤其是在使用强大的模型(如神经网络)时。

教授介绍


谢晓辉(Xiaohui Xie)是加州大学欧文分校(UC Irvine)计算机科学系的全职教授,自2007年以来一直在该系工作。他获得了麻省理工学院(MIT)博士学位,并在麻省理工研究所(Broad Institute of MIT)和哈佛大学(Harvard University)完成了博士后培训。他对人工智能/机器学习、神经网络、深度学习和基因组学感兴趣。

他的研究兴趣包括AI/机器学习、神经网络、深度学习、地理学。研究领域主要是人工智能与机器学习、生物医学信息学和计算生物学、医学信息学。研究重点是机器学习、生物信息学、计算生物学和神经计算。他对开发新的机器学习理论和算法感兴趣,并将其应用于实际问题,如生物学和医学。


参考文献

Cao Y, Fu L, Wu J, et al. Integrated analysis of multimodal single-cell data with structural similarity. Nucleic Acids Res. 2022;gkac781. doi:10.1093/nar/gkac781

你可能感兴趣的:(2022-10-09)