2021-09-07

Nat Biotech | 迁移学习将单细胞数据映射到参考图集

原创 huacishu 图灵基因 今天

收录于话题#前沿生物大数据分析

撰文:huacishu

IF=54.904

推荐度:⭐⭐⭐⭐⭐

亮点:

1、研究人员介绍了一种深度学习策略,用于称为single-cell architectural surgery (scArches)的参考映射查询数据集。

2、scArches使用转移学习和参数优化来实现高效、分散、迭代的查询数据集构建,而无需共享原始数据。

德国慕尼黑赫尔姆霍茨中心Fabian Theis教授团队在国际知名期刊Nat Biotechnol在线发表题为“Mapping single-cell data to reference atlases by transfer learning”的研究论文。现在常规生成的大型单细胞图谱一般作为小规模研究分析的参考。然而,由于数据集之间的批量效应、计算资源的有限可用性以及对原始数据的共享限制,使参考数据学习变得复杂。本研究将介绍一种深度学习策略,用在名为single-cell architectural surgery(scArches)的参考上映射查询数据集。scArches使用转移学习和参数优化来实现高效、分散、迭代的参考文献构建,而无需共享原始数据。研究表明,使用来自小鼠大脑、胰腺、免疫和整个生物体图集的示例,保留了生物状态信息,同时消除了批量效应。scArches推广到多模态参考映射,允许缺失模态的插补。最后,scArches保留了2019年冠状病毒病(COVID-19)疾病变异,从而能够发现疾病特异性细胞状态。scArches将通过迭代构建、更新、共享和高效使用参考图集来促进协作项目。

为了促进模型共享,作者调整了现有的参考构建方法,将它们作为“基础模型”纳入到scArches中。scArches中构建的参考模型可以通过Zenodo方法的内置应用程序编程接口上传到模型库。为了使用户能够在自定义参考图集上映射新的数据集,作者建议共享模型权重,用户可以从模型存储库下载模型权重,并使用新的查询数据进行微调。这种微调通过为每个查询数据集添加一组称为“适配器”的可训练权重来扩展模型。在经典的条件神经网络中,学习对应于一个输入神经元。由于经过培训的网络具有严格的体系结构,因此不允许在给定网络中添加新的研究。为了克服这一点,实施了架构手术方法,将新的研究标签作为新的输入节点(方法)纳入其中。重要的是,适配器是可共享的,允许用户通过下载参考图集、为该参考选择一组可用适配器并最终通过训练查询适配器合并用户自己的数据来进一步定制共享参考模型(图1a和1b)。查询模型的可训练参数仅限于查询研究标签的一小部分权重。根据该子集的大小,该限制作为归纳偏差发挥作用,以防止模型调整其参数以适应查询研究。因此,查询数据将更新参考图集。为了说明这种方法的可行性,应用带有trVAE、scVI和scANVI的scArches,将两项研究连续整合到一个包含三项研究的胰腺参考图谱中(图1c)。我们首先在scArches框架内训练不同的现有参考模型,以整合训练数据并构建参考图谱(图1d,e)。构建参考图谱后,使用第一个查询数据(SMART-seq2(SS2))微调参考模型,并使用本研究(图1d,e)和第二个查询数据(CelSeq2,图1d,e)迭代更新参考图谱。每次更新后,模型都会覆盖查询和引用中存在的所有共享单元类型的数据,同时在查询数据集中生成一个单独的单元集群(图1d,e)。为了进一步评估该方法的稳健性,作者在参考数据中保留了两种单元格类型,同时在查询数据集中保留了这两种类型。作者构建的模型稳健地集成了查询数据,同时将看不见的单元类型放入不同的集群中。使用模拟数据进行的附加测试表明,scArches还能够通过多次查询研究同时更新参考图集。

除了按照上述建议仅微调连接新添加研究的权重外,作者还考虑了(1)编码器和解码器中的训练输入层,同时冻结其余权重;(2)微调模型中的所有权重。使用来自两个小鼠大脑研究的250000个细胞为每个基础模型训练了一个参考模型。将scArches-trVAE应用于大脑图谱,参数最少的模型在整合不同批次的同时保持不同细胞类型之间的差异,与其他方法进行竞争(图2a-d)。总的来说,与其他方法相比,评估不同基础模型的集成精度证明了使用适配器合并新查询数据集的最佳时间和集成性能权衡(图2e)。

要使用scArches,需要参考图集模型。scArches执行的参考映射的质量取决于为基础模型选择的参数化和体系结构以及参考数据的质量和数量。为了确定scArches参考映射对所用参考模型的敏感性,作者调查了成功实现参考映射需要多少参考数据。因此,利用了由骨髓和外周血单个核细胞(PBMC)组成的人类免疫细胞数据集。通过在参考文献构建中增加更多的研究,同时使用其他研究作为查询数据,构建了质量不断提高的参考模型。为了进一步优化该模型,为每项研究纳入了一种独特的细胞类型,同时将其从其他研究中删除。结果发现,scArches scANVI的参考映射精度显著提高,直到至少50%(约10000个细胞)的数据被用作参考(图3a-c)。具体而言,观察到巨核细胞祖细胞、人类多能干细胞、CD10+B细胞仅以较高的参考比率聚集(图3b,c)。这一观察结果适用于其他基础模型(图3d)。在大脑和胰腺数据集上重复了类似的实验。总的来说,虽然性能取决于模型和数据,但当至少50%的数据用于参考训练时,都观察到了稳健的性能(图3d)。参考映射旨在生成一个集成的数据集,而无需共享原始数据和有限的计算资源。因此,必须根据从头数据集成的标准进行评估,而这些标准不存在这些限制。为了评估这一点,使用包含大约三分之二批次的参考模型进行了scArches参考映射,并将其与现有的全集成自动编码器方法和其他现有方法进行了比较。scArches参考映射模型的总分与从头集成性能的总分相似(图3e)。

查询数据由来自24个组织的90120个细胞组成,其中包括从参考数据中排除的先前未发现的组织气管。scArches-trVAE跨时间点和测序技术准确集成查询和参考数据,并创建一个独特的气管细胞群(n=9330)(图4a,b)。然后,研究了从参考数据集中转移单元格类型标签的过程。此外,分类管道为每个单元提供了不确定性分数,同时将不确定性超过50%的单元报告为未知单元(图4c)。此外,大多数错误分类的细胞和来自看不见组织的细胞都获得了很高的不确定性分数(图4d)。总的来说,跨组织的分类结果表明,大多数组织的预测精度都很高(图4e和4f),同时突出显示了不可映射到参考的细胞。因此,scArches可以成功地将大型和复杂的查询数据集合并到参考图集中。接下来,将查询scRNA序列数据集成到参考图谱中(图4g),并使用多模态参考图谱为查询数据集插补缺失的蛋白质数据。利用估算的蛋白质丰度,可以区分观察到的主要群体,如T细胞(CD3+、CD4+和CD8+)、B细胞(CD19+)和单核细胞(CD14+)(图4h)。

在疾病研究中,参考数据的情境化是必不可少的。一个成功的数据整合应该满足三个标准:(1)保持健康细胞状态的生物变异;(2)整合健康参照和疾病查询之间的匹配细胞类型;(3)保存不同的疾病变异。为了展示如何利用疤痕进行疾病情境化,scArches成功整合了来自不同数据集的肺泡巨噬细胞,并保留了它们之间的生物变异性,尽管一些环境RNA信号仍然存在。例如,来自单个个体的激活TRAM(FABP4+IL1B+CXCL5+)在TRAM内形成一个独特的亚群(图5a-d)。然后,评估2019冠状病毒疾病查询数据投影到参考模型。Liao及其同事的数据集包含以下细胞类型:气道上皮细胞、浆细胞和B细胞、CD4+和CD8+T细胞、NK细胞、中性粒细胞、肥大细胞、树突状细胞、单核细胞和肺泡巨噬细胞(图5b、c)。在巨噬细胞群中,两个不同的群体主导了包埋结构(图5c,d):TRAM(FABP4+C1Q+CCL2)−)和炎性MoAMs(FABP4)−C1Q+CCL2+。事实上,在植入过程中,MOAM更接近单核细胞而不是TRAM,反映了它们的本体关系。然后评估了CD8+T细胞。而参考骨髓和血细胞主要含有CD8+T细胞, 肺和支气管肺泡灌洗液中含有细胞毒性记忆CD8+T细胞(GZMA+GZMH+);图5e)。此外,COV2019冠状病毒疾病患者的CD8+T细胞的细胞毒表达是由干扰素应答基因ISG15、MX1和其他基因决定的。这与最近的一份研究一致,即干扰素反应是区分严重急性呼吸综合征冠状病毒2型肺炎与其他病毒性和非病毒性肺炎的特征(图5e)。

本研究介绍了一种易于实现的转移学习方法,通过微调参数为新研究添加输入节点和权重(适配器)构建神经网络模型。这种模型可以扩展任何基于条件神经网络的数据集成方法,以实现分散的参考更新,并提供参考数据学习的框架。总之,作者希望scArches能够加速使用这些图谱来分析查询数据集。

教授介绍

Fabian Theis教授分别于2002年和2003年获得物理学和计算机科学博士学位。在雷根斯堡、东京从事博士后研究。随后,他加入了德国环境健康研究中心Helmholtz Zentrum Munchen,在那里他担任了生物信息学和系统生物学研究所的组长六年。2009年,他成为慕尼黑理工大学应用数学系主任的副教授。自2013年以来,他一直是慕尼黑理工大学的生物数学教授,担任生物系统数学建模主席,并担任Helmholtz Zentrum Munchen计算生物学研究所所长。Fabian Theis教授在计算生物学领域进行研究。他的工作重点是将机器学习方法应用于生物学问题,特别是作为基于单细胞分析的细胞异质性建模手段,以及将“组学”数据整合到系统医学方法中。

参考文献

Lotfollahi, M., Naghipourfar, M., Luecken, M.D. et al. Mapping single-celldata to reference atlases by transfer learning. Nat Biotechnol (2021).https://doi.org/10.1038/s41587-021-01001-7

你可能感兴趣的:(2021-09-07)