2022-06-30

Nature Comp Sci | AI辅助寡核苷酸靶点发现

原创 图灵基因 图灵基因 2022-06-30 14:11 发表于江苏

收录于合集#前沿生物大数据分析


日本早稻田大学高级科学与工程研究生院的研究人员表示,他们已经引入了RaptGen,这是一种可用于适配体生成的可变自动编码器(VAE)。VAE是一种机器学习方法,据报道它有助于发现其他小分子。

科学家们在《Nature Computational Science》上发表了他们的论文“Generative aptamer discovery using RaptGen”,并解释了RaptGen如何使用带有profile隐马尔可夫模型解码器的VAE来创建序列可以形成簇的潜在空间。

通过使用这种潜在表达,RaptGen能够生成甚至不包含在原始测序数据或HT-SELEX数据集中的适配体。

适配体是一种寡核苷酸,可以选择性地结合特定靶点,如蛋白质、肽、碳水化合物、病毒、毒素、金属离子和活细胞。由于它们与抗体相似,因此在生物传感器、治疗和诊断领域具有多种用途。然而,与抗体相比,适配体不会在我们体内引起免疫反应,并且易于合成和修饰。此外,适配体的三维折叠结构使其能够与更广泛的靶点结合。

“核酸适配体是通过一种体外分子进化方法产生的,这种方法称为指数富集配体系统进化(SELEX)。各种候选者都受到来自实验的实际测序数据的限制。在这里,我们开发了RaptGen,它是一种用于silico适配体生成的可变自动编码器。”研究人员写道。

“RaptGen利用profile隐马尔可夫模型解码器来有效地表示基序序列。我们展示了RaptGen基于motif信息将模拟序列数据嵌入到低维潜在空间中。我们还使用两个独立的SELEX数据集执行序列嵌入。RaptGen成功地从潜在空间生成了适配体,即使它们未包含在高通量测序中。RaptGen还可以生成一个具有短学习模型的截短适配体。

“我们证明了RaptGen可以根据贝叶斯优化应用于活动引导的适体生成。我们得出结论,RaptGen和潜在表示的生成方法对于适体发现非常有用。”

“RaptGen首先可视化具有序列基序的潜在空间,然后通过该潜在空间生成多个新的适体序列。”Michiaki Hamada博士、教授在描述RaptGen如何促进适配体发现时说道。

“例如,它在分析序列子集的活性后,通过考虑其他信息,在潜在空间中搜索优化的适配子序列。此外,RaptGen可以设计缩短(或截断)的适配体序列。”

该团队还使用来自两个独立HT-SELEX数据集的真实世界的数据评估了RaptGen的性能。RaptGen可以以活性引导的方式生成适体衍生物,并提供优化其活性的机会。

“这很重要,因为这意味着RaptGen可以生成具有所需特性的序列,例如抑制某些酶或蛋白质-蛋白质相互作用。”Hamada补充道,“这些分子的应用可能会在未来打开许多大门。”

科学家们计划进行广泛的研究,评估替代模型是否可以提高RaptGen的性能,以及RaptGen是否可以通过使用RNA序列来促进RNA适体的生成。Hamada表示,使用RaptGen的唯一缺点是计算量大和训练时间长,这两个缺点都可以在进一步的研究中得到改善。

“据我们所知,RaptGen是唯一可以直接根据HT-SELEX数据设计和优化截断适配体的数据驱动方法。”Hamada指出,“我们相信,在适当的时候,RaptGen将被公认为高效适体发现的关键工具。”

你可能感兴趣的:(2022-06-30)