2022-12-22

Nat Mac Int | 深度学习表观遗传预测评价体系

原创 图灵基因 图灵基因 2022-12-22 09:10 发表于江苏

收录于合集#前沿生物大数据分析

人类基因组由30亿个密码字母组成,每个人都有数百万种变异。人工智能(AI)程序可以比人类更快地发现与疾病相关的基因组模式。它们还能发现人类错过的东西,有朝一日,人工智能驱动的基因组读取器甚至可以预测从癌症到普通感冒等疾病的发病率。

冷泉港实验室助理教授Peter Koo博士表示,不幸的是,人工智能最近的普及导致了创新的瓶颈。

“现在就像是狂野的西部。每个人都在做自己想做的事。”Koo说。人工智能研究人员不断从各种来源构建新的算法。而且很难判断他们的创作是好是坏。毕竟,在处理超出人类能力的计算时,科学家们如何能判断“好”和“坏”呢?Koo问道。

为了解决这个问题,Koo实验室创建了GOPHER(GenOmic Profile-model compreHensive EvaluatoR),Koo表示,这是一种新方法,有助于研究人员确定最有效的AI程序来分析基因组。“我们创建了一个框架,可以更系统地比较算法。”Koo实验室的研究生Ziqi Tang解释道。

他们的研究结果发表在《Nature Machine Intelligence》杂志上的一篇题为“Evaluating deep learning for predicting epigenomic profiles”的文章中。

“深度学习已经成功地预测了DNA序列的表观基因组图谱。大多数方法将此任务框定为依赖峰值调用者定义功能活动的二元分类。近年来出现的定量模型直接预测回归的实验复盖值。随着具有不同架构和训练配置的新模型不断出现,由于缺乏公平评估拟议模型的新颖性及其对下游生物发现的实用性的能力,一个主要的瓶颈正在形成。”研究人员写道。

“在这里,我们介绍了一个统一的评估框架,并使用它来比较为预测染色质可达性数据而训练的各种二元和定量模型。我们强调了影响泛化性能的各种建模选择,包括预测变量影响的下游应用程序。此外,我们还引入了一个稳定性度量标准,可用于增强模型选择和改进变量效应预测。我们的实证研究在很大程度上支持表观基因组图谱的定量建模能够更好地概括和解释。”

该方法根据几个标准来判断AI程序

GOPHER根据以下几个标准来判断AI程序:它们对我们基因组的生物学学习程度,它们预测重要模式和特征的准确性,它们处理背景噪音的能力,以及它们的决策的可解释性如何。“人工智能是为我们解决问题的强大算法。”Tang说。但她指出:“它们的一个主要问题是,我们不知道它们是如何得出这些答案的。”

GOPHER帮助Koo和他的团队挖掘了人工智能算法中驱动可靠性、性能和准确性的部分。这些发现有助于确定构建未来最高效AI算法的关键构建模块。Koo实验室的另一名研究生Shushan Toneyan表示:“我们希望这将在未来帮助到该领域的新手。”

“想象一下,如果你感觉不舒服,只要按一下按钮就能准确地判断出哪里出了问题。”Koo说,“有朝一日,人工智能可能会把这个科幻小说中的比喻变成每个医生办公室的特色。”Koo继续说道,类似于基于用户观看历史来学习用户偏好的视频流算法,人工智能程序可以识别我们基因组的独特特征,从而实现个性化的药物和治疗。

该团队希望GOPHER能够帮助优化此类AI算法,这样研究人员就能够相信他们基于正确的原因学习了正确的东西。“如果算法基于错误的原因做出预测,它们就不会有帮助。”

你可能感兴趣的:(2022-12-22)