2022-10-12

Nat Rev | 通过可解释的人工智能从深度学习中获得遗传学见解

原创 huacishu 图灵基因 2022-10-12 10:11 发表于江苏

收录于合集#前沿生物大数据分析


撰文:huacishu

IF=59.581

推荐度:⭐⭐⭐⭐⭐

亮点:

1、作者回顾了可解释人工智能(xAI)新兴领域的进展,这一领域有可能使生命科学研究人员获得对复杂深度学习模型的机械洞察力;

2、作者讨论并分类了模型解释方法,包括直观地理解每种方法的工作原理及其在典型高通量生物数据集背景下的基本假设和限制。


华盛顿大学Sara Mostafavi教授课题组在国际知名期刊Nat Rev Genet在线发表题为“Obtaining genetics insights from deep learning via explainable artificial intelligence”的论文。基于深度学习的人工智能(AI)模型现在代表了基因组学研究中进行功能预测的最先进水平。然而,预测模型做出此类预测的基础往往是未知的。对于基因组学研究人员来说,这种缺失的解释性信息往往比他们自己的预测更有价值,因为它可以使人们对遗传过程有新的见解。


作者回顾了可解释人工智能(xAI)新兴领域的进展,这一领域有可能使生命科学研究人员获得对复杂深度学习模型的机械洞察力。作者讨论并分类了模型解释方法,包括直观地理解每种方法的工作原理及其在典型高通量生物数据集背景下的基本假设和限制。

深度学习(DL)由于其令人印象深刻的表现,对遗传学研究产生了重大影响;然而,由于其复杂性,它常常被视为一个“黑箱”。随着数据量越来越大以及硬件的进步,新形式的人工智能(AI)正在实现从调节基因组注释到单细胞数据分类的各种预测任务。

深度学习模型可以学习复杂的模式。例如,在确定人类基因组中的哪些DNA序列指导特定细胞类型中的基因转录时,模型可以学习序列组成、特定基序模式的存在与否、DNA的生物物理性质、序列属性之间的位置差异等。为了学习一个庞大而复杂的特征集,这些模型学习了数百万个参数,这些参数共同决定了模型预测,但却没有解释给定预测是如何做出的。因此,解释复杂数据集的挑战本质上转化为解释复杂模型的挑战。

在这篇综述中,作者对关键解释方法进行了有组织的概述,目的是使从事遗传学各主题研究的研究人员能够将xAI纳入他们的研究。作者首先提供了关于深度学习方法在基因组学中如何使用的基本信息,然后对四种解释方法进行了分类:基于模型的解释、影响的数学传播、特征之间相互作用的识别以及透明模型的先验知识的使用(图1)。对于每种方法,作者都能直观地理解其工作原理,并在高通量生物数据集的背景下解释其基本假设和局限性。

调控基因组学的深度学习

神经网络和sequence-to-activity模型

深度神经网络(DNN)模型已成为调控基因组学中的主要预测模型类型。作者重点介绍了基于神经网络的sequence-to-activity模型。这些模型以假定的调控DNA序列为输入,旨在预测序列活性的某些动态特性(即细胞或环境特异性)。

sequence-to-activity模型最广泛使用的架构是卷积神经网络(CNN)和递归神经网络(RNN),这两种网络最初都是为计算机视觉和自然语言处理任务开发的。目前,对于如何为给定任务设计最佳的神经网络架构,还没有达成共识,因此研究人员通常使用多种架构进行实验。

为什么DNN模型解释困难?

为了从数据中学习预测特征的复杂组合,最先进的DNN模型通常由训练期间学习的数千万个自由参数组成。尽管DNN对潜在特征表示进行编码的高容量表征了最先进的预测精度,但它也面临着识别模型所学习的特征和特征组合的挑战。

基于模型的解释

模型解释的直观方法是检查网络的各个组件,以了解它们代表的模式及其对预测性能的贡献。尽管这对小型网络有效,但现代DNN的规模和复杂程度令人望而却步。然而,即使对于深层网络,通常基于部分模型的解释也有助于提取模型所学习的重要特征。

可以考虑基于模型的解释的两种主要方法类别。最简单的方法是直接检查隐藏神经元的活动,以提取一组相关特征。第二种方法最初使用注意力机制训练模型,该机制通过一组学习的注意权重直接产生每个输入特征的相关性度量。接下来作者描述了如何将这些方法应用于sequence-to-activity模型。

解释第一层卷积节点

在sequence-to-activity模型中,第一层神经元捕获短序列模体,编码在卷积权重矩阵中。从数学上讲,将卷积权重矩阵应用于序列所执行的操作相当于使用位置权重矩阵(PWM)扫描序列(图2a)。因此,可以对卷积权重矩阵应用一个简单的变换,以导出一个位置频率矩阵(PFM),该矩阵量化了位置相关的核苷酸频率,进一步的缩放和对数变换可以将相关的矩阵可视化为标准PWM。

然而,对权重值的无约束学习可能会产生缩放问题,使这种方法的效率降低。在实践中,更常见的策略是搜索在选定阈值以上激活给定的子序列,并根据激活子序列集的对齐情况直接构建PWM(图2b)。然后,通过将这些PWM与数据库(如JASPAR和Cis-BP)中已知的TF绑定文件进行比较,可以对其进行注释。


由于神经网络在设计上过于参数化,PWM的存在并不意味着它是一个预测性、有趣或有用的特征。因此,需要测量PWM对模型预测的贡献。在基于节点的策略中,这是通过进行置零并测量这种置零对模型预测的影响来实现的(图2c)。

基于节点的策略是理解复杂系统的简化方法,其核心假设是单个单元可以独立解释。然而,由于DNN通常经过训练,能够稳健地退出单个神经元,因此在实践中,不同的神经元可能多次捕捉到一个重要的模式:即节点可能是冗余的。此外,根据模型的体系结构,生物可解释模式可以作为子组件节点的组合来学习。

用于可视化特征重要性的注意力机制

权重正则化是一种有助于缓解训练神经网络中过拟合问题的通用技术,通常可以提高性能和隔离重要特征的能力。权重正则化的最简单策略是在模型训练期间向目标函数添加一个项,以鼓励学习的权重具有某些特性。

然而,人们也可以在神经网络模型中考虑不同类型的权重。注意力可以被视为一种权重正则化形式,其中为输入序列引入权重,以确定输入中位置的优先级,尽可能保留相关信息以进行处理。这些权重的计算通常由网络中的一个附加模块处理,该模块在训练期间自动学习注意力权重,以捕获机器学习任务中隐藏状态之间的相关性。注意机制可以提高神经网络模型的性能和可解释性。

当与模型训练相结合时,注意力权重会迫使模型在学习隐藏特征的同时关注输入的有限部分。在sequence-to-activity模型的情况下,可以直接检查注意力向量,以帮助识别在模型内部表示中起关键作用的输入部分(图2d)。

影响(influence)的数学传播

与探测训练神经网络的组成部分不同,另一类算法通过在模型中传播扰动数据并观察对预测的影响,直接对输入示例进行操作。这些基于传播的特征属性方法被认为更不依赖于模型,因为在某种程度上,它们可以在确定特征重要性时绕过特定模型架构的副作用。它们还同时解决了特征识别和每个特征重要性量化的问题。基于传播的属性方法可以分为两大类:正向和反向。

影响的正向传播

在计算机视觉中,微扰策略已经使用了几十年。最简单的形式是像素翻转,即修改输入图像的一个或多个像素,以识别图像中与预测结果相关的特征。如果改变像素的值对分类结果有很大影响,那么它可能对应于模型确定为与预测相关的特征。与图像像素翻转类似,可以考虑翻转与生物序列核苷酸相对应的元素,以确定训练模型的特征重要性(图3a)。由于这种方法与DNA的体外诱变具有相似性,因此这种策略被称为in silico mutagenesis(ISM)。


为了在实践中执行ISM,给定一个长度为L的输入DNA序列X,选择输入序列中的每个索引(核苷酸),并且对于三个替代核苷酸中的每一个,只更改第i个位置中的条目即可生成新序列。模型对替代序列和原始序列的预测之间的差异通常称为归因得分。对所有核苷酸重复操作会产生一个称为属性图的4×L矩阵,它可以显示为序列标志(图3a)。与其他基于归因的方法相比,该方法具有更好的结果。

与单核苷酸ISM不同,输入序列的较大延伸可以改变,以识别依赖于重要碱基对组合的重要基序(图3b)。这种封闭形式被用来寻找增强子-基因对、具有顺式调节元件特定方向和边界的CTCF(CCCTC结合因子)位点。通过突变已知的TF基序(也称为基序突变),而不是随机封闭,可以获得更大的可解释性,但这种方法需要基序位点的先验知识。

影响的反向传播

由于生成准确统计数据需要大量的正向传递,因此正向传播方法的计算成本很高。反向传播方法是为了解决这个问题而开发的。这些方法通过评估给定输入序列下模型F的导数来近似ISM,以计算序列的微小变化对模型预测的影响(图3c)。

由于神经网络是由多个非线性函数组成的,因此需要使用反向传播程序(通过网络反向传播偏导数)用链规则计算模型F的梯度。这将生成一个函数,然后需要在特定输入处求值,以生成梯度向量。结果向量的大小等于输入特征的数量。给定输入的梯度向量与输入值之间的元素乘积生成基于梯度的属性图(图3c)。

识别特征之间的交互

到目前为止,作者已经强调了识别单个重要特征的方法,例如TF基序,这些特征有助于模型的预测。然而,在基因调控的背景下,人们普遍认识到,TF之间的相互作用(如协作性)可以解释除单独附着于每个TF之外的活动。因此,研究人员有动机检测神经网络识别的特征之间的相互作用,这些特征可能代表这种协作TF行为。

基于模型的交互识别

当神经网络的较深层以层次结构组装在较低层中学习到的特征时,识别交互作用的一个明显策略是检查较深层的神经元。对于计算机视觉应用程序中的这类任务,基于优化的方法在大量随机输入(如图像)中搜索那些最大限度地激活给定隐藏神经元的输入,往往效果最好。

通过数学传播解释相互作用

传播方法(向前和向后)可以为解释模型内的交互而定制。当用于估计潜在的相互作用时,ISM的计算成本非常高。这是因为必须为每对特性测试一个单独的输入,因此随着特性数量的线性增加,测试数量呈二次增长。然而,ISM可以以受限的方式应用,例如,对包含特定基序对的序列进行有针对性的分析,或者更普遍地通过将两个基序插入到随机序列中来进行分析。

在这种情况下,ISM突变了一个基序—单个位置或整个基序—并将结果预测与完整序列的预测进行比较(图4a)。应用这种方法可以发现基序之间的加性和非加性效应,也可以评估基序间距的影响。为了克服噪声或统计不稳定性,该过程可以应用于多个序列。

这种想法的另一种变体涉及结合正向和反向传播方法,这种方法称为深层特征交互图(DFIM)(图4b)。DFIM代表了前向传播算法和后向传播算法之间的折衷,因为它需要多次通过网络,与原始二阶ISM的二次增长相比,网络的特征数量呈线性增长。在DFIM方法中,输入DNA序列中任何一对特征之间的特征相互作用分数(FIS)被计算为当源特征受到扰动时目标特征重要性分数的变化,同时保持序列中所有其他特征的完整性。

使用透明模型的先验知识

与输入节点相比,解释更深层的隐藏节点更具挑战性,因为每个节点都对应输入的复杂非线性函数,可能不对应任何可观测量。透明神经网络模型是这样一种模型,其中隐藏的节点被构造成在物理上对应于粒度级别上的生物单元,这有助于人类的理解(图5)。


要构建具有固有可解释单元的模型,需要使用先验知识来设计网络架构。例如,可以根据已知的TF结合基序初始化过滤器(图5a)。更深的层次构建了这些输入特征的组合,以在更高抽象层次上对生物系统的各个部分进行建模。例如,第二层可能代表基序之间的共结合关系,更高层可能对应于生物路径等。通过检查以这种方式培训的模型,可以深入了解存在的此类先验交互(图5b)。

结论和未来展望

在本综述中,作者重点介绍了sequence-to-activity模型,所述的xAI方法广泛应用于基因组学的深度学习应用,包括表型、基因表达和其他多组学测量模型,以及单细胞测量。然而,与序列模型不同,在因果关系的方向不明确的情况下,解释可能更具挑战性。

模型解释的目的和效用在很大程度上取决于目标应用,因此应该指导解释方法的选择。当用户需要对整个生物过程有一个全面的了解时,例如当目标是做出可实验测试的机械假设时,一个全局解释方法是合适的。当用户需要理解模型所做的单个预测时,例如在识别疾病的遗传风险时,局部解释方法是合适的。

解释方法最终相当于根据训练数据中发现的预测模式进行识别和推断。训练数据中存在的虚假相关性可以在下游模型的解释中体现出来。特别是,当模型在一个小数据集或包含人工制品的数据集上训练时,预测模型可以通过学习非生物“捷径”实现高精度,因此解释不会产生有意义的生物学。

模型解释所提供的生物洞察力的质量关键取决于解释模型的预测精度。例如,在执行ISM时,根据定义,完美的模型会产生给定突变的正确结果,而低精度模型可能会产生虚假推断。在解释模型的高阶效应(如特征交互)时,这个问题尤其严重,因为特征值的任何组合只发生在少数训练示例中。

解释模型的“不可识别性”阻碍了解释的可靠性。也就是说,因为DNN模型通常包含的参数比训练示例多得多,所以不能保证训练过程能够找到最好的模型。这意味着模型参数对训练示例的随机选择和初始化参数敏感。

基于模型的解释对这个不可识别性问题最为敏感;然而,我们认为这种现象在不同程度上影响了所有的解释技术。因此,必须谨慎使用解释,并理解模型的某些特性以及由此产生的特征可能是偶然产生的。通过比较多个数据集和多个训练初始化,可以缓解此问题,但有时执行成本太高。

随着生物数据集的规模和可用性的增长,使用模型研究特征之间的复杂关系变得越来越重要。从这些模型中提取洞察力需要有效的xAI方法。因此,xAI将在基因组学中发挥越来越重要的作用。

教授介绍


Sara Mostafavi就职于华盛顿大学。在此之前,Sara是哈佛医学院的访问研究员,并在斯坦福大学计算机科学系获得博士后奖学金。Sara在计算生物学和机器学习的交叉领域工作,她开发并应用方法来研究人类疾病的分子基础。最近,她的研究侧重于了解不同背景下免疫反应的基因组学,以及儿童罕见遗传病的病因。

在过去的十年中,各种类型的高维生物数据的产生大幅增加,为开发和应用计算和机器学习方法来理解人类疾病的遗传学提供了新的机会。然而,这一数据的高维性,即在一次实验中测量了多达数百万个不同和异质的“特征”,再加上系统混杂因素的普遍存在,给解开疾病中的因果分子事件的真实关联带来了重大挑战。Sara的研究兴趣在于设计量身定制的计算模型,以集成多种类型的高维“组学”数据,最终目标是解开精神疾病等常见疾病的有意义的分子相关性。


参考文献

Novakovsky G, Dexter N, Libbrecht MW, Wasserman WW, Mostafavi S. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet. 2022;10.1038/s41576-022-00532-2. doi:10.1038/s41576-022-00532-2

你可能感兴趣的:(2022-10-12)