Toward transparent AI: A survey on interpreting the inner structures of deep neural networks
公众号:EDPJ
目录
0. 摘要
1. 简介
1.A 可解释 AI 的重要性
1.B 范围
1.C 分类法(Taxonomy)
2. 权重
2.A 持续学习(Intrinsic,内在)
2.B 权重掩蔽(Post Hoc,事后)
2.C 琐碎(frivolous)权重(Hazard,风险)
3. 单个神经元
3.A 持续学习(Intrinsic)
3.B 基于数据集(Post Hoc)
3.C 特征合成(Post Hoc)
3.D 神经扰动和消融(Post Hoc)
3.E 基于梯度的归因(Post Hoc)
3.F 多语义神经元(Hazard)
3.G 琐碎的神经元(Hazard)
4. 子网络
4.A 稀疏性(Intrinsic)
4.B 模块化(Intrinsic)
4.C 模块化分区(Post Hoc)
4.D 回路分析(Post Hoc)
5. 内部表示(Internal Representation)
5.A 自解释模型(Intrinsic)
5.B 对抗性训练(Intrinsic)
5.C 解纠缠(Intrinsic)
5.D 令牌(token)和注意力(Intrinsic and Post Hoc)
5.E 概念向量(Post Hoc)
5.F 探测(Post Hoc)
5.G 表示比较(Post Hoc)
6. 讨论
7. 未来的工作
参考
S. 总结
S.1 主要思想
S.2 权重
S.3 神经元
S.4 子网络
S.5 内部表示
S.6 讨论
S.7 未来的工作
过去十年,机器学习的规模和能力都出现了大幅增长。 深度神经网络 (DNN) 越来越多地部署在现实世界中。 然而,它们很难分析。如果不严格了解它们的功能,就会引发人们对使用它们的担忧。 解释它们的有效工具对于通过帮助识别问题、修复错误和提高基本理解来构建更值得信赖的人工智能非常重要。 特别是“内部”可解释性技术,专注于解释 DNN 的内部组件,非常适合发展机制理解、指导手动修改和逆向工程解决方案。
最近的许多工作都集中在 DNN 可解释性上,但迄今为止的快速进展使得方法的彻底系统化变得困难。 在本次调查中,我们回顾了 300 多件作品,重点关注内部可解释性工具。 我们引入了一种分类法,根据方法有助于解释网络的哪些部分(权重、神经元、子网络或隐表示)以及它们是在训练期间(内在,intrinsic))还是在训练后(事后,post hoc)实施,对方法进行分类。 据我们所知,我们也是第一个调查可解释性研究与对抗鲁棒性、持续学习、模块化、网络压缩和研究人类视觉系统工作之间的许多联系的人。 我们讨论了关键挑战,并认为可解释性研究的现状基本上是没有成效的。 最后,我们强调未来工作的重要性,强调诊断、调试、对抗和基准测试,以使可解释性工具对实际应用中的工程师更有用。
重要的是,从业者能够理解 AI 系统如何做出决策,尤其是它们的问题。 模型通常是根据其在特定任务的测试集上的性能来评估的。 这引起了人们的担忧,因为黑盒在测试集上表现良好并不意味着学习到的解决方案是足够的。 测试集通常无法捕获完整的部署分布,包括潜在的对抗性输入。 他们也未能揭示与测试性能不直接相关的模型问题(例如学习有害偏差)。 此外,即使用户意识到了不足之处,系统的黑匣子性质也可能导致修复问题变得困难。 因此,构建安全可靠的 AI 系统的关键一步是拥有一个扩展的工具箱来检测和解决问题。
我们将可解释性方法定义为可以用人类可理解的术语来表征人工智能系统计算的任何过程。 这涵盖了 DNN 文献中广泛的技术,但在本文中,我们特别关注理解内部结构和表示的方法(即不是数据、输入、输出或整个模型)。 我们称这些为内部可解释性方法。 我们介绍了这些方法的分类法,提供了文献概述,强调了可解释性与深度学习中其他主题之间的关键联系,最后给出了继续工作的方向。 我们的中心目标有两个:(1)为现有的内部可解释性工作提供全面的资源;(2)为继续研究提出方向。
在这里,我们概述了几个主要动机。
开放式评估:如果没有实际部署系统,任何评估其性能的方法基本上只能是其性能的代理。 特别是,测试集可能无法揭示(并且常常会激励)不良解决方案,例如数据集偏差、对社会有害的偏见或开发欺骗性解决方案。 因此,拥有严格评估系统性能的其他方法非常重要。 可解释性技术最重要的优势之一在于其独特的能力,与标准评估方法不同,它允许人类更加开放地研究模型并寻找缺陷。
展示失败:揭示模型无法产生正确输出的原因可以深入了解失败的情况以及如何检测它们。 这可以帮助研究人员避免出现问题,并帮助监管机构为已部署的系统制定适当的规则。
修复 BUG:通过理解问题和/或生成利用该问题的示例,可以重新设计、探测、微调和/或进行对抗性训练网络,以更好地使其与用户的目标保持一致。
确定责任:正确描述行为对于在误用或部署失败的情况下确定责任至关重要。
基本理解的改进:通过为用户提供有关模型、数据和/或算法的更多基本见解,可解释性技术可有助于降低已部署系统的风险或更好地预测 AI 的进展。 然而,如果基本认识的提高导致风险能力的进步超过有效监督的速度,那么它也可能是有害的。 我们将在第七节讨论这一点。
“显微镜” AI:严格理解人工智能系统如何完成任务可能会提供额外的领域知识。 这可能包括有关解决整个任务的见解或特定示例的属性。 这一目标被称为“显微镜” AI [133],它可以允许逆向工程更容易理解或可验证的解决方案。 这对于研究具有超人性能的系统可能特别有价值。
内部可解释性:我们的重点是 DNN 的内部可解释性方法。 黑盒技术、对抗技术、输入归因方法、神经符号方法和 “好的老式 AI” 都很有价值,但超出了本次调查的范围。 这并不是说它们对于构建更安全的人工智能的价值不如我们关注的方法——它们中的许多方法都具有重大优势,并且多样化的可解释性工具箱很重要。 然而,我们专注于内部可解释性方法,因为(1)目前人们对它们有很大兴趣,(2)它们对于某些目标来说装备精良,例如指导手动修改、逆向工程解决方案和检测内部“潜在” 可能导致欺骗行为的知识。
与过去的调查工作的对比:
我们的分类法将内部可解释性技术按照它们解释 DNN 计算图的哪一部分进行划分:权重、神经元、子网络或隐表示。 我们将第 2-5 节分别介绍这些方法。 可解释性技术也可以根据是否在训练期间或训练后使用来划分。 内在(Intrinsic)可解释性技术涉及训练模型以使其更易于研究或具有自然的解释。 事后(post hoc)技术旨在在模型训练后对其进行解释。 我们根据方法在小节级别上是内在的还是事后的来划分。
图 1 描述了我们的分类法并预览了第 2-5 节的组织。 请注意,此分类有时会划分相关方法。 例如,权重(第 2-A 节)和神经元(第 3-A 节)的持续学习方法在概念上相似,解释子网络(第 4 节)的方法经常涉及权重(第 2 节)或神经元(第 3 节)方法的变化或应用 。 当我们讨论下面的方法系列时,我们会注意到这些联系。 然而,我们首先根据它们所针对的网络部分来划分方法,因为技术如何在网络上运行通常对于面向目标的工程来说比它是否在训练期间或之后发生更重要。
深度学习的一种研究范式是训练能够学习新任务而不忘记旧任务的系统。 这被称为持续学习或避免灾难性遗忘[72],[267]。 一些技术的原理:基于专门针对特定类型输入数据的权重,对某些数据的更新比其他数据要多[8]、[11]、[150]、[175]、[191]、[278]、[312]。 这提供了一种根据其专业的任务或类别来表征权重的自然方法。不幸的是,目前对这些方法的研究尚未重点改进对权重或子网络的解释。 这可能是未来工作的一个有用的方向。 另请参阅第 3-A 节中对神经元进行持续学习的方法。
与内在方法相比,我们还可以通过网络训练权重掩模,以确定哪些权重对于哪些任务至关重要[65]、[304]、[319]。 例如,可以训练分类器权重上的掩码以覆盖尽可能多的内容,同时保留数据子集的性能。 生成的掩码标识了权重的子集(以及相应的子网络),可以因果地理解为专门从事该子任务。 这种方法也适用于识别专门从事某项任务的子网络(第 4 节)。
解释权重的一个困难在于,许多权重通常对网络来说并不重要。 过去的工作表明,网络通常可以被修剪以包含其原始权重的一小部分,而性能几乎没有损失(尽管有时需要微调)[33]、[102]、[283]。 另请参见琐碎神经元(frivolous neurons)(第 3-G 节)。
正如文献中常见的那样,我们使用“神经元”来指代密集层(dense layers)中的单元和卷积层中特征图的元素。
正如持续学习 [72]、[267] 可以通过权重的专门化来促进(参见第 II-A 节),神经元也可以这样做。 与基于权重的持续学习方法不同,基于神经元的连续学习方法通常依赖于在遇到新任务时向架构添加新神经元[167]、[247]、[310]。 这阻碍了神经元学习同时检测多个不相关任务的特征,并允许根据神经元专门从事的子任务来自然解释神经元。与对权重进行操作的持续学习方法一样,目前对这些方法的研究并未强调改进神经元或子网络的解释。 这可能是未来工作的一个有用的方向。 另请参见第 4-B 节,其中讨论了神经元之间的模块化方法。
表征单个神经元作用的一种简单方法是使用数据集来分析它们响应哪些类型的输入。
该方法基于合成输入,其目标是最大程度(或最小程度)激活给定神经元或神经元组合。合成方法的优点是不限于特定的数据集。
通过分析 DNN 在神经元扰动下的行为,人们可以深入了解其处理的信息类型。 例如,如果图像分类器中的神经元能够稳健且唯一地检测到狗,那么当该神经元被消融(即退出)时,人们应该预期分类狗的性能会恶化。 这些方法的一个主要好处是它们允许测试反事实,帮助建立神经激活和网络行为之间的因果关系而不是相关关系。
基于梯度的特征归因已经做了很多工作,以研究哪些特征对神经反应或模型输出有影响。
多语义神经元由多个不相关的特征激活。
琐碎的神经元对于网络来说并不重要。
请注意,许多用于分析子网络的方法都依赖于权重(第 2 节)或神经元(第 3 节)技术。
DNN 内部的稀疏权重可以更简单地分析神经元之间的关系。
虽然稀疏性简化了子网络的分析,但它可能不会提高单个神经元的可解释性。 [101] 发现通过剖析修剪后的网络并没有增加它们的可解释性,并且 [196] 未能找到稀疏注意力的单个神经元的可解释性提高的证据。
除了分支架构之外,如果不同模块中的神经元相互连接但必须竞争对信息的访问,则可以实现 “更软” 的模块化形式。
从模块角度理解 DNN 的一种事后方式是将神经元划分为一组子网络,每个子网络由相关的神经元组成。
一种更简单的方法是研究网络内部的各个子网络,而不是分析网络的整个分区。
文献中用于理解 DNN 的大多数方法旨在帮助人类 “打开” 网络并研究其中的一部分。 如果一个人想理解另一个人的推理,类似的技术将涉及直接研究他们的大脑。 这些有时很有用,但在大多数情况下,简单地询问另一个人对他们的想法的解释会更有效。 自我解释的人工智能系统旨在以类似于人类提供内部推理的方式提供此类解释。 文献中提供了相互竞争的定义,但我们将使用基于 [87] 的定义,该定义仅要求模型对其推理产生易于人类理解的解释,最好与置信度估计配对。
在计算机视觉中,一种方法是根据图像与一组学习的 “原型” 的相似性对图像进行分类 [12]、[53]、[145]、[171]、[248]、[313]。 基于原型的分类也在语言模型中进行了研究 [92]。 这些方法允许模型将其输出归因于一组示例性数据点,从而允许将其决策解释为 “此输入类似于这些其他示例”。
另一种不言自明的人工智能策略是,监督对根据相同内部表示计算的、模型输出的、人类可理解的解释。
[12] 认为解释应该满足三个标准:
[88] 发现,经过对抗性训练的分类器在许多可解释性相关的属性方面表现出改进,包括神经元的特征合成(参见第 III-C 节)。 研究还发现,这些经过对抗性训练的网络可以为迁移学习 [253]、图像合成 [49]、[51]、[256] 以及人类视觉系统建模 [89] 提供更好的表示。 不幸的是,鲁棒性可能与准确性不一致 [282],这可能是由于数据集中的预测性但 “非鲁棒” 特征 [135]。 这使得我们认识到,对抗性示例可以用来帮助理解网络检测和表示的有用或可利用的特征类型 [49]、[51]。
在通过网络的过程中,每一层的激活可以表示为隐空间中的向量。
解纠缠也可以以无人监督的方式完成。
Transformer 架构通过以交替方式将令牌表示传递给注意力层和前馈层来处理数据。 这些架构构建块为研究网络的内部表示提供了独特的机会。
首先,可以研究令牌。 这可以通过直接解释转换器中的标记表示 [84]、[108]、[109]、[169]、[210]、[225] 或分析全连接层如何处理它们 [110]、[210] 来完成。
其次,key-query 产品是在关注层内部计算的,并表示每个内部标记对其他标记的关注程度。
虽然解缠结的目的是使概念与单个神经元保持一致,但分析概念向量的方法是同一问题的事后解决方案。 在这里,目标是将隐空间中的方向与有意义的概念相关联。
给定某种嵌入数据的方式,探测的目标是了解该嵌入是否捕获了某种类型的信息。
DNN 学习的一种间接表征表示的方法是估计其内部表示与另一个 DNN 的内部表示之间的相似性。
可解释性与对抗性稳健性研究密切相关。这两个领域之间存在一些联系,包括非内部可解释性研究的一些结果。
可解释性还与持续学习、模块化、网络压缩以及与人类视觉系统的相似性密切相关。
可解释性技术应该扩展到大型模型。小型网络和简单任务(例如 MNIST 分类 [165])通常用于测试方法。 然而,执行简单任务的简单网络只能部署在有限数量的现实世界设置中,并且有时很容易用其他本质上可解释的非网络模型替换。 因此,一项技术的可扩展性与其实用性密切相关。 例如,胶囊网络 [249] 在 MNIST 分类上取得了令人印象深刻的性能,并且具有卷积网络所缺乏的内在可解释性。 然而,它们的参数效率要低得多,并且迄今为止尚未达到超越 CIFAR-10 [156] 水平的竞争性能,更不用说 ImageNet [245] 水平 [229]。 像这样的方法可能会为未来的工作提供极好的灵感,但如果它们不能适用于大型模型,那么它们对于实际可解释性的直接价值将是有限的。 我们敦促研究人员详细说明计算要求并测试其方法的可扩展性。
可解释性技术产生假设,而不是结论。 仅仅提出看似合理的解释是不够的。 评估有效性和不确定性是关键。 将假设误认为结论是可解释性文献中的一个普遍问题 [178]、[200]、[243]。 考虑解释特定神经元的目标。 有几种方法可以做到这一点(第 3 节)。 然而,如果这种方法表明神经元具有特定的作用,这并不能保证这种解释是完整的并忠实于其真实功能。 通常,看似非常合理的解释不会通过简单的合理性检查 [4],或者很容易找到 [35]、[128]、[221] 的反例。 可解释性方面的大量工作都未能超越简单地检查方法的结果。 需要更多的关注。 可解释性技术只能在帮助用户做出可测试的预测的范围内进行评估。 只有当这些预测得到验证时,它们才能真正有用。 并且解释的有效性仅在进行验证测试的数据分布上被授予——推断解释是有风险的(例如,[35])。 开发评估可解释性技术的具体方法将在稍后第 7 节讨论。
除了有效性之外,量化不确定性也很重要。 理想情况下,解释应与置信度估计配对。 如何衡量确定性取决于现有的方法,但已经使用了一些方法,例如监督解释(例如[123])、进行多次试验(例如[221])、与随机基线比较(例如[127]) ,[237]),与其他简单方法的比较 [4],或搜索解释失败的案例(例如,[25]、[35]、[128])。
择优挑选(Cherry-picking)是有害且普遍的。 方法的评估不应专注于最佳情况的性能。 由于解释 DNN 的固有困难,文献中的许多作品展示了其方法的单独且非常成功的应用,通常是在玩具模型(toy models,可以简化的模型)中。 这对于提供说明性示例或具体见解很有用。 但对可解释性技术的评估不应偏向于其最佳情况的表现。 这样做的一个危险可能是高估了技术的价值。 事实上,一些工作发现某些方法仅在一小部分示例上表现良好(例如,[25]、[35]、[45]、[48]、[85]、[127]、[181] ]、[182]、[196]、[197]、[226]、[289])。
择优挑选的另一个危害可能来自于无法解释复杂子过程的方法的可解释性进展的偏差。 有些方法比其他方法更适合这一点。 例如,将特征的表示归因于神经元的线性组合比将其归因于单个神经元严格来说更为普遍。 DNN 中的某些特征或计算可能比其他特征或计算更容易被人类理解,因此仅用于解释简单子过程的方法可能不适用于研究一般网络。
作品应该评估他们的技术在随机或对抗性采样任务中的表现。 例如,关于表征神经回路的工作不应仅关注于呈现特别易于解释的回路的结果。 它还应该旨在解释回路内部随机或对抗性采样神经元的作用,或找到可以解释网络如何计算随机或对抗性选择的子任务的回路。 如果这样的方法仅在有限的情况下成功,则应明确说明。
理想情况下,可解释性的进步既不应该降低总体性能,也不应该增加某些风险能力。 一方面,可解释的人工智能技术应该保持竞争力。 任务性能下降、偏差增加、计算需求更高或在现代深度学习框架中难以使用等代价的避免是关键。 诸如此类的竞争缺陷可能会导致“价值侵蚀” [67],即不采用更安全、更可解释的人工智能实践,而是采用更具竞争力的方法。
另一方面,可解释性研究带来的某些类型的性能改进也可能是不可取的。 如果可解释性工作使安全相关的监督变得更加困难,那么它们也不应该导致能力的增强。 例如,如果管理不当,通用智能的进步可能会导致严重危害[39]、[59]、[209]、[227]、[246]、[277]。 一种危险的可能性是,可解释性是否是通用能力增强的副产品。 例如,大型语言模型通常可以被提示“解释”它们的推理,但这只是因为它们具有先进的、广泛的领域能力。 实现这一点的另一种方式是,可解释性是否可以通过基本模型洞察力带来能力的进步。 从规避先进人工智能系统风险的角度来看,这两者都不是理想的。 专注于改进可解释性技术而不相应提高能力,这最有可能阻止人工智能的进步超过我们有效监督的能力。 从这个角度来看,我们认为未来可解释性工作的主要目标应该是提高安全性而不是能力。
应该更好地理解可解释性、模块化、对抗鲁棒性、持续学习、网络压缩以及与人类视觉系统的相似性之间的联系。 现代可解释性工作最引人注目的发现之一是它与深度学习中其他范式的联系。 这项调查的中心目标之一是强调这些联系(见第 6 节)。 目前,可解释性与这些其他领域之间的文献交叉点相对较少。 展望未来,对可解释性的跨学科理解可能会带来跨越多个领域的见解和进步。
规模化需要有效的人力监督。 通过最先进的可解释性技术获得的许多解释都涉及一定程度的人类实验和循环创造力。 在某些情况下,需要专家花费大量时间来解释执行非常简单任务的模型或子网络(例如,[45]、[210])。 但如果目标是彻底了解大型系统,人类的参与就必须高效。 理想情况下,人类应该用于筛选解释而不是生成解释。 解决方案可以包括使用主动学习(例如,[103])、弱监督(例如,[34])、使用在人类标记数据上训练的代理模型的隐式监督(例如,[49]、[51])和/或对代理进行严格的统计分析(例如,[127]、[326]),以减少人类参与的需要。 为此,获得具有丰富标记样本的额外高质量数据集(例如[25])可能很有价值。
专注于发现新颖的行为——而不仅仅是分析它们。 许多现有方法只能很好地研究模型在有限环境中的行为。 例如,任何依赖于数据集的可解释性方法都仅限于描述模型在该数据分布上的行为。 但理想情况下,方法不应局限于给定的数据集或在故障模式已知时研究潜在的故障。 例如,一个重要的实际问题是检测攻击性或有害言论,但没有数据集包含所有类型攻击性句子的示例,并且让人类手动指定一个函数来完美识别攻击性和无攻击性语音是很棘手的。 然而,当人类看到攻击性内容时,通常可以轻松识别出来。
这凸显了对允许用户发现可能不在典型数据集中或容易提前想到的故障的技术的需求。 与测试性能等其他评估模型的方法相比,这代表了可解释性方法的独特潜在优势之一。 为此,一些生成子网络抽象理解的内部可解释性方法已被证明是有用的(例如,[68]、[125]、[197]、[208]、[257]。然而,基于合成对抗性示例的方法可以提供一种特别通用的方法来发现新的故障模式(例如,[49]、[51]、[116]、[292])。
可解释性工作可能有助于更好地理解表示的收敛学习。 一些工作假设相似的特征或概念往往出现在不同的模型实例或架构中[221]、[300]。 更好地理解系统学习相似概念的程度将导致对它们的表示以及我们应该期望它们如何解释有更基本的理解。 如果这些假设成立,深入解释一个模型更有可能产生可推广的见解。 测量神经网络之间表征相似性的持续工作(参见第 5-G 节)可能非常适合在实现这一目标方面取得进展。
“机制解释性”和“显微镜 AI”是雄心勃勃但可能非常有价值的目标。 可解释性研究的一个方向是机制可解释性,旨在获得对 DNN 计算的算法级别的理解。 这可以通过将 DNN 转换为某种形式的人类可理解的伪代码来操作 [95]。 这与显微镜 AI 的目标有关,显微镜 AI 是指通过彻底解释高性能 AI 系统来获得领域洞察力 [133]。 这些功能将具有优势,包括预测反事实行为和逆向工程模型。 到目前为止,通过使用小模型、简单任务和人类专家的细致努力,实现这一目标的尝试数量有限,并取得了一些成功 [45]、[85]、[210]、[286]。 通过使用程序综合和分析技术来自动生成和验证假设,未来这一方向的工作可能会受益。
检测欺骗并获取潜在知识对于先进系统可能很有价值。 尽管系统有能力传递真实且完整的信息,但如果它沿某些通信渠道(例如,向人类)传递虚假或不完整的信息,则该系统具有欺骗性。 相关地,潜在知识 [60] 是系统“知道”但没有表现出知道的迹象。 例如,在某些情况下,语言模型可能会胡言乱语地提出常见的误解,例如“ 蝙蝠是瞎的”,尽管 “知道” 这是错误的。 像这样的隐藏知识可能会导致欺骗行为。 作为一个例子,[60] 讨论了一个系统,该系统故意和欺骗性地操纵人类看到的观察结果来监控它。 在这种情况下,关于观察的真实性质的知识是潜在的。
能够表征欺骗行为和潜在知识,通过让人类知道模型何时可能不值得信任,对更安全的高度智能人工智能具有明显的影响。 但这可能很困难,原因有几个,包括(1)根据定义,欺骗行为和潜在知识不能通过单独观察模型的部署行为来确定,(2)人类使用的特征/概念与模型之间的任何不匹配都需要一种本体(ontology)翻译方法, (3)目前还不清楚人类能够在多大程度上解释在某些任务上超人的人工智能系统。 然而,内部可解释性方法通过仔细检查模型计算图中可能处理潜在知识的部分,为这些挑战提供了一种独特的方法。 探索已显示出这方面的潜力[42]。
需要严格的基准。 理想情况下,他们应该衡量方法对于产生与工程师相关的有用见解的帮助程度。 这些可能涉及重新发现网络中已知的缺陷。 DNN 的可解释性工作是通过多种技术完成的,但并非所有技术都有相同的最终目标。 例如,一些方法旨在解释 DNN 如何处理单个输入,而另一些方法则旨在对其进行更普遍的理解。 由于这些原因,加上技术的快速发展,广泛接受的可解释性基准尚不存在。 这可能是进一步进展的限制。 基准测试成功推动巨大进步的一个众所周知的例子是 ImageNet [245] 如何激发监督图像分类的工作。
对可解释性方法的最弱评估形式是其仅建议特定特征的能力。 例如,如果使用特征合成来可视化神经元,那么让人类查看可视化并说 “这看起来像 X” 是得出神经元是 X 检测器的令人担忧的基础。 这会将假设与结论混为一谈。 一种更严格的评估方法是做出简单的可测试预测并验证它。 例如,假设的 X 检测器对于包含 X 的输入比不包含 X 的输入更可靠地激活。 另一个例子是,使用某种方法是否可以提高可解释性的定量代理(例如,[127])。 这种方法很有价值,但仍然不理想。
可解释性工具的最终目标应该是提供有效且有用的见解,因此评估它们的方法应该衡量它们指导人类使用模型做有用事情的能力。 换句话说,可解释性工具应该对工程师有用,特别是那些想要诊断和调试模型的工程师。 一些工作已经在这方面取得了进展。 例子包括设计新颖的对抗(例如,[42]、[47]、[49]、[51]、[107]、[125]、[135]、[137]、[164]、[208]、[302 ],[327]),手动编辑网络以重新调整其用途或引起可预测的行为变化(例如,[27],[68],[111],[197],[303]),或对使用可解释性技术的系统进行逆向工程 (例如,[45]、[84]、[210])。
[134] 建议的一种易于处理的基准测试方法是通过可解释性技术帮助人类发现对抗在模型中植入的缺陷的能力来评估可解释性技术。 通过技术如何帮助人类重新发现这些缺陷来判断技术,将比临时评估方法更直接地衡量其实际有用性。 特征归因方法的相关技术已被争论 [129] 并使用 [5]、[23]、[74],但尚未普及。 在知名场所或平台举办的植入和重新发现缺陷的竞赛(例如 [193])可能是推动技术和基准测试进步的有用方法。
组合技术可能会带来更好的结果。 可解释性技术通常可以组合起来。 例如,几乎任何内在方法都可以与几乎任何事后方法一起使用。 然而,可解释性方面的绝大多数工作都集中在单独研究它们。 研究方法之间的相互作用相对尚未被探索。 一些作品已经确定了有用的协同作用(例如,[88]、[303]),但据我们所知,没有任何作品致力于彻底研究不同方法之间的相互作用。 我们希望新的基线和对严格可解释系统的需求增加将进一步激励以结果为导向的可解释性工作。
考虑一个例子。 ImageNet 基准测试非常有效地提升了 2010 年代图像分类性能的最新水平。 在此期间,分类性能的改进不是由于单一技术,而是突破性的组合 - 批量归一化、残差连接、初始模块、更深层次的架构等。同样,我们不应该期望在不结合方法的情况下最好地提高与可解释性相关的能力。
应用可解释性技术进行野外调试和消除偏差。 努力应用可解释性工具来发现现实世界模型的问题(例如 [61])既有助于发现后续应用中的问题,也有助于测试方法以了解哪些方法可能最实际有用。 在此过程中,研究人员应对机器学习中使用的道德框架持批评态度,特别是它们如何偏离人们的利益,特别是弱势群体,他们可能是受这些技术影响最严重的人[31]。
扩大可解释性领域。 人工智能系统的许多道德或安全问题可以通过工具来减少,以更好地了解模型如何做出决策以及它们如何可能失败。 因此,我们认为,可解释性不应被视为单独的兴趣,而应被视为在重要环境中部署的系统的要求。 如上所述,一条引人注目的前进道路是通过基准测试和竞争。 有一些乐观的理由。 该领域正在日趋成熟,许多技术现已证明其在实际洞察和调试方面的价值。 尽管它们是我们这里的重点,但我们强调,内部可解释性方法并不是提高人工智能安全性的唯一有价值的方法。
向工程学的范式转变。 目前,可解释性研究几乎没有产生在现实世界中有用的工具和见解。 能够严格研究 DNN 学习到的解决方案似乎具有使 DNN 更安全的重要潜力,但它们目前很少用于评估或工程应用。 如上所述,文献中的作品经常将假设视为结论 [178]、[200]、[243],而未能将方法与有用的应用联系起来。 一定数量的探索性工作对于产生见解显然很有价值,并且应该继续下去。 但该领域尚未产生许多在实际应用中具有竞争力的方法。 可解释性工作的动机是 “多样且不一致的” [178],而正如文献中所使用的,该术语本身 “在应用于算法时缺乏精确的含义” [155]。 我们与 [79]、[243]、[200] 和 [155] 一起呼吁在有意义的应用程序中建立可解释性的基础。 如果可解释性工具最终是为了帮助工程师诊断和调试 DNN,那么该领域应该基于此来设计和评估方法。
我们认为,展望未来,该领域最紧迫的变化是专注于生产对工程师有用的工具。 为了更好地实现人性化人工智能的可解释性工作的潜力,一个更加深思熟虑、跨学科和以应用为中心的领域将非常重要。 进行更多强调诊断、调试、对手、基准测试以及利用不同可解释性工具的有用组合的研究将是有价值的。
Räuker T, Ho A, Casper S, et al. Toward transparent ai: A survey on interpreting the inner structures of deep neural networks[C]//2023 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML). IEEE, 2023: 464-483.
解释 AI 有助于构建可信 AI。尤其是专注于解释 DNN 内部组件的 “内部” 可解释性技术, 非常适合发展机制理解、指导手动修改和逆向工程。
本文重点关注内部可解释性,主要贡献有:
持续学习或避免灾难性遗忘:训练能够学习新任务而不忘记旧任务的系统。原理:基于专门针对特定类型输入数据的权重,对某些数据的更新比其他数据要多。
可通过权重掩模,以确定哪些权重对于哪些任务至关重要。
解释权重的一个困难在于,许多权重通常对网络来说并不重要。网络通常可以被修剪以包含其原始权重的一小部分,而性能几乎没有损失(尽管有时需要微调)。
与基于权重的持续学习方法不同,基于神经元的连续学习方法通常依赖于在遇到新任务时向架构添加新神经元。
表征单个神经元作用的一种简单方法是使用数据集来分析它们响应哪些类型的输入,例如,解剖。
琐碎神经元有两种:可修剪神经元(可以通过消融从网络中删除)和冗余神经元(可以通过重构权重矩阵删除)。可通过网络压缩消除这些对网络无贡献的神经元。
稀疏化可大幅度减少权重数量,同时几乎不会对性能造成影响。然而,虽然稀疏性简化了子网络的分析,但它可能不会提高单个神经元的可解释性。
模块化是工程系统的常见原则,允许通过单独分析模型的各个部分来理解模型。
自解释 AI 系统旨在以类似于人类提供内部推理的方式提供解释。
解纠缠:神经元和可解释概念建立双射关系,通过研究隐向量识别特征。
给定数据的嵌入,探测利用迁移学习来测试嵌入是否携带有关目标任务的信息。
DNN 学习的一种间接表征表示的方法是估计其内部表示与另一个 DNN 的内部表示之间的相似性。
可解释性与对抗性稳健性正相关。
可解释性还与持续学习、模块化、网络压缩以及与人类视觉系统的相似性密切相关。
可解释性技术产生假设,而不是结论。仅仅提出看似合理的解释是不够的。评估有效性和不确定性是关键。
择优挑选(Cherry-picking)是有害且普遍的。方法的评估不应专注于最佳情况的性能,而应该评估在随机或对抗性采样任务中的表现。
理想情况下,可解释性的进步既不应该降低总体性能,也不应该增加某些风险能力。专注于改进可解释性技术而不相应提高能力,这最有可能阻止人工智能的进步超过我们有效监督的能力。
规模化需要有效的人力监督。理想情况下,人类应该用于筛选解释而不是生成解释。
可解释性工作可能有助于更好地理解表示的收敛学习。 一些工作假设相似的特征或概念往往出现在不同的模型实例或架构中。
检测欺骗并获取潜在知识对于先进系统可能很有价值。潜在知识是系统“知道”但没有表现出知道的迹象。这样的隐藏知识可能会导致欺骗行为。能够表征欺骗行为和潜在知识,通过让人类知道模型何时可能不值得信任,对更安全的高度智能人工智能具有明显的影响。