Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T

目录

  • 笔记
  • 后续的研究方向
  • 摘要
  • 引言
    • 贡献

Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based Testing
CCS 2023

Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T_第1张图片

笔记

本文讨论了深度学习模型局部解释方法的评估。作者强调了由于深度学习模型高度非线性而难以理解其决策。这种缺乏理解导致了局部解释方法的发展,以解释模型决策。然而,作者发现,对这些解释方法的忠实性的传统测试遇到了随机优势问题,其中随机选择表现最好,特别是对于复杂数据。为了解决这个问题,作者提出了三种基于趋势的忠诚度测试,并证明这些测试可以比传统测试更好地评估各种任务的忠诚度。作者实施了评估系统,对10种流行的解释方法进行了评价,表明趋势检验首次能够评估复杂数据上的解释方法。作者还表明,配备忠实解释方法的模型调试在检测和纠正准确性和安全性问题方面表现更好。本文的主要贡献是趋势检验的发展,识别了先前评估方法的局限性,并证明了趋势检验在推荐更忠实的模型调试解释方法方面的有效性。

大意:

  • 深度学习模型由于其非线性而难以理解。
  • 已经开发了局部解释方法来解释模型决策。
  • 传统的解释方法真实性测试会遇到随机优势问题。
  • 作者提出了三种基于趋势的忠诚度测试来解决这个问题。
  • 趋势测试可以比传统测试更好地评估各种任务的忠诚度。
  • 使用忠实解释方法进行模型调试,在检测和纠正准确性和安全性问题方面表现更好。

后续的研究方向

  1. 探索趋势测试在其他领域的应用:目前的研究侧重于图像分类任务,但趋势测试可以应用于其他领域,如自然语言处理、时间序列分析或社交网络分析。研究趋势测试在这些领域的有效性可以为解释方法的忠实性和稳健性提供有价值的见解。

  2. 开发新的趋势检验:虽然目前的研究提出了三种趋势检验,但可能还有其他方法可用于评估已知数据或模型与解释方法之间趋势的一致性。开发新的趋势测试,可以对解释方法提供更准确和可靠的评估,这将是未来研究的一个有趣方向。

  3. 调查不同类型对抗性攻击的影响:目前的研究重点是解释方法对对抗性扰动的鲁棒性。但是,存在不同类型的对抗性攻击,例如数据中毒攻击或模型反转攻击,也可能影响解释方法的忠实度。探索这些攻击的影响并制定对策可以提高解释方法的安全性和可信度。

  4. 将趋势测试集成到模型开发过程中:趋势测试可以为解释方法的忠实性和稳健性提供有价值的见解。将趋势测试集成到模型开发过程中可以帮助研究人员和从业者选择更好的解释方法,并建立更安全、更可信的模型。研究如何将趋势测试纳入模型开发管道将是未来研究的一个实用且有影响力的方向。

  5. 评估不同解释方法对用户信任和决策的影响:虽然目前的研究侧重于解释方法的技术方面,但研究不同解释方法对用户信任和决策的影响是有价值的。进行用户研究以评估不同解释方法在真实场景中的有效性和可用性,可以深入了解如何设计解释方法以增强用户对人工智能系统的理解和信任。

摘要

在享受深度学习(DL)带来的巨大成就的同时,人们也对DL模型的决策感到担忧,因为DL模型的高度非线性使决策极难理解。因此,对抗性攻击等攻击很容易实施,但很难检测和解释,这导致了用于解释模型决策的局部解释方法的研究热潮。在本文中,我们评估了解释方法的可信度,发现传统的可信度测试遇到了随机优势问题,即随机选择表现最好,尤其是对复杂数据。为了进一步解决这个问题,我们提出了三种基于趋势的忠诚度测试,并实证证明,在图像、自然语言和安全任务方面,新的趋势测试比传统测试更能评估忠诚度。我们实施了评估系统,并对十种流行的解释方法进行了评估。得益于趋势测试,我们首次成功评估了复杂数据的解释方法,带来了前所未有的发现,也启发了未来的研究。下游任务也从测试中受益匪浅。例如,配备了忠实解释方法的模型调试在检测和纠正准确性和安全性问题方面表现得更好。

引言

在过去的十年里,随着深度学习(DL)领域的快速发展,数据驱动方法引起了人们的广泛关注。它们在许多领域都取得了巨大进展,包括计算机视觉[20,35]、语音识别[17,56]、自然语言处理[50,57]等。数据驱动方法的主要好处之一是,无需了解理论,机器学习算法就可以单独使用数据来分析问题。然而,另一方面,如果没有理论,DL模型很难解释。研究人员也无法理解DL模型为什么会做出决定。一个众所周知的问题是对抗性例子(AE),它通过向自然数据中添加人类无法察觉的扰动来误导DL模型[16]。这些扰动是人类无法察觉的,但会影响模型的决策。为了填补模型决策和人类认知之间的空白,研究人员开发了各种技术来解释预测结果[47,52,53]。显然,一种理想的技术应该以人类可以理解和忠于模型的方式解释模型的预测[29,63]。也就是说,解释应该对人类有意义,并与模型在被预测实例附近的行为相对应。深度学习模型的风险进一步推动了解释方法的发展,这些方法被广泛用于构建安全可信的模型[10],如模型调试[4,66]、理解DL模型的攻击[51,59]和防御[46]。

在本文中,我们从理论上和实验上比较了流行的局部解释方法。具体来说,我们实现了十种典型的比较方法。图1比较了利用VulDeePecker数据集[38]训练的漏洞检测模型上的显著性图[53]、综合梯度[55]和LIME[47]的结果。第二行中“wcscpy”的贡献在三种解释方法中有所不同。在图1(b)中,“wcscpy”具有正贡献,而在图1(c)中,“wcscpy”具有负贡献。在图1(d)中,“wcscpy”几乎没有任何贡献。可以观察到,不同解释方法的结果之间的相似性很小。因此,非常需要评估解释方法的忠实性,这也是极具挑战性的。主要困难在于缺乏基本事实,当代评估无法准确确定解释与模型预测的一致性。这些方法中的大多数都依赖于假设来评估对更重要特征施加的扰动可以对模型预测产生更大变化的解释。然而,这一假设有一个显著的局限性,破坏了诚信评估。这个极限被称为随机优势。

模型解释中的随机优势。以评估方法-特征减少[9,11,19,61]为例,其中当删除输入的重要特征时,测量预测得分的差异。在图2中,按显著性删除输出(图2(b))将预测得分降低72.33%,删除综合梯度的输出(图2中(c))将得分降低72.39%。图2显示了删除重要特征后的剩余特征。从结果来看,两种方法标记的重要特征非常不同,但两种方法的预测得分都下降了很多。令人惊讶的是,如果我们随机删除20%的输入(图2(d)),分数可以减少88.13%,甚至比两种解释方法都要大。随机方法从来都不是一个好的解释。

为了解决这个问题,我们设计了三种新的解释评估趋势测试:带后门测试的进化模型(EMBT)、部分触发测试(PTT)和进化模型测试(EMT)。我们没有破坏重要的特征,而是逐渐发展模型或样本,并形成一系列测试对⟨, ⟩.它使模型和样本保持分布,因为模型在进化过程中可以不断地从样本中学习,并且样本的进化被限制在模型的认知范围内。我们使用概率和损失函数作为指标来量化模型行为,然后计算与解释结果的相关性。基于这些趋势,我们执行通过趋势检验和传统检验对各种解释方法进行广泛的评价和分析。具体而言,我们探讨了以下研究问题:

RQ1:传统测试的效果如何?趋势测试与传统测试相比有什么优势?(见第4.2节)

RQ2:哪些因素影响解释方法的忠实性?(见第4.3节)

RQ3:当使用趋势测试选择的解释方法时,模型调试等下游应用程序是否工作得更好?(见第5节)

通过评估,我们有机会评估解释方法,并获得前所未有的发现。我们发现,所有的解释方法似乎都无法处理复杂的数据,正如传统的评估测试所表明的那样。然而,我们新设计的测试报告称,一些方法(例如,积分梯度[55]和积分平滑梯度平方[54,55])可以很好地工作。原因主要是由于传统测试中存在的随机优势问题,导致评估报告的结果错误。此外,与数据复杂性相比,模型复杂性对解释方法的忠实性似乎不那么重要;但是解释方法所使用的参数是必不可少的。一些研究人员赞成那些可以(对人类)产生更多可解释特征但忽视忠诚度的参数。我们的趋势测试可以通过从候选参数中建议最合适的参数来解决这个问题,从而获得最佳的忠诚度。此外,趋势测试适用于各种任务的多种类型的模型,如图像、自然语言、安全应用程序等。最后,我们使用流行的下游应用程序模型调试来演示趋势测试的有效性。对于给定的DL模型,趋势测试推荐具有更高忠诚度的解释方法,以更好地调试模型,使其安全可靠。

贡献

我们开发了三种新的趋势测试(EMBT、PTT和EMT)来处理随机优势问题。实验证明,它们在衡量解释方法的可信度和消除随机优势问题方面是有效的。所有代码和完整版本都已发布,以供进一步研究:https://github.com/jenniferho97/xai-trend-test.

通过实验,我们确定了以往评估方法的局限性,并量化了多个因素(即数据复杂性、模型复杂性、参数)对解释结果的影响。

我们证明,趋势测试可以为模型调试推荐更忠实的解释方法,从而更好地检测DL模型中的虚假相关性。
Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T_第2张图片
Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T_第3张图片
Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T_第4张图片
Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T_第5张图片
Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T_第6张图片
Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T_第7张图片
Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based T_第8张图片

你可能感兴趣的:(CCS,2023,人工智能,安全)