FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analys

目录

  • 笔记
  • 后续的研究方向
  • 摘要
  • 引言
    • 贡献

FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analysis
CCS 2023

FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analys_第1张图片

笔记

本文提出了一个名为FINER的框架,用于风险检测分类器,以生成高保真度和高可理解性的解释。该框架旨在解决深度学习分类器缺乏透明度的问题,这使得安全专家难以理解分类器决策背后的原因。FINER 的主要思想是收集模型开发人员、特征归因 (FA) 设计师和安全专家的解释工作。为了提高保真度,分类器使用解释引导的多任务学习策略进行了微调。为了提高可理解性,任务知识用于调整和集成 FA 方法。该框架在三个最先进的风险检测分类器上进行了评估,并显示出解释质量的显着提高。该文件还强调了可解释风险检测系统(ERDS)的重要性,并提供了ERDS及其组件的正式化。本文的贡献包括ERDS形式化的提出,FINER框架的实施,以及FINER对不同风险检测任务和FA方法的评估。

大意:

  • 深度学习分类器在风险检测应用程序中解释其决策时缺乏透明度。
  • 特征归因 (FA) 方法可用于解释深度学习,但它们在解释保真度和可理解性方面存在局限性。
  • 提出FINER框架,以增强具有高保真度和高可理解性解释的风险检测分类器。
  • FINER 收集了模型开发人员、FA 设计人员和安全专家的解释工作。
  • 为了提高保真度,分类器使用以解释为导向的多任务学习策略进行了微调。
  • 为了提高可理解性,任务知识用于调整和集成 FA 方法。
  • 在三个最先进的风险检测分类器上对 FINER 进行了评估,并显示出解释质量的显着提高。
  • 本文还提供了可解释风险检测系统(ERDS)及其组件的形式化。
  • 本文的贡献包括ERDS形式化的提议,FINER框架的实施,以及FINER对不同风险检测任务和FA方法的评估。

后续的研究方向

  1. 探索新的解释方法:本文提到现有的特征归因方法在不同的应用中可能表现不佳。未来的工作可以集中在开发专门针对不同安全分析任务的新解释方法,提高保真度和可理解性。

2.解释正常样本:本文主要侧重于解释异常样本进行风险检测。但是,解释正常样本可能有利于模型调试和移位适应等任务。未来的工作可以研究正常样本的解释的发展及其在不同安全应用中的有用性。

  1. 抵御攻击的鲁棒性:本文承认 ERDS 可能容易受到分类器和解释器上的规避/后门攻击。未来的工作可以探索ERDS对这些攻击的性能,并开发平衡鲁棒性与分类和解释准确性的防御机制。

  2. 人类受试者评估:本文提到了对 ERDS 进行系统性人体受试者评估的挑战。未来的工作可以侧重于开发加强评估过程的方法,例如利用用户对模型输出/故障的预测,以及为不同的安全应用设计研究后问卷。

  3. 与其他安全应用程序的集成:本文提到了其他几个可以利用解释的安全应用程序,例如审查恶意软件标签和指导公平性测试。未来的工作可以探索将这些应用程序与ERDS集成,以开发更强大和全面的安全系统。

  4. 泛化到不同领域:本文重点解释特定领域中的风险检测分类器(例如,Android 恶意软件检测、Windows 恶意软件检测)。未来的工作可以研究FINER框架对不同数据域的泛化,并探索其在其他安全域中解释分类器的有效性。

摘要

深度学习分类器在各种风险检测应用中实现了最先进的性能。它们探索丰富的语义表示,并应该自动发现风险行为。然而,由于缺乏透明度,行为语义无法传达给下游安全专家,以减少他们在安全分析中的繁重工作量。尽管特征归因(FA)方法可以用来解释深度学习,但底层分类器仍然对什么行为是可疑的视而不见,并且生成的解释不能适应下游任务,导致解释的保真度和可理解性较差。

在本文中,我们提出了FINER,这是风险检测分类器生成高保真度和高清晰度解释的第一个框架。高级思想是收集模型开发人员、FA设计者和安全专家的解释工作。为了提高保真度,我们使用解释引导的多任务学习策略对分类器进行微调。为了提高可理解性,我们利用任务知识来调整和集成FA方法。广泛的评估表明,FINER提高了风险检测的解释质量。此外,我们证明了FINER在促进恶意软件分析方面优于最先进的工具。

引言

基于深度学习(DL)的分类器在风险检测阶段显示出巨大的潜力。它们自动化了大规模检测,并对不同的风险类型实现了相当大的准确性,包括移动恶意软件[8,33,48,52]、代码漏洞[14,39,40],以及网络入侵[23,25]。然而,当进入安全性分析阶段时,这些分类器不能满足要求,因为它们只生成预测标签。这个问题非常严重,因为安全专家需要积极应对检测到的风险。在不知道每次检测的原因的情况下,考虑到检测到的大量风险[10]和风险分析的繁琐工作量[46],他们将面临极其困难的任务。

为了解释基于DL的决策,特征归因(FA)方法有望与各种模型架构兼容[32]。FA方法在经过训练的分类器上工作,并为单个输入的每个特征分配重要性分数。图像分析中的一个成功应用被称为显著性图[4],其中重要像素在图像上被视觉突出显示,供人类用户检查。受成功的激励,先前的工作试图用同样的方法解释风险检测分类器,但发现解释的保真度较低[77]。尽管已经提出了一些安全定制的FA方法来提高保真度[78],但它们是特定于任务的,因为它们为特定领域的通用方法添加了直观的约束。例如,LEMNA[27]考虑了与LIME[57]相同的黑盒设置,但在处理特征依赖性方面与之不同,这主要在基于递归神经网络(RNN)的应用中观察到,例如,函数启动检测[67]。不出所料,正如我们在第5节中的实验所验证的那样,它们需要更多的计算成本,而保真度的提高是有限的/在其他任务中不成立。

解释数据驱动的风险检测分类器更具挑战性。首先,保真度问题源于使用特定数据表示的分类器的多样性(如表1所示)。例如,为了表示二进制程序,提取的特征可以是操作码、API或手工编制的统计数据的长序列[2];当编码到向量空间中时,数据可以是大尺寸的,并且在形状和分布上具有很大的变化。其次,模型特征和可操作理解之间的语义差距导致了一个被忽视的可理解性问题。如图2所示,数据驱动的恶意软件分类器探索本质上难以读取的低级语言(即字节码),并且单个特征(即操作码)不能作为恶意的基本单元。在这种情况下,FA的每个特征的解释风格对于帮助安全专家进行安全分析是不深刻的。

在本文中,我们从可解释风险检测系统(ERDS)的角度来解决保真度和可理解性问题。具体来说,ERDS的最终目标是通过解释来促进安全分析,它由一个数据驱动的分类器和一个基于FA的解释器组成。我们的设计基于两种直觉。首先,分类器应该是ERDS的主要代理,高保真度解释取决于其合理的决策边界[59]。例如,风险检测应该与语义特征相关联而不是工件[7],这是下游解释工作(例如,定制FA以处理特征依赖性)有效的先决条件。其次,安全专家应该是ERDS的消费者,可理解性依赖于他们对特定任务的需求,以抽象出低级解释。例如,由于恶意功能是恶意软件分析师的可消费解释[21],因此应调整具有基于操作码特征分类器的ERDS,以生成功能级解释。

我们提出了一个名为FINER的框架,将数据驱动的风险检测分类器推广到ERDS中,为安全分析生成有用的解释。为了提高保真度,我们为风险样本设计了一种解释引导的数据增强策略,并在多任务学习中利用它来微调分类器。为了提高可懂度,我们在可懂度分量(IC)的水平上定义了任务感知解释,并相应地将保真度度量调整为集成不同的FA方法。具体而言,FINER有一个参与任务知识的接口,以及三个模块(即解释引导的模型更新、任务感知的解释生成和解释质量测量),以构建具有更具可解释性的分类器和更具适应性的解释器的ERDS。解耦的体系结构还支持不同利益相关者在构建ERDS的不同阶段的需求。

我们将FINER应用于三种最先进的风险检测分类器,目标任务包括Android恶意软件检测[49]、Windows恶意软件检测[21]和漏洞检测[37]。分类器分别在14K应用程序、48K二进制文件和32K小工具上进行训练,解释器由六种具有代表性的FA方法组成,包括白盒方法[68,69,71]和黑盒方法[27,42,57]。结果表明,FINER显著提高了ERDS在所有分类器和解释场景中的解释保真度。更新模块在没有准确性权衡的情况下有效地提高了模型的可解释性(根据分类器从21.28%提高到82.05%),并且集成模块实现了比基线更高的解释保真度(根据场景从10.12%提高到17.00%)。我们还展示了FINER在恶意功能本地化任务中的性能优于最先进的工具。

贡献

我们提出了ERDS的形式化,以建立安全分析的解释需求。我们建议通过解释引导的模型更新和基于IC的解释集成来解决保真度和可懂度问题。

我们实现了框架FINER,以将数据驱动的风险检测分类器提升为具有高保真度和高清晰度解释的ERDS。FINER可以在构建ERDS的每个阶段满足不同利益相关者的需求,我们将数据集和代码开源https://github.com/e0hyl/finer-explain。

我们用三个关键风险检测任务和六个有代表性的FA方法评估了FINER,表明在所有ERDS设置中,即分类器和解释器的不同组合中,解释保真度都得到了提高。我们还证明了FINER在本地化恶意软件功能方面优于最先进的工具。
FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analys_第2张图片
FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analys_第3张图片
FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analys_第4张图片
FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analys_第5张图片
FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analys_第6张图片
FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analys_第7张图片

你可能感兴趣的:(CCS,2023,网络,人工智能)