Machine Unlearning: A Survey

这是一个新方向,机器遗忘。针对《Machine Unlearning: A Survey》的翻译。

机器遗忘:综述

  • 摘要
  • 1 引言
    • 1.1 机器遗忘的动机
    • 1.2 这篇综述的贡献
    • 1.3 与现有机器遗忘综述的比较
  • 2 前言
    • 2.1 机器遗忘的定义
    • 2.2 机器遗忘的目标
    • 2.3 机器遗忘的需求
  • 3 遗忘与验证机制分类
    • 3.1 遗忘分类
      • 3.1.1 数据重组
      • 3.1.2 模型操纵
    • 3.2 验证机制
      • 3.2.1 实证评估
      • 3.2.2 理论计算
  • 4 数据重组
    • 4.1 基于数据混淆的重组
      • 4.1.1 基于数据混淆的遗忘机制
      • 4.1.2 基于数据混淆的验证机制
    • 4.2 基于数据修剪的重组
      • 4.2.1 基于数据修建的遗忘机制
      • 4.2.2 基于数据修建的验证机制
    • 4.3 基于数据替换的数据重组
      • 4.3.1 基于数据替换的遗忘机制
      • 4.3.2 基于数据替换的验证机制
    • 4.4 数据重组的总结
  • 5 模型操纵
    • 5.1 基于模型转换的操纵
      • 5.1.1 基于模型转换的遗忘机制
      • 5.1.2 基于参数转化的验证机制
    • 5.2 基于模型修剪的操纵
      • 5.2.1 基于模型修剪的遗忘机制
      • 5.2.2 基于模型修剪的验证机制
    • 5.3 基于模型替换的操纵
      • 5.3.1 基于模型替换的遗忘机制
      • 5.3.2 基于模型替换的验证机制
    • 5.4 模型操纵的总结
  • 6 开放问题与未来方向
    • 6.1 开放问题
      • 6.1.1 遗忘解决方案的普遍性
      • 6.1.2 机器遗忘的安全性
      • 6.1.3 机器遗忘的验证
      • 6.1.4 机器遗忘的应用
    • 6.2 未来方向
  • 7 结论

摘要

机器学习已经引起了广泛的关注,并发展成为一种使能技术,用于广泛的高度成功的应用,如智能计算机视觉、语音识别、医疗诊断等。然而,由于隐私、可用性和/或被遗忘权,一些特定样本的信息需要从称为机器遗忘的模型中删除,这就产生了一种特殊的需求。这项新兴技术因其创新性和实用性而引起了学术界和工业界的极大兴趣。与此同时,这个雄心勃勃的问题导致了许多旨在应对其挑战的研究工作。据我们所知,没有任何研究分析过这一复杂的主题,也没有比较过现有的遗忘解决方案在不同场景下的可行性。因此,通过这项调查,我们旨在了解遗忘技术的关键概念。现有的解决方案根据其特点进行分类和总结,并对每个类别的优势和局限性进行最新的全面审查。综述最后强调了遗忘技术的一些突出问题,以及新研究机会的一些可行方向。

1 引言

1.1 机器遗忘的动机

1.2 这篇综述的贡献

1.3 与现有机器遗忘综述的比较

2 前言

2.1 机器遗忘的定义

2.2 机器遗忘的目标

2.3 机器遗忘的需求

3 遗忘与验证机制分类

3.1 遗忘分类

3.1.1 数据重组

3.1.2 模型操纵

3.2 验证机制

3.2.1 实证评估

3.2.2 理论计算

4 数据重组

4.1 基于数据混淆的重组

4.1.1 基于数据混淆的遗忘机制

4.1.2 基于数据混淆的验证机制

4.2 基于数据修剪的重组

4.2.1 基于数据修建的遗忘机制

4.2.2 基于数据修建的验证机制

4.3 基于数据替换的数据重组

4.3.1 基于数据替换的遗忘机制

4.3.2 基于数据替换的验证机制

4.4 数据重组的总结

5 模型操纵

5.1 基于模型转换的操纵

5.1.1 基于模型转换的遗忘机制

5.1.2 基于参数转化的验证机制

5.2 基于模型修剪的操纵

5.2.1 基于模型修剪的遗忘机制

5.2.2 基于模型修剪的验证机制

5.3 基于模型替换的操纵

5.3.1 基于模型替换的遗忘机制

5.3.2 基于模型替换的验证机制

5.4 模型操纵的总结

6 开放问题与未来方向

在本节中,我们将分析机器遗忘的当前和潜在趋势,并总结我们的发现。此外,我们确定了几个尚未解决的研究方向,这些方向可以用来推进机器遗忘的基础,并塑造人工智能的未来。

6.1 开放问题

随着研究的不断发展,机器遗忘可能会在以下领域进一步扩展,这一潜在趋势已经开始形成。

6.1.1 遗忘解决方案的普遍性

需要探索兼容性更高的遗忘方案。随着开发的进展,在各个领域已经提出了支持不同模型和遗忘数据类型的机器遗忘方案。例如,张等人在图像检索中提供了一种遗忘方案,而陈等人则考虑了图遗忘问题。然而,目前的大多数遗忘方案仅限于特定情况。它们主要是为了利用特定学习过程或训练计划的特殊特征。尽管为每个模型设计一个适当的遗忘方案是可行的,但这是一种低效的方法,需要许多手动干预。
因此,通用性遗忘方案不仅应适用于不同的模型结构和训练方法,还应适用于各种类型的训练数据集,如图、图像、文本或音频数据。基于数据修剪的方案是一种现有的有效方法,可以基于集成学习技术实现通用性遗忘目的。然而,这种方法在某些场景中打破了相关性关系,不适合需要相关性信息来完成训练的模型。

6.1.2 机器遗忘的安全性

遗忘计划应确保任何数据的安全性,尤其是未学习的数据集。最近,现有研究表明,遗忘操作不仅没有降低用户隐私泄露的风险,反而增加了这种风险。这些攻击方案主要比较遗忘过程前后的模型。因此,成员推断攻击或中毒攻击将揭示大量关于未学习样本的详细信息。为了对抗这种攻击,Neel等人在他们的遗忘方案中提出了一种基于高斯扰动的保护方法。
此外,许多先前的遗忘方案依赖于剩余的数据集,即中间缓存模型的参数。然而,他们没有考虑这些中间信息的安全性,也没有考虑攻击是否会恢复有关未学习样本的任何信息。因此,进一步的遗忘方案的设计需要考虑,任何之前和之后的模型都不应暴露任何需要遗忘的样本信息。此外,还需要研究在遗忘过程中缓存的数据的安全性。

6.1.3 机器遗忘的验证

验证方法应易于实施,并适用于用户。大多数当前的简单验证方案,如基于攻击、重新学习时间和准确性的方案,都是从现有的学习或攻击度量中得出的。这些片面的方法很少能有力地验证遗忘过程的有效性。同时,有理论保证的遗忘方法通常基于丰富的假设,很少适用于复杂的模型,因为复杂的深层模型通常会使这些假设无效。此外,这些验证方案不便于用户使用,也不易于实施。
因此,验证方案应该考虑可行性和可接受性,即用户应该能够通过一些简单的操作来理解和验证他们的遗忘请求是否已经完成。已经有一些相关的方案,例如[44]中基于后门的验证机制和[111]中基于加密的验证方案。然而,这些方案对于普通用户来说仍然相当困难。因此,一个易于实现和理解的验证方案是一个值得研究的课题。

6.1.4 机器遗忘的应用

在促进个人数据隐私的同时,机器遗忘也逐渐成为其他应用的解决方案。法规和隐私问题导致需要允许经过训练的模型忘记其一些训练数据。除此之外,还有其他几种情况下,高效的机器遗忘将是有益的。例如,它可以用于加速遗漏一个交叉验证的过程,删除对抗性或中毒性样本,并在模型中识别重要和有价值的数据样本。截至目前,已经出现了一些相关的应用。例如,Alexander等人提出了一种可用于解决公平问题的特征遗忘方案。
同时,机器遗忘方案也可以作为一种有效的攻击策略来增强模型的鲁棒性。需要考虑的一种潜在攻击场景如下:攻击者首先将预先设计的恶意样本引入数据集中,然后由模型提供商用于训练模型。之后,攻击者发起遗忘请求,从模型中删除关于那些预先设计的样本的信息,这将影响模型的性能和公平性,或遗忘效率。因此,除了加强数据保护,机器遗忘在其他领域也有巨大的潜力。

6.2 未来方向

信息同步:与操作系统中的进程同步类似,机器遗忘可能会产生信息同步问题。由于机器遗忘通常在计算上代价高昂,因此模型提供者可能无法立即完成遗忘过程。在此期间,如何处理传入的预测请求值得仔细考虑。考虑一下,如果在模型更新之前继续返回预测,则可能会显示未学习的数据。然而,如果在取消学习过程完成之前所有的预测请求都被拒绝,那么实用新型和服务标准肯定会受到影响。因此,如何在这个区间内处理预测请求需要综合考虑。
联邦遗忘:联邦学习是一种特殊的分布式学习,其特征是分布在不同地方的各种不稳定用户,每个用户都可以控制自己的设备和数据。Imteaj等人表明,模型提供者更有可能收到从在联邦学习环境中训练的模型中删除特定样本的请求。例如,当用户退出协作训练过程时,他们可以要求从协作模型中删除他们的贡献。因此,考虑到这种设置的局限性,如不可接受的训练数据、不稳定的连接等,如何在联邦学习环境中有效地实现机器遗忘值得研究。
干扰技术:机器遗忘前后的隐私泄露问题,主要是由两种型号之间的差异引起的。一个可行的解决方案是干扰训练过程或调整模型参数,使模型与本应不同。数据干扰技术能够干扰特定数据,同时确保整体数据可用性。例如,郭等人在训练时使用损失扰动技术隐藏有关未学习样本的信息。该技术涉及通过随机线性项扰动经验风险。因此,未来研究的一个有用方向可能是将数据干扰纳入机器遗忘问题,并开发新的机制来支持更复杂的分析。
基于特征的遗忘方法:基于模型转移的遗忘通常通过计算对模型的影响来消除遗忘数据集的影响。然而,直接计算样本的影响可能过于复杂。我们能否将影响的计算从原始训练样本转移到一组特定特征?当遗忘请求到达时,可以基于特征而不是原始训练样本来计算影响。可能与该问题相关的技术包括特征提取、特征生成和特征选择,这些技术可以集成到遗忘操作中。
基于博弈论的平衡:博弈论是一个蓬勃发展的领域,在过去十年中出现了几种具有代表性的隐私保护技术。有许多方案涉及基于博弈论的隐私保护解决方案,以权衡数据隐私和效用问题。对于模型提供商来说,机器遗忘也是模型性能和用户隐私之间的权衡,过度遗忘策略可能导致性能下降,而保护不足可能导致隐私泄露。我们能否将遗忘问题形式化为两个参与者之间的游戏:模型提供者和数据提供者?如果是这样,我们可以在这两个实体之间提供一个游戏模型,并确定一组策略和实用程序,以找出如何执行遗忘操作,从而最大限度地保持模型的性能。这种方法还可以保护用户的敏感数据不被泄露。这些都是有待进一步探讨的悬而未决的问题。

7 结论

机器学习方法已经成为一股强大的推动力,推动了广泛的应用。然而,由于隐私、可用性或其他权利要求,他们也提出了从模型中删除训练样本的请求。机器遗忘是一种能够满足这些删除要求的新技术,在这方面已经进行了许多研究。在这项调查中,我们全面概述了机器遗忘技术,特别关注两种主要类型的遗忘过程:数据重组和模型操作。首先,我们提出了机器遗忘的基本概念和不同的目标。通过对典型方法的分析,我们提出了一种新的分类方法,并总结了它们的基本原理。我们还回顾了许多现有的研究,并讨论了这些研究在每个类别中的优势和局限性。此外,我们强调了验证机器遗忘过程的重要性,并回顾了验证机器忘记的不同方法。最后,我们讨论了几个值得未来研究的问题,并提供了一些未来需要探索的可行方向。我们未来的工作将集中在探索机器遗忘在有趣领域的潜力,例如具有可验证性的联邦学习。

你可能感兴趣的:(综述文章,机器学习,人工智能)