KNOWLEDGE UNLEARNING FOR MITIGATING PRIVACY RISKS IN LANGUAGE MODELS

文章目录

    • 摘要
    • 1 引言
    • 2 相关工作
      • 2.1 语言模型的隐私方法
      • 2.2 机器去学习
      • 2.3 语言模型中的记忆
    • 3 语言模型中的知识去学习
      • 3.1 方法论
      • 3.2 量化语言模型的隐私风险
    • 4 实验
      • 4.1 模型、数据集和配置
      • 4.2 主要实验
      • 4.3 知识去学习的分析
    • 5 结论

摘要

预训练语言模型(LMs)在初始预训练过程中记忆了大量知识,包括可能侵犯个人隐私和身份的信息。以往针对语言模型隐私问题的研究主要集中在数据预处理和差分隐私方法上,这两者都需要重新训练基础语言模型。我们提出了一种知识去学习的方法,作为减少语言模型后期隐私风险的替代方案。我们展示了,仅仅对目标标记序列执行梯度上升就能有效地遗忘这些信息,并且对大型语言模型的整体语言建模性能几乎没有或只有很小的下降;有时,这甚至在经过几次迭代后显著改善了基础语言模型的性能。我们还发现,顺序去学习优于一次性尝试去学习所有数据,并且去学习的效果高度依赖于需要遗忘的数据类型(领域)。通过与以前的数据预处理方法和一种已知能够减少语言模型隐私风险的解码方法进行比较,我们表明,在已知易受提取攻击的数据场景中,去学习可以提供更强的经验隐私保证,同时效率和鲁棒性更高。我们在 https://github.com/joeljang/knowledge-unlearning 发布了复制我们结果所需的代码和数据集。

1 引言

最近的研究表明,攻击者可以从预训练的语言模型(LMs)中提取训练数据,包括个人可识别信息(PII),例如姓名、电话号码和电子邮件地址,以及其他信息,如许可代码、私人临床记录和128位UUID(Carlini等,2021;Lee等,2022;Huang等,2022;Lehman等,2021)。在2021年,AI聊天机器人Iruda成为第一个因生成实际个人的确切家庭地址和银行账户号码而被起诉违反个人信息保护法的AI系统(Park,2021)。Heikkilä(2022)还展示了当前商业上最知名的语言模型之一GPT-3(Brown等,2020)提供了关于《麻省理工科技评论》主编的详细私人信息,包括他的家庭成员、工作地址和电话号码。考虑到随着语言模型规模增大,提取训练数据变得更加容易的发现(Carlini等,2022a),并且从业者通常会发布数十亿参数的预训练语言模型供公众使用(Gao等,2020;Black等,2021;Zhang等,2022),因此为大型语言模型提供隐私保障变得尤为重要。

从业者被要求在个人要求下从语言模型中删除个人信息,因为每个人都有“被遗忘权”(RTBF)(Mantelero,2013;Graves等,2021),并且可以限制其个人信息的直接和间接商业使用(Villaronga等,2018)。之前针对语言模型隐私风险的方法试图通过数据预处理(Aura等,2006;Dernoncourt等,2017;Lison等,2021;Kandpal等,2022)删除训练数据中的所有私人信息,或者设计确保差分隐私(DP)的方法(Dwork,2008;Dwork等,2006;Abadi等,2016;Anil等,2021;Li等,2022;Yu等,2022)。这两种方法都要求在每次个人想要行使其被遗忘权时重新训练基础语言模型,这使得它们对大型语言模型而言显得不够有效,因为重新训练的成本极高。此外,正如Brown等(2022)所指出的数据预处理方法假设个人隐私信息易于识别、具体化和删除,而差分隐私算法只能对具有明显隐私边界的信息提供保护,这在现实世界中难以适用,因为每个人对隐私的标准可能有所不同。
KNOWLEDGE UNLEARNING FOR MITIGATING PRIVACY RISKS IN LANGUAGE MODELS_第1张图片

为此,我们提出知识去学习(见图1),作为一种高效的解决方案,仅需经过少量参数更新,而无需重新预训练基础语言模型。我们对GPT-Neo语言模型(125M、1.3B、2.7B)(Black等,2021)进行了实验,结果表明,在语言建模过程中简单地将梯度下降的方向改变为相反方向(也可以视为最大化而不是最小化损失函数)对于保护目标序列免受提取攻击非常有效,并且对初始语言模型能力的影响几乎为零,这些能力通过9个常见的NLP分类基准(Hellaswag(Zellers等,2019)、Lambada(Paperno等,2016)、Winogrande(Sakaguchi等,2021)、COPA(Gordon等,2012)、ARC-Easy(Clark等,2018)、ARC-Challenge(Clark等,2018)、Piqa(Bisk等,2020)、MathQA(Amini等,2019)和PubmedQA(Jin等,2019))和4个对话任务(Wizard of Wikipedia(Dinan等,2019)、Empathetic Dialogues(Rashkin等,2019)、Blended Skill Talk(Smith等,2020)和Wizard of Internet(Komeili等,2022))进行测量。在某些情况下,知识去学习意外地在某些基准上显著提高了语言模型的性能。

我们将我们的方法与数据去重方法(Kandpal等,2022)和差分隐私解码方法(Majmudar等,2022)进行了比较,这两者都被认为可以降低隐私风险,并通过提供强大的隐私保护来展示知识去学习的有效性,同时效率和鲁棒性更高。我们还提供了一个通用指南,用于量化目标标记序列的记忆和提取可能性,并建议在何时可以实证认为它们已经被“遗忘”。具体来说,我们引入了一种新颖的度量,衡量提取可能性,通过改变目标标记序列的前缀长度,量化从语言模型实际提取的后缀量。

令人惊讶的是,对于知识去学习,我们发现顺序遗忘一部分实例比试图一次性遗忘全部实例更容易。我们提供了进一步的分析,并表明知识去学习的难度在很大程度上取决于遗忘的目标数据,尤其是目标数据的领域。我们还提供了执行提取攻击的实证示例,以及知识去学习如何确切提供语言模型的隐私保护。

我们的主要贡献可归纳为四点:

  • 我们将知识去学习与文献中已知的两种降低隐私风险的方法进行了比较:数据预处理方法和差分隐私(DP)解码方法。我们显示出我们的方法在一般能力上几乎没有性能下降(有时还出现改善),同时在个人行使被遗忘权时提供强大的隐私保护,而数据预处理方法提供较弱的隐私保护,并且计算成本高达数个数量级,DP解码方法则导致建模性能严重下降。

  • 我们进行了额外的实验,以确定哪些因素影响知识去学习的难度,发现(1)一次性遗忘大量样本会导致显著的语言模型性能下降,而通过顺序遗忘数据块可以减轻这种影响,以及(2)目标数据的领域(代码、许可、维基百科等)在决定遗忘难度方面起着关键作用。

  • 我们提供了一种新颖的度量及通用指南,用于量化语言模型的隐私风险,并确定何时可以认为它们已经“遗忘”给定的目标序列。

  • 知识去学习意外地似乎使语言模型更强大,极端情况下对GPT-NEO 125M、1.3B和2.7B的Lambada基准分别带来了+8.0%(从37.6%提高到45.6%)、+10.1%(从57.4%提高到67.5%)和+7.9%(从62.2%提高到70.1%)的提升。

2 相关工作

2.1 语言模型的隐私方法

旨在减轻语言模型隐私风险的先前工作主要可以分为数据预处理/后处理方法和差分隐私方法。

(数据)预处理/后处理
数据预处理的目的是清理训练数据,消除所有可能违反隐私的数据。这些方法主要利用解析器和分类模型来识别和预测构成私人信息的模式。这在识别格式良好的私人信息(如社会安全号码或特定形式的医疗记录)方面是有效的(Aura等,2006;Dernoncourt等,2017;Lison等,2021;Kandpal等,2022)。然而,正如Brown等(2022)所指出的,私人信息主要依赖于上下文,有时又不是以特定格式存在,因此数据预处理方法无法完全保证提供隐私保障,尤其是无法满足每个个体的标准。使用后处理方法(例如对语言模型输出进行审查)仍然面临相同的局限性。

在这项工作中,我们将我们提出的方法与Kandpal等(2022)提出的数据预处理方法进行比较,后者表明,在预训练之前去重训练语料库有助于预训练出对提取攻击表现出更强鲁棒性的语言模型,而在相同条件下未去重的预训练语言模型则效果较差。然而,我们强调这种方法虽然在减轻整体隐私风险方面可能仍然有效,但在考虑个体请求从语言模型隐式参数中删除其信息的现实场景时并不是最合适的方法。

差分隐私
差分隐私(DP)旨在保证个体输入对特定函数输出的影响是有限的(Dwork,2008;Dwork等,2006)。在深度神经网络的背景下,DP需在训练阶段应用,以构建可以提供一般性保证的模型,从而确保训练数据中的个体信息无法被推断(Abadi等,2016)。虽然DP在微调语言模型方面表现出惊人的有效性(Li等,2022;Yu等,2022),但在使用DP进行预训练时仍面临显著的性能差距、高昂的计算成本和缓慢的收敛速度(Anil等,2021)。此外,正如Brown等(2022)所指出的,DP只能为语言模型提供有限的保障,因为DP需要对隐私边界进行统一定义,而这对于自然语言数据来说是固有的不可行。在一个现实场景中,个体可能在模型部署后动态行使被遗忘权(RTBF),在这种情况下,仅使用现有的基于梯度下降的DP算法(如DP-SGD)来保护针对目标提取攻击的防护是非平常的。

2.2 机器去学习

机器去学习作为解决机器学习中的数据隐私问题的替代方法受到了关注(Cao & Yang,2015;Ginart等,2019;Bourtoule等,2021;Graves等,2021)。一些研究试图探索深度神经网络的机器去学习(Golatkar等,2020;Mehta等,2022)。然而,他们大多集中在为图像分类模型提出算法,旨在遗忘整个类别;即实现特定图像类别(如“猫”或“船”)的随机性能。根据我们所知,我们是第一个探索针对语言模型遗忘特定标记序列的研究,这与传统的图像分类模型设置有很大不同(数十个图像类别与可以被分类为50000个标记的序列)。在这项工作中,我们将这种方法称为知识去学习,因为我们更关注遗忘由标记序列表示的特定知识。Zhou等(2022)关注如何利用遗忘来提高基础模型的性能。他们提出了“遗忘与重学”,通过选择性地去除不需要的信息并重新学习良好的特征,来统一现有的迭代训练算法,从而提升图像分类和多智能体交流中的性能。他们的基本假设是,定义和阻止不良行为通常比教导良好行为更容易。在第4节中,我们也展示了这一现象,我们意外地发现仅仅遗忘少量标记序列有时会增强语言模型的整体能力。

2.3 语言模型中的记忆

先前的研究探讨了语言模型在多大程度上记住了其训练数据,从不同的角度来看待这一现象。一些研究将语言模型的记忆视为对个体隐私的威胁(Carlini等,2021;2022a;Jagielski等,2022),并利用量化语言模型对对抗性攻击的脆弱性的指标。这些指标通常依赖于特定类型的攻击,例如成员推断攻击(Shokri等,2017),通过量化这些攻击的成功率来衡量语言模型的隐私风险。而在我们的工作中,我们更关注针对性的提取攻击。

另一条研究方向则量化了在预训练过程中积累和遗忘了多少知识,通过提取关于世界的关系知识(Petroni等,2019;Lazaridou等,2021;Jang等,2022b;a)。这条研究路线并不将记忆视为负面特质,而是将其视为一种积极特征,可以利用它从隐式参数中提取世界知识,并执行知识密集型任务,例如问答或训练知识丰富的对话代理。

我们的工作与Jagielski等(2022)的研究高度相关,该研究也认为遗忘可以被视为一种放松的差分隐私。然而,我们的工作与他们的研究有两个主要区别。首先,他们仅将遗忘分析为一种被动的隐私减轻形式,声称在大规模训练中早期看到的数据具有隐私保护效益,而我们则提出一种更主动的遗忘形式。其次,他们只展示了图像分类和音频生成模型的分析结果,而我们则专注于大型语言模型。

3 语言模型中的知识去学习

3.1 方法论

我们提出通过简单地否定最小化标记序列负对数似然的原始训练目标,作为我们在语言模型中进行知识去学习的主要方法。具体来说,给定一个标记序列 x = ( x 1 , x 2 , … , x T ) x = (x_1, x_2, \ldots, x_T) x=(x1,x2,,xT),我们的去学习训练目标就是最大化以下损失函数:

L U L ( f , x ) = ∑ t = 1 T log ⁡ ( p ( x t ∣ x < t ) ) L_{UL}(f, x) = \sum_{t=1}^{T} \log(p(x_t | x_{LUL(f,x)=t=1Tlog(p(xtx<t))

这里的 p ( x t ∣ x < t ) p(x_t | x_{p(xtx<t) 是在给定 x < t x_{x<t的情况下,语言模型 ( f ) 预测下一个标记为 x t x_t xt 的概率。

3.2 量化语言模型的隐私风险

在本小节中,我们介绍两个用于量化特定标记序列隐私风险的指标,以及我们如何经验性地定义要被遗忘的标记序列。在这项工作中,我们不使用诸如成员推断攻击召回率(Shokri等,2017)等指标,因为我们并不希望量化语言模型的整体隐私风险,而是关注特定目标标记序列的隐私风险。

提取可能性(EL)
我们首先介绍一个新指标 EL。给定一个标记序列 ( x = (x_1, x_2, \ldots, x_T) ) 和一个具有预训练参数的语言模型 ( f ),我们将 EL 定义如下:

E L n ( x ) = ∑ t = 1 T O V E R L A P n ( f ( x < t ) , x t ) T EL_n(x) = \frac{\sum_{t=1}^{T} OVERLAP_n(f(x_{ELn(x)=Tt=1TOVERLAPn(f(x<t),xt)
其中

O V E R L A P n ( a , b ) = c _ n -grams ( a ) ∩ c _ n -grams ( b ) c _ n -grams ( a ) OVERLAP_n(a, b) = \frac{c\_n\text{-grams}(a) \cap c\_n\text{-grams}(b)}{c\_n\text{-grams}(a)} OVERLAPn(a,b)=c_n-grams(a)c_n-grams(a)c_n-grams(b)

n -grams ( a ) n\text{-grams}(a) n-grams(a) 表示给定标记序列中的 n-grams 列表,而 f ( x < t ) f(x_{f(x<t) 表示当给定 x < t x_{x<t 作为输入时,语言模型 f f f 的输出标记序列,这些输出的最大长度可为 x t x_t xt ,但在生成 EOS(序列结束)标记之前可能会更短。

变化前缀长度 x < t x_{x<t 的过程可以视为变化对抗攻击的强度。这基于这样的假设:提供关于目标标记序列的先前信息越多,语言模型提取该信息就越容易。总体而言,EL 可以视为估算一般提取可能性,因为我们测量的是通过获取生成和目标标记序列的 n-gram 重叠度量的提取攻击的平均成功率。虽然先前量化语言模型隐私风险的指标依赖于特定对抗性攻击,但 EL 的这一特性使其能够量化提取的一般可能性,而不依赖于特定的提取攻击。

我们将 ( n ) 视为一个超参数,可以根据隐私标准的严格性进行调整。设置更高的 ( n ) 值会提高成功提取攻击的标准。

记忆准确率(MA)
记忆准确率(MA)定义如下:

M A ( x ) = 1 T ∑ t = 1 T 1 { argmax ( p ( x < t ) ) = x t } MA(x) = \frac{1}{T} \sum_{t=1}^{T} 1_{\{ \text{argmax}(p(x_{MA(x)=T1t=1T1{argmax(p(x<t))=xt}

MA 量化了语言模型 f f f 对给定标记序列的记忆程度,最初由 Tirumala 等人(2022)提出,用于分析大型语言模型的训练动态。

遗忘的经验定义
通过利用 EL n _n n 和 MA,我们经验性地定义标记序列 x x x为被遗忘,并在满足以下条件时不再容易受到提取攻击:

E L n ( x ) < 1 D E L n ( x ) 且 M A ( x ) < 1 D M A ( x ) EL_n(x) < \frac{1}{D} EL_n(x) \quad \text{且} \quad MA(x) < \frac{1}{D} MA(x) ELn(x)<D1ELn(x)MA(x)<D1MA(x)

其中 D D D 代表在训练过程中未见的验证语料库。换句话说,当 EL n ( x ) _n(x) n(x) 和 MA(x) 达到低于未见训练的标记序列的平均 EL n _n n和 MA 时,我们定义 x x x 为被遗忘。

4 实验

4.1 模型、数据集和配置

基线模型
在实验中,我们使用 GPT-NEO(125M、1.3B、2.7B)语言模型(Black 等,2021),该模型最初在所有 Pile 语料库(825GB)(Gao 等,2020)上进行预训练,以及 OPT(125M、1.3B、2.7B)语言模型(Zhang 等,2022),该模型在去重版本的 Pile 子集以及来自不同领域的其他语料库上进行预训练。在实验中,我们对 GPT-NEO 语言模型进行去学习,并量化与 OPT 语言模型相比的目标数据的隐私风险,以衡量我们提出的方法在与 Kandpal 等(2022)提出的在预训练基础模型之前去重训练语料库的有效性。由于 Kandpal 等(2022)中的语言模型并未开放源代码,因此我们使用 OPT 语言模型代替。

我们还考虑将差分隐私(DP)解码(Majmudar 等,2022)作为基线之一;该方法提出了一种解码策略,通过对原始 logits 与均匀分布进行线性插值并执行核采样,理论上表明提供了 DP 保障。设置为线性插值权重,其中 ( \alpha = 0 ) 时从均匀分布进行核采样,而 α = 1 \alpha = 1 α=1 时则执行常规核采样,在随机采样过程中使用 logits 作为权重。

目标数据
为了量化语言模型的隐私风险,我们从训练数据提取挑战 1 中抽取实例,其中提供了来自 Pile 语料库 16 个不同领域的 15,000 个示例(每个示例为 200 个标记序列),这些示例被识别为相对易于提取。对于我们的实验,我们随机从 15,000 个示例中抽取 ( s ) 个样本,并使基础语言模型一次性忘记这 ( s ) 个样本。作为默认,我们展示了所有实验设置中 5 次随机抽样的平均结果。我们仅提供 5 次抽样的平均值,不单独报告标准差,而是在附录 A 中提供每个单独运行的结果。

评估数据集
为语言模型提供更强的隐私保护可能会变得毫无意义,如果这需要牺牲其原始能力。因此,在量化语言模型的隐私风险时,我们还通过在 9 个不同的分类任务上评估语言模型,量化其原始能力:使用 Hellaswag(Zellers 等,2019)和 Lambada(Paperno 等,2016)基准来测量语言推理能力,使用 Winogrande(Sakaguchi 等,2021)和 COPA(Gordon 等,2012)来测量常识推理能力,以及使用 ARC-Easy(Clark 等,2018)、ARC-Challenge(Clark 等,2018)、Piqa(Bisk 等,2020)、MathQA(Amini 等,2019)、PubmedQA(Jin 等,2019)基准来测量科学推理能力。我们还在 4 个对话任务(Wikipedia 吟游诗人(Dinan 等,2019)、同理心对话(Rashkin 等,2019)、混合技能对话(Smith 等,2020)和互联网吟游诗人(Komeili 等,2022))上评估语言模型的生成能力。我们使用 Lambada 的测试集和其他数据集的验证集。我们还在附录 B 中展示了在 Pile 和 Wikitext 的验证语料库上测量困惑度的结果。我们不将困惑度作为主要评估之一,因为困惑度可能不是量化语言模型整体性能的最合适指标,特别是在去学习的情况下(附录 B 中有进一步说明)。我们仅在 4 个对话任务上评估 DP 解码,因为解码策略无法应用于分类任务,而分类任务是通过使用口头化工具进行评估的。

配置
对于学习率,我们将其设置为 5e-5。我们在附录 D 中展示了不同学习率的影响。在整个运行过程中,我们使用固定的学习率调度。我们将全局批量大小固定为与 ( s ) 相同(即一次遗忘的样本数量),因为全局批量大小小于 ( s ) 会降低语言模型的总体能力。对于 EL n _n n,我们设置 ( n=10 ),这意味着 EL 测量提取 n 个连续标记的提取可能性。为了计算 EL 10 _{10} 10 和 MA,我们使用简单的贪婪解码策略。我们将 dropout 和权重衰减率都设置为 0。最后,尽管我们在第 3.2 节中提供了经验性决定单个标记序列被遗忘的指导,但对于考虑一块 ( s ) 个标记序列被遗忘的情况,我们使用平均 EL 10 _{10} 10 和 MA 作为个别 EL 10 _{10} 10和 MA 的近似值。

4.2 主要实验

遗忘阈值
首先,我们展示如何获得 EL 10 _{10} 10 和 MA 的遗忘阈值,即我们认为标记序列被遗忘且不再易受提取攻击的值,对于所有 GPT-NEO 语言模型的不同大小见表 1。对于 ( D ),我们对来自 Pile 验证语料库的 10,000 个实例(每个实例的标记长度为 200)进行加权抽样,并测量平均 EL 10 _{10} 10和 MA(方程 5),这些值被经验性地设定为遗忘阈值。

主要结果
表 2 显示了对不同大小语言模型和基线进行去学习的主要结果。虽然我们在表 2 中提供了 5 次随机抽样的平均性能,但我们在附录 A 中为参考提供了每个单独运行的结果。

我们对结果提出五个主要观察。 (1) OPT 语言模型的 EL 10 _{10} 10和 MA 远低于 GPT-NEO 语言模型,确认去重预训练语料库确实有助于减轻隐私风险。 (2) NEO + DP 解码能够有效防护提取攻击,显示出最低的 EL 和 MA 分数;然而,它在 4 个对话生成任务中的平均 F1 分数上导致生成能力严重下降。 (3) NEO + UL+ 对 125M 模型的分类和对话任务均造成严重下降,而对 1.3B 模型仅对对话任务造成严重下降,而 2.7B 模型则能够保留大部分之前的能力。 (4) 随着语言模型规模的增大,目标序列被遗忘所需的 Epoch 数减少。结合 (3),这意味着更大的语言模型是在牺牲其性能以适应 NEO,而对于 2.7B 模型,其计算效率(3,500,000 倍)远高于重新训练基础语言模型,这对于所有数据预处理方法来说都是必需的。

总体而言,结果显示去学习是一种有效的方法,能够在保留甚至改善语言模型整体能力的同时提供强有力的隐私保护。

顺序去学习比批量去学习更稳定。 我们展示了在不同模型规模下,变化 ( s )(一次性遗忘的数据实例数量)的效果,如图 2 所示。我们将这种方法称为批量去学习。如图 2a 所示, s = 128 s = 128 s=128 的结果表明,一次性遗忘更多样本更困难,导致平均语言模型性能显著下降,无论模型大小如何。由于 s = 32 s = 32 s=32 并未显示出太多下降,我们探索顺序去学习是否能成为解决方案。在图 2b 中,我们展示了将 128 个样本分为 4 个 32 个的块并进行顺序去学习的结果;我们逐块遗忘,直到每块达到遗忘阈值。令人惊讶的是,尽管遗忘的实例完全相同,但在 s = 128 s = 128 s=128的虚线(图 2a 中 s = 128 s = 128 s=128 的性能)与实线之间的性能差距显示最终结果截然不同。顺序去学习几乎没有降低平均语言模型的性能。在附录 G 中,我们展示了一旦遗忘的块将保持遗忘状态,并且后续块比初始块遗忘得更快。这个结果暗示了去学习的普遍性,而我们在本研究中没有进一步探讨。结果还表明,知识去学习可以在需要时持续应用于语言模型。

4.3 知识去学习的分析

更好地理解知识去学习期间发生的情况
为了展示知识去学习期间语言模型究竟发生了什么,我们展示了在对 GPT-NEO(1.3B)模型进行 10 次去学习运行(每次运行 ( s = 1 ))时,各个语言模型基准的性能变化,如图 3 所示。图中显示,每个基准的语言模型性能在选择遗忘的样本时差异巨大。此外,每次运行的结束时间也不同,表明某些样本比其他样本被遗忘得更快。为了更好地理解知识去学习如何保障隐私,我们进行了一次提取攻击,使用表 3 中的标记序列样本,展示了应用知识去学习前后模型生成文本的变化。尽管在去学习之前,提取攻击极其成功地提取了剩余的后缀(100% 的标记序列),但在应用去学习后,仅提取了后缀中的一小部分(3% 的标记序列)。

理解为何某些实例更难以遗忘
为了测量为何某些实例更难以遗忘,我们从训练数据提取挑战中进行 5 次随机抽样 ( s = 8 ) 的样本,来自 8 个不同领域,并对 GPT-NEO 1.3B 语言模型进行去学习。我们还在附录 A 中展示了每次单独运行的结果。如表 4 所示,尽管经历了相同数量的标记更新(10 个去学习的 Epoch),但不同领域的结果却截然不同;ENRON EMAILS 的平均语言模型性能下降仅为 -0.4%,而 USPTO BACKGROUNDS 则导致 -4.5% 的下降。此外,最终的 EL(_{10}) 随领域而异,表明某些领域(例如 FREELAW)更难被遗忘。最后,更加结构化的领域,意味着数据包含某种模式,例如电子邮件列表(ENRON EMAILS)或代码(GITHUB (CODE)),似乎导致语言模型性能的下降较少,而与数据主要由原始英文文本构成的非结构化领域(例如期刊提交的评论(PUBMED CENTRAL))相比,后者的性能下降更大。我们在附录 E 中提供了每个领域的示例。然而,关于理解哪些具体组件使得去学习有效的进一步分析应在未来的工作中进行。

5 结论

在本文中,我们提出了知识去学习作为一种减轻语言模型隐私风险的方法,提供强有力的隐私保护,同时对通过在 9 个常见语言模型分类基准和 4 个对话基准对更大规模语言模型进行评估时,其整体能力几乎没有下降。随着大型语言模型使用案例的扩展,可能会影响人们的日常生活,研究界应确保不因这些模型的隐式参数存储的知识而故意或无意地侵犯个人隐私。由于在预训练语言模型之前,固有地无法防止和预测所有未来的隐私问题,我们建议社区考虑知识去学习,以确保在个人请求的情况下,在预训练后维护隐私。

你可能感兴趣的:(语言模型,人工智能,自然语言处理)