《Label-Only Membership Inference Attacks》论文阅读笔记

第一次看成员推理攻击方面的论文,以下是第一遍的记录(希望我能再有时间看第二遍吧
本篇内容只是作为学习过程的一个记录,应该会有很多错漏的地方
第一次发csdn,好多功能没认真弄懂 见谅
请各位大佬指教(也许也没什么人看 哈哈

百度学术论文地址

笔记内容按照论文页数记录

论文笔记内容

    • p1
    • p2
    • p3
    • p4
    • p5
    • p6
    • p7
    • p8
    • p9
    • p10
    • p11
    • p12
    • p13

p1

Abstract
基于标签的成员推理攻击不依赖于分数的置信度(预测置信度的差异很大程度上归因于过拟合,如果降低过拟合程度,置信度的差异就不明显,也就不能准确推断出成员在训练数据集上的身份),而是通过分析在扰动下的模型的预测标签的鲁棒性(包括普通的数据增强和对抗示例)来获得一个细粒度的成员信号
《Label-Only Membership Inference Attacks》论文阅读笔记_第1张图片
Introduction
以往的基于置信度的攻击,对手在候选数据点上查询模型来获得模型的置信度,然后根据决策规则推断在训练集中候选的成员身份
第二种防御大类(干扰模型的预测,来最小化已知成员身份攻击的成功率,通过训练过程的修改<损失惩罚的增加>或者事后训练的推理过程的修改<压平返回的成员置信度分数>来修改模型的输出)

p2

Introduction 在仅标签的环境下,当模型预测正确的时候,原始基线策略所预测的目标点是训练集的一个成员
基于标签的成员推理攻击打破现有防御的第二大类
置信度(信任)掩蔽不能解决由于模型对训练数据的过拟合而导致的固有的隐私泄露问题
成功的成员推理防御不应该只是保护平均用户的隐私,而且要保护最坏情况下离群用户的隐私
论文所作贡献:
1.引入第一个利用数据增强和对手示例的仅基于标签攻击,这与置信向量攻击相匹配,两者结合生成一个优于其他所有已有攻击的新的攻击
2.用我们的攻击证明信任掩蔽对于隐私泄露防御不可行
3.第一个分析另外两项降低过拟合的技术(使用数据增强的训练可以使成员推理泄露更多,而转移学习可以减轻这种泄露)
4.引入离群成员推理
目前,差别隐私训练和L2正则化是唯一有效的防御
《Label-Only Membership Inference Attacks》论文阅读笔记_第2张图片

p3

Background 2.1.1 数据增强通过对现存的保留类语义的数据点进行自然转换,被用来提升分类器的泛化能力(不需要经过高成本的获取更多标签数据的过程,就能提升有限的训练集的种类),在低数据区和一些特定的区域的使用十分重要
Background 2.1.2 一般来说,模型在源任务的数据上训练,然后在输出任务的数据上进行微调(微调整个模型/最后一层)
Background 2.2
先前的工作假设对手对已训练的模型h只有一个黑盒访问通道(输入x返回部分或全部的置信向量h(x))
1.阴影模型(用可访问的相同或类似的分布数据作为h的训练数据,在这些数据上训练多个辅助源模型,由此建造一个与成员标签m相关的置信度向量hi的数据集,对手给定hi训练一个分类器f去预测m,最后,对手通过询问目标模型h获取h(x),然后用f去预测x成员在h的训练数据中)
2.只针对标签的方法(间隙攻击gap attack,当h正确分类x时,对手预测这个数据点x是训练集的一个成员)
3.间接成员推理(通过间接访问调查成员身份推断<对手只查询与x相关的x‘的h而不直接查询x>,与仅标签攻击的主要不同点:假设对手可访问模型的置信度分数)
4.对抗性示例与成员推理(关键不同点:①假设用置信度分数访问和预测成员身份 ②经过明确训练的对对抗性示例具有鲁棒性的模型)

p4

Background 2.2 过度正则化可以限制过拟合并且能有效针对成员推理进行防御,但可能会导致模型准确度的显著下降
Threat Model 3.1 对模型h的黑盒访问(只能查询模型的预测和置信度,但不能检查它的学习参数)

p5

Threat Model 3.2 Label-only Query Interface只获取预测标签y(这是任何可查询机器学习模型必须提供的最小信息,因此这对对手来说是最严格的查询界面)
Attack Model Design 基于现存攻击的两个改进方面:①通过结合对策略扰动样本的多个查询来提取关于分类器决策边界的细粒度信息 ②仅标签攻击,即不依赖模型返回的置信度分数
Attack Model Design 4.1 简单的基线攻击(gap attack)——预测任何误分类的数据点为训练集的非成员,是一个用来评估仅标签或者其他攻击能够提取额外信息有用的基准
Attack Model Design 4.2 根据最大边距的观点,我们预测那些展示有高的鲁棒性的数据点是训练数据点
对于线性模型来说,获得一个数据点到模型的决策边界的距离会产生与模型置信度分数相同的信息

p6

Attack Model Design 4.3 两种在计算机视觉领域的普通的数据增强:①旋转(±15°,生成包括原始图片在内的3张图片)②平移(给定像素边界d,水平移动±i个像素点,再垂直移动±j个像素点,i和j满足|i|+|j|=d,生成包括原始图片在内的4d+1张图片)
Attack Model Design 4.4 给定一些估计的数据点x到模型边界的L2距离dist(x, y),如果该距离大于一些阈值,则预测x是训练集的成员,定义dist(x, y)=0为分类错误的点
不懂:白盒基线法估计距离h(x‘) ≠ y

p7

Evaluation Setup 5 攻击设置的目标是证明仅标签攻击与基于置信度方法相匹配

p8

Evaluation of Label-Only Attacks 6.1 信任向量攻击比基线间隙攻击要好(说明信任向量攻击利用了意义重大的成员泄露)& 基于对抗性示例攻击的HopSkipJump仅标签边界距离攻击至少能与信任向量攻击相当 & 更简单但查询更有效的仅标签数据增强攻击也超过了基线攻击但比信任向量攻击差点(决策边界距离攻击表现比数据增强攻击好)
将两者(仅标签边界距离和仅标签数据增强攻击)结合可以超过信任向量攻击
随着训练集尺寸增加,所有攻击会因为泛化差距减小而单调递减

p9

Evaluation of Label-Only Attacks6.2 在2500次的查询后,仅标签攻击与Carlini-Wagner给出的约2000个查询的上界相匹配,并且也与最佳的信任向量匹配
12500次查询后,两者相结合的攻击比所有攻击都要好
在随机扰动下的仅标签模型攻击中,低查询域也表现得非常好(小于300次的查询中,它比基于HopSkipJump和数据增强的攻击性能要好)对于较大的查询预算,HopSkipJump攻击距离估计更精确,并优于随机攻击
Breaking Confidence-Masking Defenses 7 信任掩蔽阻止现存攻击的同时对模型的预测标签影响最小

p10

Breaking Confidence-Masking Defenses 7 在对抗正则化中,模型被训练于达到高精确度的同时最小化置信度分数的信息有效性,而不是在测试时明确地强制执行这个约束(明确维护模型预测标签不被防御影响的不变量)
Breaking Confidence-Masking Defenses 7.1 MemGuard算法(计算一个防御信任向量 让噪声n去欺骗防御者的局部成员攻击预测器f)考虑最强的防御版本,允许对信任向量的任意更改同时保持模型的预测标签不变,这种防御对任何仅标签攻击没有影响,因为它保留了对模型的所有输入的输出标签
作者提出,未来应该将不重要的间隙基线作为信任掩蔽的指标
Prediction purification输出净化过的在最小化信息内容的同时保留模型准确性的信任向量(仍没有改变输出标签??)
Breaking Confidence-Masking Defenses 7.2 Adversarial Regularization算法不是简单地在测试阶段模糊信任向量,相反,它以最小-最大的方式联合训练目标模型和防御信任向量成员分类器(在交替训练阶段中,攻击方模型被训练来最大化从目标模型的输出中的成员推理,而目标模型被训练来产生准确但欺骗攻击者的输出)
这种攻击由于训练测试的差距仅略微缩小,因此纯标签攻击明显优于它(但这种防御不是完全无效,它确实可以防止纯标签攻击利用超过3%的差距攻击)

p11

Defending with Better Generalization 8.1 以数据增强的方式训练模型尽管其泛化性能更好,但是成员推理攻击会变得更强(经过增广训练的模型可以很好地识别原始点和它的增广,这正是数据增强攻击所利用的精确信号)

p12

Defending with Better Generalization 8.1 在原始训练集上过拟合较少的模型实际上更容易收到成员推理的影响(他们在相关训练集上隐含地过拟合较多)
Defending with Better Generalization 8.2 唯一能持续减少成员泄露的两种正则化方式是强L2正则化(入≥1)和用差分隐私训练

p13

Worst-Case Membership Inference 9
将迁移学习和差分隐私训练结合可以进一步用最小的测试精度代价减轻隐私泄露,从而得到最佳权衡的模型
Conclusion 10 任何针对成员推理的防御必须帮助模型降低其训练-测试的差距
接下来的工作是 在减少对抗性知识(例如减少数据和模型架构知识)下对仅标签攻击的细粒度分析

你可能感兴趣的:(论文笔记,机器学习)