【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning

本文主要讲述了 恶意server 如何在VFL环境下根据数据索引来还原完整的训练数据。

这里写目录标题

  • 现有工作的不足
  • 主要贡献
  • 实现
    • assumption & target
    • 为什么大批量数据难以恢复?
    • 原理

现有工作的不足

  1. 针对大批量训练数据还原存在诸多局限性(缺乏理论证明),通过加大训练的 batchsize 可以规避那些攻击。
  2. 条件过于苛刻,例如要求恢复的数据样本数量要远小于总类别数目。

主要贡献

  1. 利用 VFL 中 data indexinternal representation alignments 的特性,对大批量的数据进行恢复。
  2. 通过逐层的还原,最终还原原始的训练数据:

We provide theoretical guarantees on the recovery performance of CAFE, which permeates three steps of CAFE: (I) recovering gradients of loss with respect to the outputs of the first fully connected (FC) layer; (II) recovering inputs to the first FC layer; (III) recovering the original data.

  1. 根据CAFE,还提出了一种利用 fake梯度 的防御措施。

实现

assumption & target

假设 server (本文为持有label控制更新哪些 index (后称id) 数据的参与者)为恶意攻击者,通过控制 id,来恢复每轮训练的数据。

为什么大批量数据难以恢复?

在VFL训练过程中,假设 batch size = K,即每回合更新 K 个训练数据,那么恢复样本这一过程可以看成如下优化目标:
在这里插入图片描述
根据公式可以发现,随着 K 的增加,原一批次的数据 D D D 和虚构的 对应的虚构数据 D ^ ′ \hat{D}' D^ 的基数会增加,根据线性代数的理论,维度增加,解的数目也会增加,因此难以优化到正确的 D ^ ′ \hat{D}' D^

针对这一问题, CAFE 利用了 data index alignment,解决了大批量数据恢复难的问题。

原理

在VFL中,server 可以选定每轮更新哪些 id 对应的数据,因此,其可以创建一个由0和1组成的矩阵 s t ( 数 据 集 i n d e x 总 数 量 N × 1 ) \boldsymbol{s}^{t}(数据集index总数量N\times1) st(indexN×1) 来表示第 t 轮更新了哪些数据:
在这里插入图片描述
因此梯度可以表示为:
在这里插入图片描述
我们先来看一下模型的构造:
【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning_第1张图片

第一步,根据下式恢复 the gradients of loss w.r.t the outputs of the first FC layer:
在这里插入图片描述

第一步,根据下式恢复 Recover inputs to the first FC layer:
在这里插入图片描述
最后,根据下式恢复训练数据:
在这里插入图片描述
本文还设计了两种求解算法,如下:
【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning_第2张图片

你可能感兴趣的:(论文阅读,机器学习,人工智能)