Adversarial Distributional Training

Adversarial Distributional Training for Robust Deep Learning
Zhijie Deng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
arXiv preprint arXiv:2002.05999.

此文章为清华大学朱军组最新的研究成果,提出了ADT(Adversarial Distributional Training)用于学习鲁棒的模型。AT(Adversarial Training)与ADT的不同点在于,AT寻找最坏情况的对抗样本,而ADT学习最坏情况的对抗分布。由于该分布潜在地包含各种攻击方法生成的对抗样本,最小化其损失将增强模型的泛化性能,同时提升干净样本和对抗样本的分类精度。

  • Adversarial Training
    给定n个训练样本的数据集,其中,输入,标签,则对抗训练可以被定义为如下的最小最大(minimax)的优化问题:
  • Adversarial Distributional Training
    为了缓解对抗训练的不足(性能远非满意,抵抗众多攻击的通用性较差),作者提出捕获每个输入周围的对抗扰动的分布,而不是仅寻找局部最对抗的点以进行更通用的对抗训练,并将此方法命名为Adversarial Distributional Training(ADT)。令正常样本周围的对抗分布为,则ADT可以描述为如下的minimax优化问题:
    \min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]
    其中,(指的是支撑集)。
  • Regularizing Adversarial Distributions
    如下式所示,ADT的内层优化容易退化到狄拉克分布


    为了解决退化问题,引入正则化项:
    with
    \mathcal{J}\left(p\left(\boldsymbol{\delta}_{i}\right), \boldsymbol{\theta}\right)=\mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]+\lambda \mathcal{H}\left(p\left(\boldsymbol{\delta}_{i}\right)\right)
    其中,

你可能感兴趣的:(Adversarial Distributional Training)