比赛规则介绍

赛题背景

近年来,人工智能技术在视觉识别领域有飞速的发展,但与此同时,人工智能模型的安全问题却不容乐观。
通过引入对抗样本,攻击者很容易就可以通过肉眼几乎观察不到的微小扰动,使模型分类失误。
本次比赛希望可以让参赛选手了解和探索Cifar10上的对抗攻击场景,通过组合对抗攻击方案,实地体验不同对抗攻击算法特点。

数据说明及描述

  • 比赛采用 Cifar-10 数据集,我们筛选了500张图像,这些图像都是 32 * 32 大小,图像名称形如 X.jpg,其中 X[0, 500)范围内的整数
  • 比赛提供了标签文件 label.txt 存储每张图的分类标签。该文件中每一行内容代表:图像名称 图像类别

比赛流程

  1. 参赛者可通过本页面下方下载接口,下载本赛事提供的专有数据集。
  2. 参赛者本地自行实现相应的图像攻击算法,并对专有数据集做攻击
  3. 参赛者在该页面中提交个人攻击后数据集,数据集格式与原有数据集格式相同
  4. 平台对用户提交数据集做评测,并根据结果提供排名。

提交文件

  • 参赛者需要提交扰动好的样本,提交时需要将所有图像压缩为一个 zip 压缩包,其中包含 500 张修改后的图像,图像格式及名称都应和原始图像保持一致。
  • 压缩包的文件树如下所示:
|-- images
  |-- 0.jpg
  |-- 1.jpg
  |-- ...
  |-- 499.jpg
|-- label.txt

评测

本次比赛的提交评测,在该平台上进行,具体的计算指标如下:

客观分

假设原始图像为 ,用户提交的 500 张攻击样本为 ,我们主要测试以下三个方面:

  1. 图像攻击性。通过测试选手提交样本在后台模型上的攻击成功率,来代表样本的攻击性,这个值的计算公式为:

    其中 表示样本数, 表示以模型对用户样本的预测结果, 表示图像原始标签
  2. 图像结构相似性:计算原始图像与对抗图像间像素间关联性,判断是否介入了大规模修改,这个值的计算公式为:


具体的,在本次竞赛中,测试的是攻击成功样本的,平均图像结构相似度。
更多结构相似度理论说明,可以参看
《Image Quality Assessment : From Error Visibility to Structural Similarity》

  1. 噪声容量估计:噪声容量估计(Noise Tolerance Estimation),对抗样本的鲁棒性可通过噪声容限来估计,噪声容限反映了对抗样本在保持分类类别不变的情况下,可容忍的噪声量,用于计算攻击方法本身的鲁棒性。这个值的计算公式为:

    NTE值越高,说明对抗样本的鲁棒性越高。更多噪声容量估计相关说明,可以参看
    《Towards Imperceptible and Robust Adversarial Example Attacks against Neural
    Networks》
  • 整体的客观打分计算规则为

主观分

  1. 合规图像筛选
    为避免用户取巧,在客观打分基础上,额外通过人工评测的方式,筛选不合规图像,并按照合规图像比例打分。
    合规图像筛选部分的打分规则为

    其中 Count 方法为计数统计,当样本合法时统计值为1,不合法时统计值为0。主要的不合规图像说明如下:
  2. 图像质量评分
    人为的,我们将图像质量按照肉眼可辨识度,分为5个档次,分别对应1-5分。图像质量评分部分大根规则为:

    其中 为图像 的质量评分。质量评分规则如下:
  • 整体的主观打分计算规则为

  • 总分的计算规则为

你可能感兴趣的:(比赛规则介绍)