通过暴露和修复漏洞来确保AI系统的安全性和可靠性
Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey
总结了目前主流的对抗性样本攻击及抵御方法
EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
Goodfellow 等人对对抗性样本的解释以及控制方法
Synthesizing Robust Adversarial Examples
设计强大的对抗样本
DELVING INTO TRANSFERABLE ADVERSARIAL EXAMPLES AND BLACK-BOX ATTACKS
对抗样本通常不特定于某个模型或架构,针对某个神经网络架构生成的对抗样本可以很好地转换到另一个架构中。这意味着有可能对一个完全的黑箱模型创建一个对抗样本。伯克利的一个小组使用这种方法在商业性的人工智能分类系统中发起了一次成功的攻击
Exploring the Hyperparameter Landscape of Adversarial Robustness
探讨了对抗性训练的一些实际挑战,提出了一种实用的方法,利用超参数优化技术来调整对抗性训练,以最大限度地提高稳健性。
Towards Deep Learning Models Resistant to Adversarial Attacks
介绍了提高显著提高对抗性攻击抵御能力的方法
Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
介绍了如何用对抗样本欺骗神经网络做出错误的判断
Ensemble Adversarial Training Attacks and Defenses
Goodfellow 等人阐述了如何评判一个模型针对对抗扰动的抵抗性,以及同时进行白盒攻击和黑盒攻击的重要性。
CERTIFIED DEFENSES AGAINST ADVERSARIAL EXAMPLES
评估神经网络的对抗鲁棒性
CNN-Cert: An Efficient Framework for Certifying Robustness of Convolutional Neural Networks
提出一个通用且有效的框架:CNN-Cert,它能够证明一般卷积神经网络的鲁棒性。
Evaluating the Robustness of Neural Networks: An Extreme Value Theory Approach
提供了将鲁棒性分析转换为局部Lipschitz常数估计问题的理论证明,并提出使用极值理论进行有效评估。我们的分析产生了一种新的鲁棒性度量标准,称为CLEVER,CLEVER是第一个可以应用于任何神经网络分类器的独立于攻击(attack-independent) 的稳健性度量。
Reluplex: An Efficient SMT Solver for Verifying Deep Neural Networks
深度神经网络的可验证性,,提出了一种用于神经网络错误检测的新算法 Reluplex
PROVEN: Verifying Robustness of Neural Networks with a Probabilistic Approach
提出了一种新的概率框架,可以通过统计保证 (statistical guarantees) 对神经网络进行概率论验证
Efficient Neural Network Robustness Certification with General Activation Functions
介绍了CROWN,这是一个根据激活函数来验证神经网络鲁棒性的通用框架。
Defensive Quantization: When Efficiency Meets Robustness
旨在提高人们对量化模型安全性的认识,并设计了一种新的量化方法,共同优化深度学习量化模型的效率和鲁棒性
Kernel-Based Reinforcement Learning in Robust Markov Decision Processes
设计了一种适用于潜在对抗行为的算法来确保马尔可夫决策过程在意外或对抗系统行为方面的稳健性
Analyzing Federated Learning through an Adversarial Lens
探讨了联合学习领域的一些恶意攻击的策略从而突出联合学习的脆弱性以及制定有效防御策略的必要性
L2 - Nonexpansive Neural Networks
优化了控制Lipschitz常数的方法,以实现其最大化鲁棒性的全部潜力,提出的分类器在针对白盒L2限制对抗性攻击的鲁棒性方面超过了现有技术水平
Structured Adversarial Attack: Towards General Implementation and Better Interpretability
提出了 StrAttack 模型来探索对抗性扰动中的群体稀疏性
Query-Efficient Hard-label Black-box Attack: An Optimization-based Approach
研究了在硬标签黑盒设置中攻击机器学习模型的问题
AutoZOOM: Autoencoder-based Zeroth Order Optimization Method for Attacking Blackbox Neural Networks
提出了一种可以高效查询的黑盒攻击通用框架 AutoZOOM
Anytime Best+Depth-First Search for Bounding Marginal MAP
引入了新的随时搜索算法,这些算法将最佳优先和深度优先搜索结合到图形模型中的边际MAP推理的混合方案中
Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning
为了研究语言基础对机器视觉和感知中的对抗性扰动的鲁棒性,提出了Show-and-Fool,一种用于制作神经图像字幕中的对抗性示例的新算法。
BlockDrop: Dynamic Inference Paths in Residual Networks
介绍了 BlockDrop,动态的选择使用深层网络中的哪些层,从而在不降低预测准确率的情况下最佳的减少总计算量
Exploiting Rich Syntactic Information for Semantic Parsing with Graph-to-Sequence Model
采用图形到序列模型来编码句法图并解码逻辑形式。 通过编码更多的句法信息,也可以提高模型的鲁棒性。
Adversarial Phenomenon from the Eyes of Bayesian Deep Learning
考虑使用贝叶斯神经网络来检测对抗性实例
Protecting Intellectual Property of Deep Neural Networks with Watermarking
提出了一种水印植入方法,将水印注入深度学习模型,并设计了一种远程验证机制来确定模型所有权,用水印技术保护神经网络的知识产权。
Unravelling Robustness of Deep Learning based Face Recognition Against Adversarial Attacks
通过利用网络中隐藏层的响应适当地设计分类器,能够以非常高的精度检测攻击。最后,我们提出了几种有效的对策来减轻对抗性攻击的影响,并提高基于DNN的人脸识别的整体稳健性。
EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples
我们通过对抗性的例子来描述攻击DNN的过程,作为弹性网络正则化优化问题。
设计检测并且减消除偏见的方法来确保 AI 不会被人们的偏见影响,也不会激化人们的偏见
Automated Test Generation to Detect Individual Discrimination in AI Models
解决了检测模型是否具有个体歧视的问题
Design AI so that it’s fair
寻找和消除神经网络带来的偏差
Fairness GAN: Generating Datasets with Fairness Properties using a Generative Adversarial Network
Fairness Gan
使用公平性的生成对抗网络生成数据集,产生公平合理的图像
AI Fairness 360: An Extensible Toolkit for Detecting, Understanding, and Mitigating Unwanted Algorithmic Bias
介绍了一个新的开源python库:AIF360,为公平研究人员提供共享和评估算法的通用框架
Towards Composable Bias Rating of AI Systems
设想建立独立于API生产者和消费者的第三方机构来对AI系统的公平性进行评估
An End-To-End Machine Learning Pipeline That Ensures Fairness Policies
手动理解策略并确保不透明ML系统的公平性是耗时且容易出错的,因此需要端到端系统来确保数据所有者和用户始终遵守公平政策。该系统可以:1)理解用自然语言编写的策略,2)警告用户违反策略,3)记录执行的每个活动,以便后续证明策略合规性。
Scalable Fair Clustering
提出了一种线性时间的聚类算法,能更精细的控制聚类的平衡
Scalable Fair Clustering
研究人脸识别神经网络的公平性,提供了人类可解释的面部特征的定量测量,推动创建更公平和准确的人脸识别系统
Data Pre-Processing for Discrimination Prevention: Information-Theoretic Optimization and Analysis
Optimized Pre-Processing for Discrimination Prevention
介绍了一种新的概率预处理方法,用于减少歧视
Analyze, Detect and Remove Gender Stereotyping from Bollywood Movies
分析电影或者海报中的性别偏见
Modeling Epistemological Principles for Bias Mitigation in AI Systems: An Illustration in Hiring Decisions
本文提出了一种结构化方法,以减轻人工智能系统偏见造成的歧视和不公平。研究AI对招聘简历的分析。
Fairness in Deceased Organ Matching
研究如何公平地决定如何将已故捐献者捐赠的器官与患者相匹配
了解 AI 输出结果的依据是可信的关键要素,尤其是对企业级 AI 而言。为了提高透明度:
Understanding black-box predictions via influence functions
描述神经网络的可解释性
Seq2Seq-Vis: A Visual Debugging Tool for Sequence-to-Sequence Models
设计了一款可用于 Seq2Seq 翻译模型 debug 的可视化工具
Teaching Meaningful Explanations
提出了一种可解释的方法,让训练数据除了包含特征和标签之外,还包含用户给出的解释,然后使用联合模型进行学习,针对输入特征输出标签和解释。
Explanations based on the Missing: Towards Contrastive Explanations with Pertinent Negatives
提出了一种对黑盒分类器提供对比解释的新方法,来证明分类是否合理
Why Interpretability in Machine Learning? An Answer Using Distributed Detection and Data Fusion Theory
使用分布式检测理论来表征系统的性能,并证明具有可解释性的分类系统优于黑盒系统
Collaborative Human-AI (CHAI): Evidence-Based Interpretable Melanoma Classification in Dermoscopic Images
提出了一种基于证据的皮肤图像分类方法
Interpretable to Whom? A Role-based Model for Analyzing Interpretable Machine Learning Systems
识别代理在机器学习系统中实现的不同角色以及如何影响其目标,并且定义可解释性的含义。
Improving Simple Models with Confidence Profiles
提出了 ProfWeight 方法将信息从具有高测试精度的预训练深度神经网络传递到更简单的可解释模型或低复杂度和先验低测试精度的非常浅的网络
确保 AI 系统所有的部件和事件都是可追溯的
FactSheets: Increasing Trust in AI Services through Supplier’s Declarations of Conformity
提出供应商的AI服务符合性声明(SDoC),以描述产品的沿袭以及它经历的安全性和性能测试,帮助增加对AI服务的信任。 我们设想用于人工智能服务的SDoC包含目的,性能,安全性,安全性和出处信息,由AI服务提供商完成并自愿发布,供消费者检查。 重要的是,它传达了产品级而不是组件级的功能测试。
对抗性样本(Adversarial Sample):
对输入样本故意添加一些人无法察觉的细微的干扰,导致模型以高置信度给出一个错误的输出。
误差放大效应(error amplification effect):
由于神经网络的结构复杂,而且会经过多次叠加,即使很小扰动,累加起来也很可观。