Dataset Condensation with Distribution Matching论文笔记

摘要

最近一个有前途的降低训练成本的方向是数据集浓缩,其目的是在保留原始信息的情况下,用一个小得多的学习合成集来代替原始的大型训练集。虽然在浓缩的小图像集上训练深度模型的速度非常快,但由于复杂的双级优化和二阶导数计算,它们的合成仍然计算昂贵。

在这项工作中,我们提出了一种简单而有效的方法,通过匹配合成图像和原始训练图像在许多采样嵌入空间中的特征分布来合成浓缩图像。我们的方法大大降低了合成成本,同时实现了相当的或更好的性能。由于它的效率,我们将我们的方法应用于具有复杂神经结构的更现实和更大的数据集,并获得了显著的性能提升1。我们还展示了我们的方法在持续学习和神经结构搜索中的有希望的实际好处

1介绍

代码:https://github.com/VICO-UoE/DatasetCondensation

2023WACV  作者Bo Zhao, Hakan Bilen  爱丁堡大学信息学院

        减少训练集规模的传统解决方案是核心集选择。通常,核心集选择方法根据启发式标准选择对训练很重要的样本,例如,最小化核心集和整个数据集中心之间的距离,最大化所选样本的多样性[1],发现聚类中心,计算错误分类频率和选择具有最大负隐含梯度的样本。尽管核心集选择方法在计算上非常有效,但它们有两个主要的限制。首先,大多数方法都是增量和贪婪地选择样本

你可能感兴趣的:(数据集浓缩,隐私保护,人工智能,安全,论文阅读,深度学习)