[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)

文章目录

  • 摘要
  • 引言
  • 方法
    • 补充:分支界定法
  • 实验结果


摘要

  1. 提出了一种基于混合整数线性规划(MILP)的数据集操作方法。提出的优化可以将数据集缩小到特定的大小,同时在不同维度上强制执行特定的分布。它本质上利用了初始数据集的冗余,以生成更紧凑的版本,并在每个维度上具有特定的目标分布。
  2. 如果期望的目标分布是均匀的,那么效果就是平衡的:所有不同维度的所有值都被平等地表示出来。根据问题的性质,还可以指定其他类型的目标分布。所提出的方法可用于机器学习,用于塑造训练和测试数据集,或用于众包,用于准备可管理的数据集。

引言

  1. 在我们的时代,数据是丰富的。在我们的日常生活中,照相机、麦克风和其他传感器的广泛使用使得收集各种类型的数据比以往任何时候都更容易。这为许多科学领域的进步,特别是图像处理和计算机视觉,做出了重大贡献。毫不夸张地说,如今,(几乎)每一个研究问题都至少有一个数据集。
  2. 大数据分析的进步促成了“越大越好”的观念。然而,通常很少关注数据集中的特征分布。因此,一些数据集可能严重偏向特定的属性。例如,一个用于性别估计的数据集,其大部分图像描述的是特定年龄组的人,它就不具有现实生活的代表性,可能不适合用作训练集。此外,偏好可能会影响多个感兴趣的维度,这限制了从特定数据集学习到的模型的可重用性。
  3. 根据目标的不同,可能会使用不同的方法来处理不平衡的数据集。欠采样(减少过代表的类)和过采样(复制过代表的类)是两种典型的方法[1]。为数据点分配不同的重要权重也是另一种可能产生更平衡的分类器的技术。
  4. 虽然现有的技术可以缓解不平衡的特征分布,但它们并没有明确提供缩小数据集大小的解决方案同时为不同的特征强制执行特定的目标分布(不一定是均匀的)。通过不同维度的特定分布的子抽样来合成一个更小的子集是一个具有挑战性的组合问题,在许多不同的领域都有兴趣。
  5. 为此,提出了一种基于混合整数线性规划(MILP)的数据集整形技术。提出的优化可以将数据集缩小到特定的给定大小,同时在不同的维度上强制执行特定的分布。它本质上利用了初始数据集的冗余性,以便生成更紧凑的版本,并具有跨每个维度的特定目标分布。如果目标分布是均匀的,那么效果就是平衡的:所有不同维度的所有值都被平等地表示出来。也可以使用其他类型的目标分布,这取决于问题的性质。

方法

[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)_第1张图片

[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)_第2张图片
这本质上意味着,从总样本集S中选择到目标概率质量函数(PMF) L1距离最小的N个样本,从而近似DMs(均匀分布)。

在这里插入图片描述在这里插入图片描述[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)_第3张图片

补充:分支界定法

MILP问题是np -难组合问题。然而,现代的分支定界算法可以可靠而快速地解决现实世界中的许多问题。我们的实现1使用MATLAB的intlinprog函数[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)_第4张图片[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)_第5张图片

实验结果

从Gallagher数据集[7]中从相同的589张照片中选择90张照片的不同方法,根据不同的目标分布。第一行:数据集的原始分布。第二行:强制统一分配。第三行:强制三角形分布。最下面一行:强制线性递减分布。
[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)_第6张图片

  1. 介绍了一种基于混合整数线性规划(MILP)的数据集子采样与整形方法。提出的方法可以将数据集缩小到特定的大小,同时在不同的维度上强制执行特定的目标分布。实验结果表明,该算法能够对数据集进行欠采样,并成功地实现不同维度和量化范围内的各种目标分布。
  2. 作为一个简单的应用程序,我们的算法可以用于平衡最初不平衡的数据集(强制统一分布)。可能的用途包括机器学习和涉及众包的用户研究,可以创建更小的平衡数据集,以消除数据偏差对用户行为的影响。我们的技术可以限制这类研究的成本(要交互的项目数量更少),并间接提高获得结果的质量(由于工作者注意力的碎片化程度较低)。

你可能感兴趣的:(论文阅读,论文阅读,人工智能,计算机视觉)