KDD2018精选(4)有监督矩阵完备化的主动特征获取

1.    原文:Active Feature Acquisition with Supervised Matrix Completion

作者来自南航、理研和东大

关键词:主动学习,特征获取,矩阵完备化

1.1  引言

在数据挖掘和机器学习任务中,一组数据对象通常表示为特征矩阵,其中每行是一个对象,每列是特征的一个维度。如果特征值严重缺失,在该数据集上训练的分类模型的性能将显著退化。矩阵完备化将是用于恢复特征矩阵的缺失条目的有用工具,已被广泛研究。类标签强烈依赖于特征表示,会减小全部可能矩阵的选择范围,而且不同的特征可能对恢复缺失值以及改进分类模型具有不同的贡献。传统的主动学习算法选择信息量最大的未标记实例来查询其标签,并且可以显着降低注释成本。这篇文章综合了主动特征查询和监督矩阵完备化,以最小化数据获得成本。理论分析给出了矩阵完备算法重构误差的上界,同时在不同的数据集上进行实验以验证所提出的方法的有效性。

1.2  相关工作

主动学习已经被广泛研究以降低标注成本,比如统计方法,SVM,委员会选择法等。与旨在降低标签成本的传统主动学习不同,还有另一个研究分支采用相似性方法来降低特征获取成本,比如提出一个标准来估计每单位成本的准确性的预期改进,然后迭代地获得最具成本效益的特征值,还有一种类似的方法,其中学习任务是聚类而不是分类,因此相应的标准估计了每单位成本的聚类质量的预期改进。这些方法的一个共同限制是它们不考虑可以从观察到的条目中准确地恢复一些缺失特征的情况,因此可能浪费不必要的特征获取成本。恢复缺失特征所使用的惩罚训练需要监督学习,而矩阵完备是用于恢复部分观察到的矩阵的缺失条目的经典方法。在某些情况下,观察到的条目不足以恢复其他条目,因此需要进一步工作以获取一些缺失条目的更多实实际值。虽然上述所有研究都没有在理论上的完备性,但还是有着重于基于结果的自适应查询矩阵。

1.3  提出的方法

考虑特征缺失问题,其中仅部分观察到X。本文用Ω表示观察到的X条目的索引集。 在本节的其余部分,本文将首先提出一种监督矩阵完成方法,然后提出一种主动特征获取方法。

1.3.1     监督矩阵完备

我们关注监督分类设置下的矩阵完成问题,其中任务是学习用于预测实例的类标签的函数f。目标函数一方面,通过低秩假设从X的部分观察中准确地恢复地面实况特征矩阵,另一方面,用恢复的矩阵DX训练的分类模型f预期具有小的经验误差。


KDD2018精选(4)有监督矩阵完备化的主动特征获取_第1张图片

对问题优化如下:


KDD2018精选(4)有监督矩阵完备化的主动特征获取_第2张图片

得到等价问题:


1.3.2     主动特征获取

如何积极地查询地面实况值作为最具信息性的特征,此处目标问题是证明模型主要基于最小数量的查询。基于方差的选择,如果模型对实例的预测不太确定,则该实例被认为对于改进模型更具信息性,并且更有可能被选择用于标签查询。需要提出的是,没有必要根据所有迭代计算方差。一般来说,获得最近迭代中的条目变化更为重要。最后,获取特征值的代价因不同的特征而异。同时,在每次迭代中,选择一小部分缺失的特征矩阵条目来获取它们的标注值。进一步说,这里采用最近提出的帕累托优化算法(POSS)来解决这个问题。 POSS是一种进化风格算法,它维护解决方案存档,并通过用更好的解决方案替换某些解决方案来迭代更新存档。


KDD2018精选(4)有监督矩阵完备化的主动特征获取_第3张图片

1.3.3     理论分析

对于Xw和y之间的损失最小化问题,这里通过强制Xw和y相等来讨论更严格的情况:对于SVD为M=UΣV⊤的秩-r矩阵M∈Rn×m,我们使用以下值作为相干性,相干性越低,条目的值的平均分布越均匀。假设aX∥2tr≤βrnd,f(X)= y并且Ω是在具有概率|Ω| /(nd)的二项式模型之后随机独立选择的。 设DX *为优化问题的解,μ=maxDX∈Gμ(DX),其中G⊂Rn×d为G =(XD∈Rn×d |∥DX∥2ndDX*  - X∥2tr ≤βrnd,f(DX)=y√F≤2*。,C0μ2βsr(n + d)|Ω|)s对于某些r≤min{n,d}和β≥0。然后至少有概率 1 -C /(n + d),我们有


1.4  实验

在6个数据集上进行实验,即鲍鱼,信件,图像,国际象棋,HillValley和HTRU2。在实验中,检查矩阵完备和主动特征获得后的分类的性能。主动特征获取方法AFASMC也与以下方法进行了比较,对于AFASMC,参数λ1和λ2在所有数据集上默认固定为1。


KDD2018精选(4)有监督矩阵完备化的主动特征获取_第4张图片

对于不同的特征获得代价,可以观察到,考虑获得代价的两种策略都可以获得比原始AFASMC更好的性能。


KDD2018精选(4)有监督矩阵完备化的主动特征获取_第5张图片

同时,捕获最近迭代中条目的变动更为重要,即方差计算应该更多地强调最近的迭代。


KDD2018精选(4)有监督矩阵完备化的主动特征获取_第6张图片

你可能感兴趣的:(KDD2018精选(4)有监督矩阵完备化的主动特征获取)