论文笔记 AAAI2020 Multi-View Partial Multi-label Learning with Graph-based Disambiguation

论文笔记

  • 论文阅读
    • 背景介绍
    • 提出的方法
      • Candidate Labels Disambiguation
      • Disambiguation-Guided Model Induction
    • 实验

最近看到了这篇文章,觉得可以拿来参考,先做个阅读笔记记录一下。

论文阅读

先附上论文地址

背景介绍

这篇文章研究的问题是在多视图多标签学习(MVML)学习中标签不可信的问题。
在常规的MVML研究中,通常假定针对每个训练实例都已对所有相关标签进行了精确注释。
但是,在许多现实世界的场景中,通常很难获得精确的注释,而且成本很高。所以文章建模了一种问题是多标签部分有效场景下的学习问题MVPML(Multi-View Par-tial Multi-label Learning),并以此提出了它的方法进行实验。

提出的方法

该文章提出了一个名为GRADIS(GRAph-based DISambiguation)的方法,大致上分为两步完成任务,一是重新表示标签,二是重新表示特征。

Candidate Labels Disambiguation

这部分工作的目的是消除训练数据的原生标签集的错误,得到一份新的标签。
首先定义 N ( x i v ) \mathcal N(x_{i}^{v}) N(xiv)为样本 x i x_i xi在视图v上的邻居集合。然后采取下面的公式衡量两个样本i和j之间在视图v上的相似度。
在这里插入图片描述
总的相似度自然为
在这里插入图片描述
那么以样本为节点,相似度为边权重,可以把数据变成一种图结构。
同时还引入一个代表标签置信度的变量F,其初始状态赋值如下图,相当于把权重均分到每个标签。
在这里插入图片描述
多轮迭代之后,F按如下方式更新,HW权重按照列归一化后的矩阵, α \alpha α是控制更新程度的变量。

在这里插入图片描述
把迭代完成的最后F矩阵进行归一化
在这里插入图片描述
最后设定一个标签置信度的阈值 γ ∈ ( 0 , 1 ) \gamma \in (0,1) γ(0,1),得到新的标签集。
在这里插入图片描述

Disambiguation-Guided Model Induction

这部分是重新表示数据特征。
首先定义符号代表类别c的正负样本集合
在这里插入图片描述
然后分别在正负样本集合上使用谱聚类(相似度矩阵就是之前的W),聚类中心个数为样本数的一个折扣。
在这里插入图片描述
那么对于一共 2 m c 2m_c 2mc个聚类中心而言,每个样本计算与其的欧式距离就能得到新的一个 2 m c ∗ V 2m_c * V 2mcV维的表示。
在这里插入图片描述
新的数据表示和之前根据置信度新生成的标签构成了一个新的数据集。
论文笔记 AAAI2020 Multi-View Partial Multi-label Learning with Graph-based Disambiguation_第1张图片
之后的模型训练及预测就都是在这种新处理过的数据集上了。对于未知样本的预测就按照如下方式了。 f c f_c fc是训练好的用于判断c类标签的分类器。
在这里插入图片描述

实验

文章的实验在7个公共数据集上进行,且根据文章提出的两个参数进行了加工,按照 p p p的比例给样本增加了 γ \gamma γ个假标签。
在这里插入图片描述
并且用了4篇文章的模型进行对比,结果都是比较好的。
在这里插入图片描述
但是看完之后我有两点疑惑:

  1. 文章立意是多标签部分可信,所以提出了两个消歧过程,数据也是单独加工过,对于其他模型拿这种假数据学习是不是不太公平。
  2. 文章里面没说他实验用的二分类算法是什么,假如在他消歧处理过的数据上用别的模型是不是可以达到更高的效果。

你可能感兴趣的:(DL)