读论文:fPML,ML-JMF

两篇ICDM 2018机器学习的论文,来自http://mlda.swu.edu.cn/publication.php

  • 首先记录短文(简称fPML)
  • 再写长文(简称ML-JMF)
  • 最后总结一下异同 (ongoing)

Feature-induced Partial Multi-label Learning (fPML)

ICDM 2018

Problem

  • However, the performance of multi-label learning may be compromised by noisy (or incorrect) labels of training instances.

  • the ground-truth labels are concealed in a set of candidate noisy labels, the number of ground-truth labels is also unknown.

Most relevant

  • partial multi-label learninl [Xie et al. AAAL, 2018]
  • to optimize the label confidence values and the relevance ordering of labels of each instance by exploiting structural information in feature and label spaces, and by minimizing the confidence weighted ranking loss.
  • However, it has to simultaneously optimize multiple binary predictors and a very large number of confidence rankings of candidate label pairs; hence, suffers from heavy computational costs

Motivetion

Why

  • Since labels are correlated, the label correlation and the ground-truth instance-label association matrices have a linear dependence structure, and thus they are low-rank [Zhu et al, TKDE, 2018, Xu et al, ICDM, 2014]
  • The low-rank approximation of a noisy matrix is robust to noise [Konstantinides et al, TIP, 1997, Meng et a, ICCV, 2013]

How

  • We seek the ground- truth instance-label association matrix via learning the low- rank approximation of the observed association matrix, which contains noisy associations.
  • The labels of an instance depend on its features, and thus the features of instances should be used to estimate noisy labels.

Method

  • 主要思想是假设一个没噪声的 Y ^ \widehat{\mathbf{Y}} Y ,用矩阵分解强制分解成低秩的 S \mathbf{S} S G \mathbf{G} G
    Y ^ ≃ S G T (1) \widehat{\mathbf{Y}} \simeq \mathbf{S G}^{T} \tag{1} Y SGT(1)
    注意这两个矩阵的维度,

    • S ∈ R q × k \mathbf{S} \in \mathbb{R}^{q \times k} SRq×k 意义是把 q q q 个label映射成 k k k 个新的label
    • G ∈ R n × k \mathbf{G} \in \mathbb{R}^{n \times k} GRn×k 表示将 n n n 个样本映射成 k k k 个样本
  • 此时目标函数是2式,
    min ⁡ S , G ∥ Y − S G T ∥ F 2 (2) \min _{\mathbf{S}, \mathbf{G}}\left\|\mathbf{Y}-\mathbf{S G}^{T}\right\|_{F}^{2} \tag{2} S,GminYSGTF2(2)

  • 到目前为止仅利用了 label信息, 作者此时的创新是利用了原始数据 X \mathbf{X} X 的 feature信息,对 G \mathbf{G} G 进行了约束(原文是说sharing G \mathbf{G} G),加了一层线性变换,参数是 F \mathbf{F} F,变成了3式。
    min ⁡ S , F , G ∥ Y − S G T ∥ F 2 + λ 1 ∥ X − F G T ∥ F 2 (3) \min _{\mathbf{S}, \mathbf{F}, \mathbf{G}}\left\|\mathbf{Y}-\mathbf{S G}^{T}\right\|_{F}^{2}+\lambda_{1}\left\|\mathbf{X}-\mathbf{F} \mathbf{G}^{T}\right\|_{F}^{2} \tag{3} S,F,GminYSGTF2+λ1XFGTF2(3)
    学习 F ∈ R d × k \mathbf{F} \in \mathbb{R}^{d \times k} FRd×k 是用来抓特征之间的相互关系, λ 1 \lambda_{1} λ1 起调控作用

  • 最后为了将label映射回去, 加了一层线性操作 W \mathbf{W} W,4式,转化成了5式
    min ⁡ W ∥ Y − W T X ∥ F 2 (4) \min _{\mathbf{W}}\left\|\mathbf{Y}-\mathbf{W}^{T} \mathbf{X}\right\|_{F}^{2} \tag{4} WminYWTXF2(4)

    min ⁡ W ∥ S G T − W T X ∥ F 2 (5) \min _{\mathbf{W}}\left\|\mathbf{S G}^{T}-\mathbf{W}^{T} \mathbf{X}\right\|_{F}^{2} \tag{5} WminSGTWTXF2(5)

  • 最后将3,5式加起来,并对 W \mathbf{W} W 进行 l 1 l_1 l1 norm,得到最终loss,通过迭代优化求解

min ⁡ S , F , G , W ∥ Y − S G T ∥ F 2 + λ 1 ∥ X − F G T ∥ F 2 + λ 2 ∥ S G T − W T X ∥ F 2 + λ 3 ∥ W ∥ 1  s.t.  S ≥ 0 , G ≥ 0 (6) \begin{aligned} \min _{\mathbf{S}, \mathbf{F}, \mathbf{G}, \mathbf{W}}\left\|\mathbf{Y}-\mathbf{S G}^{T}\right\|_{F}^{2}+\lambda_{1}\left\|\mathbf{X}-\mathbf{F} \mathbf{G}^{T}\right\|_{F}^{2} & \\+\lambda_{2}\left\|\mathbf{S} \mathbf{G}^{T}-\mathbf{W}^{T} \mathbf{X}\right\|_{F}^{2}+\lambda_{3}\|\mathbf{W}\|_{1} \\ \text { s.t. } \mathbf{S} \geq 0, \mathbf{G} \geq 0 \end{aligned} \tag{6} S,F,G,WminYSGTF2+λ1XFGTF2+λ2SGTWTXF2+λ3W1 s.t. S0,G0(6)

  • 解决的问题
    • Y \mathbf{Y} Y 中的label,如果同时在 Y ^ \widehat{\mathbf{Y}} Y 并且confidence很低的话,可能是noisy label.
    • 通过 f ( x ) = W T x f(\mathbf{x})=\mathbf{W}^{T} \mathbf{x} f(x)=WTx 可以预测 q q q 个label的分布

Multi-Label Answer Aggregation based on Joint Matrix Factorization (ML-JMF)

ICDM 2018

问题

  • 1
    • 工人的个体背景的差异,他们标注的结果可能不同
    • 存在一些乱标注的情况
    • 所以如何得到高质量的标注是众包中的一个研究重点
  • 2
    • 当前的方法都是针对单标签的
    • 多标签通常会又更多的噪声和偏差
    • 工人不会相互进行核实?所以结果更局部了
    • 所以评估他们答案的可靠性很难
  • 3
    • 多标签标注中,标签的组合存在组合爆炸的影响

方法核心

  • 1
    • 分别对单个工人个体所标注的sample-label进行低秩矩阵分解,
    • motivation: 低秩矩阵分解对噪声具有鲁棒性
  • 2
    • 对每组分解的矩阵进行了加权,
    • motivation: 减少低质量的工人或噪声对结果的影响,此时作者认为独立的工人是存在偏差的
  • 3
    • 利用了label之间的相关性和工人之间的相关性
    • motivation: 一个multi-label样本的label之间是相关但不同的,有相同背景的工人答案应该是相似的。

方法

  • 假设第 w w w 个工人标注的矩阵为 : A w ≜ ( a 11 w … a 1 c w ⋮ ⋱ ⋮ a n 1 w ⋯ a n c w ) \mathbf{A}_{w} \triangleq\left(\begin{array}{ccc}{a_{11}^{w}} & {\dots} & {a_{1 c}^{w}} \\ {\vdots} & {\ddots} & {\vdots} \\ {a_{n 1}^{w}} & {\cdots} & {a_{n c}^{w}}\end{array}\right) Awa11wan1wa1cwancw n n n (row) 表示样本数, c c c (column) 表示标签。 a i l w ∈ { − 1 , 0 , 1 } a_{i l}^{w} \in\{-1,0,1\} ailw{1,0,1} , 1或者-1表示有无该标签,0表示没答案。

  • 根据方法核心1,作者进行了矩阵分解,见2式
    min ⁡ U , V > 0 ∑ w = 1 m μ w ∥ A w − U w S V T ∥ F 2  s.t.  ∑ w = 1 m μ w = 1 , μ w ≥ 0 (2) \begin{aligned} \min _{\mathbf{U}, \mathbf{V}>0} & \sum_{w=1}^{m} \boldsymbol{\mu}_{w}\left\|\mathbf{A}_{w}-\mathbf{U}_{w} \mathbf{S} \mathbf{V}^{T}\right\|_{F}^{2} \\ & \text { s.t. } \sum_{w=1}^{m} \boldsymbol{\mu}_{w}=1, \boldsymbol{\mu}_{w} \geq 0 \end{aligned} \tag{2} U,V>0minw=1mμwAwUwSVTF2 s.t. w=1mμw=1,μw0(2)
    ∥ ⋅ ∥ F 2 \|\cdot\|_{F}^{2} F2 是为了优化吧,重点是作者强制性把原sample-label矩阵分解成了分别代表sample和label的两个低秩矩阵: U w ∈ R n × k \mathbf{U}_{w} \in \mathbb{R}^{n \times k} UwRn×k 表示了sample, V ∈ R c × k \mathbf{V} \in \mathbb{R}^{c \times k} VRc×k 表示了label, S ∈ R k × k \mathbf{S} \in \mathbb{R}^{k \times k} SRk×k 是为了保证非负,因为 a i l w a_{i l}^{w} ailw 存在-1。

  • 根据方法核心2,2式中的 μ w \boldsymbol{\mu}_{w} μw 表示权重,为了避免这种情况:存在一个工人的 ∥ A w − U w S V ∥ F 2 \left\|\mathbf{A}_{w}-\mathbf{U}_{w} \mathbf{S} \mathbf{V}\right\|_{F}^{2} AwUwSVF2 特别小,因此按照2式,该工人的 μ w = 1 \boldsymbol{\mu}_{w}=1 μw=1 ,那么整体loss ∑ w = 1 m . . . \sum_{w=1}^{m}... w=1m... 也就最小了的情况发生,作者对2式加了 l 2 l_2 l2 成了3式,并且加入 λ \lambda λ 调控,如下:
    min ⁡ ∑ w = 1 m μ w ∥ A w − U w S V T ∥ F 2 + λ ∥ μ ∥ F 2  s.t.  ∑ w = 1 m μ w = 1 , μ w ≥ 0 (3) \begin{aligned} \min \sum_{w=1}^{m} \mu_{w}\left\|\mathbf{A}_{w}-\mathbf{U}_{w} \mathbf{S} \mathbf{V}^{T}\right\|_{F}^{2}+\lambda\|\boldsymbol{\mu}\|_{F}^{2} \\ \text { s.t. } \sum_{w=1}^{m} \mu_{w}=1, \boldsymbol{\mu}_{w} \geq 0 \end{aligned} \tag{3} minw=1mμwAwUwSVTF2+λμF2 s.t. w=1mμw=1,μw0(3)

  • 根据方法核心3,作者定义出了4式和5式用于约束loss。首先作者利用了多标签,标签之间的相关性,对2式分解出来的低秩矩阵 V \mathbf{V} V 进一步研究,定义出了4式,如下:
    min ⁡ v ≥ 0 1 2 ∑ i , j C i j ∥ v i − v j ∥ 2 2 = tr ⁡ ( V T ( D − C ) V ) = tr ⁡ ( V T L V ) (4) \begin{aligned} \min _{\mathbf{v} \geq 0} \frac{1}{2} \sum_{i, j} \mathbf{C}_{i j}\left\|\mathbf{v}_{i}-\mathbf{v}_{j}\right\|_{2}^{2} &=\operatorname{tr}\left(\mathbf{V}^{T}(\mathbf{D}-\mathbf{C}) \mathbf{V}\right) \\ &=\operatorname{tr}\left(\mathbf{V}^{T} \mathbf{L} \mathbf{V}\right) \end{aligned} \tag{4} v0min21i,jCijvivj22=tr(VT(DC)V)=tr(VTLV)(4)
    C ∈ R c × c \mathbf{C} \in \mathbb{R}^{c \times c} CRc×c 是label之间的相关矩阵,4式就是想让同一个样本中的labels在距离空间中越来越近。

  • 然后作者对以相同的思想对 U w \mathbf{U}_w Uw 进一步研究,定义了5式,
    min ⁡ U w ≥ 0 1 2 ∑ w ≠ p R w p ∥ U w − U p ∥ F 2 = ∑ w ≠ p R w p tr ⁡ ( ( U w − U p ) T ( U w − U p ) ) R w p = tr ⁡ ( A ~ w A ~ p ) tr ⁡ ( A ~ w A ~ w ) tr ⁡ ( A ~ p A ~ p )  s.t.  A ~ w = A w A w T − diag ⁡ ( A w A w T ) (5) \begin{aligned} \min _{\mathbf{U}_{w} \geq 0} & \frac{1}{2} \sum_{w \neq p} \mathbf{R}_{w p}\left\|\mathbf{U}_{w}-\mathbf{U}_{p}\right\|_{F}^{2} \\=& \sum_{w \neq p} \mathbf{R}_{w p} \operatorname{tr}\left(\left(\mathbf{U}_{w}-\mathbf{U}_{p}\right)^{T}\left(\mathbf{U}_{w}-\mathbf{U}_{p}\right)\right) \\ & \mathbf{R}_{w p}=\frac{\operatorname{tr}\left(\widetilde{\mathbf{A}}_{w} \widetilde{\mathbf{A}}_{p}\right)}{\sqrt{\operatorname{tr}\left(\widetilde{\mathbf{A}}_{w} \widetilde{\mathbf{A}}_{w}\right) \operatorname{tr}\left(\widetilde{\mathbf{A}}_{p} \widetilde{\mathbf{A}}_{p}\right)}} \\ & \text { s.t. } \quad \widetilde{\mathbf{A}}_{w}=\mathbf{A}_{w} \mathbf{A}_{w}^{T}-\operatorname{diag}\left(\mathbf{A}_{w} \mathbf{A}_{w}^{T}\right) \end{aligned} \tag{5} Uw0min=21w=pRwpUwUpF2w=pRwptr((UwUp)T(UwUp))Rwp=tr(A wA w)tr(A pA p) tr(A wA p) s.t. A w=AwAwTdiag(AwAwT)(5)
    R w p \mathbf{R}_{w p} Rwp 代表第 m m m 个和第 p p p 个工人的相似度

  • 最后把3,4,5式加起来成了最后的loss,进行迭代求解

  • 解决的问题

    • 通过求解后计算 A ∗ = ∑ w = 1 m μ w U w S V \mathbf{A}^{*}=\sum_{w=1}^{m} \boldsymbol{\mu}_{w} \mathbf{U}_{w} \mathbf{S} \mathbf{V} A=w=1mμwUwSV 可以通过 μ w \boldsymbol{\mu}_{w} μw=0 减少noisy标注的影响
    • 同时通过低秩矩阵的近似可以remove部分噪声标注

两篇文章的异同

  • 总的来说,两篇文章都是解决multi-label中存在的noisy问题,都是采用的低秩矩阵分解的方法,区别之处在于 ML-JMF 比 fPML 多了一个 worker 的维度,应用的问题背景也不同

    ps: 关于低秩矩阵为什么能降低noisy,可以看这个slides: https://people.eecs.berkeley.edu/~yang/courses/ECCV2012/ECCV12-lecture3.pdf

  • 不同之处细节如下

    • fPML label中1,0,ML-JMF是1,0,-1,因此矩阵分解的时候就有差异
    • fPML 是用给予 F \mathbf{F} F 去学习特征之间的关系,ML-JMF 是根据相关性的先验去约束目标函数
    • fPML 设计有 W \mathbf{W} W ,可以映射回标签,ML-JMF设有 μ w \boldsymbol{\mu}_{w} μw 对worker进行加权

ongoing

因为刚接触这个方向,有理解不对的地方还请交流指正

你可能感兴趣的:(论文笔记)