点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
整理:Cver
本文作者:Spaceman
https://zhuanlan.zhihu.com/p/141530386
本文已由原作者授权,不得擅自二次转载
本文主要详细解读CVPR 2020 Oral文章:《Towards Discriminability and Diversity:Batch Nuclear-norm Maximization under Label Insufficient Situations》。这篇文章探讨了在标签不充分情形下的深度学习训练(比如unsupervised domain adaptation, semi-supervised),并且用十分简洁的形式约束了预测的判别性和多样性。
论文链接:https://arxiv.org/abs/2003.12237
当模型直接应用于无标签的数据时,其预测的判别性(Discriminability)
往往会很差。为了提升模型预测的判别性,一类常见做法是约束模型对无监督数据的预测的熵。熵越小,表明模型预测的判别性越强(当预测为one-hot向量,熵最小)。然而这类方法的缺点是对minority categories不友好:这是因为,为了保证无监督数据的预测的判别性,它可能把minority categories的样本推向majority categories去。这样就无法保证模型预测的多样性(Diversity)。
因此,基于以上的分析,本文对模型的预测进行约束,使得其同时具有:
判别性:可近似表达为预测的确定性;
多样性:可近似表达为预测的类别数目多,避免坍缩于majority categories。
假设模型对一个Batch数据的预测矩阵为 ,其中B和C分别表示Batch size和类别数,并满足:
(1)
那么用熵约束判别性可以表达为:
(2)
文章指出约束A的 F-norm (Frobenius-norm)最大,也可以约束模型预测判别性:
(3)
文章证明了,A的 F-norm 和 H(A) 具有严格相反的单调性,并且A的 F-norm的最大值与H(A)的最小值的取值相同。证明过程作者放在了补充材料里,目前尚未公开。我自己私下也证明了一下,受限于篇幅,这里暂不展开讲。
特别地,
(4)
可以看出取最大值的条件是A的每一行都是one-hot向量,与熵最小的取等条件相同。
由于每个Batch的数据都是随机采样的,那么每个Batch的类别的期望应是稳定的。注意到这个性质,本文通过约束A的秩最大,来约束多样性。这样可以避免模型的预测坍缩到majority category。这一点很直观不展开说明。
矩阵的秩直接是很难优化的,这是一个NP-Hard问题。这里约束A的Nuclear-norm 。Nuclear-norm是矩阵秩的凸近似。
为了同时能约束判别性与多样性,我们发现 与 有这样的关系:
(5)
其中D=min(B, C)。这表明 与 可以互相bound住。那么自然地:
(6)
因此约束 最大可以强迫 趋于最大值。进而使得模型预测兼具判别性与多样性。
该方法 Batch Nuclear-norm Maximization(BNM),可以用于三种标签不充分的情景:unsupervised domain adaptation, semi-supervised learning, unsupervised domain recognition。
我们假设有Labeled domain 和Unlabeled domain ,那么对应上述两个domain分别定义如下loss:
(7)
(8)
那么最后整体的loss为:
(9)
Semi-supervised learning
Unsupervised domain adaptation
Unsupervised domain recognition
请给一个在看!