Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher

1.Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher

1. 论文思路

提出了contrastive loss 的两种性质:
(1)alignment 用来衡量正例对样本间的近似程度。 (2)uniformity 衡量规整后的特征在unit 超球体上的分布的均匀性。
并提出了衡量两种性质的评价指标,并且优化这两个指标的训练学到的特征在下游任务上表现更好。

2. 两种特征的解释

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第1张图片
Q1 让特征分布在unit hypersphere的好处是?
(1)固定范数的向量提升训练的稳定性;(2)如果一个类别的特征能被比较好的聚类,那么在整个特征空间上这个类别是更容易被线性可分的。
Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第2张图片
Q2 两个性质的目标:
(1)alignment 让相同的样本的特征尽可能相似 (2)Uniformity使得特征的分布保持尽可能多的信息。

  • contrastive representation learning
    (1)Assumption
    在这里插入图片描述
    (2) InfoMax principle
    最大化 I ( f ( x ) , f ( y ) ) I(f(x),f(y)) I(f(x),f(y)) for postive pair. 通常的 L c o n t r a s t i v e L_{contrastive} Lcontrastive定义了这个的下界,然而最大化这个下界有可能会使下游任务的表现更加糟糕。
  • 从两个角度验证两个性质的合理性
  • 在超球体上的特征分布
    作者在这里通过将CIFAR-10的可视化结果来验证两个性质, 这里采用的配置主要是通过三个方法将一张图片映射到一个二维的特征表征:
    (1)随机初始化 (2) 有监督的预测学习 (encdoer+linear classifier) (3)无监督contrastive learning
    这里encoder 都是采用相同的AlexNet.

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第3张图片
contrastive learning 学到的特征既有aligned(正例对距离较近)又有uniform( 特征均匀分布)的特性。
从contrastive loss 计算上理解
在这里插入图片描述
最小化第一项意味着使得正例的距离尽可能近(alignment),特殊情况假设perfectly aligned, P [ f ( x ) = f ( y ) ] = 1 P[f(x)=f(y)]=1 P[f(x)=f(y)]=1,那么最小化loss等价于最小化第二项,即使得样本中数据尽可能分散(uniformity)
在这里插入图片描述

3. 量化 Alignment 和 Uniformity

  • Alignment
    在这里插入图片描述
  • Uniformity
    采用高斯势核函数
    在这里插入图片描述
    Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第4张图片
    t 是一个固定值。
    Q3: 为什么高斯核函数要比pairwise 的点积平均和欧式距离要好:
    Among kernels that achieve uniformity at optima, the Gaussian kernel is special in that it is closely related to the universally optimal point configurations and can also be used to represent a general class of other kernels, including the Riesz s-potentials: 在达到最佳均匀性的内核中,高斯内核的特殊之处在于它与通用最优点配置密切相关,并且还可以用于表示其他内核的一般类,包括Riesz势
    Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第5张图片
    具体表现也可以看出,采用高斯核的无监督训练特征分布的更加均匀。

L u n i f o r m L_{uniform} Luniform相比于contrast loss 好在: pushes the log outside the outer expectation, without changing the minimizer
形式更简单,且不需要做softmax 计算。

4. 实验验证

*验证两个 metric和下游任务的表现关系
Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第6张图片
L a l i g n L_{align} Lalign L u n i f o r m L_{uniform} Luniform越小,相应的下游任务的acc 和mse 的效果最好。

  • 两者权重的优化
    Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第7张图片
    两个metrics 对于一个好的特征表示都是必要的,只要两者权重的比例不大于4,效果都是不错的。

  • 优化这两个metrics 下游任务表现更好
    Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第8张图片

  • 和contrastive loss 进一步对比
    Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第9张图片
    Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher_第10张图片
    在下游任务的总体表现较好,并不总是比contrastive loss 要好。

你可能感兴趣的:(语音识别asr,深度学习)