因此,自监督学习通过数据本身的信息来完成表征的学习。而且在Downstream( Pacal VOC检测)任务上,已经能比肩或超过监督方法。
通常,自监督学习通过构建一些不专注于像素细节的表征(representation learning)而对高层特征进行编码而区分不同对象。
Generative model更加专注于像素的特征,而会造成一下两点问题:
Some Recent Works:
Deep InfoMax (ICLR2019)
Main Idea: 通过maximize input和deep encoder的mutual information。
正样本对为input image的全局特征(feature vector)与局部特征(feature map),而负样本对来自全局特征与另外一张图片的match。
Contrasctive MultiView Coding
现在我们能够拿到很多正样本,问题是怎么获得大量的负样本,对于 contrastive loss 而言,如何 sample 到很多负样本是关键,mini-batch 里面的负样本太少了,而每次对图片重新提取特征又非常的慢。虽然可以通过 memory bank 将负样本都存下来,但是效果并不好,所以如何节省内存和空间获得大量的负样本仍然没有很好地解决。
Memory bank方法中,键的表征是从存储库中提取的。
