Unsupervised Visual Representation Learning by Context Prediction读后感

这篇文章的思想是利用self-supervise的思想去运用一些互联网规模的数据集(人工的annotation很难获得),无监督地为图片生成特征。

生成的embedding希望是语义相近的目标在embedding空间中也是要相近的(语义不同也就不相近)。一种方法是构建一个pretext任务,autoencoders,context prediction(文本很容易,但是图片的话很难预测context),因此要把prediction任务转换成discrimination任务。例如把真实图片和被换掉一个patches的图片辨别出来(这里有个点就是可能此任务抽取出来的特征是比较低级的特征)


想要做到给予两个patches的输入,预测第二个patches在第一个的哪个方位。

为了防止一些“trivial”的shortcuts,因此保证patches之间要存在gap,并且每一个都会在各个方向进行随机的抖动。

还发现了有色差(chromatic aberration)的问题,解决这个问题是通过两种方法(1:projection,2:color dropping)

网络结构为,fc6即为抽取的特征空间


本文还做了Nearest Neighbors,Learnability of Chromatic Aberration,Object Detection,Geometry Estimation,Visual Data Mining(不太懂是怎么做的)

你可能感兴趣的:(Unsupervised Visual Representation Learning by Context Prediction读后感)