自监督学习

自监督学习指的是不依赖标注数据,模型直接从无标注的大量数据中进行学习。【属于无监督学习的一部分,它在训练过程中有正负样本,但是正负样本不是人工标号得来的,而是通过自己产生的。】
自监督学习总体分成两类:生成式自监督学习和判别式自监督学习。
其中生成式自监督学习的代表是VAE和GAN,他们利用一个生成器来学习真实的样本分布,不需要提供负样本就可以学习到一个生成器。
判别式监督模型的任务难度要低一些,典型的代表是对比学习。其指导思想是「通过自动构造相似实例和不相似实例,通过一个表示学习模型,使得相似实例在投影空间中比较接近,不相似实例在投影空间中距离比较远。」

对比学习(判别式监督模型)

对比学习最开始是从CV领域发展来的,典型的模型是MOCO和simCLR,主要是解决图像表示的问题。对比学习的目标是学习一个编码器,此编码器对同类数据进行相似的编码,并使不同类的数据的编码结果尽可能的不同。
那怎么定义相似实例和不相似实例呢?这通常通过一个代理任务来实现,也就是通过规则来产生,数据增强就是一种常见的代理任务。
对比学习的典型范式就是代理任务+目标函数。常见的一种选择是代理任务用数据增强,目标函数用infoNCE。

SimCSE:Simple Contrastive Learning of Sentence Embeddings

GAN(生成式自监督学习)

GAN主要的优化不再学习原始的分布函数(最大化似然函数),而是用一个生成模型(MLP)来近似真实分布,这个分布生成的结果与实际图片用判别模型无法判别。
数据集:对生成器随机初始化,直接输出假的样本集,同时我们有真实的样本集,这样就得到了真假样本。
训练方式:迭代训练。先固定生成器不变,对判别器进行训练,训练任务是一个有监督的二分类任务。接着固定判别器参数不变,对生成器进行训练,训练任务是给生成器一个随机输入,损失函数是判别器的结果是否为真。经过这一轮迭代,生成器的造假能力得到提升,然后再继续迭代判别器和生成器,直到收敛。最终拿到一个好的生成器,它生成的结果在判别器中难以区分真假。

你可能感兴趣的:(学习,机器学习,人工智能)