弱水三千,只取你标!AL(主动学习)结合GAN如何?

欢迎点击上方蓝字,关注啦~

相关阅读:

GAN整整6年了!是时候要来捋捋了!

异常检测,GAN如何gan ?

虚拟换衣!速览这几篇最新论文咋做的!

脸部妆容迁移!速览几篇用GAN来做的论文

【1】GAN在医学图像上的生成,今如何?

01-GAN公式简明原理之铁甲小宝篇

这次简单记录下、GAN和主动学习结合的一些论文,不当处、望指正~

Active Learning 主动学习:

背景

众所周知,深度学习的崛起和广泛应用是依靠着大量的标注数据的,但在很多场合下,大规模数据的标注成本太高,同时也可能导致训练时间过长。主动学习可挑出所谓高信息的数据去标注,从而降低标注成本、减少训练时间,还可以迭代提升模型表现。

定义

目的是设计一个选择/查询函数(query function),用它来从大量的未标注的数据池中选出具有高价值的待标注数据,递送给人工标注(oracle)后,加入训练集,反复迭代训练模型。

常见手段

主动方法常见的有基于池、基于合成的方法。

  • 基于池(pool):根据预设的选择策略选出的数据交给基准分类器预测,错误时再送人工标注。对于查询策略,如何挑选最有信息量的样本,常见地:       1)Random Sampling:随机选择;2)Uncertainty Sampling:选择当前模型最不确定的样本,如  分类概率为0.5等。但显然,这种策略受异常点、outlier 样本、冗余的样本影响。

  • 基于合成:使用生成模型生成更具有信息的样本。

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第1张图片

1. 2017-Generative Adversarial Active Learning

https://arxiv.xilesou.top/pdf/1702.07956.pdf

简介:

第一个将GAN结合主动学习的工作,提出GAAL。采用的手段是基于合成的思路。如下图所示,还是一目了然的。

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第2张图片

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第3张图片

有趣的是,作者在贡献的声明强调,该工作贡献主要在于:首次将GAN和主动学习相结合,而不是要和各种SOTA方法在什么精确率上一较高下,所以论文的实验部分,作者采用的是SVM做为分类器。

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第4张图片

当然,作者也说,我们方法是极具前景的~,并且和基于池的相比,也是competitive的呢,我们的方法也许可以启发后来者、用GAN展开相关的工作(坑已挖好,来跳,哈哈)。

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第5张图片

实验:

对于训练数据的初始化是,随机筛选50个样本;每次1个batch对应10次queries。进行了以下几种方法的对比实验:

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第6张图片

作者进行的是二分类的实验(多分类类似),MNIST上对数字5和7分类,CIFAR10对automobile 和 horse(也许因为当时GAN生成能力有限,或者也许作者懒得去搞最SOTA的GAN了,反正能够说明问题就行。但是采用的DCGAN实在乏力,在其实验数据上连生成猫和狗都吃力,因此选汽车和马生成效果更好区分些,2333)。作者其实也有提到一些可以改进GAN的方法,但作为未来工作,现在的实验结果先写文发出来,哈哈。

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第7张图片

在上图的top子图可以看到,在350个训练样本的时候,GAAL开始超越SVM-active和全监督训练的方法。其他图的具体细节感兴趣可以阅读原文。更多实验结果还有:

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第8张图片

2. 2019-10-28 Variational Adversarial Active Learning

https://arxiv.xilesou.top/pdf/1904.00370.pdf

简介:

提出一种基于池的半监督主动学习算法,通过对抗的方式学习采样/选择机制。

使用变分自编码器学习潜码空间,训练对抗网络的判别器区分数据是否被标记。进一步地,VAE和判别器之间进行对抗学习:

VAE尽可能让判别器预测所有的数据都是来自于标记池,判别器尽可能在隐空间层面区分是否为标记数据。作者认为所提出的方法可以学习有效的、低维的隐空间表征,并提供了一种高效的采样/选择方法

如下图所示,(XL,YL)表示打好标签的标记池中的标记数据, (XU)表示在大量未标记数据池中的数据。目标是训练最label-efficient的模型:通过迭代地查询一个固定的采样预算,从未标记池中挑选出最有“信息价值”的b个样本,提供给oracle(人工)进行标注。

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第9张图片

表征学习

Transductive representation learning

使用β变分自编码器进行表征学习。编码器在高斯先验基础上,学习一个隐含低维表征空间,解码器可以重建输入的数据。为补全有标记的数据在表征学习过程中丢失的特征,采用的是transductive learing(在训练过程中,已知testing data(unlabelled data)):

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第10张图片

Adversarial representation learning

前面说过,大多数的采样策略的根据是模型的不确定性,例如认为:模型对预测越不确定,未标记样本包含的信息越多。但这种方法受限于异常点。相反,此方法对于采样策略的处理是,通过训练对抗网络去学习如何区分在潜在空间的表征。对抗网络中将输入映射到潜码空间,并且给一个标签,若样本是标记数据,则为1,如果是未标记数据,则为0。关键是、使用对抗的方式,VAE将标记和未标记的数据都映射到相似概率分布的空间,去欺骗判别器说所有的输入均是标记的。当然,判别器则尝试避免欺骗:

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第11张图片

采样/选择策略:

假如说要挑选b个高质量样本给人工标注,所用依据是鉴别器的预测分数(挑选b个最低的自信度,D判断出来越小的,越可能是未标记池中的数据)。

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第12张图片

实验:

作者在分类分割等任务都做了许多实验、去验证所提出的方法的有效性,这里就不贴了,详见原论文。

3. 2019-12-20 Adversarial Representation Active Learning

简介:

GAAL严重依赖于生成图像的质量,并且生成器和鉴别器并没有得到迭代式的提升。而VAAL仅使用了标注数据训练分类器。不同之前的方法,该文作者在VAAL基础上,提出不仅使用已标注的数据训练分类器,同时还使用未标注的和生成的数据联合训练整个模型。

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第13张图片

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第14张图片

先暂时写到这吧==


更多分享欢迎关注本公众号:

弱水三千,只取你标!AL(主动学习)结合GAN如何?_第15张图片

你可能感兴趣的:(弱水三千,只取你标!AL(主动学习)结合GAN如何?)