零数据学习(零次学习)


什么是零次学习,先讲个小故事

 

倒霉同学一直希望小言里失忆、遇霸道总裁、鸡飞狗跳获得真爱的桥段能发生在自己身上,有一天倒霉同学出门被石头砸到头了,失忆的桥段终于发生,然而倒霉同学之所以叫倒霉同学是有原因的,她只有失忆没有霸道总裁。小言里别人遇真爱,然而倒霉的倒霉同学忘记一切只能回炉再造。

故事就这样展开

零数据学习(零次学习)_第1张图片

 

倒霉同学先去上了幼儿园

老师说:今天我们来教颜色,宝宝们跟我念,红橙黄绿蓝

倒霉同学乖乖记住了

老师又说:下面我们学数字,宝宝们跟我念,1234567

倒霉同学又乖乖记住了

老师拿出来一个红色的1,告诉宝宝们,这个叫做红1

倒霉同学再次乖乖记住了

老师此刻又拿出一个蓝色的5,问,这个叫做神马呢。

倒霉同学作为班上最优秀的学生抢答说,是蓝5!

零数据学习(零次学习)_第2张图片

倒霉同学真优秀,都会抢答了

 

这个就是零次学习(zero-shotlearning)最开始的思路,虽然没有见过某些类别,但是可以通过一些之前学到的属性,以及未知类别的属性知识,来实现对未知类别的认知。

说起零次学习就想说说他的大家长迁移学习,说到迁移学习不说表示学习好像也不怎么对,说表示学习不讲无监督学习也说不清楚,但是毕竟快到睡眠时间了,所以,嗯,还是能不说就不说吧。

上篇文章我们讲过,随着深度学习的发展,大家已经不仅仅局限于处理大数据量、有监督的问题,小样本甚至零样本的问题提上日程。迁移学习是指利用在一个特定分布A中学到的知识去改善另一个分布B。也就是说在无监督和有监督学习之间转移表示。迁移学习中,学习机要执行多个任务,如果第一种分布中存在明显更多的数据,将会有助于对第二种分布中非常少的数据进行快速泛化。这其中就牵扯出来表示学习,表示学习的核心即相同的表示可能在两种分布中都是有用的,两个设定中使用相同的表示使得表示可以受益于两个任务的训练数据。

首先,zero-shot假设我们有两部分数据,对于已知类别,我们有完整的样本和属性信息,对于未知类别,我们只有属性信息,没有样本实例。有一部分学者提出一些两阶段的算法解决这个问题,第一阶段我们对未知样本的属性进行预测,第二阶段,我们利用预测的属性,从未知类别中选择最像的一个类别。以上面的例子来说,杨宝宝你首先在已知样本中学到了颜色和数字两个属性,然后你又知道了蓝5是属性蓝色与5的组合,所以一个蓝5来了以后,你首先判断它是蓝色,它是个5,然后利用属性知识就知道它是蓝5了。还有一部分学者考虑多模态之间的映射关系。样本特征本身在空间有一个分布,类别属性又有另一个空间分布。这部分学者希望学习这两个空间之间的映射关系。样本之间存在一些相似性关系,属性空间也存在一些相似性关系,比如鸭子和鹅长得比较像,那么它们在样本特征空间和属性特征空间的分布都应该很接近。我们利用一些相似性度量作为限制,学习已知类别样本空间到属性空间之间的一个映射,对于未知样本,利用这个映射讲样本投到这个属性空间,然后寻找与它最接近的未知类别。

当然,也有人不学习这个映射,而是讲这两个空间同时投射到一个更基本的空间,使得样本特征与属性特征服从同一个分布,然后在这个新空间中学习属性的分类,再判断所属的类别。

可以看到,这里属性作为一个中间媒介,是联系未知类别与已知类别的一个桥梁,可能是一种概率分布,也可能与样本本身有关,比如说鸟,有些种类的鸟,翅膀可能有很多种颜色,那它的翅膀颜色这个属性就不是确定的。

zero-shot大概就讲这么多吧。念叨两句题外话,这是一个双清小硕士,在时代的洪流和阴差阳错中冲到了这个领域,写博客初衷是想记录自己的点点滴滴,因为毕竟是Gibbs抽样是个啥查了八次都没记住的人,真的是给自己跪了。。。。

我的公众号是: 柒柒的自言自语,二维码如下,欢迎关注,笔芯

零数据学习(零次学习)_第3张图片

你可能感兴趣的:(零数据学习(零次学习))