论文地址:《Human-level concept learning through probabilistic program induction》Science,11 December 2015
《通过概率规划归纳进行human-level的概念学习》,Science封面文章
这篇文章最近非常火,就连多伦多大学和谷歌的人工智能先驱Geoffrey Hinton都说这个研究「令人印象非常深刻」。他说,这个模型能通过视觉图灵测试,这很重要。「能实现这一点,是一个不错的成就。」
以下内容是我阅读原文和supplement material后的理解,如果有错误的地方,欢迎联系我修改。那么开始吧~
这篇文章针对的是one-shot learning,即小数据集下计算机学习的问题。通过一个基于bayesian的模型(BPL)来建模人类学习visual concepts的能力(所用的训练数据是世界各地的字母表的手写字符)。在one-shot classification问题上,该模型达到了human-level performance同时甩了deep learning approaches几条街(不过deep learning本来就不适用于one-shot)。另外一个selling point就是BPL是有创造性的——识别新的example,知道如何把object分成几块并知道它们相互间的关系,创造新的category等,也就是说BPL能自动归纳、抽象训练数据里的高层次信息。我们也通过几个视觉图灵测试来测试BPL的创造泛化能力(creative generalization abilities),结果显示在很多情况下,BPL和人类的行为相近,裁判区分不出哪些是人类做的,哪些是机器做的。
文章介绍了一种Bayesian program learning(BPL)框架,能够从一个example中学习到很多的视觉概念(visual concepts),并且以近似人类的方式进行泛化。concepts被表示成简单的概率规划(probabilistic programs)。我们的框架解决了3大关键问题:语义合成,因果关系,自主学习(compositionality, causality, and learning to learn),这些问题在认知科学和机器学习中是非常重要的。
文章以字符为例比较了人类,BPL和其他一些算法在学习概念(concept learning task)上的差别,这一任务用到的视觉概念来自于Omniglot,这是一个我们从50个书写系统中收集到的1623个手写字符(Fig 2),包含每个字符的图片和笔画。(这里所说的视觉概念可以理解成一个字符,比如说中文里一个“高”字,不同的人可能写出不同版本的高,但这些都是“高”这个concept的examples)
BPL通过简单的随机规划来表示concept,通过parts (Fig. 3A, iii)/ subparts (Fig.3A, ii)/ relation (Fig. 3A, iv)来进行语义合成,BPL定义了一个生成模型,可以通过对现有parts/subparts的重新组合得到新的concept type。然后新的概念类同样可以表示成一个生成模型,这个低层次的生成模型可以生成该概念的新的例子-token(Fig. 3A, v),这样BPL就是生成模型的生成模型了。
概念类 Ψ 和M个该类的token{ θ(1),...,θ(M) }以及对应的二值图像{ I(1),...,I(M) }之间的联合概率分布为:
一个字符类 Ψ={κ,S,R} 是由 κ 段笔画 S={S1,...,Sκ} 以及他们之间的位置关系 R={R1,...,Rκ} 组成的,如“二”这个字符类,是由2段笔画,并且相互独立的位置关系构成的。联合概率为
其中笔画数目 κ 是由经验频率(empirical frequencies)估计的多项式P( κ )采样得到的。如下图我们看出所有的字符中,1笔2笔的字符最多,3,4,5笔的稍少,笔画更多的则更少。根据统计结果我们可以估计出笔画数目k为不同值得一个概率P(k).
得到笔画数目以后再来考虑各个笔画是什么。一段笔画是落笔-提笔的一个阶段(Fig. 3A, iii),其中每次暂停分割开了许多的子笔画(Fig. 3A, ii),即 Si={si1,....sini} ,子笔画的数目 ni 是由经验频率采样得到,如下图,可以得到的一个结论是一个字符的笔画越多,笔画越简单(子笔画少)。
每段子笔画 sij 表示成3次B样条曲线,包含3个参数 sij={zij,xij,yij} , zij 是当前子笔画在library of primitives中的index, xij 是样条的5个控制点, yij 是尺度因子,如Fig S1所示。则联合分布。其中 是一个从经验bigrams中学到的一阶马尔科夫过程。大概的意思就是说我们通过事先准备好的子笔画数据库进行采样,得到不同的子笔画,进而构造出不同的笔画,当然子笔画与子笔画之间是否会连续出现是受经验制约的,表示成一阶马尔科夫过程。(bigram是指给定seed primitive后,我们可以得到5个最可能的接下来的动作,即second primitive,这可以用一阶马尔科夫表示。)
得到P( Si )以后,他们之间的空间关系 Ri 表示的是笔画 Si 的起点与之前的笔画{ S1 ,…, Si−1 }的关系,共定义了4种关系: ξi= {Independent, start, end, along},他们的可能性为 θR (34% independent, 5% start, 11% end, and 50% along)。
笔画和关系都确定以后,一个字符类就创建好了,如下图所示。
在得到一个字符类后,生成他的token就简单了,如图Fig 3,在不同笔画上增加一些运动变量(motor variable),对每一笔画的起始位置进行采样,得到新的轨迹,然后再进行新的仿射变换,使得输出的token会有所不同。
在得到了token θ(m) 后,它的图片 I(m) 则是通过定义一个grayscale ink模型来模拟墨水的笔迹,将token渲染成图片。
这样经过以上步骤,我们其实分别得到了P( Ψ ),P( θ(m)|Ψ ),P( I(m)|θ(m) ),因此字符的生成模型就得到了。
正如我们一开始所说的,BPL可以完成不同的任务,如(i)对新的example进行分类,(ii)创造新的example,(iii)理解物体的构成,将物体分解成更小的部件和部件之间连接关系的集合,以及(iv)根据现有的类创造新的抽象类,我们下面就来介绍如何完成这些不同的任务。
首先需要说明的是,我们通过background set(包括30个字母表的字符,训练时不仅使用了字符的图片,也使用了笔画的数据)来自主学习子笔画,以及子笔画之间的连接/联合出现概率等,为了对比实验,这些数据也用于pretrain deep learning models。这些用于训练的字母表以及产生的数据都不会用于接下来的evaluation task(这一步只为模型提供新的字符的图片)。
在这里,我们用到的是后验概率,即给定一张图片,如何去理解它的构成。
首先从图片中提取字符的骨架并得到关键点(下图a->b),
然后从最左上角的点开始查找可能的轨迹(即生成candidate parse),如图Fig S4,一共有3种轨迹,a)在交点处的角度为0,b)为28°,c)为47°,根据先验知识,通常会选择运动角度最小的轨迹,因此图a)轨迹的概率高于b)c),经过random walk,我们可以得到不同的candidate parse,也产生了这个字符的不同笔画。然后和之前一样地,根据笔画中的停顿将笔画拆分成子笔画,并且通过前面提到的笔画的generative model(也就是不同的子笔画之间是否会连续出现的那个马尔科夫过程)对拆分的过程进行打分。这样在搜索完成后,我们可以得到比较靠谱的candidate parse,也就是字符是怎么构成的。Fig 4B比较了模型最佳得分的parse和ground-truth human parse。
Fig.4A给出了一张training image I(1)的5个最佳的parse,以及他们如何refit到不同的测试图片I(2),并计算classification score(the log posterior predictive probability),在这里更高的score说明他们更有可能属于同一类。只有当parts和relations的集合能够同时解释training和test image,一个高score才能被得到。
创造新类的意思是给定1个alphabet的几个例子,根据他们的特征创造出属于该alphabet的新类。
这一点是可以实现的,我的理解是,首先对这些例子进行parse,然后重新生成“经验”,也就是说这个alphabet中最常出现的笔画数目,子笔画的样式,相互位置关系等等,然后再根据这一经验去创造新的类。
研究者对这个AI系统进行了几项测试。
研究者给定1张字符图片,要求人类测试者和BPL机器从20张图片中选出和他同类的图片(如Fig 1B i所示)。人类作为skilled one-shot learners,错误率为4.5%,而BPL的错误率更好一些,3.3%。而Deep learning相关的model如convnet:13.5%error,HDmodel,34.8%error,这些模型都是在一系列计算机视觉任务上表现良好的模型,deep siamese convnet在one-shot learning任务上做了优化,其结果是8% error,误差还是比我们的结果高了2倍多。因此BPL的优势是可以在概念的学习中对隐含的因果关系进行建模。BPL的另一个关键点在于,如果没有learning to learn的机制,或者compositionality的机制,会产生较高的error(11%和14%)。no learning to learn的意思是破坏之前设计好的type level和token level生成模型的超参数,比如以token level为例,原来设计好的参数可能是让along这种位置关系的两个笔画在一定范围内进行连接,破坏后则是完全随机的一种连接方式。no compositionality的意思是说把字符看成一个整体,通过一条样条曲线进行拟合,而不是像之前一样做笔画和子笔画的拆分。
人类对于one-shot learning的能力并不仅仅用来做classification。他还可以生成同一概念的新例子。研究者向BPL系统展示它从未见过的书写系统(例如,藏文)中的一个字符例子,并让它写出同样的字符。并不是让它复制出完全相同的字符,而是让它写出9个不同的变体,就像人每次手写的笔迹都不相同一样。例如,在看了一个藏文字符之后,算法能挑选出该字符用不同的笔迹写出来的例子,识别出组成字符的笔画,并重画出来。与此同时,人类测试者也被要求做同样的事情。最后,通过视觉图灵测试来比较人类的creative outputs和机器产生的例子——研究者要求一组人类裁判(来自亚马逊土耳其机器人,Amazon Mechanical Turk)分辨出哪些字符是机器写的,哪些是人类写的。
如图5所示,给定人类产生的9个新样例和机器产生的样例,人类裁判挑选出人类的作品,我们称为identification(ID)level。理想情况是50% ID level,即裁判不能区分哪些是机器产生的,哪些是人产生的,最差的performance是100%,就是说人类裁判完全能够正确区分人类和机器。从Fig 6B 中看出,147个人类裁判只实现了52%的ID level,这个结果只稍稍比50%的随机概率要好一点。而对于BPL lesion来说,没有了learning to learn和compositionality,图灵测试就简单多了(80% ID level和65% ID level),因此这两条principle对于BPL具有human-like 生成模型起到了关键作用。
为了更准确地测试语义分析的能力(Fig 4B)我们又跑了一个dynamic version of this task,并且换了一批裁判(N=143),每个裁判会被show人类和机器写同一个字符的movie(笔画的过程),这时BPL在这一视觉图灵测试上的performance为59% ID level,不是那么理想了。如果我们再把学习到的笔画的书写顺序等先验知识去掉,结果仅为71% ID level,因此捕捉正确的动态的因果关系对于BPL来说非常重要。
虽然BPL从30个background alphabets中学会学习新的character很有效,但是许多人类只需要很少的alphabet,如1个或几个,以及一些相关的drawing tasks。为了测试模型在更少的训练下的结果,我们重新训练了几个模型,只用了两个不同的子集,每个子集中包含5个background alphabets来进行训练。这时BPL 在one-shot learning问题上和之前表现差不多(两个子集的误差分别为4.3%,4.0 %error),同时deep convnet 则比之前的结果差很多(24%,22.3%).BPL在生成样例的视觉图灵测试上的结果也和之前差不多(52%和57%)。这些实验结果说明,虽然learning to learn是BPL成功的关键,模型的结构使得他能够在有限的background training中依旧能够得到很好的效果。
人类的能力不仅仅能从一个给定的concept中产生新样例,同时我们可以产生新的concept。我们通过给测试者展示10个foreign alphabet中的1个的几个例子,让他产生新的属于该alphabet的字符。如图7A所示。BPL可以通过加一个nonparametric prior在type level上得到新的类,同时复用所给的例子的stroke来保证书写风格上的一致。人类裁判(N=117)比较了人类测试者和BPL在这一任务上的结果,如图7A所示,先给裁判看i再看iii,让他判断human or machine,最终裁判只得到了49%的ID level,这和随便猜没啥区别。另外,BPL lesion(没有type-level的learning to learn)则达到了69%ID level。
最后,124 个裁判比较了在完全unconstrained的情况下生成new concept(不受限于某个特定的alphabet,即Fig 7B),达到51%的ID level。BPL lesion的结果分别是68%和64%,说明compositionality和learning to learn都是通过视觉图灵测试的关键。
总结一下,这篇文章的大致流程是:首先使用了一个background set来模拟人的经验,将background set中的字符拆分成笔画(连贯的一笔),每个笔画再拆分成若干个子笔画(笔根据笔画中的停顿),并且记录各个子笔画之间的连接关系,由此得到了一堆子笔画及其之间连接关系的分布。以上是在background set上完成的,相当于人的先验知识,产生式模型是子笔画、笔画以及相互之间关系的联合概率分布。用概率分布可以生成新的图像,也可以计算生成某个图像的概率。
这种机制和人的大脑有着相似的地方。(最后这段话来自于知乎)人有大量先验知识(background set),这些知识首先会被分析并提取出各个层次的feature(part、subpart),之后大脑会尝试对这些feature进行不同的组合,包括完全不同领域的知识,并且从中筛选出有意义的组合(绝大多数都是完全没有意义的),当接收到一个全新的知识时,会与某些已经尝试过的组合非常契合,经过进一步适应,就能非常快的接受这样一个新的知识。当然人不仅可以利用先验知识准备一堆组合为新的知识服务,还可以通过内部的筛选机制,将有用的组合直接呈现给意识,也就是灵感迸发的时候。这篇工作将大脑的这种举一反三的能力运用了出来,可以说是非常有意义的,当然这篇工作中,feature的提取和组合用的是简单的拆分和条件概率的计算,对组合的筛选也是用的最简单的评分和排序,都是浅层的模型。用浅层的模型来完成复杂信息的组合和筛选是不现实的,以后如果能与深度网络结合起来,相信能有更大的突破,具有更强的举一反三地能力。