读书报告GQN---Neural scene representation and rendering

《Neural scene representation and rendering》读书报告

                                                                                                                           

论文题目:

论文标题:Neural scene representation and rendering

作者:S. M. Ali Eslami, Danilo Jimenez Rezende, et al.

期刊:Science

发表时间:2018/06/15

数字识别码:10.1126/science.aar6170

论文提要:

场景表征是指将视觉传感数据转化成简明描述的智能行为。目前神经网络仍需依赖大量人类标记过的数据集才会有更好的表现。本文引入了生成查询网络(GQN),从不同角度输入一个场景的图像,构建出内在表征,并使用这种表征预测场景中未观察到的部分。这项研究使得机器表征学习无需人工标签,实现自主学习来理解周围世界。

论文内容简述:

读书报告GQN---Neural scene representation and rendering_第1张图片

 

论文分析

本文介绍了生成式询问网络GQN(Generative QueryNetwork),它由DeepMind团队于2018年提出。GQN的诉求在于像人类一样去观察及学习周围环境,即基于 2D 图像,重建出整个场景的 3D 表示。且相较于之前被数据集及标签限制了性能的监督学习,GQN能够自己获取训练数据,是无监督学习。

GQN主要由两个网络构成:表征网络和生成网络。前者以观察到的图像为输入,然后生成描述基础场景的向量。后者将通过训练过程学习场景事物间的关系,然后从全新的视角,预测精确的场景。可以这么说,生成网络补足了表征网络缺失的细节。而且,通过实验测试,还得到了GQN以下特性:只要给出一个场景表示和新的摄像机视点后,就能生成清晰的图像,无需实现规定透视、遮挡或光线规则;会对对象进行计数、定位和分类,且无需对象级标签;能够表示、衡量和减少不确定性;能够进行稳健、数据高效的强化学习。

可以说,GQN展示了一种学习物理场景紧凑、基础表示的新方法,并且无需耗时的内容标记,这有利于该模型应用于各种领域。但是它目前还只接受过合成场景的训练,限制于简单场景少量事务。因此还需要进一步训练及改善。

创新

我认为,这篇文章所介绍的GQN它的最大的创新点在于:描述向量。

正是能够构建了这个能将3D环境准确描绘出来的高度抽象高度压缩的表征向量,才能够提供给生成网络正确的输入,才能够实现所谓的“主动学习”、无监督学习。这是一个巨大的突破,这个概念使得它应用范围无限扩大,且不受场景及数据标签限制。但是,将它应用于现实场景也有一些困难:它需要知道输入的观察视角的位置。但很多现实情景很有可能无法满足这一点。

你可能感兴趣的:(#,阅读笔记)