大家在用手机或单反拍照的时候,通常快门设置太长的时候,拍运动物体出来的照片容易产生拖影,如果非艺术拍摄这样的照片是非常糟糕的。
麻省理工学院的研究人员最近开发了一种模型,该模型可以恢复从“折叠”成较小尺寸的图像和视频中丢失的宝贵数据。
概述
该模型可用于从运动模糊图像或新的摄像机中重新创建视频,这些摄像机捕获人在拐角处的运动,但只能作为模糊的一维线。尽管需要更多的测试,但研究人员认为这种方法有朝一日可以用于将2D医学图像转换为内容更丰富(但价格更高)的3D身体扫描,这可以使贫穷国家的医学成像受益。
捕获的可视数据通常会将时间和空间的多个维度的数据折叠为一维或二维,称为“投影”。例如,X射线将有关解剖结构的三维数据折叠成平面图像。或者,考虑长时间曝光的恒星在天空中移动的镜头:位置随时间变化的恒星在静止镜头中显示为模糊的条纹。
描述该模型的论文的第一作者Guha Balakrishnan说:在所有这些情况下,视觉数据都在时间或空间上具有一个维度-完全丢失了。
麻省理工学院发明的“转角摄像机”可以检测到拐角处的人。例如,这些对于消防员在燃烧的建筑物中找到人可能有用。但是这些相机并非完全用户友好。目前,它们仅产生类似于人的轨迹和速度的模糊,弯曲的线条的投影。
研究人员发明了一种“视觉投影”模型,该模型使用神经网络来“学习”将低维投影与其原始高维图像和视频相匹配的模式。给定新的投影,模型将使用所学知识从投影重新创建所有原始数据。
在实验中,该模型通过从与角落摄像机产生的相似的单维线中提取信息,合成了精确的视频帧,以显示人的行走情况。该模型还从流行的“移动MNIST”数据集中,从屏幕周围移动的单个运动模糊数字投影中恢复了视频帧。
线索像素
Balakrishnan说,这项工作起初是一个“酷反转问题”,用于重现造成长时间曝光摄影中运动模糊的运动。在投影的像素中,存在有关高维光源的一些线索。
例如,捕获长时间曝光的数码相机基本上会在一段时间内在每个像素上聚集光子。在捕获对象随时间的运动时,相机将获取运动捕获像素的平均值。然后,将那些平均值应用于静止图像的相应高度和宽度,从而创建对象轨迹的特征性模糊条纹。通过计算像素强度的一些变化,理论上可以重新创建运动。
正如研究人员所意识到的那样,该问题在许多领域都涉及到:例如X射线捕获解剖结构的高度,宽度和深度信息,但他们使用类似的像素平均技术将深度折叠成2D图像。角照相机-由弗里曼(Freeman),杜兰德(Durand)和其他研究人员于2017年发明-捕获隐藏场景周围的反射光信号,该图像承载有关人与墙壁和物体的距离的二维信息。然后,像素平均技术会将这些数据折叠成一维视频-基本上是在一行中随时间变化的不同长度的测量值。
研究人员基于卷积神经网络(CNN)建立了一个通用模型-一种机器学习模型,该模型已成为图像处理任务的强大动力-可以捕获有关平均像素中任何尺寸损失的线索。
合成信号
在训练中,研究人员为CNN提供了成千上万对投影及其高维信号,称为“信号”。CNN会学习与信号中的像素图案匹配的投影中的像素图案。为CNN供电的是一个称为“变量自动编码器”的框架,该框架可评估CNN输出在某种统计概率上与输入的匹配程度。由此,模型学习了可能产生给定投影的所有可能信号的“空间”。本质上,这为如何从投影变为所有可能的匹配信号创建了一种蓝图。
原理
我们的网络体系结构概述,此处针对2D到3D时空投影任务绘制。
该网络具有三个参数化函数:变分后验分布的qΨ(···)、先验分布的pφ(···)、反投影网络的gθ(·,·)。z在训练期间从q网络中采样,在测试期间从p网络中采样。
对于后验分布参数编码器q,它包含一系列3d跨度卷积算子和一个泄漏的relu激活函数,得到μΨ和σΨ两个分布参数。
条件a先验编码器p由于没有时间维度信息,而仅具有2d跨度卷积,因此以类似的方式实现。
对于反投影函数gθ(x,z),它使用unet类型架构计算x的每个像素特征。UNET分为两个阶段:第一阶段,使用一系列二维跨度卷积算子来提取多尺度特征;第二阶段,使用一系列二维卷积和上采样运算来合成X和更多的数据信道。
FacePlace的空间投影
FacePlace由236种不同的5,000幅图像组成人。可变性的来源很多,包括
不同种族,多种观点,面部表情和道具。我们随机提供了30个人的所有图像形成测试集。我们将图像缩放到128×128像素,通过翻译,缩放和执行数据增强饱和度变化。我们将我们的方法与以下基准:
1.最近邻居选择器(k-NN):使用均方误差距离从训练数据集中选择k个图像,这些图像的投影最接近测试投影。
1.最近邻居选择器(k-NN):使用均方误差距离从训练数据集中选择k个图像,这些图像的投影最接近测试投影。
2.与我们方法的投影网络gθ(x,z)相同的确定性模型(DET),但不包含潜在变量z
3.线性最小均方误差(LMMSE)估计器,它假定x和y来自分布X,Y,使得y = EY [y]在x中是线性的:对于某些参数A和b,y = Ax + b。最小化y的期望MSE产生封闭形式的表达式对于p(y | x):
所有方法的FacePlace PSNR(垂直投影在顶部,水平在底部,最大信号PSNR(投影估计)在左侧,平均投影PSNR在右),并具有100个测试投影的不同样本量。我们的该方法产生的最大信号PSNR高于所有基线。DET对于一个样本具有较高的预期信号PSNR,因为它倾向于在许多样本上返回模糊的平均值信号。LMMSE具有无限投影PSNR。
我没看下他们内部数据集中的四个示例的示例输出。左列显示输入垂直投影。对于每个示例,第一行显示基本事实序列,而下一行显示我们方法的使用z = µφ的平均输出。
步行视频的空间变形
我们定性地评估我们的重建方法来自垂直空间投影的人类步态视频。这个场景对于转角摄像机具有实际意义,如第2节所述。2.1。我们收集了30个主题的35个视频每个人在指定区域内步行一分钟。科目着装不同,身高(5’2”-6’5”),年龄(18-60)和性别(18m / 12f)。没有指示受试者走进任何特定的方式,许多人以奇怪的方式走着。所有视频的背景都是相同的。我们对视频到每秒5帧,每帧到256×224像素,并将水平平移的数据增强应用于每个视频。我们选出6个科目进行测试组。我们预测24帧的序列(大约5秒钟实时)。如下图所示:
再来看看移动MNIST数据集的样本输出。左列显示输入投影。对于每个示例,第一行显示基本事实序列。我们显示了每个输入投影通过我们的方法产生的两个样本序列:第一个与基本事实的时间方向匹配,第二个则与逆向时间进程合成。
总结
在这篇文章中,作者介绍了视觉的投影问题:合成已经沿着一个维度崩溃成一个低维度的观察,并提出了第一个通用方法图像和视频,以及沿这些数据任何维度的投影,解决了任务的不确定性。
首先介绍一个概率模型以投影为条件的原始信号分布。作者实现了该模型的参数化功能与CNN一起学习每个域中的共享图像结构,并实现准确的信号合成。尽管从折叠的维度获取的信息通常似乎无法从裸露的投影中恢复
显而易见,但结果表明,许多“丢失”的信息都是可以恢复的。
最近研究人员没有在医学图像上测试他们的模型。但是他们现在正在与康奈尔大学的同事合作,从2D医学图像(例如X射线)中恢复3D解剖学信息,而无需增加成本,这可以在较贫穷的国家实现更详细的医学成像。医生通常更喜欢3D扫描,例如用CT扫描捕获的3D扫描,因为它们包含更多有用的医学信息。
所以这项技术在未来的应用中具有无形的可能性。
相关论文源码下载地址:关注“图像算法”微信公众号