[ICCV2021]Learning to Stylize Novel Views

标题:Learning to Stylize Novel Views

链接:https://arxiv.org/pdf/2105.13509

本文做的是基于新视角生成的风格转换。其中的一大难点是如何保证转换风格后不同视角之间的3D统一性。整体模型是基于点云的,作者先将输入的一系列图像转换成点云,然后将点云按照目标风格图像的特征进行转换,最后基于转换后的点云进行渲染,从而得到新视角生成的风格转换图。

模型结构

[ICCV2021]Learning to Stylize Novel Views_第1张图片

模型流程如上图所示,主要分为三个步骤:提取点云,点云转换,新视角生成。

提取点云

这里作者使用了SFM算法提取了输入图像的深度,这样就可以将图像中的点一一对应到空间中了。然后使用VGG-19抽取了基于每个像素的特征,放置于点云里每个对应的点当中。

点云转换

想要做点云的风格转换首先要考虑的是什么是风格

作者认为使用VGG19的低层就可以提取出模型的低层特征,因此就像我们对输入图像提取了特征一样,作者对目标风格图像也使用VGG19提取了特征。然后通过优化参考图像与原始点云特征之间的协方差就可以保证两者风格一致了。

其次要考虑的是如何聚合点云特征?

这里作者用到了Pointnet++中提到的聚合算法,简单来说,就是类比CNN,将点云看做一个个像素,先将邻近的点云根据空间距离分成一个个组,计算特征,然后一步步扩大组的规模来计算不同层级的特征。

新视角生成

这里就是直接把转换后的点云特征输入渲染器渲染出最终结果就行了。

训练

为了模型生成真实的新视角,因此解码器(新视角合成模块)是单独训练的(在没有风格转移的情况下),也即提取图像点云,然后直接用点云预测新视角。这里由于有ground truth,所以只需要做基于像素的l1损失即可。

在解码器训练完毕后就将其固定,来预测我们的风格迁移模块,使用了以下损失:

内容损失:使用VGG-19提取的特征对原始图像和生成图像做语意一致约束

风格损失:使用VGG-19提取的特征对原始图像和目标图像做风格一致约束

你可能感兴趣的:(#,3D风格迁移,论文阅读,计算机视觉)