CVPR2022论文速递!共6篇含图像翻译(FaceBook新作)/元学习/轨迹预测等(2022.3.10)...

点击下方“AI算法与图像处理”,一起进步!

重磅干货,第一时间送达

整理:AI算法与图像处理

本文整理了3月10日arXiv更新的 6 篇CVPR2022的论文,简单介绍了FaceBook最新的工作《FlexIT: Towards Flexible Semantic Image Translation

如果有帮助,欢迎分享哈!

CVPR2022论文速递!共6篇含图像翻译(FaceBook新作)/元学习/轨迹预测等(2022.3.10)..._第1张图片

CVPR2022 论文代码整理:

https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo (求个star) 

FlexIT: Towards Flexible Semantic Image Translation

FlexIT:迈向灵活的语义图像翻译

作者:Facebook AI Research

  • 论文/Paper:https://arxiv.org/abs/2203.04705

  • 代码/Code:

摘要:

深度生成模型,如 GAN,极大地提高了图像合成的技术水平,并且能够在人脸等结构化域中生成接近照片般逼真的图像。基于这一成功,最近的图像编辑工作通过将图像投影到 GAN 潜在空间并操纵潜在向量来进行。然而,这些方法的局限性在于只能转换来自窄域的图像,并且只能进行有限数量的编辑操作。我们提出了 FlexIT,这是一种新颖的方法,可以采用任何输入图像和用户定义的文本指令进行编辑。我们的方法实现了灵活自然的编辑,突破了语义图像翻译的极限。首先,FlexIT 将输入图像和文本组合成 CLIP 多模态嵌入空间中的单个目标点。通过自动编码器的潜在空间,我们将输入图像迭代地变换到目标点,通过各种新颖的正则化项确保连贯性和质量。我们提出了一种用于语义图像翻译的评估协议,并在 ImageNet 上彻底评估了我们的方法

CVPR2022论文速递!共6篇含图像翻译(FaceBook新作)/元学习/轨迹预测等(2022.3.10)..._第2张图片

整体框架:

CVPR2022论文速递!共6篇含图像翻译(FaceBook新作)/元学习/轨迹预测等(2022.3.10)..._第3张图片

FlexIT优化框架:绿色部分涉及多模态潜在空间的组件;黄色部分涉及图像潜在空间的;粉红色部分涉及的LPIPS距离。给定一个变换查询 (I0, S, T),我们首先在多模态嵌入空间中计算一个目标点 P,然后我们在图像潜在空间中对 I0 进行编码以获得 z0。然后,对于固定的step,我们更新潜在变量 z(用 z0 初始化)以更接近目标点 P。我们添加两个正则化项:输入图像和输出图像之间的 LPIPS 感知距离,以及 z 和 z0 之间的潜在距离。所有网络都被冻结,只有 z 被更新。

图像翻译方法的概述如图 2 所示。它依赖于三个预训练的组件。首先,我们在潜在空间中编辑输入图像,要求可以将各种图像编码和解码回具有最小失真的 RGB 图像。为此,我们选择了 VQGAN 自动编码器 。其次,我们将文本查询和输入图像嵌入到多模态嵌入空间中,为修改后的图像定义优化目标。我们使用 CLIP [41] 多模态嵌入空间。最后,为了确保修改后的图像与输入图像保持相似,我们使用 VGG [44] backbone计算的 LPIPS 感知距离 [56] 控制其与输入图像的距离。

Optimization scheme

FlexIT 方法的核心思想是在潜在空间中编辑输入图像,由多模态嵌入空间中定义的高级语义目标引导。令 E 为图像编码器,D 为图像解码器,(Ct, Ci) 分别为文本和图像的多模态编码器。给定输入图像 I0 和文本转换 S → T,我们首先通过计算初始潜在图像表示为 z0 = E(I0) 和目标多模态点 P 来初始化 FlexIT

af4b449b4dd42b0d907cda185c9586ae.png

效果:

CVPR2022论文速递!共6篇含图像翻译(FaceBook新作)/元学习/轨迹预测等(2022.3.10)..._第4张图片

CVPR2022论文速递!共6篇含图像翻译(FaceBook新作)/元学习/轨迹预测等(2022.3.10)..._第5张图片

更多细节请参考论文原文,期待大佬开源项目代码


What Matters For Meta-Learning Vision Regression Tasks?

元学习视觉回归任务的重要性是什么?

  • 论文/Paper:https://arxiv.org/abs/2203.04905

  • 代码/Code:

How many Observations are Enough? Knowledge Distillation for Trajectory Forecasting

多少Observations 足够?轨迹预测的知识蒸馏

  • 论文/Paper:https://arxiv.org/abs/2203.04781

  • 代码/Code:

SkinningNet: Two-Stream Graph Convolutional Neural Network for Skinning Prediction of Synthetic Characters

SkinningNet:用于合成字符皮肤预测的双流图卷积神经网络

  • 论文/Paper:https://arxiv.org/abs/2203.04746

  • 代码/Code:https://imatge-upc.github.io/skinningnet/

ChiTransformer:Towards Reliable Stereo from Cues

ChiTransformer:从线索走向可靠的立体声

  • 论文/Paper:https://arxiv.org/abs/2203.04554

  • 代码/Code:

Dynamic Dual-Output Diffusion Models

动态双输出扩散模型

  • 论文/Paper:https://arxiv.org/abs/2203.04304

  • 代码/Code:

你可能感兴趣的:(算法,java,深度学习,python,机器学习)