论文阅读——High-Fidelity Pluralistic Image Completion with Transformers

原文连接:High-Fidelity Pluralistic Image Completion With Transformers (ICCV 2021). Ziyu Wan, Jingbo Zhang, Dongdong Chen, Jing Liao [Paper] [Project] [Code]

本文创新点:将transformer用于图像修复,实现多元化修复。

主要思想:将修复过程分成两个步骤,用transformer进行外观重建(全局结构+粗纹理),再用CNN对细节纹理补全。

目录

网络结构

损失函数

重构损失(L1):

对抗损失:

总体损失:

 实验结果


网络结构

首先将256*256的图像降至32*32(或48*48),然后用k-means对像素进行聚类成512种颜色(由→512*3),将图像转换成离散的序列,L为长度,再通过embedding将其投影到d-维度特征向量中。将特征向量和位置编码输入到transformer中,输出mask位置的像素索引。

论文阅读——High-Fidelity Pluralistic Image Completion with Transformers_第1张图片

 本文采用的transformer(只用解码器)是双向注意力,使得每个mask都能获得全局信息。

论文阅读——High-Fidelity Pluralistic Image Completion with Transformers_第2张图片

Transformer的优化目标:是在所有观察到的区域条件下最小化的负对数似然。

 其中,表示离散化输入中mask(缺失区域)的索引,K 表示mask标记的数量,表示已知区域,θ为transformer的参数。

第一阶段的最终输出是低分辨率的RGB修复图,然后将其上采样至原分辨率大小,并和原分辨率缺损图按通道维度拼起来,送入encoder-decoder架构的CNN中进行细节纹理修复。

损失函数

重构损失(L1):

对抗损失:

总体损失:

 实验结果

论文阅读——High-Fidelity Pluralistic Image Completion with Transformers_第3张图片

 

你可能感兴趣的:(论文,论文阅读,深度学习,人工智能)