#今日论文推荐# CVPR 2022 | 图像修复,中科大&微软提出PUT:减少Transformer在图像修复应用中的信息损失

#今日论文推荐# CVPR 2022 | 图像修复!中科大&微软提出PUT:减少Transformer在图像修复应用中的信息损失

本文主要的任务是图像修复,即输入的图片是残缺的,通过算法根据提供的残缺图片来补全图片中残缺的部分。早期的一些工作所利用的模型,一般都是基于CNN实现的。由于CNN具有一定的位置偏置等因素,导致其修复的图片可视化效果并不理想。近两年,随着Transformer在计算机视觉领域的巨大成功,一些研究人员开始利用Transformer来进行图像修复,并取得了非常不错的效果。然而,通过对这些方法进行分析,发现这类方法普遍存在或多或少的信息损失,原因主要有两点:(1)对图片进行下采样。众所周知,Transformer的计算量与输入的序列长度呈平方关系。为了减少计算量,要保证输入Transformer的序列长度在可接受范围内。为此,现有方法会将图片进行下采样,比如从256x256下采样到32x32。这种下采样的方式不可避免地带来了信息损失;(2)量化。像素的个数是256^3,如果直接将每个像素(实际上是索引)都当作一个token,那么Transformer内部的embedding个数也是256^3,较多的embedding不仅带来了较多的参数,也不利于模型训练。因此现有方法会对像素进行聚类量化,比如从256^3个变成512个。量化的过程也会带来信息损失。

论文题目:Reduce Information Loss in Transformers for Pluralistic Image Inpainting
详细解读:https://www.aminer.cn/research_report/6286f4c97cb68b460fbcc815?download=falseicon-default.png?t=M4ADhttps://www.aminer.cn/research_report/6286f4c97cb68b460fbcc815?download=false
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(深度学习,transformer,深度学习,计算机视觉)