Multi-Channel Attention Se-GAN with Cascaded Semantic Guidance for Cross-View Image Translation

Paper Reading Note

URL:
https://arxiv.org/pdf/1904.06807.pdf

TL;DR

本文是cvpr2019的一篇关于跨视角图像翻译的一篇文章。作者提出了一种利用多通道attention模型及语义辅助GAN生成同一个场景在不同视角下的图像,效果超过了大部分SOTA模型。
Multi-Channel Attention Se-GAN with Cascaded Semantic Guidance for Cross-View Image Translation_第1张图片
可以看到Ground Truth和SelectionGAN差别非常小。

Algorithm

模型结构如下所示。
Multi-Channel Attention Se-GAN with Cascaded Semantic Guidance for Cross-View Image Translation_第2张图片
作者将模型结构划分成了两个stage:

  1. 由于模型需要语义图来辅助GAN,如果用人工标注需要消耗大量的时间,并且无法规范。该部分使用了cycled image-semantic generation network,能够通过少部分标注数据的训练自动生成语义图。
  2. 第二部分模型如下图所示:
    Multi-Channel Attention Se-GAN with Cascaded Semantic Guidance for Cross-View Image Translation_第3张图片
    该部分可以细分为一个pooling块和一个多通道注意力选择模块。
    在pooling块中,将平均池化使用多个维度进行pooling,upsampling后与原来的输入相乘再concat为与输入相同结构的feature map:
    在这里插入图片描述
    在attention块,作者提到了传统的RGB3个channel并不能够满足image translation的要求。作者通过N卷积核的计算将feature map转为N个通道,最后将学习出的N-channel图叠加得到output。
    同时这里吧attention map叠加可以有效地在训练的过程中作为辅助信息控制优化损失。
    最后GAN的训练还是与基本的GAN相似。

Experiment Results

Multi-Channel Attention Se-GAN with Cascaded Semantic Guidance for Cross-View Image Translation_第4张图片
该方法产生的翻译图像在KL-score和SD-score上都优于已经提出的方法。
Multi-Channel Attention Se-GAN with Cascaded Semantic Guidance for Cross-View Image Translation_第5张图片

Thoughts

本文提出的一种image-to-image的翻译框架实际上与之前的一篇Progressive Pose Attention Transfer for Person Image Generation很相似,都是利用辅助信息生成新图像。不同的是该框架可以自动生成语义特征图,从而减少了对skeleton的需求(ReID任务中),可以在ReID中尝试。

本文代码链接:Ha0Tang/SelectionGAN

你可能感兴趣的:(Paper,Reading)