自2014年Ian J. Goodfellow等人提出以来,生成对抗网络(GAN,Generative Adversarial Networks)便迅速成为人工智能领域中最有前景的研究方向之一。
而另一方面,Google团队在2017年提出的Transformer架构近年来也如火如荼,迅速从 NLP 领域蔓延到 CV、语音等领域。近期的一些研究表明,Transformer 有足够的潜力成为强大的“通用”模型。基于对这一问题的思考,来自德克萨斯大学奥斯汀分校的江亦凡等人提出这一问题:
Transformer 还能走多远?
换句话说:
Transformer 能否应用到一些极为困难的视觉任务,例如生成对抗网络(GAN)吗?
在这一问题的驱使下,他们近期进行了第一个尝试:丢弃卷积,仅使用 Transformer 架构来 GAN 网络。
与其它基于 Transformer 的视觉模型相比,仅使用 Transformer 构建 GAN 更具挑战性,因为生成真实图像的门槛更高,而且GAN训练的不稳定性也更高。
他们将这个网络命名为:TransGAN。
简单来说,他们使用两个Transformer网络分别构成了生成器和鉴别器,如下图所示:
研究结果显示,TransGAN 显著受益于数据增强(超过标准的 GAN)、生成器的多任务协同训练策略和强调自然图像邻域平滑的局部初始化自注意力。这表明,TransGAN 可以有效地扩展至更大的模型和具有更高分辨率的图像数据集。
这一研究工作《TransGAN: Designing Pure Transformer-based Architectures for Generative Adversarial NetworksTrans》,在预印本ArXiv上发布后,由于其新颖的思路以及良好的效果,迅速引起大家的关注。数日来,该论文在paperwithcode榜单上一直位居榜首。
智源社区特邀请论文一作德克萨斯大学奥斯汀分校博士生 江亦凡 就其研究内容做报告分享,欢迎大家来交流。
报告主题:TransGAN:丢弃卷积,纯Transformer构建GAN网络
报告时间:2021年2月24日(周三)20:00~21:00
报告形式:线上(Zoom + 智源社区Hub + B站直播)
报 告 人 :江亦凡
个人简介:江亦凡,德克萨斯大学奥斯汀分校博士生在读。江亦凡本科毕业于华中科技大学,曾在字节跳动AI LAB和Adobe实习,之后在德克萨斯农工大学学习一年。研究兴趣包括深度学习和计算机视觉,当前主要从事神经结构搜索(NAS)、视频理解和高维表征学习等研究。
个人主页:https://yifanjiang.net/
报告摘要:The recent explosive interest on transformers has suggested their potential to become powerful universal models for computer vision tasks, such as classification, detection, and segmentation. However, how further transformers can go - are they ready to take some more notoriously difficult vision tasks, e.g., generative adversarial networks (GANs)? In this talk, I will introduce TransGAN, a new GAN architecture completely free of convolution, using pure transformer-based networks. The talk will include some interesting questions such as how transformer-based GANs perform on various datasets; How fast TransGAN can be compared to ConvNets-based GAN; How it can be scaled-up to higher-resolution image generation tasks.
摘要翻译:最近对 Transformer 的爆炸性兴趣表明,它们有潜力成为计算机视觉任务(例如分类,检测和分段)的强大“通用”模型。但是,Transformer 还能走多远——它们准备好承担一些极为困难的视觉任务,例如生成对抗网络(GAN)吗?在这个报告中,我将介绍TransGAN,这是一个无需卷积、仅使用Transformer构建的GAN网络。
报告将包括一些有趣的问题,如基于Transformer的GAN如何在不同的数据集上执行;TransGAN与基于ConvNets的GAN相比有多快;如何将其扩展到更高分辨率的图像生成任务中等。
论文链接:https://arxiv.org/pdf/2102.07074.pdf
代码链接:https://github.com/VITA-Group/TransGAN
观看方式:
Zoom观看:
https://zoom.com.cn/j/66843724077(无密码)
会议号:668 4372 4077
B站直播:http://live.bilibili.com/21484823
智源社区Hub直播:(点击【阅读原文】或扫描下方二维码)
(社区报名,可收到短信定时提醒)
欢迎加入知源月旦 Transformer+X 研究组
(加入研究组,共同讨论Transformer最新进展)