#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”,让指定实物在图像中以各种方式展现

#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”,让指定实物在图像中以各种方式展现

在 AI 长期发展中,目前的文本生成图像模型有了显著提升,今年谷歌、OpenAI
等都接连推出了自己的图像生成模型,如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。不过,当让一个真实的特定现实物体出现在图像中时,最先进的文本生成图像模型也很难保留其关键视觉特征,即它们缺乏模仿或再现给定参考集中主体外观的能力。比如,对于下图中的时钟(钟面右侧有黄色数字 3),在对包含时钟外观详细描述的提示文本进行数十次迭代后,Imagen、Dall·E 2 等模型仍无法重建其关键视觉特征。据了解,造成这一结果的主要原因是此类模型输出域的表达性有限,即便对对象进行最详细文本描述,它们也可能产生具有不同外观的实例。

针对以上问题,谷歌研究人员娜塔尼尔·鲁伊斯(Nataniel Ruiz)等人对 Imagen 模型进行了微调,从而实现了将现实物体在图像中真实还原的功能。可以看到上图最右侧用新模型生成的图片,较好地还原了时钟上数字 3 的位置。近日,相关论文以《微调文本到图像扩散模型,以实现主体驱动生成》(DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation)为题提交在 arXiv 上。本次名为 DreamBooth 的模型是一种新的文本到图像“个性化”(可适应用户特定的图像生成需求)扩散模型。另外,虽然 DreamBooth 是在 Imagen 的基础上做的调整,但研究人员在论文中还提到,他们的方法也适用于其他扩散模型。只需几张(通常 3~5 张)指定物体的照片和相应的类名(如“狗”)作为输入,并添加一个唯一标识符植入不同的文字描述中,DreamBooth 就能让被指定物体“完美”出现在用户想要生成的场景中。

论文题目:ADreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
详细解读:https://www.aminer.cn/research_report/631203747cb68b460f125532icon-default.png?t=M7J4https://www.aminer.cn/research_report/631203747cb68b460f125532
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(AI,深度学习,计算机视觉,人工智能)