CLIPasso 论文分享&体验笔记

Overview

官方链接:https://clipasso.github.io/clipasso/

官方仓库:https://github.com/yael-vinker/CLIPasso

官方论文:https://arxiv.org/abs/2202.05822

论文机构:洛桑联邦理工学院(EPFL)、特拉维夫大学、赫兹利亚跨学科研究中心(Reichman University)

获奖理由:该研究提出了一种在不同抽象级别绘制对象的方法——CLIPasso。其中将草图定义为一组笔画,为了适应基于 CLIP 的感知损失,该研究使用可微光栅化器来优化笔画的参数。抽象程度是通过改变笔画的数量来控制的。

CLIPasso 获得了2022年的SIGGRAPH最佳论文奖,SIGGRAPH什么概念?

SIGGRAPH是由ACM SIGGRAPH(美国计算机协会计算机图形专业组)组织的计算机图形学顶级年度会议。第一届SIGGRAPH会议于1974年召开。该会议有上万名计算机从业者参加,最近一次在洛杉矶举行。过去的SIGGRAPH曾经在达拉斯、波士顿、西雅图、新奥尔良、圣地亚哥和美国的其他地点举办。SIGGRAPH 2011于2011年在温哥华举行,这是SIGGRAPH首次在美国以外的城市举行。

CLIPasso 论文分享&体验笔记_第1张图片

个人Summary

【论文贡献点】:

  1. 把CLIP应用到了简笔画生成领域(图2):不是单纯的图到图的生成,也不是素描风格(图1 );

  1. CLIPasso 可以输入任意语义类别的输入图像,之前的模型无法做到这点,只能在有限类别图中选取;

  1. CLIPasso 可以通过设定 num_strokes 笔画的数量,控制生成的抽象程度,实属牛逼;

【论文未来改进点】:

  1. 省去抠图步骤:输入图像中如果有背景,中间还需要过一道抠图的过程(U^2-Net)(图0),在送入模型中,所以白色背景,或者没有背景的图片效果会更好;u2net.pth下载链接:https://pan.baidu.com/s/1MMX9JU5iDqrSBenVj-547A?pwd=i4mr 提取码: i4mr

  1. 笔画按序生成:目前是曲线随机初始化,然后同时开始生成,不是像人一样,画图有先后顺序

【训练过程简述】:

  1. 训练过程:贝塞尔曲线就是通过在平面上定义的几个点来确定一条曲线,本文中,每条曲线是通过四个点来确定,每个点都有其x,y坐标,多少个num_strokes就是多少条曲线。过程:随机初始化一些贝塞尔曲线,然后经过不停的训练,更改这些点的位置,从而更改贝塞尔曲线,得到最终的简笔画。

  1. 模型初始化:1、完全随机初始化贝塞尔曲线的参数,会使得模型训练很不稳定 -> 2、将图像输入ViT模型 -> 在显著性区域采点,相当于你已经知道这里有个物体(语义更明确),或者已经相当于沿着物体的边界去绘制贝塞尔曲线了。这样初始化曲线和最终简笔画曲线已经比较接近了。大约100次就能看出大概轮廓

  1. 目标函数: Ls:semantics loss,计算原图特征和简笔画特征,使二者尽可能相似。:可以让模型提取到的图像特征和 CLIP 图像编码器提取的特征接近。这样就借助了刚刚提到的CLIP的稳健性;Lg:geometric distance loss,计算原图和简笔画的浅层编码特征的loss。:借鉴了一些LowerLevel的视觉任务。因为在模型的前几层,学习到的还是相对低级的几何纹理信息,而非高层语义信息

CLIPasso 论文分享&体验笔记_第2张图片

个人Experiment:

图0:https://github.com/xuebinqin/U-2-Net

图1:

CLIPasso 论文分享&体验笔记_第3张图片

图2:

CLIPasso 论文分享&体验笔记_第4张图片

图2 中的第四个皮卡丘是 diffusers模型“prompthero/openjourne” 生成的,背景不是很干净,简笔画效果受到了影响,第三个皮卡丘图片来自clipartmax.com的png图片,效果稍好;第一个图和第二个图简笔画效果看起来还不错~ 有点意思

图3:

CLIPasso 论文分享&体验笔记_第5张图片

微信公众号链接:https://mp.weixin.qq.com/s/YdkvJXWKGZHMa_5-vs0meQ

CLIPasso 论文分享&体验笔记_第6张图片

你可能感兴趣的:(论文,人工智能)