AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型

原文链接:https://www.techbeat.net/article-info?id=3770
作者:seven_

本文提出了一种全新的多模态视频编辑模型,借助CLIP模型广泛通用的文本图像嵌入,该模型可以形成一整套的文本prompt修改视频目标的pipeline,这对AI影像处理应用的设计具有重要意义。为了保证视频编辑的质量和效果,作者设计了一系列损失函数分别从全局和局部两个方面对视频的全局时序一致性和局部细节信息进行了约束。此外,本文也为AI视频编辑方面提供了一种新的思路,我们期待着未来出现功能更加完善的模型,到那时,视频剪辑师可能只需要按照脑海里的想法写下命令输入模型,泡一杯咖啡等着就可以了。
AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型_第1张图片

论文链接: https://arxiv.org/abs/2206.12396
项目链接:https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/

近来多模态分析领域中兴起的文本图像合成、文本图像编辑等任务向大家展示了人工智能在文艺创作领域的强大创造力,经过大规模语料库和图像库的训练之后,AI模型生成的图像可谓是天马行空,非常魔幻但却又非常逼真有趣。说到这里,就不得不提到OpenAI的研究团队,他们在这一领域无疑是目前的佼佼者,其先后发布了大名鼎鼎的CLIP(Contrastive-Language-Image-Pretraining)模型和GLIDE模型,前者可以根据输入文本对图像进行分类,而后者可以直接基于一段文本prompt对图像进行编辑和修改

但是这一领域实在是太卷了,近日又有研究者将这些功能拓展到了视频中,本文介绍一篇来自丹麦奥胡斯大学和哥本哈根大学合作完成的论文,本文作者在CLIP模型的加持下,提出了一种可以直接通过文本prompt对视频目标进行编辑的模型,可以通过直观语义干预的方式来实现用户特定的视频修改需求,同时保证编辑后的视频尽可能的保证内容时序跨度上的一致性。下面我们来看一下具体的视频编辑效果:
AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型_第2张图片
例如,根据修改文本命令“A swan with cactus skin/crocodile skin”可以直接把正在湖中游泳天鹅的皮肤风格修改为仙人掌风格,甚至还能给它包上一个鳄鱼皮(细思恐极doge)。
AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型_第3张图片
还可以直接对视频中的狗狗进行换装,例如给狗狗换一身斑马皮,还可以给狗狗“镀金”,化身为“金狗狗”。

为了实现上述炫酷的效果,作者在设计模型时主要遵循了以下三个原则:

  1. 在编辑视频的过程中必须保证视频帧在时间跨度上保持内容一致,并尽可能的避免抖动和带入其他噪声。
  2. 在对视频对象进行风格修改时,需要保留对象原有的全局语义及其细粒度详细信息
  3. 模型必须根据用户指定的文本prompt来对视频对象进行操作。

这样训练得到的模型可以轻松的完成一整套视频对象编辑的pipeline。这意味着用户可以看一遍视频,然后敲下几个简单直观的修改命令丢给模型,就可以坐等出片了。

1. 本文方法

从实现层面来讲,在语义空间中直接操作和修改视频内容是一项极具挑战性的任务,模型需要在精确定位视频中目标的同时,根据文本的提示对目标对象进行修改,同时还要保留原始视频的内容和全局语义。这其中涉及到视频目标定位,视频文本多模态理解和视频编辑等多个模块的协作。借助多模态分析领域的飞速发展,这几个关键步骤目前都可以实现,例如可以使用CLIP模型[1]最大化的在语义空间中拉近视频帧目标和操作命令文本之间的语义距离。再如使用最近提出的神经分层图谱(NLA)模型[2],NLA可以将一段视频序列的前景对象和背景进行分离,随后就可以对分离出来的前景对象集合进行编辑,编辑结束后NLA可以再将前景目标按照原有的时间序列自动映射回视频中,而不会影响视频的背景。

1.1 操作流程

AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型_第4张图片

上图展示了本文方法的整体流程。作者首先从原始视频序列 Q r a w Q_{raw} Qraw 中定位要修改的目标并对其进行裁剪得到一组前景操作集合 Q c r o p Q_{crop} Qcrop ,在裁剪时会对每一帧的边界框进行一定的填充来确保目标对象能够被裁剪到,随后直接使用预训练好的NLA模型对裁剪序列进行前背景分离,分别得到前景集合 M f M_f Mf 和背景集合 M b M_b Mb 并送入到风格化模型中,风格化模型具体由一系列的MLP进行实现,这里我们重点关注对前景目标进行操作的MLP模型 A A A在模型的训练过程中,作者将 M b , M f , M α , A b M_b, M_f, M_{\alpha}, A_b Mb,Mf,Mα,Ab 的参数冻结,只更新 A A A 的参数。模型A会根据用户输入的文本命令来对前景目标进行风格化处理,随后NLA会自动将风格化处理后的前景目标集合自动融合到视频中,具体操作如下:

c p = ( 1 − α p ) c b p + α p c f p c^{p}=\left(1-\alpha^{p}\right) c_{b}^{p}+\alpha^{p} c_{f}^{p} cp=(1αp)cbp+αpcfp

其中 c b p , c f p c^{p}_{b},c^{p}_{f} cbp,cfp 分别为模型预测得到的前景像素和背景像素, α p \alpha^{p} αp 为前后融合的比例。

1.2 模型训练

在模型训练过程中,作者以输入的命令文字为引导,分别从全局和局部两个层面来对修改后的视频目标进行外观和语义约束。为此,作者设计了四个损失函数来对风格化模型进行优化,整体的训练流程如下图所示,

AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型_第5张图片

首先对于风格化模型修改后的每一帧 Q s t y l e Q_{style} Qstyle ,分别对其的全局视角 I G l o b a l I^{Global} IGlobal 和局部视角 I L o c a l I^{Local} ILocal 进行采样得到 n G l o b a l n_{Global} nGlobal n L o c a l n_{Local} nLocal ,其中全局视角样本 n G l o b a l n_{Global} nGlobal 是在原始帧中[0.9,1.0]的范围内进行采样得到,而局部视角样本 n L o c a l n_{Local} nLocal 是在原始帧中[0.1,0.5]的范围内采样得到,因而其更能代表原始帧的局部细节。采样结束后,会对这些全局和局部样本应用随机透视变换或其他的数据增强操作,随后按照与CLIP标准模型训练时同样的均值和标准差进行归一化处理,这样就可以在CLIP模型规定的特征空间中对模型进行优化。优化的目标函数由四个部分构成,分别对应局部语义约束,全局语义约束,时间一致性约束,稀疏性正则,下面一一进行介绍,我们首先需要计算每个采样视图的平均语义嵌入:

I e m b L o c a l = 1 n L o c a l ∑ i = 1 n L o c a l E i m g ( I i L o c a l ) , I e m b G l o b a l = 1 n G l o b a l ∑ i = 1 n G l o b a l E i m g ( I i G l o b a l ) I_{e m b}^{Local}=\frac{1}{n_{Local}} \sum_{i=1}^{n_{Local}} E_{i m g}\left(I_{i}^{Local}\right), I_{e m b}^{Global}=\frac{1}{n_{Global}} \sum_{i=1}^{n_{Global}} E_{i m g}\left(I_{i}^{Global}\right) IembLocal=nLocal1i=1nLocalEimg(IiLocal),IembGlobal=nGlobal1i=1nGlobalEimg(IiGlobal)

对于局部语义约束 L L o c a l L_{Local} LLocal我们重点关注图像的局部细节信息,并使用余弦距离来度量修改后的图像特征和文本特征之间的距离,这里的文本包含了局部区域的特定命令,例如“粗糙的鳄鱼皮”,因此局部语义损失可以更加集中在修改目标的风格化纹理和细节信息,其具体的优化信息路径对应于上图中的红线,具体公式如下:

L L o c a l = 1 − s i m ( I e m b L o c a l , E t x t ( T L o c a l ) ) L_{Local}=1-sim\left(I_{e m b}^{Local}, E_{t x t}\left(T_{Local}\right)\right) LLocal=1sim(IembLocal,Etxt(TLocal))

全局语义损失基本上与局部语义损失一致,不同的是全局语义约束的样本是视频的全局视图,其中既包含要被风格化处理的整个对象,也包含其他无关的背景,因此全局语义约束的目标是保留视频的整体上下文不变,这里对应的命令文本也同时包含对象的全局上下文,例如“仙人掌材料的天鹅”。全局损失函数的具体公式如下:

L G l o b a l = 1 − s i m ( I e m b G l o b a l , E t x t ( T G l o b a l ) ) L_{\mathrm{Global}}=1-sim\left(I_{e m b}^{G l o b a l}, E_{t x t}\left(T_{\mathrm{Global}}\right)\right) LGlobal=1sim(IembGlobal,Etxt(TGlobal))

对于时序一致性约束,作者引入了一个三元组损失进行实现,首先采样三个连续帧 t 1 , t 2 , t 3 t_1, t_2, t_3 t1,t2,t3并强制三个连续帧中的相邻帧的特征在CLIP嵌入空间中相比间隔帧更加接近,为此作者先计算三个帧的平均语义嵌入 I e m b ( t 1 ) G l o b a l , I e m b ( t 2 ) G l o b a l , I e m b ( t 3 ) G l o b a l I_{e m b\left(t_{1}\right)}^{G l o b a l}, I_{e m b\left(t_{2}\right)}^{Global}, I_{e m b\left(t_{3}\right)}^{Global } Iemb(t1)Global,Iemb(t2)Global,Iemb(t3)Global ,然后计算三元组损失:

S i m t 1 t 3 − t 1 t 2 = s i m ( I e m b ( t 1 ) G l o b a l , I e m b ( t 3 ) G l o b a l ) − s i m ( I e m b ( t 1 ) G l o b a l , I e m b ( t 2 ) G l o b a l ) Sim_{t_{1} t_{3}-t_{1} t_{2}}=sim\left(I_{e m b\left(t_{1}\right)}^{G l o b a l}, I_{e m b\left(t_{3}\right)}^{G l o b a l}\right)-sim\left(I_{e m b\left(t_{1}\right)}^{G l o b a l}, I_{e m b\left(t_{2}\right)}^{G l o b a l}\right) Simt1t3t1t2=sim(Iemb(t1)Global,Iemb(t3)Global)sim(Iemb(t1)Global,Iemb(t2)Global)

为了避免在编辑视频目标的同时对背景带入其他不必要的人工伪影和噪声,作者还加入了一个稀疏损失对其进行约束,稀疏损失的目标是尽可能的保证视频前景和背景之间互不混淆,例如模型对一个点 p p p 的预测像素被映射到背景集合中时,则其不应该包含有关于该区域前景目标的信息,稀疏损失的公式如下:

L s p a r s i t y = ∥ ( 1 − α P ) c f P ∥ L_{sparsity}=\left\|\left(1-\alpha^{P}\right) c_{f}^{P}\right\| Lsparsity= (1αP)cfP

其中 c f p c^{p}_{f} cfp 代表前景集合在点 p p p 处的预测像素, α p \alpha{p} αp 为点 p p p 处的融合不透明度。整体的目标函数通过联立以上四项损失函数得到:

L = λ S p a r s i t y L S p a r s i t y + λ T e m p L T e m p + λ L o c a l L L o c a l + λ G l o b a l L G l o b a l L=\lambda_{Sparsity} L_{Sparsity}+\lambda_{Temp} L_{Temp}+\lambda_{Local} L_{Local}+\lambda_{Global} L_{Global} L=λSparsityLSparsity+λTempLTemp+λLocalLLocal+λGlobalLGlobal

2. 实验效果

本文的实验主要在DAVIS数据集上进行,该数据集是视频目标分割领域中一个大规模的标准数据集,该数据集提供了视频中前景目标和背景之间的二进制标注,此外本文实验选择的视频中还涉及到一系列不同的修改文本命令。为了对本文方法进行定性分析,作者使用预训练的Blended-diffusion(BF)模型[3]作为baseline方法,BF方法的操作流程与本文方法不同,其将单帧图像、ROI信息和命令文本作为模型输入,随后再根据输入的信息对局部区域进行编辑。为了提高实验的可信度,作者邀请了50名用户来对BF模型和本文模型处理后的视频进行评估打分(分数档从低到高为1-5分),评估主要分为两个部分,Q1代表模型编辑后的视频的逼真程度,Q2代表模型编辑后的视频是否满足命令文本中的要求,评估结果如下表所示。

AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型_第6张图片

随后作者对本文提出的四个损失函数进行了消融实验,实验的可视化效果如下图所示,其中图(a)为所有损失都施加的效果,图(b)为去除局部损失的效果,可以看到在天鹅的腰部明显缺少了细节信息,但是对于风格化的处理仍然可以接受,并且编辑后的鳄鱼皮肤的细节纹理相比图(a)不够清晰。图(c)为去除全局损失的效果,其全局语义信息有所丢失,例如天鹅的脖子发生了明显的形变。图(d)为去除时序一致性损失的效果,可以看到模型对于背景区域也进行了一定的处理。图(e)为去除稀疏损失的效果,显然,这样进行的风格化处理很杂乱。

AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型_第7张图片

为了更好的分析局部损失和全局损失对视频编辑细节信息和全局语义风格的影响,作者对其进行了进一步的分析,分析结果如下所示,以图(a)作为基准,然后分别改变当前效果的局部目标文本和全局目标文本得到图(b)和图(c)的结果。其中在图(b)的局部目标文本中,作者加入了“粗糙的仙人掌材质”,可以看到图(b)的局部细节已经有明显的粗糙纹理出现。图(c)的全局文本仍然为“仙人掌皮肤的天鹅”,而在图(c)的局部文本中,作者指定为“猫皮”,可以看到虽然图(c)中天鹅的毛发部分有一些向猫毛的过渡,但其整体仍然与全局文本保持一致,这也体现了本文方法的全局语义保留能力。

AI直接剪视频?哥本哈根大学提出基于CLIP的文本视频目标编辑模型_第8张图片

3. 总结

本文提出了一种全新的多模态视频编辑模型,借助CLIP模型广泛通用的文本图像嵌入,该模型可以形成一整套的文本prompt修改视频目标的pipeline,这对AI影像处理应用的设计具有重要意义。为了保证视频编辑的质量和效果,作者设计了一系列损失函数分别从全局和局部两个方面对视频的全局时序一致性和局部细节信息进行了约束。此外,本文也为AI视频编辑方面提供了一种新的思路,我们期待着未来出现功能更加完善的模型,到那时,视频剪辑师可能只需要按照脑海里的想法写下命令输入模型,泡一杯咖啡等着就可以了。

参考

[1] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I.: Learning transferable visual models from natural language supervision. CoRR abs/2103.00020 (2021)
https://arxiv.org/abs/2103.00020

[2] Kasten, Y., Ofri, D., Wang, O., Dekel, T.: Layered neural atlases for consistent video editing. CoRR abs/2109.11418 (2021)
https://arxiv.org/abs/2109. 11418

[3] Avrahami, O., Lischinski, D., Fried, O.: Blended diffusion for text-driven editing of natural images. CoRR abs/2111.14818 (2021),
https://arxiv.org/abs/2111. 14818

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

[email protected]

你可能感兴趣的:(技术文章,计算机视觉,自然语言处理)