几个月前阿里云推出了视频生成模型I2VGen-XL,该模型适用于短视频内容制作和电影制作等多种场景。根据阿里云视频生成模型研发负责人介绍,I2VGen-XL采用深度学习技术,具备卓越的图像识别和生成能力。用户只需提供素材和需求,即可自动生成高质量的视频内容,显著提高了视频制作的效率和质量。AIGCer对其技术有点心动,现在论文开源出来了,一起学习一下。
视频合成最近在扩散模型的迅速发展的推动下取得了显著进展。然而,它在语义准确性、清晰度和时空连续性方面仍然面临挑战。这些挑战主要源于文本-视频数据的匮乏和视频固有结构的复杂性,使得模型难以同时确保语义和质量上的卓越表现。在这份报告中,我们提出了一种级联的I2VGen-XL方法,通过解耦这两个因素来增强模型性能,并通过利用静态图像作为重要的引导形式来确保输入数据的对齐。I2VGen-XL包括两个阶段:i)基础阶段通过使用两个分层编码器保证一致的语义,并保留输入图像的内容,ii)细化阶段通过引入额外的简短文本增强视频的细节,并提高分辨率至1280×720。为了提高多样性,我们收集了约3500万个单镜头文本-视频对和60亿个文本-图像对以优化模型。通过这种方式,I2VGen-XL可以同时提高生成视频的语义准确性、细节的连续性和清晰度。通过大量实验证明了I2VGen-XL的基本原理,并与当前顶级方法进行了比较,展示了其在多样化数据上的有效性。
近年来,扩散模型在图像合成方面的技术革命取得了显著的成就,也在视频合成方面取得了重要进展。通常,它们可以从文本提示作为输入生成具有前所未有的保真度和多样性的逼真视频,甚至可以根据不同的引导来控制视频中的内容和运动模式。尽管取得了这些进展,确保生成视频在空间和运动维度上的一致语义以及细节的连续性仍然带来了重大挑战,从而限制了其潜在应用。
目前解决这个问题的现有方法主要分为两类。第一类采用多个模型逐渐提高视频质量,如Imagen Video 。然而,这些方法主要使用相同输入逐步优化相同的目标,没有明确解耦任务。因此,这导致在每个阶段学习相似的分布,从而在生成的视频中产生非常大的噪声。第二类方法需要额外的引导或训练过程。尽管它们表现出色,但在某些场景中满足引导和训练的要求仍然是一个重大挑战。此外,作为一个普遍的问题,视频-文本配对的不足对进一步推进视频合成领域也构成了重大障碍。
SDXL 的成功激发了我们开发级联I2VGen-XL方法的灵感,该方法能够生成具有一致空间和运动动态以及连续细节的高清视频。I2VGen-XL通过利用单个静态图像作为主要条件,首先减少对良好对齐的文本-视频对的依赖,主要包括两个阶段,如下图2所示:
基础阶段旨在确保在生成的低分辨率视频中的语义一致性,同时保留输入图像的内容和身份信息。为此,我们设计了两个分层编码器,即固定的CLIP编码器和可学习的内容编码器,分别提取高级语义和低级细节,然后将它们合并到视频扩散模型中。
细化阶段是为了将视频分辨率提高到1280×720,并改进生成视频中存在的细节和伪影。具体而言,我们使用简单的文本训练一个独立的视频扩散模型,优化其初始600个去噪步骤。通过使用噪声-去噪过程,我们可以从低分辨率视频生成具有时间和空间一致性的高清视频。
此外,我们收集了3500万高质量的单镜头视频和60亿张图像,涵盖了日常生活中常见类别的广泛领域,以增强I2VGen-XL的多样性和鲁棒性。最后,通过对广泛数据进行全面评估,仔细分析了I2VGen-XL的有效性。深入研究了细化模型在频域中的工作机制,并将其与当前排名前列的方法进行了基准测试。结果表明,在这些情况下,I2VGen-XL展现出更为合理和显著的运动。
扩散概率模型(DPM)是一类学习生成目标概率分布的强大生成模型。在利用DPM进行图像生成的初期尝试主要集中在性能提升上。这些模型被验证在多样性和逼真性方面比主要的传统生成方法,包括GANs 和VAE ,更为有效。因此,DPM逐渐成为生成方法领域的一个关键分支,但它们受到效率低下的困扰。为此,一些研究旨在通过提高采样效率来减少模型中去噪步骤的数量,例如学习无采样 和基于学习的采样 。还有一些方法,如LDM 、LSGM 和RDM ,利用在潜在空间中的分布学习来显著减少计算开销并实现高分辨率图像的生成。我们在本文中的I2VGen-XL中应用了LDM框架的两个阶段。
在当前基于扩散模型的图像生成的主流中,语言模型,例如T5 ,被用于提取特征,交叉注意力被用作生成内容的调节机制。通常,稳定扩散 和DALL-E 2 应用CLIP 文本编码器,Imagen 应用T5以提高文本-图像对齐和图像质量。在它们之后,一些方法旨在使用扩散模型进行基于文本的图像编辑,如Imagic 和Sine 。此外,另一个重要的研究分支是可控生成,其中使用额外条件以更灵活的方式生成目标图像,如Control-Net 和Composer 。
早期的视频生成研究主要集中在使用与GAN相关的方法,但保持时空一致性以及逼真性仍然是一个重大挑战。受图像生成领域显著进展的启发,扩散模型也成为视频生成领域的主流技术。VDM 、VideoLDM 和Modelscope-T2 通过设计具有时序感知能力的UNet直接生成完整的视频块,实现了显著的性能提升。MagicVideo 不使用时序卷积,而是通过设计额外的适配器来实现。
与图像生成一样,可控性在视频生成领域也是一个关键目标。通常,Gen-1 利用深度作为额外条件来解耦结构和内容,并在视频到视频转换任务中取得了出色的结果。VideoComposer 通过结合文本条件、空间条件和时间条件实现对视频生成的灵活控制。此外,Dragnuwa 通过允许用户通过简单的拖放手势控制视频运动模型,进一步增强了可控性。
生成高清视频一直是该领域的一个重要目标,最近也取得了显著的进展。Imagen Video 和Lavie 以渐进的方式合成高清视频,实现了性能的提升。作为一种并发方法,Videocrafter1 利用扩散模型解决高质量视频生成任务,并重点促进社区的发展。与它们相比,作为一种替代方法,I2VGen-XL专注于增强图像到视频任务,以提高视频质量,尤其是在视频内容创建领域,并共同推动社区的发展。
在这一部分中,我们将全面介绍提出的I2VGen-XL,阐述它是如何提高生成视频的分辨率和时空一致性的,同时保留输入图像的内容。首先,将对潜在扩散模型的基本原理进行简要总结。随后,深入探讨I2VGen-XL的设计细节和相关概念,如上面的图2所示。最后,将阐明其训练策略和推理过程。
潜在扩散模型(LDM)是一种有效且高效的扩散模型,它通过逐渐从高斯噪声中恢复目标潜在,保留视觉流形,并最终从潜在中重建高保真度的图像或视频。对于视频 ,遵循VideoComposer ,使用预训练的VQGAN 的编码器将其压缩成低维潜在表示 ,其中 。反过来,相应的解码器 D 可以将潜在表示映射回像素空间。 LDM包括扩散和去噪过程。在扩散阶段,它逐渐向 z 注入噪声以获得噪声污染的潜在 ,其中 (本文中 T = 1000)。在去噪阶段,它在上应用去噪函数。优化的目标可以表述如下:
关于 ,继承了设计良好的3D UNet形式,因为它具有强大的时序建模能力。在本文中,除非另有说明,将使用采用3D架构的LDM称为VLDM。
I2VGen-XL的目的是从静态图像生成高质量的视频。因此,它需要实现两个关键目标:语义一致性,涉及准确预测图像中的意图,然后生成精确的运动,同时保持输入图像的内容和结构;高时空一致性和清晰度,这是视频的基本属性,对于确保视频创作应用的潜力至关重要。为此,I2VGen-XL通过一个包含两个阶段的级联策略分解了这两个目标:基础阶段和精化阶段。
基于VLDM,我们设计第一阶段在低分辨率(即448×256)上,主要关注对输入图像进行多层次特征提取,包括高级语义和低级细节学习,以确保理解意图并有效地保留内容。
「高级语义学习」 最直接的方法是参考之前的尝试(https://modelscope.cn/models/damo/Image-to-Video/summary),即使用CLIP的视觉编码器提取语义特征。然而,观察到这种方法导致在生成的视频中内容和结构的保留较差。主要原因是CLIP的训练目标是对齐视觉和语言特征,这导致学习高级语义但忽略了图像中细节的感知。为了缓解这个问题,我们增加了一个额外的可训练全局编码器(即G.Enc.)来学习具有相同形状的补充特征,其架构如下表1所示。
然后,通过加法操作将两个一维特征集成,并利用交叉注意力将其嵌入到3D UNet 的各个空间层中。尽管进行了这些努力,将输入图像压缩成低维向量仍然导致信息丢失。
「低级细节」 为了减轻细节损失,我们使用从VQGAN的编码器(即D.Enc.)中提取的特征,并直接将它们添加到第一帧的输入噪声中。选择这种方式是基于编码器完全重构原始图像的能力,确保保留所有细节。实验表明,使用局部编码器而不是更复杂的语义编码器可以使视频更好地保留图像内容。然而,随着视频的播放,会出现明显的失真,表明语义清晰度在减弱。这突显了两个分层编码器互补性的特性,表明它们的整合是有利的。
从基础模型中,可以获得一个具有多样性和语义准确运动的低分辨率视频。然而,这些视频可能会受到各种问题的困扰,如噪声、时间和空间抖动以及变形。因此,精化模型有两个主要目标:
增强视频分辨率,将其从448×256提高到1280×720或更高;
提高视频的时空连续性和清晰度,解决时间和空间上的伪影。
为了提高视频质量,我们训练了一个专门用于高质量、高分辨率数据的独立VLDM,并在第一阶段生成的视频上采用SDEdit 引入的噪声-去噪过程。与基础模型不同,精化模型使用用户提供的简单文本(例如几个单词)作为条件,而不是原始输入图像。原因是当两个阶段的输入条件相同时,发现视频校正的效果显著减弱。这可能是因为引入相同条件的类似映射,导致模型缺乏恢复能力。另一方面,引入不同的条件可以带来有效的补偿。
具体而言,使用CLIP对文本进行编码,并通过交叉注意力将其嵌入到3D UNet中。然后,基于基础阶段的预训练模型,使用精心选择的高质量视频进行高分辨率模型的训练,所有这些视频的分辨率都大于1280×720。
对于基础模型:使用SD2.1预训练参数初始化3D UNet的空间组件,使得I2VGen-XL具有初始的空间生成能力。在整个3D UNet的训练过程中,通过应用系数 γ = 0.2 对空间层的参数更新进行适度调整。
对于细化模型:使用经过良好训练的基础模型进行初始化,并采用相同的训练策略。为了增强细化模型对时空细节的集中注意力,专门在初始 Tr 噪声尺度上进行训练以进行去噪。采用两阶段训练策略:
对整个高分辨率数据集进行高分辨率训练。
为了进一步增强模型对细节的感知,在精心选择的约一百万高质量视频的子集上进行最后的微调。
在推理过程中,采用噪声-去噪过程连接两个模型部分。通过考虑生成效率和不同分辨率下的生成质量,使用DDIM 和 DPM-solver++ 进行推理。在第一阶段获得低分辨率视频后,将其调整大小为1280 × 720。使用DDIM在新的潜在空间上执行Tr反向计算,通过在新的潜在空间上添加噪声进行。然后,使用细化模型对第一阶段的Tr去噪尺度进行最终的高分辨率视频生成。生成过程可形式化为:
其中, 分别表示输入图像和文本条件;和 表示基础模型和细化模型的去噪过程;是基础阶段的总噪声尺度数量。
为了优化I2VGen-XL,我们使用两种类型的训练数据,即包括WebVid10M 和LAION-400M 的公共数据集,以及由相同类型的视频文本对和图像文本对组成的私有数据集。总共,这两个数据集包含了3500万个视频和60亿张图像,分辨率从360p到2k不等。然后,根据美学评分、运动强度和主体占比对它们进行了排序,以便使用平衡样本进行训练。
采用AdamW 作为优化器,学习率固定为8×10^(-5)。在训练过程中,同时使用动态帧和动态FPS。对于帧长度,对1、8、16和32帧采用1:1:1:5的数据供应比率。同样,对于1、4、8和16 FPS,采用1:2:4:1的比率,当FPS等于1时,表示输入是一张静态图像。使用中心裁剪来构成输入视频,对于基础阶段和精化阶段分别使用H = 256,W = 448和H = 720,W = 1280。
对于训练扩散模型,采用扩散模型的v参数和强度为0.1的偏移噪声。采用线性调度。在推理期间,默认的值设置为600,但对于某些示例可能会有所变化。
为了展示我们提出的方法的有效性,我们将I2VGen-XL的性能与领先的方法Gen-2 和Pika 进行比较,它们被广泛认为是该领域当前的最新技术。我们使用它们的Web界面生成三种类型的图像的视频,包括伪事实、真实和抽象绘画,如下图4所示。
从这些结果中可以得出几个结论:
「运动的丰富性」:我们的结果展示了更真实和多样化的运动,例如飞翔的狗的示例。相比之下,Gen-2和Pika生成的视频似乎更接近于静态状态,表明I2VGen-XL实现了更丰富的运动;
「ID保持的程度」:从这三个样本中可以观察到,Gen-2和Pika成功地保持了对象的ID,而我们的方法失去了输入图像的一些细节。
在我们的实验中,我们还发现ID保持的程度和运动的强度之间存在一定的权衡关系。我们在这两个因素之间取得了平衡。
下图3展示了精化阶段前后生成的视频。这些结果显示了空间细节的实质性增强,包括面部和身体特征的精炼,以及局部细节中噪声显著减少。
为了进一步阐明精化模型的工作机制,我们在下图7中分析了在此过程中生成的视频在频域中发生的空间和时间变化。图7a呈现了四个空间输入的频谱,揭示了低质量视频在高频范围内的频率分布与噪声相似,而高质量视频则更接近输入图像的频率分布。结合图7b中呈现的空间频率分布,可以观察到精化模型在保留低频数据的同时,对高频数据进行了更平滑的变化。从时间维度的角度看,图7d呈现了低质量视频(顶部)和高质量视频(底部)的时间轮廓,显示高清晰度视频连续性的明显改善。此外,结合图7b和图7e,可以观察到精化模型在空间和时间域中保留低频分量,减少中频分量,并增强高频分量。这表明时空领域中的人工痕迹主要存在于中频范围。
我们还对更广泛的图像进行了实验,包括人脸、3D卡通、动漫、国画和小动物等类别。结果如下图5所示。我们可以观察到生成的视频同时考虑图像的内容和合成视频的美学,同时展示有意义和准确的运动。例如,在第六行,模型准确捕捉了小猫可爱的嘴部运动。此外,在第五行,木雕鸟模型在保持原始风格的同时准确旋转头部。这些结果表明I2VGen-XL具有良好的泛化能力。
生成稳定的人体运动仍然是视频合成中的一个主要挑战。因此,我们还特别验证了I2VGen-XL在人体图像上的稳健性,如下图8所示。可以观察到模型对于人体的预测和生成的动作相当真实,大多数人体的特征都得到了良好的保留。
当前文本到视频合成中的一个主要挑战是获取高质量的视频-文本对,这使得在语义上对齐视频和文本相比图像合成更加困难。因此,将图像合成技术(例如稳定扩散 和Wanxiang)与图像到视频合成相结合,可以帮助提高生成视频的质量。事实上,为了尊重隐私,本报告中几乎所有的样本都是通过将这两种方法结合生成的。此外,在下图6中,我们分别生成了样本,可以观察到视频和文本表现出高度的语义一致性。
本文中提出的I2VGen-XL在视频合成中的语义一致性和时空质量方面取得了显著的改进。然而,它仍然存在以下限制,这也是我们未来工作的方向:
人体运动生成,如前所述,仍然在自由度和自然度方面存在显著挑战。这主要是由于与人体相关的运动的错综复杂和丰富的性质,增加了生成的难度。
生成长视频的能力有限。当前的模型主要生成几秒钟的短视频,使用单个镜头拍摄,并且尚不能生成连续叙述和多场景的长视频。
用户意图理解有限。目前视频-文本配对数据的稀缺性限制了视频合成模型有效理解用户输入(如标题或图像)的能力。这显著增加了用户与模型互动的难度。
本文中,我们介绍了一种名为I2VGen-XL的级联视频合成模型,该模型能够从单个静态图像生成高质量的视频。从两个角度解决了问题:语义一致性和时空连续性,并设计了两个阶段分别解决这两个目标。通过使用大量的类别数据验证了I2VGen-XL方法的有效性。此外,通过将I2VGen-XL方法与图像合成算法相结合,探索了视频合成的新范式。然而,尽管付出了这些努力,我们知道视频合成仍然面临着许多挑战。需要在人体对象、持续时间和意图理解等方面进行进一步的探索,以解决视频合成中更多实际任务。
[1]2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models
链接:https://i2vgen-xl.github.io/
更多精彩内容,请关注公众号:AI生成未来