随着虚拟现实(VR)技术的飞速发展,360度全景视频逐渐成为人们关注的焦点。这种视频格式为观众提供了沉浸式体验,对娱乐、教育和通信等多种应用领域大有裨益。然而,由于捕捉360度全景视频的成本高昂,迫切需要一种能够根据给定提示生成理想全景视频的方法。最近,新兴的文本到视频(T2V)扩散方法在标准视频生成方面显示出显著的有效性。但是,由于全景视频与标准视频在内容和运动模式上存在显著差异,这些方法在生成满意的360度全景视频方面遇到了挑战。
为了解决这一问题,我们提出了一种名为360度视频扩散模型(360DVD)的可控全景视频生成管道。通过引入一个轻量级模块——360-Adapter和辅助的360增强技术,我们将预训练的T2V模型转换用于360度视频生成。此外,我们还提出了一个新的全景数据集WEB360,包含360度视频-文本对,用于训练360DVD,解决了缺乏带有标题的全景视频数据集的问题。广泛的实验表明,360DVD在全景视频生成方面具有优越性和有效性。我们将很快发布代码和数据集。
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。
智能体传送门:
赛博马良——懂流量密码的新媒体AI员工定制平台
神奇口令: 小瑶读者 (前100位有效)
论文标题:
360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model
机构:
School of Electronic and Computer Engineering, Peking University, Shenzhen, China
论文链接:
https://arxiv.org/pdf/2401.06578.pdf
项目地址:
360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model
随着虚拟现实(VR)技术的进步,360度全景视频因其带来的沉浸式体验而日益受到欢迎。这种视频格式对于娱乐、教育和通信等多种应用都非常有帮助。为了捕捉整个场景的细节,360度视频通常使用一系列高分辨率的鱼眼相机进行拍摄,这些相机能够提供360度×180度的视场(FoV),但这在时间和资源上的成本都相当高昂。
因此,迫切需要生成360度全景视频以满足更广泛的应用需求,而全景视频的生成在研究中却鲜有关注。幸运的是,随着新兴理论和训练策略的出现,文本到图像(T2I)扩散模型展现出了从用户给定提示生成图像的显著能力,并且这种令人印象深刻的图像生成能力进一步扩展到了文本到视频(T2V)生成。然而,由于全景视频和标准视频在内容和运动模式上存在显著差异,现有方法在直接生成满意的360度全景视频时遇到了挑战。
为此,我们提出了一种专门设计的方法,名为360度视频扩散模型(360DVD),用于生成全景视频。我们首先引入了一个即插即用的模块,名为360-Adapter,以解决上述挑战。360-Adapter接收零值或运动条件(例如,光流)作为输入,并输出运动特征,这些特征被输入到不同层级的冻结去噪U-Net编码器中。此转换旨在将T2V模型转换为全景视频生成,而不改变其基础生成能力。此外,我们还引入了360增强技术,包括两种机制以从宏观和微观角度增强ERP两端的连续性,以及一种纬度感知损失函数,以鼓励模型更多地关注低纬度区域。配合精心设计的技术,我们的360DVD能够生成与文本对齐、连贯、高质量的360度全景视频。
360-Adapter是一个轻量级模块,它接收零值或运动条件作为输入,并输出运动特征。这些特征随后被输入到冻结的去噪U-Net编码器的不同层级中。360-Adapter的设计简单但有效,如图4所示,它包含四个360-Adapter块,每个块都包括一个下采样块。在每个360-Adapter块中,一个2D卷积层和一个带有伪3D卷积层的残差块(RB)被用来提取条件特征。最终,多尺度条件特征与U-Net编码器中的中间特征相加。
360-Adapter的条件特征提取和调节操作可以定义为以下公式:
其中,C是运动条件,F360(·)是360-Adapter,Fc是360-Adapter生成的特征图。在U-Net编码器的每个分辨率层级中,空间层展开了来自SD的预训练权重,而时间层则整合了AnimateDiff在大规模文本视频数据集上训练的运动模块。在训练过程中,我们首先从数据集中采样一个视频x1:N,通过预训练的VAE编码器E(·)将视频编码为潜在代码z1:N,并添加噪声。同时,视频对应的文本y使用CLIP的文本编码器τθ(·)进行编码。视频还输入到运动估计网络中生成相应的运动条件C,然后输入到360-Adapter F360(·)中。最后,带噪声的潜在代码z1:N、时间步t、文本嵌入τθ(y)和360-Adapter生成的特征图Fc共同输入到U-Net ϵ(·)中,以预测添加到潜在代码的噪声强度。由于我们的目标是保留SD和AnimateDiff在大型数据集上学习到的先验知识,我们在训练过程中冻结了它们的权重。
在虚拟现实(VR)技术的推动下,360度全景视频因其沉浸式体验而日益流行。然而,由于捕捉360度全景视频的成本高昂,迫切需要能够根据给定提示生成理想的全景视频。为此,我们提出了一个名为WEB360的新全景数据集,旨在训练我们的360度视频扩散模型(360DVD),解决了现有全景视频数据集缺乏文本注释的问题。
WEB360数据集包含2114个视频文本对,这些内容来自开放域,以高清(720p)等距圆柱投影(ERP)格式呈现。我们从ODV360训练集中提取了210个高分辨率全景视频片段,并从YouTube收集了400多个原始视频。由于原始视频中复杂的场景转换对模型学习时间相关性构成挑战,我们通过手动筛选将原始视频分割成1904个单一场景视频片段。我们使用BLIP对2104个视频片段的第一帧进行注释。但是,我们发现直接将BLIP应用于ERP图像会导致不良的字幕。因此,我们提出了一种基于ChatGPT的全景图像字幕方法,名为360 Text Fusion。
360 Text Fusion 是一种全景图像字幕方法,它首先将原始ERP图像投影到四个非重叠的90度视场角(FoV)的透视图像上,然后将这四张图像输入BLIP进行字幕化。通过预先告知ChatGPT任务并提供示例,这四个字幕被集中输入ChatGPT,然后生成场景的摘要作为我们的最终字幕。与直接使用BLIP标记整个图像相比,我们的360TF在细粒度上展现了显著优势。
纬度感知损失函数
在将全景视频投影到ERP时,经线被映射为垂直间隔恒定的线,而纬线被映射为水平间隔恒定的线。这种投影方法建立了直接的映射关系,但它既不是等面积也不是保形的,尤其是在极地区域引入了显著的失真。为了使去噪器更多地关注失真较小的低纬度区域,我们引入了纬度感知损失函数,通过训练过程中给低纬度和中纬度像素更多的权重,以提高模型对这些区域的关注。
潜在旋转机制
由于ERP可以被视为沿着子午线展开的球面,它们的左右两侧应该是连续的。然而,在视频生成过程中,左右两侧在物理上是分开的。我们受到PanoDiff的启发,采用了潜在旋转机制来增强视频左右两端的宏观连续性。在推理过程中,我们在每个去噪步骤中对潜在代码z1:N和运动条件C进行水平旋转一个角度θ。通过这种方式,远左侧的内容被移动到远右侧,以实现更好的视觉效果。在训练过程中,我们还通过随机角度旋转训练视频和运动条件来作为数据增强策略。
循环填充机制
尽管之前的潜在旋转机制在宏观层面实现了语义连续性,但要实现像素级连续性仍然具有挑战性。因此,在推理过程中,我们采用了循环填充机制,通过修改卷积层的填充方法来实现。我们观察到,360度视频生成的早期阶段通常涉及布局建模,而后期阶段则专注于细节完成。为了保持360DVD稳定的视频生成质量,我们只在总共T个去噪步骤的后⌊T/2⌋步中实施循环填充机制。
在我们的研究中,我们选择了稳定扩散模型(Stable Diffusion v1.5)和运动模块(Motion Module v14)作为基础模型。为了生成运动条件,我们使用了全景光流估计器PanoFlow。我们提出的360-Adapter是通过WEB360数据集进行训练的,这是一个全新的包含2114个文本-视频对的数据集,专门为360度全景视频生成而设计。训练的分辨率设置为512×1024,帧长度为16,批量大小为1,学习率为1×10^-5,总训练步数为100k,概率p设置为0.2。我们采用了AnimateDiff中的线性beta调度策略,其中βstart = 0.00085,βend = 0.012。
我们的360DVD模型能够生成与文本提示对齐、内容连贯且高质量的360度全景视频。此外,360DVD能够与多个个性化的文本到图像模型合作,一致地生成风格化的全景视频。我们的方法保留了SD和AnimateDiff在大规模数据集上学习到的图像生成先验和时间建模先验,从而成功地将个性化的T2I模型转换为全景视频生成器。我们的方法可以生成从真实到卡通风格,从自然风景到文化景观的各种印象深刻的生成结果。
我们的360DVD与现有的AnimateDiff方法进行了比较。我们观察到,原生的AnimateDiff生成的视频视野非常狭窄,不符合全景视频的内容分布。当AnimateDiff增加了全景LoRA后,它可以生成视野更广的视频;然而,视频的两端缺乏连续性,对象的运动非常随机。我们提出的360ET方法显著增强了视频两端的连续性,但未能解决不符合全景运动模式和跨帧一致性差等问题。值得注意的是,我们的360DVD能够生成最符合全景视频内容分布和运动模式的视频。我们很高兴地发现,得益于WEB360提供的高质量训练数据,360DVD生成的视频展现出更真实的颜色和细腻的光照,提供了沉浸式体验。
用户研究表明,与其他三种方法相比,我们的模型在图形质量、跨帧一致性、左右连续性、内容分布和运动模式等五个维度上的表现都显著优越。同时,我们提出的360ET可以基于原生的AnimateDiff和全景LoRA显著提高视频质量和左右连续性。
1. 360DVD的扩展性
360DVD是一个基于文本提示和运动条件生成360度全景视频的模型。它通过引入一个轻量级的模块,即360-Adapter,以及辅助的360增强技术,将预训练的文本到视频(T2V)模型转换为全景视频生成模型。360DVD的设计旨在不改变基础生成能力的前提下,实现从标准视频到全景视频的转换。
360-Adapter接收零值或运动条件(例如,光流)作为输入,并输出运动特征,这些特征被输入到不同级别的编码器中的去噪U-Net。这种转换旨在将T2V模型转换为全景视频生成模型,同时保持其基础生成能力。此外,360DVD还引入了两种机制来从宏观和微观角度增强ERP两端的连续性,并引入了一个纬度感知的损失函数,以鼓励模型更多地关注低纬度区域。
2. 在不同分辨率下的表现
尽管360DVD在训练时的分辨率设置为512×1024,但它在其他分辨率下也表现良好。由于现有的稳定扩散(SD)和GPU内存使用的限制,本文中展示的实验结果是在512×1024的分辨率下完成的。在实际应用中,可以使用超分辨率方法来将生成的结果放大到所需的大小。此外,360DVD在不同分辨率下的表现也展现了其良好的泛化能力。
1. 用户研究方法
为了评估360DVD在全景视频生成中的用户偏好,进行了一项用户研究。共有31名参与者参与了这项研究,他们被要求评估8组生成结果在图形质量、跨帧一致性、左右连续性、内容分布和运动模式等五个维度上的表现。对于每个标准,参与者选择了他们认为最适合高质量360度全景视频主题的视频。
2. 用户研究结果
根据用户研究的数据,我们的模型在所有五个维度上显著优于其他三种方法。特别是在全景视频的标准,包括生成视频是否具有左至右的连续性、全景内容分布和全景运动模式方面,更多的评估者偏好我们的360DVD生成的视频。同时,我们提出的360增强技术(360ET)可以显著提高视频质量和左右连续性,即使是基于原生AnimateDiff和全景LoRA。
在本章节中,我们将讨论和总结360DVD模型在生成360度全景视频方面的局限性,并探讨其未来的发展方向。
1. 局限性
360DVD模型在生成360度全景视频方面取得了一定的成就,但仍存在一些局限性:
2. 未来方向
尽管存在局限性,360DVD为全景视频生成提供了一个简单而有效的解决方案,并为未来的研究提供了灵感。未来的发展方向可能包括:
总的来说,360DVD模型在全景视频生成领域展现了潜力,但仍需进一步的研究和开发以克服现有的局限性,并扩展其应用范围。随着技术的进步和更多研究的投入,我们有理由相信360DVD及其后续版本将在全景视频生成领域发挥更大的作用。
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。
智能体传送门:赛博马良-AI论文解读达人
神奇口令: 小瑶读者 (前100位有效)