夕小瑶

2024 年1月16日Arxiv最热CV论文：360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusio

全景视频生成新纪元：北大提出新模型让你的文字描述变身360度沉浸式视频体验！

引言：360度全景视频的新时代

随着虚拟现实（VR）技术的飞速发展，360度全景视频逐渐成为人们关注的焦点。这种视频格式为观众提供了沉浸式体验，对娱乐、教育和通信等多种应用领域大有裨益。然而，由于捕捉360度全景视频的成本高昂，迫切需要一种能够根据给定提示生成理想全景视频的方法。最近，新兴的文本到视频（T2V）扩散方法在标准视频生成方面显示出显著的有效性。但是，由于全景视频与标准视频在内容和运动模式上存在显著差异，这些方法在生成满意的360度全景视频方面遇到了挑战。

为了解决这一问题，我们提出了一种名为360度视频扩散模型（360DVD）的可控全景视频生成管道。通过引入一个轻量级模块——360-Adapter和辅助的360增强技术，我们将预训练的T2V模型转换用于360度视频生成。此外，我们还提出了一个新的全景数据集WEB360，包含360度视频-文本对，用于训练360DVD，解决了缺乏带有标题的全景视频数据集的问题。广泛的实验表明，360DVD在全景视频生成方面具有优越性和有效性。我们将很快发布代码和数据集。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核后发布。
智能体传送门：
赛博马良——懂流量密码的新媒体AI员工定制平台

神奇口令： 小瑶读者 （前100位有效）

论文标题、机构、论文链接和项目地址

论文标题:
360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model

机构:
School of Electronic and Computer Engineering, Peking University, Shenzhen, China

论文链接:

https://arxiv.org/pdf/2401.06578.pdf

项目地址:
360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model

360DVD模型概述：从标准视频到全景视频的转变

随着虚拟现实（VR）技术的进步，360度全景视频因其带来的沉浸式体验而日益受到欢迎。这种视频格式对于娱乐、教育和通信等多种应用都非常有帮助。为了捕捉整个场景的细节，360度视频通常使用一系列高分辨率的鱼眼相机进行拍摄，这些相机能够提供360度×180度的视场（FoV），但这在时间和资源上的成本都相当高昂。

因此，迫切需要生成360度全景视频以满足更广泛的应用需求，而全景视频的生成在研究中却鲜有关注。幸运的是，随着新兴理论和训练策略的出现，文本到图像（T2I）扩散模型展现出了从用户给定提示生成图像的显著能力，并且这种令人印象深刻的图像生成能力进一步扩展到了文本到视频（T2V）生成。然而，由于全景视频和标准视频在内容和运动模式上存在显著差异，现有方法在直接生成满意的360度全景视频时遇到了挑战。

为此，我们提出了一种专门设计的方法，名为360度视频扩散模型（360DVD），用于生成全景视频。我们首先引入了一个即插即用的模块，名为360-Adapter，以解决上述挑战。360-Adapter接收零值或运动条件（例如，光流）作为输入，并输出运动特征，这些特征被输入到不同层级的冻结去噪U-Net编码器中。此转换旨在将T2V模型转换为全景视频生成，而不改变其基础生成能力。此外，我们还引入了360增强技术，包括两种机制以从宏观和微观角度增强ERP两端的连续性，以及一种纬度感知损失函数，以鼓励模型更多地关注低纬度区域。配合精心设计的技术，我们的360DVD能够生成与文本对齐、连贯、高质量的360度全景视频。

360-Adapter模块详解

模块设计与功能

360-Adapter是一个轻量级模块，它接收零值或运动条件作为输入，并输出运动特征。这些特征随后被输入到冻结的去噪U-Net编码器的不同层级中。360-Adapter的设计简单但有效，如图4所示，它包含四个360-Adapter块，每个块都包括一个下采样块。在每个360-Adapter块中，一个2D卷积层和一个带有伪3D卷积层的残差块（RB）被用来提取条件特征。最终，多尺度条件特征与U-Net编码器中的中间特征相加。

与U-Net编码器的交互

360-Adapter的条件特征提取和调节操作可以定义为以下公式：

其中，C是运动条件，F360(·)是360-Adapter，Fc是360-Adapter生成的特征图。在U-Net编码器的每个分辨率层级中，空间层展开了来自SD的预训练权重，而时间层则整合了AnimateDiff在大规模文本视频数据集上训练的运动模块。在训练过程中，我们首先从数据集中采样一个视频x1:N，通过预训练的VAE编码器E(·)将视频编码为潜在代码z1:N，并添加噪声。同时，视频对应的文本y使用CLIP的文本编码器τθ(·)进行编码。视频还输入到运动估计网络中生成相应的运动条件C，然后输入到360-Adapter F360(·)中。最后，带噪声的潜在代码z1:N、时间步t、文本嵌入τθ(y)和360-Adapter生成的特征图Fc共同输入到U-Net ϵ(·)中，以预测添加到潜在代码的噪声强度。由于我们的目标是保留SD和AnimateDiff在大型数据集上学习到的先验知识，我们在训练过程中冻结了它们的权重。

WEB360数据集的构建与特点

在虚拟现实（VR）技术的推动下，360度全景视频因其沉浸式体验而日益流行。然而，由于捕捉360度全景视频的成本高昂，迫切需要能够根据给定提示生成理想的全景视频。为此，我们提出了一个名为WEB360的新全景数据集，旨在训练我们的360度视频扩散模型（360DVD），解决了现有全景视频数据集缺乏文本注释的问题。

WEB360数据集包含2114个视频文本对，这些内容来自开放域，以高清（720p）等距圆柱投影（ERP）格式呈现。我们从ODV360训练集中提取了210个高分辨率全景视频片段，并从YouTube收集了400多个原始视频。由于原始视频中复杂的场景转换对模型学习时间相关性构成挑战，我们通过手动筛选将原始视频分割成1904个单一场景视频片段。我们使用BLIP对2104个视频片段的第一帧进行注释。但是，我们发现直接将BLIP应用于ERP图像会导致不良的字幕。因此，我们提出了一种基于ChatGPT的全景图像字幕方法，名为360 Text Fusion。

360 Text Fusion 是一种全景图像字幕方法，它首先将原始ERP图像投影到四个非重叠的90度视场角（FoV）的透视图像上，然后将这四张图像输入BLIP进行字幕化。通过预先告知ChatGPT任务并提供示例，这四个字幕被集中输入ChatGPT，然后生成场景的摘要作为我们的最终字幕。与直接使用BLIP标记整个图像相比，我们的360TF在细粒度上展现了显著优势。

360度视频增强技术

纬度感知损失函数

在将全景视频投影到ERP时，经线被映射为垂直间隔恒定的线，而纬线被映射为水平间隔恒定的线。这种投影方法建立了直接的映射关系，但它既不是等面积也不是保形的，尤其是在极地区域引入了显著的失真。为了使去噪器更多地关注失真较小的低纬度区域，我们引入了纬度感知损失函数，通过训练过程中给低纬度和中纬度像素更多的权重，以提高模型对这些区域的关注。

潜在旋转机制

由于ERP可以被视为沿着子午线展开的球面，它们的左右两侧应该是连续的。然而，在视频生成过程中，左右两侧在物理上是分开的。我们受到PanoDiff的启发，采用了潜在旋转机制来增强视频左右两端的宏观连续性。在推理过程中，我们在每个去噪步骤中对潜在代码z1:N和运动条件C进行水平旋转一个角度θ。通过这种方式，远左侧的内容被移动到远右侧，以实现更好的视觉效果。在训练过程中，我们还通过随机角度旋转训练视频和运动条件来作为数据增强策略。

循环填充机制

尽管之前的潜在旋转机制在宏观层面实现了语义连续性，但要实现像素级连续性仍然具有挑战性。因此，在推理过程中，我们采用了循环填充机制，通过修改卷积层的填充方法来实现。我们观察到，360度视频生成的早期阶段通常涉及布局建模，而后期阶段则专注于细节完成。为了保持360DVD稳定的视频生成质量，我们只在总共T个去噪步骤的后⌊T/2⌋步中实施循环填充机制。

实验设置与定性结果分析

1. 实验设置：基础模型选择与训练参数

在我们的研究中，我们选择了稳定扩散模型（Stable Diffusion v1.5）和运动模块（Motion Module v14）作为基础模型。为了生成运动条件，我们使用了全景光流估计器PanoFlow。我们提出的360-Adapter是通过WEB360数据集进行训练的，这是一个全新的包含2114个文本-视频对的数据集，专门为360度全景视频生成而设计。训练的分辨率设置为512×1024，帧长度为16，批量大小为1，学习率为1×10^-5，总训练步数为100k，概率p设置为0.2。我们采用了AnimateDiff中的线性beta调度策略，其中βstart = 0.00085，βend = 0.012。

2. 定性结果：全景视频生成的视觉效果

我们的360DVD模型能够生成与文本提示对齐、内容连贯且高质量的360度全景视频。此外，360DVD能够与多个个性化的文本到图像模型合作，一致地生成风格化的全景视频。我们的方法保留了SD和AnimateDiff在大规模数据集上学习到的图像生成先验和时间建模先验，从而成功地将个性化的T2I模型转换为全景视频生成器。我们的方法可以生成从真实到卡通风格，从自然风景到文化景观的各种印象深刻的生成结果。

与现有方法的比较：360DVD的优势

我们的360DVD与现有的AnimateDiff方法进行了比较。我们观察到，原生的AnimateDiff生成的视频视野非常狭窄，不符合全景视频的内容分布。当AnimateDiff增加了全景LoRA后，它可以生成视野更广的视频；然而，视频的两端缺乏连续性，对象的运动非常随机。我们提出的360ET方法显著增强了视频两端的连续性，但未能解决不符合全景运动模式和跨帧一致性差等问题。值得注意的是，我们的360DVD能够生成最符合全景视频内容分布和运动模式的视频。我们很高兴地发现，得益于WEB360提供的高质量训练数据，360DVD生成的视频展现出更真实的颜色和细腻的光照，提供了沉浸式体验。

用户研究表明，与其他三种方法相比，我们的模型在图形质量、跨帧一致性、左右连续性、内容分布和运动模式等五个维度上的表现都显著优越。同时，我们提出的360ET可以基于原生的AnimateDiff和全景LoRA显著提高视频质量和左右连续性。

360DVD的扩展性与在不同分辨率下的表现

1. 360DVD的扩展性

360DVD是一个基于文本提示和运动条件生成360度全景视频的模型。它通过引入一个轻量级的模块，即360-Adapter，以及辅助的360增强技术，将预训练的文本到视频（T2V）模型转换为全景视频生成模型。360DVD的设计旨在不改变基础生成能力的前提下，实现从标准视频到全景视频的转换。

360-Adapter接收零值或运动条件（例如，光流）作为输入，并输出运动特征，这些特征被输入到不同级别的编码器中的去噪U-Net。这种转换旨在将T2V模型转换为全景视频生成模型，同时保持其基础生成能力。此外，360DVD还引入了两种机制来从宏观和微观角度增强ERP两端的连续性，并引入了一个纬度感知的损失函数，以鼓励模型更多地关注低纬度区域。

2. 在不同分辨率下的表现

尽管360DVD在训练时的分辨率设置为512×1024，但它在其他分辨率下也表现良好。由于现有的稳定扩散（SD）和GPU内存使用的限制，本文中展示的实验结果是在512×1024的分辨率下完成的。在实际应用中，可以使用超分辨率方法来将生成的结果放大到所需的大小。此外，360DVD在不同分辨率下的表现也展现了其良好的泛化能力。

用户研究：360DVD在全景视频生成中的用户偏好

1. 用户研究方法

为了评估360DVD在全景视频生成中的用户偏好，进行了一项用户研究。共有31名参与者参与了这项研究，他们被要求评估8组生成结果在图形质量、跨帧一致性、左右连续性、内容分布和运动模式等五个维度上的表现。对于每个标准，参与者选择了他们认为最适合高质量360度全景视频主题的视频。

2. 用户研究结果

根据用户研究的数据，我们的模型在所有五个维度上显著优于其他三种方法。特别是在全景视频的标准，包括生成视频是否具有左至右的连续性、全景内容分布和全景运动模式方面，更多的评估者偏好我们的360DVD生成的视频。同时，我们提出的360增强技术（360ET）可以显著提高视频质量和左右连续性，即使是基于原生AnimateDiff和全景LoRA。

讨论与总结：360DVD的局限性与未来方向

在本章节中，我们将讨论和总结360DVD模型在生成360度全景视频方面的局限性，并探讨其未来的发展方向。

1. 局限性

360DVD模型在生成360度全景视频方面取得了一定的成就，但仍存在一些局限性：

依赖基础模型： 360DVD的性能依赖于其底层的常规视频生成方法，因为这些参数在训练过程中是冻结的。虽然这确保了它们的生成能力被保留，但也限制了360DVD的能力。
运动条件的限制： 训练数据的运动条件是使用全景光流估计器预测的，现有的全景光流估计器的性能有限，导致次优的流对，这在一定程度上影响了性能。
分辨率限制： 由于现有的稳定扩散（SD）模型的分辨率限制和GPU内存使用的考虑，实验结果展示的是512×1024的分辨率。在实际应用中，可能需要使用超分辨率方法来提升生成结果的尺寸。
运动控制的测试： 目前只尝试了使用光流作为运动条件的控制效果，并未在其他运动条件（如深度图）上进行测试。

2. 未来方向

尽管存在局限性，360DVD为全景视频生成提供了一个简单而有效的解决方案，并为未来的研究提供了灵感。未来的发展方向可能包括：

改进基础模型： 通过解冻和调整基础模型的参数，提高360DVD在生成全景视频方面的能力。
优化运动条件： 改进全景光流估计器的性能，或者探索其他类型的运动条件，以提高生成视频的质量和一致性。
提升分辨率： 研究和开发更高效的超分辨率技术，以便在不牺牲性能的情况下生成更高分辨率的全景视频。
扩展运动控制： 测试和验证360DVD在处理其他类型的运动条件（如深度图）时的效果，以增强模型的通用性和控制能力。

总的来说，360DVD模型在全景视频生成领域展现了潜力，但仍需进一步的研究和开发以克服现有的局限性，并扩展其应用范围。随着技术的进步和更多研究的投入，我们有理由相信360DVD及其后续版本将在全景视频生成领域发挥更大的作用。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人