摘要:虚拟电影制作涉及复杂的决策过程,包括剧本编写、虚拟摄影以及演员的精确定位和动作设计。受近期基于语言智能体社会的自动化决策领域进展的启发,本文提出了FilmAgent,这是一个新颖的、基于大型语言模型(LLM)的多智能体协作框架,旨在实现我们构建的3D虚拟空间中的端到端电影制作自动化。FilmAgent模拟了各种剧组成员角色,包括导演、编剧、演员和摄影师,并涵盖了电影制作工作流程的关键阶段:(1)创意开发,将头脑风暴的想法转化为结构化的故事大纲;(2)剧本编写,为每个场景详细阐述对话和角色动作;(3)摄影指导,确定每个镜头的摄像机设置。一组智能体通过迭代反馈和修订进行协作,从而验证中间剧本并减少虚构内容。我们对基于15个创意和4个关键方面的生成视频进行了评估。人类评估结果显示,FilmAgent在所有方面均优于所有基线方法,平均得分为3.98(满分5分),表明了多智能体协作在电影制作中的可行性。进一步的分析揭示,尽管FilmAgent使用的是较不先进的GPT-4o模型,但其性能仍超越了单智能体o1,这体现了协调良好的多智能体系统的优势。最后,我们讨论了OpenAI的文本到视频模型Sora和我们的FilmAgent在电影制作中的互补优势和劣势。Huggingface链接:Paper page
论文链接:2501.12909
虚拟电影制作是一种利用计算机辅助制作和可视化电影的方法,它支持远程协作,提高了电影制作的便捷性和可访问性。随着技术的发展,虚拟电影制作在电影行业中得到了广泛应用,如《曼达洛人》电视剧就显著采用了这项技术。游戏引擎的革新,如Unity中的虚拟摄像机插件,允许电影制作者在虚拟环境中实时渲染模拟场景,这在很大程度上替代了传统的故事板预可视化方法。
近年来,基于语言智能体的自动化决策领域取得了显著进展。这些智能体能够理解自然语言指令,执行复杂任务,并在需要时与人类或其他智能体进行交互。这一领域的进步为电影制作的自动化提供了新的思路。电影制作从根本上说是一种由语言驱动的协作任务,涉及对话、剧本、拍摄脚本以及导演的指导。因此,设计一个基于大型语言模型(LLM)的多智能体系统来模拟电影制作流程中的各个角色,是实现电影制作自动化的一个自然选择。
本文提出了FilmAgent,一个新颖的、基于LLM的多智能体协作框架,旨在实现虚拟3D空间中的端到端电影制作自动化。FilmAgent模拟了电影制作流程中的各种角色,包括导演、编剧、演员和摄影师,并涵盖了电影制作的关键阶段:创意开发、剧本编写和摄影指导。
为了支持FilmAgent框架的电影制作流程,作者团队精心构建了虚拟3D空间。这些空间包括15个反映日常设置的场景,如客厅、厨房、办公室和路边等,为各种叙事提供了多样化的背景。每个场景都预先配置了演员位置和摄像机设置,以满足不同拍摄需求。
在FilmAgent框架中,定义了四个主要角色:导演、编剧、演员和摄影师,每个角色都有其特定的职责。
FilmAgent框架引入了两种协作策略:Critique-Correct-Verify和Debate-Judge,分别应用于剧本编写和摄影指导阶段。
从简短的故事创意出发,导演生成与故事相关的角色档案,包括性别、职业和个性特征等关键属性。使用这些档案和预定义的3D虚拟空间位置,导演将初始故事创意扩展为详细的场景大纲,指定每个段落的地点、事件和人物。
剧本编写是一个协作过程,涉及编剧、导演和演员,分为三个阶段:
摄影指导是两位同行摄影师和导演之间的协作过程,采用Debate-Judge方式。摄影师独立为每个镜头分配摄像机选择,然后进行辩论以解决任何差异。导演总结辩论过程,解决剩余冲突,并根据讨论结果确定最终摄像机设置。
作者团队手动构思了15个故事创意,这些创意可以在构建的虚拟3D空间约束内实现。评估方案涵盖五个关键方面:剧本与预期主题的契合度、摄像机设置的恰当性、剧本与角色档案的一致性、演员动作的准确性以及整体情节连贯性。
人类评估结果显示,FilmAgent在所有方面均优于所有基线方法,平均得分为3.98(满分5分)。特别是,多智能体配置的FilmAgent(Group)在情节连贯性和摄像机设置的恰当性方面表现尤为突出。与单智能体o1的比较表明,尽管FilmAgent使用的是较不先进的GPT-4o模型,但其性能仍超越了o1,这体现了协调良好的多智能体系统的优势。
进一步分析显示,人类评估者更倾向于经过多智能体协作修订后的剧本和摄像机选择。案例分析表明,多智能体协作策略通过迭代反馈和验证,有效减少了虚构内容,增强了情节连贯性,并改善了摄像机选择。
Sora是OpenAI开发的一个文本到视频生成工具,能够从文本提示、图像或现有视频中创建高质量视频。作者团队利用Sora的故事板功能,将FilmAgent中的导演计划场景作为每个视频段落的提示。
与Sora相比,FilmAgent在电影制作中具有以下优势:
然而,Sora在快速适应不同场景、风格和镜头方面表现出色,这对于需要快速头脑风暴和想法验证的视频创作者来说是一个有用的工具。
FilmAgent框架目前主要依赖于预定义的虚拟3D空间,这些空间具有有限的动作空间和预设的摄像机设置。这限制了框架的灵活性和动态性。
未来的研究可以集成更灵活和动态的3D场景合成、运动和摄像机调整技术,以提高FilmAgent的适应性和灵活性。此外,还可以探索对动作和摄像机设置的更精细控制,以及多模态LLM的集成,以提高反馈和验证过程的准确性。
为了创建符合电影标准的视频,还需要包括音乐制作、色彩分级和视频编辑等关键角色。未来工作可以考虑将这些角色集成到FilmAgent框架中。
本文提出了FilmAgent,一个基于LLM的多智能体框架,用于在虚拟3D空间中实现端到端的电影制作自动化。该框架模拟了电影制作流程中的各种角色,并通过多智能体协作策略显著提高了剧本质量和摄像机选择的恰当性。人类评估结果显示,FilmAgent在所有方面均优于基线方法,表明了多智能体协作在电影制作中的巨大潜力。未来的工作将集中在提高框架的灵活性、动态性和多模态集成方面,以进一步推动电影制作的自动化进程。