字节放出了款多主体视频生成神器:MAGREF,能在复杂的场景中保持多个主体的连贯性和精确控制 | 生成的视频质量和效果看起来很高,人物、物体、背景都比较自然
MAGREF:字节跳动多主体视频生成“黑科技”实战解读近年来,基于扩散模型的视频生成技术正掀起新一轮浪潮,然而在复杂场景下要同时保持多个主体的连贯性与高质量渲染,往往面临诸多挑战——人物与物体会发生遮挡错位、背景与动作衔接生硬、生成结果缺乏对文本提示的精准响应。字节跳动新近开源的MAGREF,通过“掩码引导”(mask-guided)机制为多主体视频合成带来了突破性提升:✅支持多达数主体的协同生成