【NeurIPS 2023】多模态联合视频生成大模型CoDi

Diffusion Models视频生成-博客汇总

前言:目前视频生成的大部分工作都是只能生成无声音的视频,距离真正可用的视频还有不小的差距。CoDi提出了一种并行多模态生成的大模型,可以同时生成带有音频的视频,距离真正的视频生成更近了一步。相信在不远的将来,可以AI生成的模型可以无缝平替抖音等平台的短视频。这篇博客详细解读一下这篇论文《Any-to-Any Generation via Composable Diffusion》。

目录

贡献概述

方法详解

你可能感兴趣的:(Diffusion,Models与深度学习,深度学习-计算机视觉,人工智能,视频生成,深度学习,扩散模型,stable,diffusion)