文生视频领域SOTA工作 Show-1:论文和代码解读

Diffusion Models视频生成-博客汇总

前言:最近的text-to-video的论文Show-1在MSR-VTT测评数据集上取得了FVD和CLIPSIM指标上的第一名,FID指标上的第二名。采用混合模型的方法,结合了基于像素的VDM和基于潜在空间的VDM进行文本到视频的生成,不仅能取得很高的生成指标,还能大大降低推理资源消耗。这篇博客详细解读一下这篇论文和代码。

目录

贡献概述

方法详解

你可能感兴趣的:(Diffusion,Models与深度学习,1024程序员节,视频生成,扩散模型,视频编辑)