ReuseAndDiffuse笔记

https://arxiv.org/pdf/2309.03549.pdf

https://mp.weixin.qq.com/s/pbSK4KOO2hqQU1-uwQzjBA

数据集:

BLIP-2、MiniGPT4 等多模态大语言模型,对Moments-In-Time、Kinetics-700 和 VideoLT等数据集进行自动标注;

Image-text datasets:平移缩放等操作,将高质量的图片转化为伪视频;

Short video classification datasets:Kinetics-700等动作类型的短视频数据集;用: BLIP-2等多模态的大模型,选取视频中是随机一帧来理解(例如问这个大模型,该图中发生了什么),作为提示词

Long video classification datasets:一些较长的视频,如VideoLT数据集,用MiniGPT-4等大模型,来先分类出哪些帧是可以剪出来用的,然后再理解这些帧。

具体操作为在图像的不同位置、按照不同的速度进行平移和缩放,从而为每张图像赋予独特的动态展现形式,模拟现实生活中移动摄像头来捕捉静止物体的效果。

去水印操作

评价指标:

定量:

IS 和FVD两种评价指标(都是通过Inception )

定性:

shows the comparisons between the video generation results of these methods

对比对象:Make-A-Video (Singer et al., 2023), Imagen Video (Ho et al., 2022)

模型结构:

对于Unet,每层都加入两个可训练的,包含时间维度的层,Temp-Conv是针对视频数据的三维卷积,Temp-Attn是时间维度上的注意力机制。

ReuseAndDiffuse笔记_第1张图片

针对解码器TEMPORAL-AWARE DECODER FINE-TUNING:

平常的stable-diffusion,是图片的解码器,这样的话帧间还是有差别的,文章在解码器中间也加入了Temp-Conv,以提高帧间的连贯性。

ReuseAndDiffuse笔记_第2张图片

一些细节:

针对长视频的生成LONGER VIDEO GENERATION:

Frame-level Noise Reversion:一批原始噪声,前一批的最后一个张噪声图,刚好是后面一批的第一张噪声图。并循环这样

Past-dependent Noise Sampling.:叠加之前的一些噪声

Denoising with Staged Guidance:用于引导不同片段之间的内容更加连贯,每个片段的前面帧,采用了上一个片段的最后帧的潜空间来合并。

你可能感兴趣的:(人工智能,AIGC)