Sora背后的32篇技术论文

Sora背后的32篇技术论文_第1张图片

图片

OpenAI官网简单描述了Sora背后的技术理论,全网也出了各种版本的解读:

https://openai.com/research/video-generation-models-as-world-simulators

总感觉有点隔靴搔痒,关键的地方没有说透,这篇文章的最后他们贴上了引用的32篇论文。

在他们正式论文出来之前,大家可以先啃啃这32篇论文。

Sora团队的科学家们不是魔术师,“唰”的一下把Sora变出来了,人家也是一篇篇论文啃下来,一步步验证,试错。

图片

无论是OpenAI还是SpaceX,都有一帮科学家,工程师,产品经理一起默默探索合作,

还要有个靠谱的Boss促成这美妙的一切。

所以呢,我们现在既然是仰望的视角,无妨静下心来,

像曾国藩说的那样“扎硬寨,打呆仗”。

2024,看你能不能把这些论文啃下来。

建了一个交流群,感兴趣私信。

图片

正文开始!

Sora背后的32篇技术论文_第2张图片

第一篇:

Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.↩︎

斯里瓦斯塔瓦、尼蒂什、埃尔曼·曼西莫夫和鲁斯兰·萨拉胡迪诺夫。“使用 lstms 对视频表示进行无监督学习。”机器学习国际会议。PMLR,2015 年。↩︎

论文链接

https://www.aminer.cn/pub/573696ce6e3b12023e5cec74/unsupervised-learning-of-video-representations-using-lstms

一句话总结

我们使用长距离内存(LSM)网络学习视频序列的表示。

我们的模型使用一个编码器LSM将输入序列映射成固定长的表示。

该表示由单个或多个解码器LSM执行不同的任务处理,例如重建输入序列或预测未来序列。

我们尝试了两种输入序列补丁的图像片段和从预过滤的矩阵中提取的视频帧的高度表示。

我们探讨了不同的设计选择,如是否应该对生成的输出进行约束。

我们分析了该模型的输出 qualitative地来观察该模型如何有效地将学习的演示嵌入到将来和过去。 

Sora背后的32篇技术论文_第3张图片

Sora背后的32篇技术论文_第4张图片

第二篇:

Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).↩︎

Chiappa, Silvia, et al. “循环环境模拟器。” arXiv 预印本 arXiv:1704.02254 (2017).↩︎

论文链接:

https://www.aminer.cn/pub/599c7967601a182cd263922d/recurrent-environment-simulators

一句话总结:

这篇论文介绍了一种可以模拟环境如何响应行动改变的环境模拟器。

作者通过引入循环神经网络(RNN),改进了之前基于高维像素观测的环境模拟器,

使预测在数百个时间步骤内具有时间和空间的一致性。

文章详细分析了影响性能的因素,并提出了这些模型属性的最广泛研究。

为了解决计算效率问题,文章提出了一种无需在每个时间步骤生成高维图像的模型。

研究结果表明,该方法可以改善探索能力,并且适用于许多不同环境,包括10款Atari游戏、一个3D赛车环境和复杂的3D迷宫

Sora背后的32篇技术论文_第5张图片

第三篇:


Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).↩︎

世界模型

论文链接

https://www.aminer.cn/pub/5e8d928d9fced0a24b61437f/world-models

一句话总结

本文探讨了构建生成型神经网络模型来模拟流行的强化学习环境。

该世界模型能够在无监督的情况下快速训练,以学习环境的压缩时空表示。

通过使用从世界模型中提取的特征作为智能体的输入,我们可以训练出一个非常紧凑且简单的策略来解决所需的任务。

甚至可以在世界模型生成的虚构梦境内部完全训练我们的智能体,并将此策略转移到实际环境中。

本文的互动版本可访问 https://worldmodels.github.io/。

Sora背后的32篇技术论文_第6张图片

 Sora背后的32篇技术论文_第7张图片

第四篇:


Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).↩︎

冯德里克、卡尔、哈米德·皮尔西亚瓦什和安东尼奥·托拉尔巴。“生成具有场景动态的视频。”神经信息处理系统进展 29 (2016)。↩︎

论文链接:

https://www.aminer.cn/pub/58437722ac44360f1082f58e/generating-videos-with-scene-dynamics

一句话总结:

我们利用大量未标记视频来学习一个用于视频识别任务和生成视频的场景关系模型。

我们提出了一种具有跨距时态推理架构的生成敌对网络。

实验表明,该模型可以产生一个小时的视频长达一秒钟,比简单的基线提高了两倍多。

此外,实验和观察表明,该模型内部在最小监督下学习感知行为有用的功能。

我们认为生成的图像对于视频理解和模拟等应用非常有希望。

 Sora背后的32篇技术论文_第8张图片

第五篇:


Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.↩︎

Tulyakov, Sergey, et al. “Mocogan:Decomposition motion and content for video generation.”IEEE计算机视觉和模式识别会议论文集。2018. ↩︎

论文链接

https://www.aminer.cn/pub/5e8d92989fced0a24b61f837/mocogan-decomposing-motion-and-content-for-video-generation

一句话总结:

这篇论文提出了一种名为 MoCoGAN 的视频生成模型,该模型能够将视觉信号分为内容和运动两部分。

相比于传统的视频生成模型,MoCoGAN 能够在无监督的情况下学习内容和运动部分的分离。

具体来说,MoCoGAN 使用两个对抗性学习机制来学习内容和运动部分,其中内容部分被固定,运动部分则通过随机过程实现。

通过这种方式,MoCoGAN 能够生成与原始视频相同的内容,但具有不同运动的视频。

此外,MoCoGAN 还能够生成具有不同内容但相同运动的视频。该模型的代码已公开发布,可以在 GitHub 上找到

 Sora背后的32篇技术论文_第9张图片

第六篇:


Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).↩︎

克拉克、艾丹、杰夫·多纳休和凯伦·西蒙尼扬。“复杂数据集上的对抗性视频生成。” arXiv 预印本 arXiv:1907.06571 (2019)。↩︎

论文链接

https://www.aminer.cn/pub/5f9a26529e795e0ad65cc043/adversarial-video-generation-on-complex-datasets

一句话总结:

自然图生成模型的显著提高精度。

我们试图通过证明在复杂基数600数据集上训练的大规模先行响应网络可以产生

比以前的工作更高的精度和召回率的视频样本。

我们的提出的模型双重视频区分器GAN(DVD GAN),

利用计算效率的解码器组块来缩小到更长且更高清晰度的视频片段。

我们评估了视频合成和视频预测中的相关任务,

并实现了最先进的弗雷泽因射影迟到的逼平射影距离。 

Sora背后的32篇技术论文_第10张图片

 Sora背后的32篇技术论文_第11张图片

第七篇:


Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.↩︎

Brooks, Tim, et al. “生成动态场景的长视频。”神经信息处理系统进展 35 (2022):31769-31781.↩︎

论文链接:https://www.aminer.cn/pub/62a0137a5aee126c0ff69f6b/Generating%20Long%20Videos%20of%20Dynamic%20Scenes

一句话总结:

我们提出了一个视频生成模型,该模型能够准确地处理对象运动、镜头变换和未来内容的出现。

现有的视频生成方法通常无法以时间为条件产生新的内容,而保持实际环境中预期的复杂性,如合理 dynamics和物体存活。

一种常见的缺陷是导致内容永远不变化的原因,即过于依赖于推理误导来提供时态一致性。

为了解决这些限制,我们优先考虑时间轴,通过重新设计时态潜在表示以及从数据上学习长视频来获得长期一致性。

为了实现这一点,我们利用两个阶段的训练策略,其中单个阶段使用低解码和高解码进行训练。

最后,我们引入了两阶段的评估数据集。 

 Sora背后的32篇技术论文_第12张图片

第八篇:


Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).↩︎↩︎

论文链接:https://www.aminer.cn/pub/608044d691e011772654fccc/VideoGPT:%20Video%20Generation%20using%20VQ-VAE%20and%20Transformers

一句话总结:

我们提出了视频格式:一个基于可变概率生成模型的框架。视频格式使用VQ VAE来学习原始视频的实时隐藏映射。

然后使用分段时间位置解码器对局部潜在图像进行无监督建模。

尽管它的简单性和易于训练,但我们的架构能够产生与BAIR机器人数据集中最好的基线格式相竞争的质量图像。 

 Sora背后的32篇技术论文_第13张图片

第九篇:


Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.↩︎

Wu, Chenfei, et al. “女娲:用于神经视觉世界创建的视觉合成预训练。”欧洲计算机视觉会议。Cham:施普林格·自然瑞士,2022 年。↩︎

论文链接:https://www.aminer.cn/pub/61c92e745244ab9dcb071b39/n-wa-visual-synthesis-pre-training-for-neural-visual-world-creation

一句话总结:

这篇论文介绍了一种名为NÜWA的统一的多模态预训练模型,该模型能够为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。

为了同时涵盖语言、图像和视频,在不同的场景中,设计了3D变换编码器-解码器框架,

不仅可以处理作为3D数据的视频,还可以分别适应作为1D和2D数据的文本和图像。

还提出了3D附近注意力(3DNA)机制,以考虑视觉数据的本质并降低计算复杂性。我们在8个下游任务上评估了NÜWA。

与几个强大的基线相比,NÜWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。

此外,它还在文本引导的图像和视频操纵任务上表现出了令人惊讶的良好零样本能力。

Sora背后的32篇技术论文_第14张图片

 Sora背后的32篇技术论文_第15张图片

第十篇:


Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).↩︎

论文链接:https://www.aminer.cn/pub/633e476790e50fcafde594ff/Imagen%20Video:%20High%20Definition%20Video%20Generation%20with%20Diffusion%20Models

一句话总结:

图森视频是一个基于视频传播模型的文本到视频生成系统。

给定一个文本提示,图森Video生成高清晰视频,使用基线视频生成的基线生成模型和一系列交叉空间和时态视频超解析模型。

我们描述了如何将该系统作为一个高分辨率的文档到视频模型进行调整,

包括在某些解码中选择完全分解时间的和空间解码模型,以及传播模型v-参数化的选择。

此外,我们确认并将先前对基于传播的图像生成的研究结果传递给视频生进设置。

最后,我们将光滑过滤器应用于我们的视频模型,以快速、高质量的投影。

 Sora背后的32篇技术论文_第16张图片

第十一篇:


Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.↩︎

Blattmann, Andreas, et al. “Align your latents:High-resolution video synthesis with latent diffusion models.”IEEE/CVF 计算机视觉和模式识别会议论文集。2023. ↩︎

论文链接:

https://www.aminer.cn/pub/643f5c4336af860e941aca50/Align%20your%20Latents:%20High-Resolution%20Video%20Synthesis%20with%20Latent%20%20Diffusion%20Models

一句话总结:

本文研究了潜在传播模型(LDM)在高分辨率视频生成中的应用。

首先,我们使用LDM范式进行训练,然后将图像生成器转化为视频生成器,

通过引入 temporal dimension到潜在空间传播模型,并对编码图像序列进行修剪。

我们还比较了这些方法在多个真实世界应用程序上的表现,包括在野外驾驶数据的模拟和创作文本到视频建模。

利用这一性质,我们证明了这种方法可以有效地应用于不同处理精度的文本到视频模型,从而开创了未来内容创作的方向。 

Sora背后的32篇技术论文_第17张图片

 Sora背后的32篇技术论文_第18张图片

第十二篇:


Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).

Gupta, Agrim, et al. “使用扩散模型生成逼真的视频。” arXiv 预印本 arXiv:2312.06662 (2023).

论文链接:https://www.aminer.cn/pub/6577caae939a5f408235da61/Photorealistic%20Video%20Generation%20with%20Diffusion%20Models

一句话总结:

本文介绍了基于扩散模型的照片级视频生成方法W.A.L.T。

该方法基于变压器架构,有两个关键设计决策:

首先,使用因果编码器在统一隐空间内联合压缩图像和视频,实现跨模态的训练和生成;

其次,为了提高内存和训练效率,采用适用于联合空间和时空生成建模的窗口注意力架构。

这些设计决策使我们能够在不使用分类器自由指导的情况下,

在 established video (UCF-101和Kinetics-600)和image (ImageNet)生成基准测试中获得最先进的性能。

最后,我们还为文本到视频生成任务训练了一个三级联模型,

包括一个基本隐视频扩散模型和两个视频超分辨率扩散模型,以生成每秒8帧、分辨率为$512 \times 896$的视频。

Sora背后的32篇技术论文_第19张图片

 Sora背后的32篇技术论文_第20张图片

第十三篇:


Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

Vaswani, Ashish, et al. “你只需要关注。”神经信息处理系统进展 30 (2017)。

论文链接:

https://www.aminer.cn/pub/599c7987601a182cd2648373/attention-is-all-you-need

一句话总结:

机器翻译中的主要序列转换模型基于复杂的递归或转换神经网络。

最佳的模型还通过注意机制将编码器和解码器连接起来。

我们提出了一种新的简单的网络架构,解码者,仅依赖于注意机制,完全不受重叠和转换的影响。

我们对两项机器翻写任务的实验表明,这些模型在质量上优于现有最佳结果,而相对来说耗时更少。

 Sora背后的32篇技术论文_第21张图片

第十四篇:


Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

Brown, Tom, et al. “语言模型是少数学习者。”神经信息处理系统进展 33 (2020):1877-1901.

论文链接

https://www.aminer.cn/pub/5ed0e04291e011915d9e43ee/Language%20Models%20are%20Few-Shot%20Learners

一句话总结:

我们证明了扩展语言模型可以提高许多NLP任务和评估任务的准确性。

特别是,我们训练了GPT-3,它有175亿个参数,比以前的非流利语言模型高10倍。

对于所有任务,GPT-3)在几个焦点下进行训练,

任务和几张焦点演示直接通过文本与模型进行直接互动。

我们还发现,G PT-3可以生成新闻文章的样本,

这些文章通常很难与人类写的新闻文章进行比较。

 Sora背后的32篇技术论文_第22张图片

第十五篇:


Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).

论文链接:https://www.aminer.cn/pub/5f92ba1691e011edb3573ba0/An%20Image%20is%20Worth%2016x16%20Words:%20Transformers%20for%20Image%20Recognition%20at%20%20Scale

一句话总结:

图像转换器是自然语言处理中不可或缺的转换系统。

在计算机视觉中,注意力直接应用于转换网络,而无需依赖于美国有线电视新闻网。

我们证明,这种依赖不必要,纯粹地应用于图像补丁的纯转换可以在图像分类任务上表现出优异的性能。

当训练成大规模数据和将其转换到多个中等大小或小型图像识别基准时,视图变体(ViT)在比最先进的回归网络集合提高了性能。

 Sora背后的32篇技术论文_第23张图片

第十六篇:


Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.↩︎↩︎

Arnab, Anurag, et al. “Vivit:A video vision transformer.”IEEE/CVF计算机视觉国际会议论文集。2021. ↩︎ ︎ ↩

论文链接

https://www.aminer.cn/pub/60643c2691e011538305ce47/ViViT%20-%20A%20Video%20Vision%20Transformer.

一句话总结:

我们提出了一种新的基于转换的视频分类模型。

我们的模型从输入视频中提取局部时间标记,然后由一系列转换层组成。

为了处理视频中长串标记出现的长序列,我们提出了几个有效的替代方案,

该方案将输入空间和时态的维特比分解为几类。

尽管基于转换的模型通常只在训练数据集的情况下有效,

但我们展示了如何有效地规范模型,并利用预过滤图像模型来能够在较小的数据集上进行训练。

我们对多达数百个基线和三维网络进行了实证研究,取得了最先进的结果。 

Sora背后的32篇技术论文_第24张图片

 Sora背后的32篇技术论文_第25张图片

第十七篇:


He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎↩︎

He, Kaiming, et al. “蒙面自动编码器是可扩展的视觉学习器。”IEEE/CVF计算机视觉和模式识别会议论文集。2022. ↩︎ ︎ ↩

论文链接:https://www.aminer.cn/pub/618ddb455244ab9dcbda8f5f/Masked%20Autoencoders%20Are%20Scalable%20Vision%20Learners

一句话总结

我们提出了一种隐马尔可夫解码算法,它将输入图像的随机补丁伪装成隐藏的补丁。

它基于两个基本设计:

首先,我们开发了一种symmetric编码器-解码器架构,其中解码器的处理器仅在显著的标记集上运行,而 lightweight解码解码也从 latent表示和隐藏标记中重建了原始图像。

其次,我们发现,将输入图片的高比例伪装为不重要且意义不明的自我监督任务会产生一个非子任务。

将这些两个设计相结合,使得我们能够有效地训练大规模模型,提高准确性。

我们的可扩展方法允许学习高性能模型,

例如,对于使用仅使用 ImageNet-1K数据进行训练的模型,

维特大战斧模型优于仅使用图像网-1K的数据。

 Sora背后的32篇技术论文_第26张图片

第十八篇:


Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).↩︎↩︎

论文链接

https://www.aminer.cn/pub/64af76f13fda6d7f06471860/patch-n-pack-navit-a-vision-transformer-for-any-aspect-ratio-and

一句话总结:

这篇论文介绍了一种名为NaViT(Native Resolution ViT)的新模型,这是一种用于任意分辨率和宽高比的视觉Transformer。

传统的计算机视觉模型在处理图像前通常会将其尺寸调整到一个固定的分辨率,这种做法已经证明不是最优的。

然而,像Vision Transformer(ViT)这样的模型提供了灵活的基于序列的建模,因此输入序列的长度可以变化。

NaViT利用这一点,在训练过程中使用序列打包技术来处理具有任意分辨率和宽高比的输入。

除了灵活的模型使用外,我们还证明了NaViT在大规模监督和对比图像-文本预训练中的训练效率有所提高。

NaViT可以有效地迁移到标准任务,如图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得更好的结果。

在推理时间,输入分辨率的灵活性可以用来平滑地调整测试时的成本和性能之间的权衡。

我们认为,NaViT标志着大多数计算机视觉模型所采用的标准输入和建模管道的 departure,为ViTs提供了一个有前景的方向。

Sora背后的32篇技术论文_第27张图片

 Sora背后的32篇技术论文_第28张图片

第十九篇:


Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎

Rombach, Robin, et al. “使用潜在扩散模型进行高分辨率图像合成。”IEEE/CVF计算机视觉和模式识别会议论文集。2022. ↩︎

论文链接

https://www.aminer.cn/pub/61c145ca5244ab9dcb851e42/High-Resolution%20Image%20Synthesis%20with%20Latent%20Diffusion%20Models

一句话总结:

本文介绍了计算机视觉领域中图像合成的最新发展,特别是基于扩散模型的新方法LDM,旨在降低扩散模型的计算需求,

同时实现无条件图像合成、内描和随机超分辨率等多种任务。

作者通过整合不同方法的优势,提出了双阶段方法,包括VQ-VAE、VQGANs和LDMs等。

通过引入跨注意力机制和特定领域编码器,作者对扩散模型生成图像的条件方法进行了扩展,实现了更加灵活的图像合成。

此外,作者还将LDM模型用于图像修复,并发现它能够提高图像质量。这些方法受到计算资源和参数数量的限制,

但是LDM是一个可靠而高效的超分辨率模型,可以用于多种场景。

 Sora背后的32篇技术论文_第29张图片

第二十篇:


Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).↩︎

论文链接

https://www.aminer.cn/pub/5f98f5c59e795ecbdf36943d/auto-encoding-variational-bayes-arxiv

一句话总结:

本文介绍了一种用于连续潜在变量的高效近似推理的变分下界估计器——随机梯度变分估计器(SGVB)。

该估计器可使用标准的随机梯度方法直接进行求导和优化。对于独立同分布数据集和每个数据点的连续潜在变量,

文章引入了高效的推理和学习算法——自动编码变分估计器(AEVB),它使用SGVB估计器学习近似推理模型。理论优势在实验结果中得到体现。

Sora背后的32篇技术论文_第30张图片

 Sora背后的32篇技术论文_第31张图片

第二十一篇:


Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.↩︎

Sohl-Dickstein, Jascha, et al. “使用非平衡热力学的深度无监督学习。”机器学习国际会议。PMLR,2015 年。↩︎

论文链接

https://www.aminer.cn/pub/573696cd6e3b12023e5ce334/deep-unsupervised-learning-using-nonequilibrium-thermodynamics

一句话总结:

我们开发了一种算法,该算法可同时实现两种健壮性和可处理性。

我们首先学习一个通过迭代向前传播过程重新构造数据结构的过程。

然后,我们学习一种反传播过程,该过程恢复了数据中结构,产生了一个高度灵活的和可处理的生成模型。

这种方法允许我们快速学习、标注、评估概率,以及在深层生成模式中计算条件和后验概率。

此外,我们还发布了该算法的开放源版本。

 Sora背后的32篇技术论文_第32张图片

第二十二篇:


Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.↩︎

Ho、Jonathan、Ajay Jain 和 Pieter Abbeel。“去噪扩散概率模型。”神经信息处理系统进展 33 (2020):6840-6851.↩︎

论文链接

https://www.aminer.cn/pub/5ef0816891e0112aee042b88/denoising-diffusion-probabilistic-models

一句话总结

我们提出了一种新的基于传播概率模型的图像生成方法,这是一种潜在变量的近似模型,受到不平衡热磁场的影响。

我们的最佳结果是通过对一个加权变分依赖空间设计的训练来获得的,该空间根据一种新的相互作用对应和与兰格文运动的相似度来设计,以及我们的模型自然承认了动态损失解码算法,这可以被解释为先验剪辑解码的推广。

在不完全CIFAR10数据集上,我们获得了9.46的初始分数,而最先进的FID分数为3.17。

在LSUN上,我们在成像质量相似度上取得了类似的改进。

Sora背后的32篇技术论文_第33张图片

 Sora背后的32篇技术论文_第34张图片

第二十三篇:


Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.↩︎

Nichol、Alexander Quinn 和 Prafulla Dhariwal。“改进的去噪扩散概率模型。”机器学习国际会议。PMLR,2021 年。↩︎

论文链接

https://www.aminer.cn/pub/60337a9391e011e54d039ada/improved-denoising-diffusion-probabilistic-models

一句话总结

这篇论文提出了一些简单的修改,使得去噪扩散概率模型(DDPMs)可以同时具备较高的采样质量和较竞争的对数似然性能。

此外,作者还发现学习反向扩散过程的方差可以大幅减少前向传递的次数,而不会对采样质量产生明显影响。

作者还通过精确率和召回率比较DDPMs和GANs在覆盖目标分布方面的性能,

最后证明了这些模型的采样质量和对数似然性能能够平稳地随着模型容量和训练计算资源的增加而提高。

作者公开了代码和预训练模型,供其他研究者使用。

 Sora背后的32篇技术论文_第35张图片

第二十四篇:


Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Advances in Neural Information Processing Systems. 2021.↩︎

Dhariwal、Prafulla 和 Alexander Quinn Nichol。“扩散模型在图像合成方面击败了 GAN。”神经信息处理系统的进展。2021. ↩︎

论文链接:https://www.aminer.cn/pub/609bc6fd91e0113c3c7694e4/Diffusion%20Models%20Beat%20GANs%20on%20Image%20Synthesis.

一句话总结:

这篇文章的主旨是评估不同生成模型的性能,包括 GANs、likelihood-based models (如 Flows 和 VAEs) 和 diffusion models,

以确定它们在生成高质量图像方面的优劣。

在表格 5 中,我们可以看到使用指导和上采样可以在不同方向上提高样本质量。

我们使用来自 Nichol 和 Dhariwal [49] 的上采样堆栈,并将其与我们的架构改进相结合,称为 ADM-U。

虽然上采样可以提高精度并保持高召回率,指导可以提供一种开关,以更多地牺牲多样性来提高精度。

我们使用指导在较低分辨率上运行,然后在高分辨率上上采样,以实现最佳 FID 值,这表明这两种方法可以互补。

 Sora背后的32篇技术论文_第36张图片

第二十五篇:


Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Advances in Neural Information Processing Systems 35 (2022): 26565-26577.

Karras, Tero, et al. “阐明基于扩散的生成模型的设计空间。”神经信息处理系统进展 35 (2022):26565-26577.

论文链接:https://www.aminer.cn/pub/62982a9a5aee126c0f6f600c/Elucidating%20the%20Design%20Space%20of%20Diffusion-Based%20Generative%20Models

一句话总结:

我们认为基于传播的生成模型的理论和实践目前不可忽视地分裂,并试图通过提供一个明确地分离混凝土设计选择的设计空间来解决这一局面。

这使得我们能够识别了一些改进,以及得分网络的预制因素。

与之一起,我们的改进产生了比以前的模型更快的方法,比之前的模型快35个网络,并且比基线系统更快。

我们还表明,我们的设计变化可以显著提高以前的基线和基线网络的效率和质量。

 Sora背后的32篇技术论文_第37张图片

第二十六篇:


Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

Peebles、William 和 Saining Xie。“带变压器的可扩展扩散模型。”IEEE/CVF计算机视觉国际会议论文集。2023. 

论文链接:https://www.aminer.cn/pub/63a1756a90e50fcafd1fa4fa/Scalable%20Diffusion%20Models%20with%20Transformers

一句话总结:

我们描述了一种基于变换器的传播模型的新类。

我们训练图像的潜在传播模型,并将其替换为使用潜在补丁运行的传感器。

我们分析了这些传感器的可扩展性,通过对转换复杂性的镜头来衡量它们的可扩展性。

结果表明,与以前的DiT相比,它们具有更好的通用性和可扩展性。 

Sora背后的32篇技术论文_第38张图片

 Sora背后的32篇技术论文_第39张图片

第二十七篇:


Chen, Mark, et al. "Generative pretraining from pixels." International conference on machine learning. PMLR, 2020.

Chen, Mark, et al. “来自像素的生成式预训练。”机器学习国际会议。PMLR,2020 年。

论文链接

https://www.aminer.cn/pub/5ede0553e06a4c1b26a841d6/Generative%20Pretraining%20From%20Pixels

一句话总结:

基于自然语言无监督表示学习技术的改进,我们研究了像素对图的有用表示。

我们训练了序列转换器来自动预测像素,而不需要考虑2D输入结构的知识。

尽管在没有标签的情况下进行训练,但我们发现一个GPT-2大小模型在维特比、粗略处理和低数据分类方面学习强有力的图像表示。

 Sora背后的32篇技术论文_第40张图片

第二十八篇:


Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.↩︎

Ramesh, Aditya, et al. “零样本文本到图像生成”。机器学习国际会议。PMLR,2021 年。

论文链接

https://www.aminer.cn/pub/6037828e91e011d7c73cd499/Zero-Shot%20Text-to-Image%20Generation

一句话总结:

文本到图生成传统上依赖于找到训练数据的最佳模型假设。

这些假设可能涉及复杂的架构、辅助损失或侧信息。

我们描述了一种基于变换器的简单方法,该方法基于一种变换器,该变换模型生成文本和图标作为单一的数据流。

足够的数据和规模,我们的方法与以前领域相关模型相比优于以前的模型。

Sora背后的32篇技术论文_第41张图片

 Sora背后的32篇技术论文_第42张图片

第二十九篇:


Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.↩︎

论文链接:

https://www.aminer.cn/pub/62b3da1e5aee126c0fb1b403/Scaling%20Autoregressive%20Models%20for%20Content-Rich%20Text-to-Image%20Generation

一句话总结:

我们提出了一种新的图像转换文本到图像(单独)模型,该模型生成高精度图像,并支持跨语言文本和世界知识的深度合成。

我们将文本转换视为顺序向顺序建模问题,与机器翻译相似,其中字符串为目标输出,而另一种语言为目标输入。

这种策略自然地结合了之前对大型语言模型的工作,这些模型通过扩展数据和模型大小实现了进一步的改进。

我们的方法简单:首先,单独使用基于转换器的图像标记器,ViT-VQGAN,将图像编码为隐式标记序列。

然后,我们通过将解码器-解码器的模型扩展到20B参数,并以新的最先进的零射头感光评分达到723分,以及校准的感光分数达到3.22。

Sora背后的32篇技术论文_第43张图片

 Sora背后的32篇技术论文_第44张图片

第三十篇:


Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎↩︎

Betker, James, et al. “使用更好的字幕改进图像生成。”计算机科学。https://cdn.openai.com/papers/dall-e-3。PDF 2.3 (2023):8 ↩︎ ︎ ↩

论文链接

https://www.aminer.cn/pub/65325de4a196276d21d6afcb/improving-image-generation-with-better-captions

一句话总结:

这篇论文研究了如何通过更好的描述生成图像来改善图像生成。

作者发现,现有的文本到图像模型在遵循详细图像描述方面存在困难,常常忽略一些词或混淆提示的意义。

他们认为,这一问题源于训练数据集中的噪声和不准确的图像描述。

为了解决这个问题,作者训练了一个定制的图像描述生成器,并用它重新描述了训练数据集。

然后,作者训练了几个文本到图像模型,并发现使用这些合成的描述可以可靠地提高提示跟随能力。

最后,作者利用这些发现构建了 DALL-E 3:

一个新的文本到图像生成系统,并在一个旨在衡量提示跟随、连贯性和美学性能的评估中对其性能进行了基准测试,

发现其表现优于竞争对手。

作者发布了这些评估的样本和代码,以便未来的研究可以继续优化这一重要的文本到图像系统方面。

 Sora背后的32篇技术论文_第45张图片

第三十一篇:


Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.

Ramesh, Aditya, et al. “使用剪辑潜伏物生成分层文本条件图像。” arXiv 预印本 arXiv:2204.06125 1.2 (2022):3.

论文链接

https://www.aminer.cn/pub/624e50876750f841ef09d93b/Hierarchical%20Text-Conditional%20Image%20Generation%20with%20CLIP%20Latents

一句话总结:

CLIP等对抗模型已经被证明学习清晰的图像表示。

利用这些表示来实现图像生成,我们提出了一个两个阶段的模型:先验生成一个CLIP图像嵌入,

给定文本标题,并生成基于图像的图像是先验的。

我们表明,明确生成图像有助于提高图像的多样性,

而最小损失是在Photorealism和标题相似性中。

我们的解码器依赖于图像中的嵌入来生成不同图像的不同样式。

Sora背后的32篇技术论文_第46张图片

 Sora背后的32篇技术论文_第47张图片

第三十二篇:


Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).↩︎

论文链接:

https://www.aminer.cn/pub/6108e4735244ab9dcb0254aa/sdedit-image-synthesis-and-editing-with-stochastic-differential-equations

一句话总结:

我们提出了一种新的图像编辑和合成框架,基于最近使用随机多路径公式生成的生成模型。

给定输入图像,我们首先根据随机变换公式对输入进行噪声添加噪声,然后根据SDE的逆变换模型将其添加到之前的SDE中。

我们的方法不需要特定的损失函数设计,这些是基于基于GAN解码的关键组成部分。

与条件多路方模型相比,我们不需要收集新应用程序的原始和编辑的图像数据集。

因此,我们的方法可以在测试期间快速适应各种处理任务。

图片

你可能感兴趣的:(论文,机器学习,人工智能,自然语言处理,Sora)