初探AIGC 生成式AI

注:笔记,自用。

最近大模型很火呀,昨天看了今年的小米发布会/雷军年度演讲,想搞搞大模型看看,先看看综述了解一下学术方向,后面看看跟进实战应用。

主要从四个方面广泛了解AIGC:1.AIGC的核心技术  2.AIGC任务  3. AIGC应用  4.AIGC产品

AIGC核心技术

在技术层面上,属于生成AI的范畴。可以将具体技术大致分为两类:基础模型和生成技术。基础模型无法直接生成内容,但对于AIGC的开发是必不可少的,如Transformer模型; 生成技术是只能够生成各种内容的方法,如GAN模型、扩散模型。

初探AIGC 生成式AI_第1张图片

基础模型

【骨干模型】

作为深度学习的两个主流领域NLP和CV,启发改进了各种主干体系结构。

初探AIGC 生成式AI_第2张图片

  • RNN模型

    主要用于处理具有时间序列的数据,如语言或音频。由输入层、隐藏层、输出层组成。

  • Transformer模型

    采用注意力机制,目前在各领域大放异彩。

  • CNN模型

    CNN的核心是卷积层,卷积层中的卷积核在提取特征时共享参数。

  • ViT模型

    受Transformer在NLP中成功的启发,许多作品都试图将Transformer应用于ViT的CV领域,将图片以patch的方式输入。

初探AIGC 生成式AI_第3张图片

【预训练大模型】

         与更好的骨干架构并行,深度学习还受益于自我监督,它可以利用更大的(未标记的)训练数据集。在这里,我们总结了与AIGC最相关的预训练技术,并根据训练数据类型(如语言、视觉和关节预训练)对其进行分类。

初探AIGC 生成式AI_第4张图片

  • 语言预训练模型

    主要分三类:BERT、GPT家族、BART。

    1)BERT是常见的预训练语言表征模型,全称为Bidirectional Encoder Representation from Transformers。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。

初探AIGC 生成式AI_第5张图片

    2)与BERT的双向掩码语言模型不同,GPT是自回归语言模型。BERT由Transformer的Encoder部分堆叠组成,而GPT使用的是Transformer的Decoder部分,更适合于文本生成任务。

    3)Facebook提出的BART模型看做是BERT与GPT结合的降噪自编码器,它是由双向编码器(Bidirectional Encoder)和自回归解码器(Autoregressive Decoder)构成的Sequence-to-Sequence预训练模型,适用于非常广泛的下游任务。

  • 视觉预训练模型

    按照时间顺序将VLP模型分为三个阶段:特定任务的方法,视觉语言预训练(VLP)方法,以及由大规模弱标记数据加持的更大的模型三大类。三类主流任务:Image Captioning、VQA、Image Text Matching。受到BERT在NLP中成功的启发,将掩蔽建模应用于视觉,其成功依赖于预先训练的VAE获得视觉标记。掩蔽自动编码器(Masked autoencoder, MAE)[141](见图8)将其简化为端到端的去噪框架。

初探AIGC 生成式AI_第6张图片

  • 联合预训练模型

     目前多模态学习在学习数据表示方面取得了前所未有的进展,其中最重要的是跨模态匹配。对比预训练被广泛用于在同一表示空间中匹配图像嵌入和文本编码。CLIP是这一方向上的开创性工作,被用于许多文本-图像模型,如DALL-E2Upainting、 DiffusionCLIP。ALIGN扩展了带有噪声文本监督的CLIP,因此文本图像数据集不需要清理,并且可以缩放到更大的尺寸(从400M到1.8B)。Florence进一步扩展了跨模态共享表示。

初探AIGC 生成式AI_第7张图片

 生成模型

生成模型可以分为两大类。基于似然的概率模型,如自回归模型和流程模型。在变分自编码器(VAEs)中,似然不是完全可处理的,但可处理的下界可以优化,因此VAE也被认为位于基于似然的组中,该组组指定了一种归一化概率。相比之下,基于能量的模型的特征是未归一化概率,即能量函数。由于没有对归一化常数可处理性的约束,基于能量的模型在参数化方面更加灵活,但难以训练。值得注意的是,GAN和扩散模型diffusion model与基于能量的模型高度相关,尽管它们是由不同的动机发展而来的。

初探AIGC 生成式AI_第8张图片

    GAN和扩散模型得到了广泛的应用。作为生成高质量图像的开创性工作,GAN被广泛认为是具有挑战性的图像合成任务的事实上的标准模型。

初探AIGC 生成式AI_第9张图片

     扩散模型的使用在过去几年中出现了爆炸性增长。扩散模型也被称为去噪扩散概率模型(去噪扩散概率模型ddpm)或基于分数的生成模型,生成的新数据与它们所训练的数据相似。

初探AIGC 生成式AI_第10张图片

引用借鉴:

[1] https://arxiv.org/abs/2303.11717

[2] 万字长文:AIGC技术与应用全解析 - 知乎

你可能感兴趣的:(AIGC,人工智能,ai,深度学习,算法)