WSLGN

扩散模型（Diffusion Model）——由浅入深的理解

Diffusion Model——由浅入深的理解

概览
扩散过程
逆扩散过程
损失函数
总结
参考

Diffusion model 是一种图片生成的范式，大量的数学公式让许多同学望而却步，但实际研究下来，它的公式推导其实大部分都在射程范围之内。

本文在概览中对Diffusion model抛去细节做一个整体的梳理，而细节的推导会在下文的扩散过程、逆扩散过程、损失函数中展示。如果只想对Diffusion model有一个定性的了解而不关系推导的话，只看概览就可以了。

概览

扩散模型有两个过程，分别为扩散过程和逆扩散过程。

如上图所示，扩散过程为从右到左（ $X_0 \rightarrow X_T$ ）的过程，表示对图片逐渐加噪，且 $X_{t+1}$ 是在 $X_{t}$ 上加躁得到的，其只受 $X_{t}$ 的影响，因此扩散过程是一个马尔科夫过程。 $X_0$ 表示从真实数据集中采样得到的一张图片，对 $X_0$ 添加 $T$ 次噪声，图片逐渐变得模糊，当 $T$ 足够大时， $X_T$ 为标准正态分布。在训练过程中，每次添加的噪声是已知的，即 $q(X_t|X_{t-1})$ 是已知的，根据马尔科夫过程的性质，我们可以递归得到 $q(X_t|X_0)$ ，即 $q(X_t|X_0)$ 是已知的。扩散过程最主要的就是 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 的推导，推导细节见下文的扩散过程。

如上图所示，逆扩散过程为从左到右（ $X_T \rightarrow X_0$ ）的过程，表示从噪声中逐渐复原出图片。如果我们能够在给定 $X_t$ 条件下知道 $X_{t-1}$ 的分布，即如果我们可以知道 $q(X_{t-1}|X_t)$ ，那我们就能够从任意一张噪声图片中经过一次次的采样得到一张图片而达成图片生成的目的。显然我们很难知道 $q(X_{t-1}|X_t)$ ，因此我们才会用 $p_{Θ}(X_{t-1}|X_t)$ 来近似 $q(X_{t-1}|X_t)$ ， $p_{Θ}(X_{t-1}|X_t)$ 就是我们要训练的网络，在原文中就是个U-Net。而很妙的是，虽然我们不知道 $q(X_{t-1}|X_t)$ ，但是 $q(X_{t-1}|X_tX_0)$ 却是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是可知的，因此我们可以用 $q(X_{t-1}|X_tX_0)$ 来指导 $p_{Θ}(X_{t-1}|X_t)$ 进行训练。逆扩散过程最主要的就是 $q(X_{t-1}|X_tX_0)$ 的推导，推导细节见下文的逆扩散过程。

我们已经明确了要训练 $p_{Θ}(X_{t-1}|X_t)$ ，那要怎么确定目标函数呢？有两个很直接的想法，一个是负对数的最大似然概率，即 $logp_{Θ}(X_0)$ ，另一个是真实分布与预测分布的交叉熵，即 $E_{q(X_0)}logp_{Θ}(X_0)$ ，而显然这两种都不好搞，因此他参考了VAE，不去优化这两个东西，而是优化他们的变分上界(variational lower bound)，定义 $L_{VLB}$ 如下:
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]\tag{1} \\ 可证：L_{VLB} \ge -logp_{Θ}(X_0) \And L_{VLB} \ge -E_{q(X_0)}logp_{Θ}(X_0)$
即 $L_{VLB}$ 减小就代表 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界减小。
且经过推导， $L_{VLB}$ 可写成如下形式：
$L_{VLB} = L_{T} + L_{T-1} + ...+ L_{0}\tag{2}$ $L_{T} = D_{KL}(q(X_T|X_0)||p_{Θ}(X_{T}))\\ L_{t} = D_{KL}(q(X_t|X_{t+1}X_0)||p_{Θ}(X_{t}|X_{t+1})),1 \le t \le T\\ L_{0} = -logp_{Θ}(X_{0}|X_{1})$
由上式不难发现， $L_{t}$ 就是逆扩散过程中 $q(X_{t}|X_{t+1}X_0)$ 和 $p_{Θ}(X_{t}|X_{t+1})$ 的KL散度，这也就是我上面说的，用 $q(X_{t}|X_{t+1}X_0)$ 来指导 $p_{Θ}(X_{t}|X_{t+1})$ 进行训练。这部分主要就是(1)式和(2)式的推导，细节部分见下文的损失函数。

扩散过程

如上图所示，扩散过程为从右到左（ $X_0 \rightarrow X_T$ ）的过程，表示对图片逐渐加噪，且 $X_{t+1}$ 是在 $X_{t}$ 上加躁得到的，其只受 $X_{t}$ 的影响，因此扩散过程是一个马尔科夫过程。且每一步扩散的步长受变量 $\{β_{t} \in (0,1)\}_{t=1}^{T}$ 的影响。 $q(X_{t}|X_{t-1})$ 可写为如下形式，即给定 $X_{t-1}$ 的条件下， $X_{t}$ 服从均值为 $\sqrt{1-β_{t}}X_{t-1}$ ，方差为 $β_{t}I$ 的正态分布:
$q(X_{t}|X_{t-1}) = N(X_t; \sqrt{1-β_{t}}X_{t-1},β_{t}I)\tag{3}$
用重参数化技巧表示 $X_{t}$ ，令 $α_{t}=1-β_{t}$ ，令 $Z_{t} \sim N(0,I), t \ge 0$ ，即:
$X_{t}= \sqrt{α_{t}}X_{t-1}+\sqrt{1-α_{t}}Z_{t-1}\tag{4}$
写多几行:
$X_{t-1}= \sqrt{α_{t-1}}X_{t-2}+\sqrt{1-α_{t-1}}Z_{t-2}\\ X_{t-2}= \sqrt{α_{t-2}}X_{t-3}+\sqrt{1-α_{t-2}}Z_{t-3}\\ ...\\ X_{1}= \sqrt{α_{1}}X_{0}+\sqrt{1-α_{1}}Z_{0}$
易归纳得，令 $\bar{α}_{t}= {\textstyle \prod_{i=1}^{t}α_{i}}$ ：
$X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{α_{1}}}\sqrt{1-α_{1}}Z_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{2}}}\sqrt{1-α_{2}}Z_{1}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{3}}}\sqrt{1-α_{3}}Z_{2}+...+\sqrt{1-α_{t}}Z_{t-1}$
设随机变量 $\bar{Z}_{t-1}$ 为：
$\bar{Z}_{t-1}=\frac{\sqrt{\bar{α}_{t}}}{\sqrt{α_{1}}}\sqrt{1-α_{1}}Z_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{2}}}\sqrt{1-α_{2}}Z_{1}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{3}}}\sqrt{1-α_{3}}Z_{2}+...+\sqrt{1-α_{t}}Z_{t-1}$
则 $\bar{Z}_{t-1}$ 的期望和方差如下：
$E(\bar{Z}_{t-1})=0\\ D(\bar{Z}_{t-1})=\frac{{\bar{α}_{t}}}{{α_{1}}}(1-α_{1})+\frac{{\bar{α}_{t}}}{{\bar{α}_{2}}}(1-α_{2})+\frac{{\bar{α}_{t}}}{{\bar{α}_{3}}}(1-α_{3})+...+\frac{{\bar{α}_{t}}}{{\bar{α}_{t}}}(1-α_{t})=1-\bar{α}_{t}$
所以，
$X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\bar{Z}_{t-1}=\sqrt{\bar{α}_{t}}X_{0}+\sqrt{1-\bar{α}_{t}}Z, Z\sim N(0,I)\\ q(X_{t}|X_0)=N(X_{t};\sqrt{\bar{α}_{t}}X_0,(1-\bar{α}_t)I)$
至此，我们推出了 $q(X_{t}|X_{t-1})$ 和 $q(X_{t}|X_{0})$ 。

逆扩散过程

如果我们能够在给定 $X_t$ 条件下知道 $X_{t-1}$ 的分布，即如果我们可以知道 $q(X_{t-1}|X_t)$ ，那我们就能够从任意一张噪声图片中经过一次次的采样得到一张图片而达成图片生成的目的。显然我们很难知道 $q(X_{t-1}|X_t)$ ，因此我们才会用 $p_{Θ}(X_{t-1}|X_t)$ 来近似 $q(X_{t-1}|X_t)$ ， $p_{Θ}(X_{t-1}|X_t)$ 就是我们要训练的网络。而很妙的是，虽然我们不知道 $q(X_{t-1}|X_t)$ ，但是 $q(X_{t-1}|X_tX_0)$ 却是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是可知的。
下面对 $q(X_{t-1}|X_tX_0)$ 进行推导:
$q(X_{t-1}|X_tX_0)=\frac{q(X_0X_{t-1}X_t)}{q(X_{0}X_t)}=\frac{q(X_0X_{t-1}X_t)}{q(X_{0}X_{t-1})}\frac{q(X_{0}X_{t-1})}{q(X_{0}X_{t})}=q(X_t|X_{t-1}X_0)*\frac{q(X_{t-1}|X_{0})}{q(X_{t}|X_{0})}\\ \because 扩散过程是马尔科夫过程\\ \therefore q(X_t|X_{t-1}X_0)=q(X_t|X_{t-1})\\ \therefore q(X_{t-1}|X_tX_0)=q(X_t|X_{t-1})*\frac{q(X_{t-1}|X_{0})}{q(X_{t}|X_{0})}$
至此，已经把 $q(X_{t-1}|X_tX_0)$ 用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 进行表示，下面对 $q(X_{t-1}|X_tX_0)$ 的表达式进行推导:
$q(X_t|X_{t-1})=N(X_t; \sqrt{1-β_{t}}X_{t-1},β_{t}I)=\frac{1}{\sqrt{2\pi(1-α_{t})}}exp(-\frac{1}{2}\frac{(X_t-\sqrt{α_t}X_{t-1})^2}{1-α_t})\\ q(X_{t}|X_0)=N(X_{t};\sqrt{\bar{α}_{t}}X_0,(1-\bar{α_t})I)=\frac{1}{\sqrt{2\pi(1-\bar{α}_{t})}}exp(-\frac{1}{2}\frac{(X_t-\sqrt{\bar{α}_t}X_{0})^2}{1-\bar{α}_t})\\ q(X_{t-1}|X_0)=N(X_{t-1};\sqrt{\bar{α}_{t-1}}X_0,(1-\bar{α}_{t-1})I)=\frac{1}{\sqrt{2\pi(1-\bar{α}_{t-1})}}exp(-\frac{1}{2}\frac{(X_{t-1}-\sqrt{\bar{α}_{t-1}}X_{0})^2}{1-\bar{α}_{t-1}})$
$q(X_{t-1}|X_tX_0)=\frac{1}{\sqrt{2\pi\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}}β_t}exp(-\frac{1}{2\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t}(X_{t-1}^{2}-2(\frac{(1-\bar{α}_{t-1})\sqrt{α_t}X_t}{1-\bar{α}_t}+\frac{β_t\sqrt{\bar{α}_{t-1}}X_0}{1-\bar{α}_t})X_{t-1}+C(X_0,X_t))\\ q(X_{t-1}|X_tX_0)=N(X_{t-1};\frac{(1-\bar{α}_{t-1})\sqrt{α_t}X_t}{1-\bar{α}_t}+\frac{β_t\sqrt{\bar{α}_{t-1}}X_0}{1-\bar{α}_t},\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t)\\ \because X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\sqrt{1-\bar{α}_{t}}Z,Z\sim N(0,I)\\ \therefore q(X_{t-1}|X_tX_0)=N(X_{t-1}; \frac{1}{\sqrt{α}_t}X_t-\frac{β_t}{\sqrt{α_t(1-\bar{α}_t)}}Z ,\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t),Z\sim N(0,I)$
至此，得到了 $q(X_{t-1}|X_tX_0)$ 的分布表达式。
在下文的损失函数中，会介绍我们要怎么用 $q(X_{t-1}|X_tX_0)$ 来监督 $p_{Θ}(X_{t-1}|X_t)$ 进行训练。

损失函数

我们已经明确了要训练 $p_{Θ}(X_{t-1}|X_t)$ ，那要怎么确定目标函数呢？有两个很直接的想法，一个是负对数的最大似然概率，即 $logp_{Θ}(X_0)$ ，另一个是真实分布与预测分布的交叉熵，即 $E_{q(X_0)}logp_{Θ}(X_0)$ ，然而，类似于VAE，由于我们很难对噪声空间进行积分，因此直接优化 $logp_{Θ}(X_0)$ 或 $E_{q(X_0)}logp_{Θ}(X_0)$ 是很困难的，因此我们不会直接优化它们，而是优化它们的变分上界 $L_{VLB}$ ， $L_{VLB}$ 的定义如下:
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]$
下面证明 $L_{VLB}$ 是 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界，即证明 $L_{VLB} \ge -logp_{Θ}(X_0) \And L_{VLB} \ge -E_{q(X_0)}logp_{Θ}(X_0)$ :
$-logp_{Θ}(X_0) \le -logp_{Θ}(X_0) + D_{KL}(q(X_{1:t}|X_0)||p_{Θ}(X_{1:T}|X_0))\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{1:T}|X_0)})\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)p_{Θ}(X_{0})}{p_{Θ}(X_{0:T})})\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}+log(p_{Θ}(X_{0})))\\=E_{X_{0:T}\sim q(X_{0:T})}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})})=L_{VLB}$
$L_{CE}=-\int q(X_0)logp_{Θ}(X_0)dX_0=-E_{q(X_0)}logp_{Θ}(X_0)\\=-E_{q(X_0)}log(\int p_{Θ}(X_{1:T}|X_0)p_{Θ}(X_0)dX_{1:T})\\=-E_{q(X_0)}log(\int p_{Θ}(X_{0:T})dX_{1:T})\\=-E_{q(X_0)}log(\int q(X_{1:T}|X_0)\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)} dX_{1:T})\\=-E_{q(X_0)}(log(E_{q(X_{1:T}|X_0)}\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)}))\\\le-E_{q(X_0)}(E_{q(X_{1:T}|X_0)}log(\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)}))\\=E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]=L_{VLB}$
至此，证明了 $L_{VLB}$ 是 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界。
下面，对 $L_{VLB}$ 化简：
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]\\=E_{q(x_{0:T})}[log\frac{\textstyle \prod_{t=1}^{T}q(X_{t}|X_{t-1})}{p_{Θ}(X_{T}){\textstyle \prod_{t=1}^{T}}p_{Θ}(X_{t-1}|X_t)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=1}^{T}log\frac{q(X_{t}|X_{t-1})}{p_{Θ}(X_{t-1}|X_t)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t}|X_{t-1})}{p_{Θ}(X_{t-1}|X_t)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(X_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log(\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}*\frac{q(X_{t}|X_0)}{q(X_{t-1}|X_0)} )+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}+\sum_{t=2}^{T}log\frac{q(X_{t}|X_0)}{q(X_{t-1}|X_0)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}+log\frac{q(X_{T}|X_0)}{q(X_{1}|X_0)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[log\frac{q(X_T|X_0)}{p_{Θ}(X_T)} +\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}-logp_{Θ}(X_{0}|X_1)]\\=D_{KL}(q(X_T|X_0)||p_{Θ}(X_T))+\sum_{t=2}^{T} D_{KL}(q(X_{t-1}|X_tX_0)||p_{Θ}(X_{t-1}|X_t))-logp_{Θ}(X_{0}|X_1)\\= L_{T} + L_{T-1} + ...+ L_{0}\\where: L_{T} = D_{KL}(q(X_T|X_0)||p_{Θ}(X_{T}))\\ L_{t} = D_{KL}(q(X_t|X_t+1X_0)||p_{Θ}(X_{t}|X_{t+1})),1 \le t \le T\\ L_{0} = -logp_{Θ}(X_{0}|X_{1})$
从 $L_{t}$ 即可看出，对 $p_{Θ}(X_{t}|X_{t+1})$ 的监督就是最小化 $p_{Θ}(X_{t}|X_{t+1})$ 和 $q(X_t|X_{t+1}X_0)$ 的KL散度。

总结

简单的说，我们的目的是希望学习出一个 $p_{Θ}(X_{t-1}|X_t)$ ，即能够从噪声图恢复出原图。
为了达到这一个目的，我们使用 $q(X_{t-1}|X_tX_0)$ 来监督 $p_{Θ}(X_{t-1}|X_t)$ 进行训练， $q(X_{t-1}|X_tX_0)$ 是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是已知的。

本文是我学习过程中的个人理解，有不对的地方希望大家帮忙指出。希望可以抛砖引玉，欢迎大家在评论区和我交流。

参考

What are Diffusion Models?
Diffusion Models Beat GANs on Image Synthesis
Deep unsupervised learning using nonequilibrium thermodynamics
Denoising Diffusion Probabilistic Models

Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
提升数据科学工作流效率的10个Jupyter Notebook高级特性
JupyterNotebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境，支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能，但许多能显著提升工作效率的高级特性往往被忽视。本文将介绍一些高级功能，帮助您在数据科学项目中充分发挥JupyterNotebooks的潜力。1、Magic命令：高效的命令行接口Jupyt
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
使用神经网络拟合6项参数 Andrew_Xzw 神经网络人工智能深度学习开发语言机器学习 python
使用神经网络拟合6项参数1.数据预处理1.1添加参数解析1.2数据预处理逻辑1.3数据归一化及划分1.4数据标签处理逻辑1.5数据转torch2.定义model2.1CNN_LSTM2.2Transformer3.定义train脚本3.1loss和optimizer3.2train3.3predict1.数据预处理1.1添加参数解析为了方便管理模型和训练等参数，统一用参数解析。defparse_a
3DUnetCNN 项目常见问题解决方案魏纯漫
3DUnetCNN项目常见问题解决方案3DUnetCNNPytorch3DU-NetConvolutionNeuralNetwork(CNN)designedformedicalimagesegmentation项目地址:https://gitcode.com/gh_mirrors/3d/3DUnetCNN项目基础介绍3DUnetCNN是一个基于PyTorch的3DU-Net卷积神经网络（CNN）
机器学习数据预处理preprocessing之KernelCenterer 一叶_障目机器学习人工智能
sklearn.preprocessing.KernelCenterer对矩阵XXX执行中心化操作，即使得核矩阵的行和列的均值为零给定二维矩阵XXX，可以下式得到其核变换矩阵KKK：K(X,X)=ϕ(X).ϕ(X)TK(X,X)=\phi(X).\phi(X)^TK(X,X)=ϕ(X).ϕ(X)T式中ϕ(X)\phi(X)ϕ(X)是一种将XXX从原始空间映射到希尔伯特空间的函数希尔伯特空间是一种完
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
Python AI教程之二十一：监督学习之支持向量机（SVM）算法潜洋人工智能 Python中级支持向量机算法机器学习 python
支持向量机（SVM）算法支持向量机(SVM)是一种功能强大的机器学习算法，广泛用于线性和非线性分类以及回归和异常值检测任务。SVM具有很强的适应性，适用于各种应用，例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分析、人脸检测和异常检测。SVM特别有效，因为它们专注于寻找目标特征中不同类别之间的最大分离超平面，从而使其对二分类和多分类都具有鲁棒性。在本大纲中，我们将探讨支持向量机(SVM)
每天五分钟深度学习框架pytorch：基于vgg块搭建VGG卷积神经网络每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch cnn VGG 卷积神经网络
本文重点前面我们使用pytorch搭建了vgg块，本文我们使用vgg块搭建卷积神经网络VGG16，我们先来看一下vgg16的模型结构是什么样的：搭建vgg16importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kern
【Rust】——不安全Rust Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录不安全的超能力解引用裸指针调用不安全函数或方法创建不安全代码的安全抽象使用e
超简单|Python实现机器学习算法——KNN birdcome python 机器学习 KNN算法
超简单|Python实现机器学习算法——KNNKNN算法简介算法实现步骤如何用python实现KNN算法Scikit-learn算法库实现KNN分类器Sklearn建模流程KNN算法简介KNN算法（k近邻算法）是一种有监督分类算法，它的原理非常简单，下面以一个简单的例子引入。已知两种酒的标签：赤霞珠和黑皮诺，在这个情景中，我们对酒进行分类的依据是酒精浓度和颜色深度，如下图所示：红色代表赤霞珠，紫色
《机器学习模型快速收敛的秘籍大揭秘》人工智能深度学习
在机器学习的领域中，让模型快速收敛是众多从业者和研究者们共同追求的目标。因为快速收敛不仅能节省大量的时间和计算资源，还能使模型更快地投入实际应用，为我们带来更高的效率和价值。以下是一些实现机器学习模型快速收敛的方法。选择合适的优化器优化器在模型训练中起着至关重要的作用，它决定了模型参数的更新方式和步长。常见的优化器如Adam、RMSProp和Momentum等都有各自的特点和优势。Adam结合了M
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！ YOLO大师 YOLO 网络 cnn 目标检测论文阅读 yolov8
YOLOv8目标检测创新改进与实战案例专栏专栏目录：YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要视觉识别的“咆哮20年代”开始于视觉Transformer（ViTs）的引入，ViTs迅速取代了卷积神经网络（ConvNets）成为最先进的图像分类模型。然而，普通的ViT在应用于诸
基于深度学习的人脸表情识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能代码
1.引言近年来，人脸表情识别在情感计算、智能人机交互、心理学研究等领域有着广泛的应用。深度学习的快速发展，使得高效、准确的人脸表情识别成为可能。通过利用卷积神经网络（CNN）和目标检测技术，可以实现实时、精准的人脸表情识别。本文将基于YOLOv8构建一个完整的人脸表情识别系统。系统集成了数据集准备、YOLOv8模型训练、实时推理以及基于PyQt5的图形用户界面（UI）。通过本文，你将学习如何实现一
【机器学习】从零开始，用线性代数解锁智能时代的钥匙！ eclipsercp 工具毕业设计 python 机器学习线性代数人工智能
【机器学习】从零开始，用线性代数解锁智能时代的钥匙！文章目录【机器学习】从零开始，用线性代数解锁智能时代的钥匙！引言在这个数据驱动的时代，机器学习已经成为解锁智能科技的关键。但你是否曾被复杂的数学公式和算法搞得晕头转向？别担心，这篇文章将带你从零开始，用最直观的方式掌握线性代数——机器学习的核心武器！线性代数：机器学习的基石向量：数据的基本单元Python代码示例：向量操作矩阵：多维数据的集合Py
【机器学习】聚类【Ⅰ】基础知识与距离度量不牌不改【机器学习】聚类机器学习算法
主要来自周志华《机器学习》一书，数学推导主要来自简书博主“形式运算”的原创博客，包含自己的理解。有任何的书写错误、排版错误、概念错误等，希望大家包含指正。由于字数限制，分成五篇博客。【机器学习】聚类【Ⅰ】基础知识与距离度量【机器学习】聚类【Ⅱ】原型聚类经典算法【机器学习】聚类【Ⅲ】高斯混合模型讲解【机器学习】聚类【Ⅳ】高斯混合模型数学推导【机器学习】聚类【Ⅴ】密度聚类与层次聚类聚类1聚类任务在“无
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
Python pandas离散化方法优化与应用实例 python慕遥 Python数据分析 Pandas 数据科学 python pandas 机器学习
大家好，在数据分析中，离散化是将连续数据划分为不同区间的一种重要方法。这种方法可以更好地理解数据分布、简化分析、或在分类建模中对特征进行转换。在Python的Pandas库中，cut和qcut是两个强大的工具，分别用于基于固定区间和基于分位数对数据进行离散化。它们的灵活性和易用性使其在数据处理过程中十分常用。离散化可以将复杂的连续数据转化为更直观的区间，帮助快速发现数据分布规律，并且在机器学习中，
Pandas数据预处理：处理缺失值 - 插值法代码艺术巧匠 pandas Python
Pandas数据预处理：处理缺失值-插值法在数据分析和机器学习任务中，处理缺失值是一个常见的挑战。缺失值可能由于多种原因而产生，例如数据采集过程中的错误、设备故障或者用户不完整的输入。为了有效地处理缺失值，插值法是一种常用的技术。在本文中，我们将使用Python中的Pandas库来演示如何使用插值法处理缺失值。首先，我们需要导入Pandas库并加载包含缺失值的数据集。假设我们有一个名为df的数据框
气象海洋水文领域Python机器学习及深度学习实践应用能力提升 AAIshangyanxiu 农林生态遥感编程算法统计语言大气科学 python 机器学习深度学习
Python是功能强大、免费、开源，实现面向对象的编程语言，能够在不同操作系统和平台使用，简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库，还有丰富的第三方库，Python在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能。上述优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为气象、海洋和水文
记录一个LLM+API类型的临床预测模型APP（糖尿病Cox预测模型）的过程预测模型的开发与应用研究 APP construction web app
记录一个LLM+API类型的临床预测模型APP（糖尿病Cox预测模型）的构建过程LLM代表的是大语言模型，API代表的是机器学习模型，LLM+API是说将机器学习模型以API的形式引入到LLM，让机器学习模型以对话的方式与用户交流而服务于临床实践的APP形式，是区别与streamlit等具有可视化界面的APP的另外一种APP形式，其优点是结合了LLM丰富的知识储备和对用户需求的理解能力，以及机器学
python训练模型损失值6000多_机器学习中的 7 大损失函数实战总结（附Python演练）... weixin_39700394
介绍想象一下-你已经在给定的数据集上训练了机器学习模型，并准备好将它交付给客户。但是，你如何确定该模型能够提供最佳结果?是否有指标或技术可以帮助你快速评估数据集上的模型?当然是有的，简而言之，机器学习中损失函数可以解决以上问题。损失函数是我们喜欢使用的机器学习算法的核心。但大多数初学者和爱好者不清楚如何以及在何处使用它们。它们并不难理解，反而可以增强你对机器学习算法的理解。那么，什么是损失函数，你
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

扩散模型（Diffusion Model）——由浅入深的理解

Diffusion Model——由浅入深的理解

概览

扩散过程

逆扩散过程

损失函数

总结

参考

你可能感兴趣的:(机器学习,机器学习,神经网络)