原文链接:https://kth.diva-portal.org/smash/get/diva2:1799731/FULLTEXT01.pdf
本文使用深度生成模型(DGM)实现以4D雷达为条件的图像生成,以提供雷达数据的另一可视化方法并增强可解释性。
实验中的雷达和RGB相机固定在路面上方并经过时空同步。雷达和图像的数据对会作为网络的训练数据。网络使用深度生成模型将雷达数据转化为RGB图像。
给定路面的雷达数据 c ∈ C c\in\mathcal{C} c∈C,训练生成模型 p ( x ∣ c ) p(x|c) p(x∣c)生成高质量视频帧,以增强视觉表达和可解释性。数据包括与雷达时空同步的视频帧 x ∈ X x\in\mathcal{X} x∈X,其与雷达数据组成数据对 ( x , c ) ∈ X × C (x,c)\in\mathcal{X}\times\mathcal{C} (x,c)∈X×C。背景为静态的,数据主要的变化为路面上的运动和环境的改变。
生成模型本质上是对 先验的简单概率分布(如高斯分布)到训练数据的经验分布的转化 进行建模。
本文的目标有二:
DGM的主要目标是生成捕获了训练数据中重要特征的新数据。设训练集中的图像 x ∈ X x\in\mathcal{X} x∈X,将其视为数据各维度联合概率分布 p ( x 1 , ⋯ , x N ) = p ( x ) p(x_1,\cdots,x_N)=p(x) p(x1,⋯,xN)=p(x)的一个样本(例如,对 H × W H\times W H×W大小的RGB图像,数据维度 N = 3 H W N=3HW N=3HW)。
从 p ( x ) p(x) p(x)中生成新样本的方法如下:首先从简单的参数化分布(如高斯分布 z ∼ N ( μ , σ 2 ) z\sim\mathcal{N}(\mu,\sigma^2) z∼N(μ,σ2))中采样 z z z,然后学习变换 x ′ = f ( z ) x'=f(z) x′=f(z)使得 x ′ ∼ p ( x ) x'\sim p(x) x′∼p(x)。DGM就是通过数据和深度神经网络结构学习 z z z到 x x x的高维映射,以估计 p ( x ) p(x) p(x)。目前的DGM包括:变分自编码器(VAE)、生成对抗网络(GAN)、正则化流(NF)和扩散模型。目前扩散模型已超过GAN成为SotA。
各DGM的简单比较见3.2节。
有时候我们希望模型生成某一条件 c c c下的新数据。此时需要建模对协变量的相关性,以获得形式为 p ( x ∣ c ) p(x|c) p(x∣c)的条件生成模型。在判别模型中类似的形式为 p ( y ∣ x ) p(y|x) p(y∣x),其中 x x x为输入, y y y为输出(其中只有1个正确值)。生成模型与判别模型的区别在于正确输出可能不只一个,且其目标为将输出分布匹配目标分布。因此,生成模型的评估更加困难。
GAN包含两个子模型,生成器G和判别器D。G的目标是生成与真实数据不可区分的样本,D的目标则是判断真假样本。生成器隐式地定义 d d d维数据 x x x上的分布 p G p_G pG,学习映射 G ( z , θ G ) G(z,\theta_G) G(z,θG)( θ G \theta_G θG表示网络参数)将先验分布 p z ( z ) p_z(z) pz(z)映射到数据空间。判别器 D ( x , θ D ) D(x,\theta_D) D(x,θD)则将 d d d维样本映射为标量,即样本 x x x来自真实数据分布的概率。
训练阶段,G与D相互竞争。在训练的一个步骤中,首先会更新D的参数,使得D的犯错概率最小化;然后更新G的参数,使得D的犯错概率最大化。训练目标如下所示:
L GAN = E y ∼ p d a t a ( x ) [ log D ( y ) ] + E z ∼ p ( z ) [ log ( 1 − D ( G ( z ) ) ) ] \mathcal{L}_\text{GAN}=\mathbb{E}_{y\sim p_{data}(x)}[\log D(y)]+\mathbb{E}_{z\sim p(z)}[\log(1-D(G(z)))] LGAN=Ey∼pdata(x)[logD(y)]+Ez∼p(z)[log(1−D(G(z)))]
扩散模型通过将逐步加噪过程逆转来从分布中采样。采样从噪声 x T x_T xT开始,逐步生成噪声更少的样本 x T − 1 , x T − 2 , ⋯ x_{T-1},x_{T-2},\cdots xT−1,xT−2,⋯直到最终样本 x 0 x_0 x0。
设 x 0 x_0 x0为数据集样本, x 0 : T x_{0:T} x0:T为逐步为其添加高斯噪声的序列。可得马尔科夫链:
q ( x 1 : T ∣ x 0 ) = ∏ t = 1 T q ( x t ∣ x t − 1 ) q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q(x_{1:T}|x_0)=\prod_{t=1}^Tq(x_t|x_{t-1})\\ q(x_t|x_{t-1})=\mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI) q(x1:T∣x0)=t=1∏Tq(xt∣xt−1)q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)
其中 β 1 , ⋯ , β T \beta_1,\cdots,\beta_T β1,⋯,βT根据variance schedule给定。上式称为前向过程或扩散过程。采样的 x t x_t xt以 x t − 1 x_{t-1} xt−1为条件,且维度与数据 x 0 ∼ q ( x 0 ) x_0\sim q(x_0) x0∼q(x0)相同。联合分布 p θ ( x 0 : T ) p_\theta(x_{0:T}) pθ(x0:T)(称为反向过程)定义为带参数化高斯转移的马尔科夫链:
p θ ( x 0 : T ) = p ( x T ) ∏ t = 1 T p θ ( x t − 1 ∣ x t ) p θ ( x t − 1 ∣ x t ) ∼ N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p ( x T ) ∼ N ( x T ; 0 , I ) p_\theta(x_{0:T})=p(x_T)\prod_{t=1}^{T}p_\theta(x_{t-1}|x_t)\\ p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t))\\ p(x_T)\sim\mathcal{N}(x_T;0,I) pθ(x0:T)=p(xT)t=1∏Tpθ(xt−1∣xt)pθ(xt−1∣xt)∼N(xt−1;μθ(xt,t),Σθ(xt,t))p(xT)∼N(xT;0,I)
目标是调整 θ \theta θ使得可从高斯噪声 x T x_T xT通过反向过程逐步转换到 x 0 x_0 x0,使得 x 0 ∼ q ( x 0 ) x_0\sim q(x_0) x0∼q(x0)。
训练目标是优化基于负对数似然变分界的损失函数
E [ − log p θ ( x 0 ) ] ≤ E q [ − log p θ ( x 0 : T ) q ( x 1 : T ∣ x 0 ) ] = E q [ − log p θ ( x T ) − ∑ t ≥ 1 log p θ ( x t − 1 ∣ x t ) q ( x t ∣ x t − 1 ) ] = : L = L T + L T − 1 + ⋯ + L 0 \mathbb{E}[-\log p_\theta(x_0)]\leq\mathbb{E}_q[-\log\frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}]=\mathbb{E}_q[-\log p_\theta(x_T)-\sum_{t\geq1}\log\frac{p_\theta(x_{t-1}|x_t)}{q(x_t|x_{t-1})}]=:L=L_T+L_{T-1}+\cdots+L_0 E[−logpθ(x0)]≤Eq[−logq(x1:T∣x0)pθ(x0:T)]=Eq[−logpθ(xT)−t≥1∑logq(xt∣xt−1)pθ(xt−1∣xt)]=:L=LT+LT−1+⋯+L0
其中
L 0 = − log p θ ( x 0 ∣ x 1 ) L t − 1 = D K L ( q ( x t − 1 ∣ x t , x 0 ) ∥ p θ ( x t − 1 ∣ x t ) ) , 2 ≤ t ≤ T L_0=-\log p_\theta(x_0|x_1)\\ L_{t-1}=D_{KL}(q(x_{t-1}|x_t,x_0)\|p_\theta(x_{t-1}|x_t)),2\leq t\leq T L0=−logpθ(x0∣x1)Lt−1=DKL(q(xt−1∣xt,x0)∥pθ(xt−1∣xt)),2≤t≤T
其中 D K L ( q ∥ p ) D_{KL}(q\|p) DKL(q∥p)为KL散度,衡量 q q q与 p p p差异性。
令 α t = 1 − β t , α t ˉ = ∏ i = 1 t α i \alpha_t=1-\beta_t,\bar{\alpha_t}=\prod_{i=1}^t\alpha_i αt=1−βt,αtˉ=∏i=1tαi,前向过程中以 x 0 x_0 x0为条件采样 x t x_t xt的情况与下式相近:
q ( x t ∣ x 0 ) ∼ N ( x t ; α ˉ t x 0 , ( 1 − α ˉ t ) I ) q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I) q(xt∣x0)∼N(xt;αˉtx0,(1−αˉt)I)
这种重参数化的结果是,无需计算完整的 L L L,且以 x 0 x_0 x0为条件时,前向过程的后验(均值 μ ~ t \tilde{\mu}_t μ~t和方差 β ~ t \tilde{\beta}_t β~t)是可处理的:
μ ~ t ( x t , x 0 ) = α ˉ t − 1 β t 1 − α ˉ t x 0 + α t ( 1 − α ˉ t − 1 ) 1 − α ˉ t x t β ~ t = 1 − α ˉ t − 1 1 − α ˉ t β t \tilde{\mu}_t(x_t,x_0)=\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0+\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t\\ \tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t μ~t(xt,x0)=1−αˉtαˉt−1βtx0+1−αˉtαt(1−αˉt−1)xtβ~t=1−αˉt1−αˉt−1βt
前向过程的方差可学习得到或作为超参数在训练过程中保持不变。当不学习方差时,可设置 Σ θ ( x t , t ) = σ t 2 I \Sigma_\theta(x_t,t)=\sigma_t^2I Σθ(xt,t)=σt2I,使得 p θ ( x t − 1 ∣ x t ) ∼ N ( x t − 1 ; μ θ ( x t , t ) , σ t 2 I ) p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_t^2I) pθ(xt−1∣xt)∼N(xt−1;μθ(xt,t),σt2I)。这样,
L t − 1 = E q [ 1 2 σ t 2 ∥ μ ~ t ( x t , x 0 ) − μ θ ( x t , t ) ∥ 2 ] + C L_{t-1}=\mathbb{E}_q[\frac{1}{2\sigma^2_t}\|\tilde{\mu}_t(x_t,x_0)-\mu_\theta(x_t,t)\|^2]+C Lt−1=Eq[2σt21∥μ~t(xt,x0)−μθ(xt,t)∥2]+C
其中 C C C为与 θ \theta θ无关的常数。将 μ θ \mu_\theta μθ参数化为模型,使其预测前向过程的后验均值 μ ~ t \tilde{\mu}_t μ~t。
注:上述损失函数和后验均值方差的详细推导过程见Diffusion model—扩散模型的4.1节。
可进一步重参数化 x t x_t xt与 μ θ \mu_\theta μθ以获取简化的目标(预测每个步骤的噪声):
E x 0 , ϵ [ β t 2 2 σ t 2 α t ( 1 − α ˉ t ) ∥ ϵ − ϵ θ ( α ˉ t x 0 + 1 − α ˉ t ϵ , t ) ∥ 2 ] \mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2] Ex0,ϵ[2σt2αt(1−αˉt)βt2∥ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∥2]
条件生成对抗模型(cGAN)是在训练过程中整合条件信息的GAN。其中,生成器和判别器(或只有生成器)以辅助输入(如类别标签、文字描述、图像)为条件。生成器会学习到与真实数据相似且服从特定条件的样本生成方法。
条件GAN包括Pix2Pix(图像生成图像)、Points2Pix(激光雷达点云生成图像)。二者的损失函数均包括cGAN损失和L1损失(学习低频内容):
L cGAN ( G , D ) = E x , y [ log D ( x , y ) ] + E x , z [ log ( 1 − D ( x , G ( x , z ) ) ) ] L L 1 = λ E [ ∥ y − G ( x , z ) ∥ 1 ] \mathcal{L}_\text{cGAN}(G,D)=\mathbb{E}_{x,y}[\log D(x,y)]+\mathbb{E}_{x,z}[\log(1-D(x,G(x,z)))]\\ \mathcal{L}_{L1}=\lambda\mathbb{E}[\|y-G(x,z)\|_1] LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1−D(x,G(x,z)))]LL1=λE[∥y−G(x,z)∥1]
其中 y y y为数据, x x x为条件, z z z为高斯噪声。
4D雷达点云 { x i } i = 1 N \{x_i\}_{i=1}^N {xi}i=1N包含空间坐标 x , y , z x,y,z x,y,z和额外维度 x doppler , x range , x power x_\text{doppler},x_\text{range},x_\text{power} xdoppler,xrange,xpower。分别对空间维度和额外维度进行预处理。
首先将点云变换到相机坐标系下,然后投影到图像平面上,得到图像表达 x 2 D x_{2D} x2D。
将多普勒、距离和功率分别作为投影后点的RGB值,并缩放到 [ 0 , 255 ] [0,255] [0,255]范围内。随后按照感兴趣区裁剪并下采样。最后将像素缩放到 [ − 1 , 1 ] [-1,1] [−1,1]内以提高网络稳定性和性能。
几种DGM的比较:
GAN的训练方案如上图所示。判别器每个图像预测是否为真(布尔值输出),其输出会用于损失计算,指导生成器G与判别器D的参数更新。经过训练,G会生成更加难以与真实数据区分的样本,而D的判断能力会逐渐增强。
损失函数包含2.3.1节中的L1项。对于cGAN损失,判别器使用二元交叉熵(BCE)损失:
BCE ( y ^ n , y n ) = y n log ( y ^ n ) + ( 1 − y n ) log ( 1 − y ^ n ) \text{BCE}(\hat{y}_n,y_n)=y_n\log(\hat{y}_n)+(1-y_n)\log(1-\hat{y}_n) BCE(y^n,yn)=ynlog(y^n)+(1−yn)log(1−y^n)
D的目标是精确判断图像真假( y ^ n = y n \hat{y}_n=y_n y^n=yn),G的目标是使 D D D进行错误预测( y ^ n ≠ y n \hat{y}_n\neq y_n y^n=yn)。
与Pix2Pix不同,本文不使用dropout,而改为为投影点云拼接高斯噪声;使用Attention U-Net作为生成器,如下图所示。U-Net的解码部分使用注意力,其中残差特征图为键,上采样特征图为查询。对抗网络使用PatchGAN判别器,将图像视为一组独立patch进行真假判段。
由2.2.2节可知,扩散模型的逆过程可由条件高斯表达:
p θ ( x t − 1 ∣ x t ) ∼ N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t)) pθ(xt−1∣xt)∼N(xt−1;μθ(xt,t),Σθ(xt,t))
由于方差学习不会明显改善采样质量,本文将方差固定为 β t \beta_t βt,并预测 μ θ ( x t , t ) \mu_\theta(x_t,t) μθ(xt,t)。
将 q ( x t ∣ x 0 ) ∼ N ( x t ; α ˉ t x 0 , ( 1 − α ˉ t ) I ) q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I) q(xt∣x0)∼N(xt;αˉtx0,(1−αˉt)I) 重参数化为
x t ( x 0 , ϵ ) = α ˉ t x 0 + 1 − α ˉ t ϵ , ϵ ∼ N ( 0 , I ) x_t(x_0,\epsilon)=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I) xt(x0,ϵ)=αˉtx0+1−αˉtϵ,ϵ∼N(0,I)
将上式中的 x 0 x_0 x0代入2.2.2节中 μ θ ( x t , t ) \mu_\theta(x_t,t) μθ(xt,t)的表达式,可得
μ θ ( x t , t ) = 1 α t ( x t − β t 1 − α ˉ t ϵ ) \mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon) μθ(xt,t)=αt1(xt−1−αˉtβtϵ)
因此,可改为预测 ϵ \epsilon ϵ以满足:
μ θ ( x t , t ) = 1 α t ( x t − β t 1 − α ˉ t ϵ θ ( x t , t ) ) \mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)) μθ(xt,t)=αt1(xt−1−αˉtβtϵθ(xt,t))
其中 ϵ θ ( x t , t ) \epsilon_\theta(x_t,t) ϵθ(xt,t)为神经网络 G θ ( x t , t ) G_\theta(x_t,t) Gθ(xt,t)预测的噪声。这样,给定带噪声图像,可根据 x t − 1 ∼ p θ ( x t − 1 ∣ x t ) x_{t-1}\sim p_\theta(x_{t-1}|x_t) xt−1∼pθ(xt−1∣xt)采样:
x t − 1 = 1 α t ( x t − β t 1 − α ˉ t ϵ θ ( x t , t ) ) + β t z , z ∼ N ( 0 , I ) x_{t-1}=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t))+\sqrt{\beta_t}z,z\sim\mathcal{N}(0,I) xt−1=αt1(xt−1−αˉtβtϵθ(xt,t))+βtz,z∼N(0,I)
实际中,需要将预测噪声加以条件,即 ϵ θ ( c , x t , t ) = G θ ( c , x t , t ) \epsilon_\theta(c,x_t,t)=G_\theta(c,x_t,t) ϵθ(c,xt,t)=Gθ(c,xt,t)。这通过投影点云的拼接实现。完整的采样过程如下:
训练算法如下:
由于对采样质量有利,本文使用简化的噪声预测优化目标:
L t − 1 = E x 0 , ϵ [ β t 2 2 σ t 2 α t ( 1 − α ˉ t ) ∥ ϵ − ϵ θ ( c , α ˉ t x 0 + 1 − α ˉ t ϵ , t ) ∥ 2 ] L_{t-1}=\mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(c,\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2] Lt−1=Ex0,ϵ[2σt2αt(1−αˉt)βt2∥ϵ−ϵθ(c,αˉtx0+1−αˉtϵ,t)∥2]
对 α ˉ t \bar{\alpha}_t αˉt使用余弦调度:
α ˉ t = f ( t ) f ( 0 ) , f ( t ) = cos ( t / T + s 1 + s ⋅ π 2 ) 2 \bar{\alpha}_t=\frac{f(t)}{f(0)},f(t)=\cos(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2})^2 αˉt=f(0)f(t),f(t)=cos(1+st/T+s⋅2π)2
本文使用的网络类似2.1.1.1节的GAN生成器。网络的输入为6通道,其中3通道为条件,3通道为上一步输出的带噪声的图像;输出为3通道图像。网络使用时间步长的正弦位置编码,在各时间步长下共享权重。
在评估过程中,发现使用扩散的条件采样遇到了一些挑战。为避免之,本文提出混合方法,通过使用与迭代隐变量细化类似的条件扩散方法,组合训练好的GAN与扩散模型。将扩散模型的输入由高斯噪声改为GAN生成的带噪声图像(记为 x GAN x_\text{GAN} xGAN),按下式加噪后,使用更少的时间步长去噪:
x t ( x GAN , ϵ ) = α ˉ t x GAN + 1 − α ˉ t ϵ , ϵ ∼ N ( 0 , I ) x_t(x_\text{GAN},\epsilon)=\sqrt{\bar{\alpha}_t}x_\text{GAN}+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I) xt(xGAN,ϵ)=αˉtxGAN+1−αˉtϵ,ϵ∼N(0,I)
确定训练的停止点是很困难的。除了监控训练损失外,还使用主观评估的方法判断过拟合现象(因为雷达数据不能反映颜色信息,故当生成车辆的颜色十分精确时,就可能达到了过拟合)。
定性评估为主要评估方法,即进行生成视频与真实视频的主观比较。这是因为本文的目的是生成真实的视频。
由于定性评估的主观性,还引入定量评估。包含生成帧与真实帧的均方误差(MSE)和目标检测指标。前者用于衡量与生成帧与真实帧的相似性,后者用于指示模型生成真实物体的能力。
由于雷达不含颜色信息,故将生成帧与真实帧灰度化后计算MSE。
分别对真实帧和生成帧进行目标检测后,比较相关类别物体的出现情况。使用在COCO数据集上预训练的YOLOv5进行目标检测。只考虑汽车、卡车和公交车三类输出,且考虑两种评估:完整图像和RoI裁剪图像。使用后者是因为当背景区域存在停放车辆时,会因为生成背景的能力而影响前景物体的生成评估。
扩散模型生成的图像比GAN更加真实。扩散模型在背景生成(如停放的汽车)方面更好,而GAN相对比较平均。但某些情况下,扩散模型会生成不完整的图像,或是完全丢失一些明显实例。此外,采样的随机性也使得扩散模型在同一条件下进行逆过程时,可能成功也可能失败。
由于数据集中最常见的车辆为乘用车,GAN与扩散模型可能会错误地偏好性地生成该类车辆。
GAN能通过调节输入点云,更容易地控制生成过程。使用混合方法,通过GAN的输出引导扩散过程,能生成看上去更好的图像。
比起扩散模型,GAN生成的图像有更低的MSE。混合模型的MSE则更低。
完整图像中,目标检测数量误差最小的为扩散模型;但对于不考虑停放车辆的RoI裁剪图像来说,GAN的性能更优。混合方法在RoI的性能最优。
GAN的训练过程存在一些不稳定性,即判别器损失会在某些无法预测的时刻出现瞬时的尖峰。此外,生成器的损失可能会突然增大。
由于扩散过程采样的耗时性,仅能在部分检查点进行评估。因此实际网络可能存在轻微过拟合。
GAN有更高的控制和调节能力,但牺牲了一些图像质量;能精确表达RoI内的物体,这表明GAN有利用条件点云生成可识别物体的能力。GAN生成一帧图像的耗时为几十毫秒。
扩散模型能生成更高质量的背景元素,但有时会忽略条件点云,无法生成完整和精确的物体。生成一帧图像的耗时为几十秒。
混合方法在定量指标和视觉效果上均更高。增加采样步长能进一步提高生成质量,但也会提高计算时间,也会与真值产生更大的偏差。
混合模型整合了GAN精确表达物体的能力和扩散模型生成高质量图像的能力。
使用其余结构的GAN和扩散模型、不同的条件机制或训练策略,可能会有更好的效果。
主要局限性在于生成物体的多样性较低,多数物体会被生成为乘用车。这是因为数据集的多样性较低。另一问题在于图像和雷达的空间对齐上,其中图像中心的对齐比角落的对齐更精确,这可能是导致扩散模型有时候会忽略条件点云的原因。