【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion

原文链接:https://kth.diva-portal.org/smash/get/diva2:1799731/FULLTEXT01.pdf

1. 引言

本文使用深度生成模型(DGM)实现以4D雷达为条件的图像生成,以提供雷达数据的另一可视化方法并增强可解释性。

实验中的雷达和RGB相机固定在路面上方并经过时空同步。雷达和图像的数据对会作为网络的训练数据。网络使用深度生成模型将雷达数据转化为RGB图像。

1.2 问题

给定路面的雷达数据 c ∈ C c\in\mathcal{C} cC,训练生成模型 p ( x ∣ c ) p(x|c) p(xc)生成高质量视频帧,以增强视觉表达和可解释性。数据包括与雷达时空同步的视频帧 x ∈ X x\in\mathcal{X} xX,其与雷达数据组成数据对 ( x , c ) ∈ X × C (x,c)\in\mathcal{X}\times\mathcal{C} (x,c)X×C。背景为静态的,数据主要的变化为路面上的运动和环境的改变。

生成模型本质上是对 先验的简单概率分布(如高斯分布)到训练数据的经验分布的转化 进行建模。

1.4 目标

本文的目标有二:

  1. 使用雷达数据作为条件变量生成视频帧。
  2. 比较分析GAN和扩散模型在4D雷达数据上的优缺点。

2. 背景

2.2 深度生成模型

DGM的主要目标是生成捕获了训练数据中重要特征的新数据。设训练集中的图像 x ∈ X x\in\mathcal{X} xX,将其视为数据各维度联合概率分布 p ( x 1 , ⋯   , x N ) = p ( x ) p(x_1,\cdots,x_N)=p(x) p(x1,,xN)=p(x)的一个样本(例如,对 H × W H\times W H×W大小的RGB图像,数据维度 N = 3 H W N=3HW N=3HW)。

p ( x ) p(x) p(x)中生成新样本的方法如下:首先从简单的参数化分布(如高斯分布 z ∼ N ( μ , σ 2 ) z\sim\mathcal{N}(\mu,\sigma^2) zN(μ,σ2))中采样 z z z,然后学习变换 x ′ = f ( z ) x'=f(z) x=f(z)使得 x ′ ∼ p ( x ) x'\sim p(x) xp(x)。DGM就是通过数据和深度神经网络结构学习 z z z x x x的高维映射,以估计 p ( x ) p(x) p(x)。目前的DGM包括:变分自编码器(VAE)、生成对抗网络(GAN)、正则化流(NF)和扩散模型。目前扩散模型已超过GAN成为SotA。

各DGM的简单比较见3.2节。

有时候我们希望模型生成某一条件 c c c下的新数据。此时需要建模对协变量的相关性,以获得形式为 p ( x ∣ c ) p(x|c) p(xc)的条件生成模型。在判别模型中类似的形式为 p ( y ∣ x ) p(y|x) p(yx),其中 x x x为输入, y y y为输出(其中只有1个正确值)。生成模型与判别模型的区别在于正确输出可能不只一个,且其目标为将输出分布匹配目标分布。因此,生成模型的评估更加困难。

2.2.1 生成对抗网络

GAN包含两个子模型,生成器G和判别器D。G的目标是生成与真实数据不可区分的样本,D的目标则是判断真假样本。生成器隐式地定义 d d d维数据 x x x上的分布 p G p_G pG,学习映射 G ( z , θ G ) G(z,\theta_G) G(z,θG) θ G \theta_G θG表示网络参数)将先验分布 p z ( z ) p_z(z) pz(z)映射到数据空间。判别器 D ( x , θ D ) D(x,\theta_D) D(x,θD)则将 d d d维样本映射为标量,即样本 x x x来自真实数据分布的概率。

训练阶段,G与D相互竞争。在训练的一个步骤中,首先会更新D的参数,使得D的犯错概率最小化;然后更新G的参数,使得D的犯错概率最大化。训练目标如下所示:
L GAN = E y ∼ p d a t a ( x ) [ log ⁡ D ( y ) ] + E z ∼ p ( z ) [ log ⁡ ( 1 − D ( G ( z ) ) ) ] \mathcal{L}_\text{GAN}=\mathbb{E}_{y\sim p_{data}(x)}[\log D(y)]+\mathbb{E}_{z\sim p(z)}[\log(1-D(G(z)))] LGAN=Eypdata(x)[logD(y)]+Ezp(z)[log(1D(G(z)))]

2.2.2 扩散模型

扩散模型通过将逐步加噪过程逆转来从分布中采样。采样从噪声 x T x_T xT开始,逐步生成噪声更少的样本 x T − 1 , x T − 2 , ⋯ x_{T-1},x_{T-2},\cdots xT1,xT2,直到最终样本 x 0 x_0 x0

x 0 x_0 x0为数据集样本, x 0 : T x_{0:T} x0:T为逐步为其添加高斯噪声的序列。可得马尔科夫链:
q ( x 1 : T ∣ x 0 ) = ∏ t = 1 T q ( x t ∣ x t − 1 ) q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q(x_{1:T}|x_0)=\prod_{t=1}^Tq(x_t|x_{t-1})\\ q(x_t|x_{t-1})=\mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI) q(x1:Tx0)=t=1Tq(xtxt1)q(xtxt1)=N(xt;1βt xt1,βtI)
其中 β 1 , ⋯   , β T \beta_1,\cdots,\beta_T β1,,βT根据variance schedule给定。上式称为前向过程或扩散过程。采样的 x t x_t xt x t − 1 x_{t-1} xt1为条件,且维度与数据 x 0 ∼ q ( x 0 ) x_0\sim q(x_0) x0q(x0)相同。联合分布 p θ ( x 0 : T ) p_\theta(x_{0:T}) pθ(x0:T)(称为反向过程)定义为带参数化高斯转移的马尔科夫链:
p θ ( x 0 : T ) = p ( x T ) ∏ t = 1 T p θ ( x t − 1 ∣ x t ) p θ ( x t − 1 ∣ x t ) ∼ N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p ( x T ) ∼ N ( x T ; 0 , I ) p_\theta(x_{0:T})=p(x_T)\prod_{t=1}^{T}p_\theta(x_{t-1}|x_t)\\ p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t))\\ p(x_T)\sim\mathcal{N}(x_T;0,I) pθ(x0:T)=p(xT)t=1Tpθ(xt1xt)pθ(xt1xt)N(xt1;μθ(xt,t),Σθ(xt,t))p(xT)N(xT;0,I)
目标是调整 θ \theta θ使得可从高斯噪声 x T x_T xT通过反向过程逐步转换到 x 0 x_0 x0,使得 x 0 ∼ q ( x 0 ) x_0\sim q(x_0) x0q(x0)

训练目标是优化基于负对数似然变分界的损失函数
E [ − log ⁡ p θ ( x 0 ) ] ≤ E q [ − log ⁡ p θ ( x 0 : T ) q ( x 1 : T ∣ x 0 ) ] = E q [ − log ⁡ p θ ( x T ) − ∑ t ≥ 1 log ⁡ p θ ( x t − 1 ∣ x t ) q ( x t ∣ x t − 1 ) ] = : L = L T + L T − 1 + ⋯ + L 0 \mathbb{E}[-\log p_\theta(x_0)]\leq\mathbb{E}_q[-\log\frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}]=\mathbb{E}_q[-\log p_\theta(x_T)-\sum_{t\geq1}\log\frac{p_\theta(x_{t-1}|x_t)}{q(x_t|x_{t-1})}]=:L=L_T+L_{T-1}+\cdots+L_0 E[logpθ(x0)]Eq[logq(x1:Tx0)pθ(x0:T)]=Eq[logpθ(xT)t1logq(xtxt1)pθ(xt1xt)]=:L=LT+LT1++L0
其中
L 0 = − log ⁡ p θ ( x 0 ∣ x 1 ) L t − 1 = D K L ( q ( x t − 1 ∣ x t , x 0 ) ∥ p θ ( x t − 1 ∣ x t ) ) , 2 ≤ t ≤ T L_0=-\log p_\theta(x_0|x_1)\\ L_{t-1}=D_{KL}(q(x_{t-1}|x_t,x_0)\|p_\theta(x_{t-1}|x_t)),2\leq t\leq T L0=logpθ(x0x1)Lt1=DKL(q(xt1xt,x0)pθ(xt1xt)),2tT
其中 D K L ( q ∥ p ) D_{KL}(q\|p) DKL(qp)为KL散度,衡量 q q q p p p差异性。

α t = 1 − β t , α t ˉ = ∏ i = 1 t α i \alpha_t=1-\beta_t,\bar{\alpha_t}=\prod_{i=1}^t\alpha_i αt=1βt,αtˉ=i=1tαi,前向过程中以 x 0 x_0 x0为条件采样 x t x_t xt的情况与下式相近:
q ( x t ∣ x 0 ) ∼ N ( x t ; α ˉ t x 0 , ( 1 − α ˉ t ) I ) q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I) q(xtx0)N(xt;αˉt x0,(1αˉt)I)
这种重参数化的结果是,无需计算完整的 L L L,且以 x 0 x_0 x0为条件时,前向过程的后验(均值 μ ~ t \tilde{\mu}_t μ~t和方差 β ~ t \tilde{\beta}_t β~t)是可处理的:
μ ~ t ( x t , x 0 ) = α ˉ t − 1 β t 1 − α ˉ t x 0 + α t ( 1 − α ˉ t − 1 ) 1 − α ˉ t x t β ~ t = 1 − α ˉ t − 1 1 − α ˉ t β t \tilde{\mu}_t(x_t,x_0)=\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0+\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t\\ \tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t μ~t(xt,x0)=1αˉtαˉt1 βtx0+1αˉtαt (1αˉt1)xtβ~t=1αˉt1αˉt1βt
前向过程的方差可学习得到或作为超参数在训练过程中保持不变。当不学习方差时,可设置 Σ θ ( x t , t ) = σ t 2 I \Sigma_\theta(x_t,t)=\sigma_t^2I Σθ(xt,t)=σt2I,使得 p θ ( x t − 1 ∣ x t ) ∼ N ( x t − 1 ; μ θ ( x t , t ) , σ t 2 I ) p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_t^2I) pθ(xt1xt)N(xt1;μθ(xt,t),σt2I)。这样,
L t − 1 = E q [ 1 2 σ t 2 ∥ μ ~ t ( x t , x 0 ) − μ θ ( x t , t ) ∥ 2 ] + C L_{t-1}=\mathbb{E}_q[\frac{1}{2\sigma^2_t}\|\tilde{\mu}_t(x_t,x_0)-\mu_\theta(x_t,t)\|^2]+C Lt1=Eq[2σt21μ~t(xt,x0)μθ(xt,t)2]+C
其中 C C C为与 θ \theta θ无关的常数。将 μ θ \mu_\theta μθ参数化为模型,使其预测前向过程的后验均值 μ ~ t \tilde{\mu}_t μ~t

注:上述损失函数和后验均值方差的详细推导过程见Diffusion model—扩散模型的4.1节。

可进一步重参数化 x t x_t xt μ θ \mu_\theta μθ以获取简化的目标(预测每个步骤的噪声):
E x 0 , ϵ [ β t 2 2 σ t 2 α t ( 1 − α ˉ t ) ∥ ϵ − ϵ θ ( α ˉ t x 0 + 1 − α ˉ t ϵ , t ) ∥ 2 ] \mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2] Ex0,ϵ[2σt2αt(1αˉt)βt2ϵϵθ(αˉt x0+1αˉt ϵ,t)2]

2.3 相关工作

2.3.1 条件GAN

条件生成对抗模型(cGAN)是在训练过程中整合条件信息的GAN。其中,生成器和判别器(或只有生成器)以辅助输入(如类别标签、文字描述、图像)为条件。生成器会学习到与真实数据相似且服从特定条件的样本生成方法。

条件GAN包括Pix2Pix(图像生成图像)、Points2Pix(激光雷达点云生成图像)。二者的损失函数均包括cGAN损失和L1损失(学习低频内容):
L cGAN ( G , D ) = E x , y [ log ⁡ D ( x , y ) ] + E x , z [ log ⁡ ( 1 − D ( x , G ( x , z ) ) ) ] L L 1 = λ E [ ∥ y − G ( x , z ) ∥ 1 ] \mathcal{L}_\text{cGAN}(G,D)=\mathbb{E}_{x,y}[\log D(x,y)]+\mathbb{E}_{x,z}[\log(1-D(x,G(x,z)))]\\ \mathcal{L}_{L1}=\lambda\mathbb{E}[\|y-G(x,z)\|_1] LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1D(x,G(x,z)))]LL1=λE[yG(x,z)1]
其中 y y y为数据, x x x为条件, z z z为高斯噪声。

3. 方法

3.1 数据

3.1.1 数据收集和选择

  • 所有数据有相似的背景,以通过固定背景设置来生成更平滑的视频。

3.1.2 预处理

4D雷达点云 { x i } i = 1 N \{x_i\}_{i=1}^N {xi}i=1N包含空间坐标 x , y , z x,y,z x,y,z和额外维度 x doppler , x range , x power x_\text{doppler},x_\text{range},x_\text{power} xdoppler,xrange,xpower。分别对空间维度和额外维度进行预处理。

3.1.2.1 空间维度

首先将点云变换到相机坐标系下,然后投影到图像平面上,得到图像表达 x 2 D x_{2D} x2D

3.1.2.2 额外维度

将多普勒、距离和功率分别作为投影后点的RGB值,并缩放到 [ 0 , 255 ] [0,255] [0,255]范围内。随后按照感兴趣区裁剪并下采样。最后将像素缩放到 [ − 1 , 1 ] [-1,1] [1,1]内以提高网络稳定性和性能。

3.2 深度生成模型

几种DGM的比较:

  • VAE通过极大似然估计(MLE)学习密度 p ( x ) p(x) p(x)的下界,隐式表达维度小于数据,能快速采样,使用编码器-解码器结构(使用重参数化技巧)。
  • NF通过MLE学习精确的密度,隐式表达维度等于数据,采样速度慢,需要使用可逆神经网络。
  • GAN不支持密度估计,隐式表达维度低,采样速度快,但生成器-判别器结构会导致训练不稳定。
  • 扩散模型通过MLE学习密度的下界,隐式表达维度等于数据,采样速度慢,使用编码器-解码器结构。
    由于实际主要关注的是生成样本的质量(密度估计不是关键),本文选择GAN与扩散模型。

3.2.1 条件生成对抗模型

【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion_第1张图片
GAN的训练方案如上图所示。判别器每个图像预测是否为真(布尔值输出),其输出会用于损失计算,指导生成器G与判别器D的参数更新。经过训练,G会生成更加难以与真实数据区分的样本,而D的判断能力会逐渐增强。

损失函数包含2.3.1节中的L1项。对于cGAN损失,判别器使用二元交叉熵(BCE)损失:
BCE ( y ^ n , y n ) = y n log ⁡ ( y ^ n ) + ( 1 − y n ) log ⁡ ( 1 − y ^ n ) \text{BCE}(\hat{y}_n,y_n)=y_n\log(\hat{y}_n)+(1-y_n)\log(1-\hat{y}_n) BCE(y^n,yn)=ynlog(y^n)+(1yn)log(1y^n)
D的目标是精确判断图像真假( y ^ n = y n \hat{y}_n=y_n y^n=yn),G的目标是使 D D D进行错误预测( y ^ n ≠ y n \hat{y}_n\neq y_n y^n=yn)。

训练算法如下:
【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion_第2张图片

3.2.1.1 实施

与Pix2Pix不同,本文不使用dropout,而改为为投影点云拼接高斯噪声;使用Attention U-Net作为生成器,如下图所示。U-Net的解码部分使用注意力,其中残差特征图为键,上采样特征图为查询。对抗网络使用PatchGAN判别器,将图像视为一组独立patch进行真假判段。
【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion_第3张图片

3.2.2 条件扩散模型

由2.2.2节可知,扩散模型的逆过程可由条件高斯表达:
p θ ( x t − 1 ∣ x t ) ∼ N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t)) pθ(xt1xt)N(xt1;μθ(xt,t),Σθ(xt,t))
由于方差学习不会明显改善采样质量,本文将方差固定为 β t \beta_t βt,并预测 μ θ ( x t , t ) \mu_\theta(x_t,t) μθ(xt,t)

q ( x t ∣ x 0 ) ∼ N ( x t ; α ˉ t x 0 , ( 1 − α ˉ t ) I ) q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I) q(xtx0)N(xt;αˉt x0,(1αˉt)I) 重参数化为
x t ( x 0 , ϵ ) = α ˉ t x 0 + 1 − α ˉ t ϵ , ϵ ∼ N ( 0 , I ) x_t(x_0,\epsilon)=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I) xt(x0,ϵ)=αˉt x0+1αˉt ϵ,ϵN(0,I)

将上式中的 x 0 x_0 x0代入2.2.2节中 μ θ ( x t , t ) \mu_\theta(x_t,t) μθ(xt,t)的表达式,可得
μ θ ( x t , t ) = 1 α t ( x t − β t 1 − α ˉ t ϵ ) \mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon) μθ(xt,t)=αt 1(xt1αˉt βtϵ)

因此,可改为预测 ϵ \epsilon ϵ以满足:
μ θ ( x t , t ) = 1 α t ( x t − β t 1 − α ˉ t ϵ θ ( x t , t ) ) \mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)) μθ(xt,t)=αt 1(xt1αˉt βtϵθ(xt,t))
其中 ϵ θ ( x t , t ) \epsilon_\theta(x_t,t) ϵθ(xt,t)为神经网络 G θ ( x t , t ) G_\theta(x_t,t) Gθ(xt,t)预测的噪声。这样,给定带噪声图像,可根据 x t − 1 ∼ p θ ( x t − 1 ∣ x t ) x_{t-1}\sim p_\theta(x_{t-1}|x_t) xt1pθ(xt1xt)采样:
x t − 1 = 1 α t ( x t − β t 1 − α ˉ t ϵ θ ( x t , t ) ) + β t z , z ∼ N ( 0 , I ) x_{t-1}=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t))+\sqrt{\beta_t}z,z\sim\mathcal{N}(0,I) xt1=αt 1(xt1αˉt βtϵθ(xt,t))+βt z,zN(0,I)

实际中,需要将预测噪声加以条件,即 ϵ θ ( c , x t , t ) = G θ ( c , x t , t ) \epsilon_\theta(c,x_t,t)=G_\theta(c,x_t,t) ϵθ(c,xt,t)=Gθ(c,xt,t)。这通过投影点云的拼接实现。完整的采样过程如下:
【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion_第4张图片
训练算法如下:
【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion_第5张图片
由于对采样质量有利,本文使用简化的噪声预测优化目标:
L t − 1 = E x 0 , ϵ [ β t 2 2 σ t 2 α t ( 1 − α ˉ t ) ∥ ϵ − ϵ θ ( c , α ˉ t x 0 + 1 − α ˉ t ϵ , t ) ∥ 2 ] L_{t-1}=\mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(c,\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2] Lt1=Ex0,ϵ[2σt2αt(1αˉt)βt2ϵϵθ(c,αˉt x0+1αˉt ϵ,t)2]

α ˉ t \bar{\alpha}_t αˉt使用余弦调度:
α ˉ t = f ( t ) f ( 0 ) , f ( t ) = cos ⁡ ( t / T + s 1 + s ⋅ π 2 ) 2 \bar{\alpha}_t=\frac{f(t)}{f(0)},f(t)=\cos(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2})^2 αˉt=f(0)f(t),f(t)=cos(1+st/T+s2π)2

3.2.2.1 实施

本文使用的网络类似2.1.1.1节的GAN生成器。网络的输入为6通道,其中3通道为条件,3通道为上一步输出的带噪声的图像;输出为3通道图像。网络使用时间步长的正弦位置编码,在各时间步长下共享权重。

3.2.3 混合方法:以GAN为条件的扩散

在评估过程中,发现使用扩散的条件采样遇到了一些挑战。为避免之,本文提出混合方法,通过使用与迭代隐变量细化类似的条件扩散方法,组合训练好的GAN与扩散模型。将扩散模型的输入由高斯噪声改为GAN生成的带噪声图像(记为 x GAN x_\text{GAN} xGAN),按下式加噪后,使用更少的时间步长去噪:
x t ( x GAN , ϵ ) = α ˉ t x GAN + 1 − α ˉ t ϵ , ϵ ∼ N ( 0 , I ) x_t(x_\text{GAN},\epsilon)=\sqrt{\bar{\alpha}_t}x_\text{GAN}+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I) xt(xGAN,ϵ)=αˉt xGAN+1αˉt ϵ,ϵN(0,I)

采样过程与算法2类似,如下所示:
【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion_第6张图片
【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion_第7张图片

3.3 训练过程

确定训练的停止点是很困难的。除了监控训练损失外,还使用主观评估的方法判断过拟合现象(因为雷达数据不能反映颜色信息,故当生成车辆的颜色十分精确时,就可能达到了过拟合)。

4. 结果与分析

4.1 评估框架

4.1.1 定性评估

定性评估为主要评估方法,即进行生成视频与真实视频的主观比较。这是因为本文的目的是生成真实的视频。

4.1.2 定量评估

由于定性评估的主观性,还引入定量评估。包含生成帧与真实帧的均方误差(MSE)和目标检测指标。前者用于衡量与生成帧与真实帧的相似性,后者用于指示模型生成真实物体的能力。

4.1.2.1 均方误差

由于雷达不含颜色信息,故将生成帧与真实帧灰度化后计算MSE。

4.1.2.2 目标检测

分别对真实帧和生成帧进行目标检测后,比较相关类别物体的出现情况。使用在COCO数据集上预训练的YOLOv5进行目标检测。只考虑汽车、卡车和公交车三类输出,且考虑两种评估:完整图像和RoI裁剪图像。使用后者是因为当背景区域存在停放车辆时,会因为生成背景的能力而影响前景物体的生成评估。

4.2 定性评价

扩散模型生成的图像比GAN更加真实。扩散模型在背景生成(如停放的汽车)方面更好,而GAN相对比较平均。但某些情况下,扩散模型会生成不完整的图像,或是完全丢失一些明显实例。此外,采样的随机性也使得扩散模型在同一条件下进行逆过程时,可能成功也可能失败。

由于数据集中最常见的车辆为乘用车,GAN与扩散模型可能会错误地偏好性地生成该类车辆。

GAN能通过调节输入点云,更容易地控制生成过程。使用混合方法,通过GAN的输出引导扩散过程,能生成看上去更好的图像。

4.3 定量评价

4.3.1 均方误差

比起扩散模型,GAN生成的图像有更低的MSE。混合模型的MSE则更低。

4.3.2 目标检测

完整图像中,目标检测数量误差最小的为扩散模型;但对于不考虑停放车辆的RoI裁剪图像来说,GAN的性能更优。混合方法在RoI的性能最优。

4.4 分析

4.4.1 训练过程

4.4.1.1 GAN

GAN的训练过程存在一些不稳定性,即判别器损失会在某些无法预测的时刻出现瞬时的尖峰。此外,生成器的损失可能会突然增大。

4.4.1.2 扩散

由于扩散过程采样的耗时性,仅能在部分检查点进行评估。因此实际网络可能存在轻微过拟合。

4.4.2 性能

GAN有更高的控制和调节能力,但牺牲了一些图像质量;能精确表达RoI内的物体,这表明GAN有利用条件点云生成可识别物体的能力。GAN生成一帧图像的耗时为几十毫秒。

扩散模型能生成更高质量的背景元素,但有时会忽略条件点云,无法生成完整和精确的物体。生成一帧图像的耗时为几十秒。

混合方法在定量指标和视觉效果上均更高。增加采样步长能进一步提高生成质量,但也会提高计算时间,也会与真值产生更大的偏差。

4.5 讨论

混合模型整合了GAN精确表达物体的能力和扩散模型生成高质量图像的能力。

使用其余结构的GAN和扩散模型、不同的条件机制或训练策略,可能会有更好的效果。

4.6 局限性

主要局限性在于生成物体的多样性较低,多数物体会被生成为乘用车。这是因为数据集的多样性较低。另一问题在于图像和雷达的空间对齐上,其中图像中心的对齐比角落的对齐更精确,这可能是导致扩散模型有时候会忽略条件点云的原因。

你可能感兴趣的:(扩散模型与目标检测,论文阅读,生成对抗网络,计算机视觉,深度学习,自动驾驶)