【论文翻译】HyperSound: Generating INR of Audio Signals with Hypernetworks

HyperSound: Generating INR of Audio Signals with Hypernetworks (arxiv 2022)

2022/11/05:今日咳嗽加重,不知何时能好

Paper: http://de.arxiv.org/abs/2211.01839

Abstract

隐式神经表示(INR)是一个快速发展的研究领域,为多媒体信号的表示提供了可替代的方法。最近的INR应用包括图像超分辨率、高维信号压缩或3D渲染。然而,这些解决方案通常专注于可视数据,将它们调整到音频领域并非易事。此外,它需要为每个数据样本单独训练一个模型。为了解决这一限制,我们提出了一种利用超网络为训练时看不见的音频信号生成INRs的元学习方法HyperSound。我们表明,我们的方法可以重建声波的质量与其他最先进的模型相当。

1. Introduction

隐式神经表示(INRs)是多媒体信号的基于坐标的表示,其中信号是用神经网络建模的。这种表示与空间分辨率解耦,因此信号可以在任何任意频率下重新采样。同时,对其存储的内存需求保持不变。INRs领域正在迅速发展,其应用包括超分辨率[1,2]、压缩[1,2]或3D渲染[3]。然而,在音频领域,这些方法的评估迄今为止仅限于学习特定输入录音[1]的单个INR,这是效率非常低的。

元学习方法,如超网络[4],可以为任何单一模型的任意信号生成INRs。超网络学会为较小的目标网络生成权重,可以作为INR。超网络成功地应用于获取图像[2,5]、点云[2,6]和视频[2]的INRs。然而,为高维和高方差的数据(如音频)创建INR是困难的,并且为此任务训练超网络可能是不稳定的。

在这项工作中,我们提出了一种基于超网络的元学习方法,在这种方法中,我们学习了从训练数据集外部创建任意音频样本inr的一般方法。据我们所知,我们的模型是基于超网络的INRs在音频领域的第一个应用。

2. Related Works

隐式神经表示应用在多个多媒体领域,基于NeRF的INR是目前最先进的图像渲染和视点合成技术。SIREN展示了如何对多种信号生成高质量的INR,例如图像、视频、音频,利用具有周期性激活函数和专用权值初始化策略的神经网络。调制周期激活[2]通过引入调制和合成子网络,进一步提高了基于SIREN的高分辨率INRs的质量。然而,在音频领域,这些方法的评价迄今为止仅限于学习特定输入录音的个别INR。

超网络[4]是一个元学习框架,其中一个网络(超网络)为另一个网络(目标网络)生成权重。超网络可用于各种任务,如模型压缩[7],持续学习[8]或生成INRs。特别地,超网络被用于生成图像[5]、形状[6]和视频[2]的INRs。据我们所知,我们的工作是超网络在音频INRs生成中的首次应用。

用深度神经网络处理原始波形的首次成功尝试是WaveNet[9]和SampleRNN[10]等模型,但它们的自回归性质使其速度缓慢,容易产生累积误差。后来的架构,比如ParallelWaveNet [11], NSynth [12],MelGAN[13]或SING[14]提出了音频生成的非自回归架构。最近的基于自动编码器的模型,如RAVE[15]或SoundStream[16],能够以端到端方式处理高分辨率信号,产生非常好的感知质量的音频。
【论文翻译】HyperSound: Generating INR of Audio Signals with Hypernetworks_第1张图片

3. Model overview

传统上,声波用数字表示为按规则间隔采样的振幅值的集合,它近似于连续实函数x(t)。我们的目标是获得一个元配方,以生成复制这些功能的音频inr。虽然通过梯度下降可以很容易地为特定的音频样本创建inr,但由于音频时间序列的内在复杂性,找到一个通用的解决方案要困难得多。因此,类似于[5],我们用神经网络T(目标网络)对这些函数建模,用另一个神经网络H(超网络)生成的权重参数化。我们的框架,如图1所示,可以描述为
在这里插入图片描述

3.1 hypernetworks architecture

典型的音频记录包含数千个样本,因此超网络由一个卷积编码器组成,它产生一个潜在的低维度表示,以及完全连接层,将此表示转换为目标网络的权值 θ \theta θ。我们使用基于SoundStream[16]的编码器,超网络的全连接部分由六个带偏差的全连接层和ELU[17]激活层组成,其中最后一层产生目标网络的扁平权值。

3.2 Approximating sound waves with neural networks

目标网络应该尽可能小,以避免超网络中的过拟合和权重爆炸,但必须具有足够的表现力,以代表各种各样的音频记录。我们的目标网络有一个输入和一个输出,由一个位置嵌入层和四个完全连接的256个带有偏差和ReLU激活的神经元层组成。受NeRF的启发,我们定义嵌入向量 γ \gamma γ
在这里插入图片描述
其中 t t t表示时间坐标而 L L L表示嵌入尺寸。我们将输入坐标缩放到 [ 0 , 1 ] [0,1] [0,1]的范围内,并且设置 L = 16 L =16 L=16

3.3 Optimization

我们使用反向传播以有监督的方式训练超网络。为了获得感知上更愉悦的音频结果,我们使用了一个损失函数,在时域和频域上惩罚重建误差。给定原始录音 x x x和由目标网络生成的重建 x ^ \hat{x} x^,我们计算损失函数为
在这里插入图片描述
其中 L S L 1 L_{SL1} LSL1表示参数 β = 0.1 \beta = 0.1 β=0.1的平滑L1损失, L S T F T L_{STFT} LSTFT是一个多分辨率多尺度STFT损失, λ S L 1 \lambda_{SL1} λSL1 λ S T F T \lambda_{STFT} λSTFT是两个损失的权重。我们使用 λ S L 1 = λ S T F T = 1 \lambda_{SL1}= \lambda_{STFT}=1 λSL1=λSTFT=1。对于STFT损失,我们使用128 mel bin和FFT尺寸[512;1024;2048]窗口大小匹配,重叠率为87.5%。
【论文翻译】HyperSound: Generating INR of Audio Signals with Hypernetworks_第2张图片

4. Experiments

我们在VCTK数据集上测试模型的重建质量,采样到f = 22050 Hz,并保留最后10个说话者的录音作为验证集。我们将录音长度设置为32768个样本,并使用数据增强,如随机裁剪,相位混乱,或RAVE[15]中提出的去量化。我们使用AdamW优化器[20]训练模型1.25M步长,学习率为5e−5,批处理大小为16。在图2中,我们展示了用我们的模型从验证集中选择的样本所获得的重构的波形和光谱图。

由于对音频质量定量评估的单一方法没有共识,我们使用多种指标来评估重建结果,如MSE,对数谱距离(LSD) [21],SI-SNR [22], PESQ [23], STOI[24]和CDPAM[25]。我们还将模型的重建质量与RAVE基线进行了比较。此外,我们还测试了用我们的模型进行重采样的质量。最后,我们研究了目标网络大小和使用的损失函数对重构质量的影响。我们的实验结果如表1所示。除非明确提到,实验中的模型超参数如第3节所述。

**与RAVE的比较:**在相同的数据集上,我们比较了hypsoundound和经过3M步长训练的RAVE[15]在相同的采样率为22 050 Hz下的重建误差。我们发现,我们的模型在谱域产生的重建更接近原始,并获得更好的PESQ和STOI感知分数。然而,RAVE重构获得了更好的MSE, SI-SNR和感知CDPAM得分,略微减少了可感知的噪声和机器人伪像。

重采样时的重构质量: 我们还测试了以22 050 Hz为采样率训练的模型在将22 050 Hz的记录向下采样和向上采样到其他常用频率:8000 Hz、16 000 Hz和44 100 Hz时的重构误差。我们通过使用soxr高质量设置将原始VCTK 48khz录音下采样到所需的采样频率,从而获得地面真相。正如LSD级别所示,超网络方法在重构接近训练所用采样率的信号情况下工作得最好。然而,当从训练域以外查询时间坐标时,它不会崩溃。然而,我们假设,对于适当的超分辨率能力,我们的学习机制将需要引入一个额外的损失项,专门针对在更高频带中的表示质量。

目标网络架构的影响: 我们将使用基线目标网络(每层256个神经元,206K参数)的模型与使用4层64个神经元(14K参数)和6层384个神经元(752K参数)的目标网络进行比较。我们发现,由于最后一个超网络层的大小与目标网络中的参数数量成线性增长,因此基础版本在重构质量和计算需求之间呈现出最佳的权衡。目标网络的较小变体使用比原始信号中样本数量更少的参数实现了与基数相当的结果。

损失函数的影响: 我们将用第3.3节中描述的损失函数训练的hysoundound与使用STFT损失训练的模型进行比较,在STFT损失中我们不应用mel尺度,但使用了更广泛的FFT大小数组[128;256;512;1024;2048]。我们也尝试没有平滑L1损失的训练(λSL1 = 0;此外,我们发现STFT对于稳定训练和获得感知上似是而非的重构至关重要,因为我们的训练在λSL1 = 1时运行,λST F T = [0:1;0:01]倒塌。结果证明,损耗函数的L1部分导致稍好的结果和更快的训练,因为它使模型能够正确地学习直流偏移。
【论文翻译】HyperSound: Generating INR of Audio Signals with Hypernetworks_第3张图片

5. Conclusion

我们演示了将超网络应用于音频信号隐式神经表示生成的可能性。用我们的模型生成的重建在数量上可与最先进的RAVE模型相媲美。然而,我们发现我们重建的感知质量还略有不足。我们希望通过优化超网络结构和设计更适合音频领域的目标网络来进一步改进我们的工作。信号压缩的初步结果也很有前景,但需要进一步研究。

你可能感兴趣的:(人工智能)