SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION

[arXiv:2202.07790v1]

Motivation

在以前的研究中,尽管波形方法在概念上引人注目,有时在主观评价中更受青睐,但它们在客观评价方面仍然落后于时频方法(例如,PESQ)。本文提出了一种因果语音去噪方法CleanUNet,它是在原始波形上建模。该模型基于编码器-解码器架构,结合多个自注意块来细化其瓶颈表示,这是获得良好效果的关键。该模型通过在波形和多分辨率频谱图上定义的一组损失进行优化。

Method

A模型架构

SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION_第1张图片

采用U-Net架构[27,34]。它包含一个编码器、一个解码器和它们之间的一个bottleneck。

Encoder:encoder具有D个编码器层。每个编码器层由一个一维卷积(Conv1d),然后是整流线性单元(ReLU)和一个1×1卷积(Conv1×1),然后是门控线性单元(GLU),所有的一维卷积都是因果关系的。

Decoder:解码器具有D个解码器层。每个解码器层以相反的顺序与相应的编码器层配对;每个解码器层由一个Conv1×1、GLU和一个转置的1-d卷积组成。每个decoder层中的ConvTranspose1d是因果的,并且与成对encoder层中的Conv1d具有相同的超参数,除了输入和输出通道的数量是反向的。

Bottleneck:bottleneck由N个自注意块组成。每个自注意块由多头自注意层和全连接层组成。每一层周围都有一个残差连接,然后是每一层的标准化。每个多头自注意层有8个头部。

B loss function

Loss函数有两项:波形上的l1损失和干净语音x和去噪语音xˆ=f(xnoisy)之间的STFT损失。设s(x;θ)=|STFT(x)|为x的频谱图的大小,其中θ表示STFT的超参数。然后,我们使用多分辨率的STFT作为我们的全波段STFT损失:

其中,m为分辨率的个数,θi为每个分辨率的STFT参数。然后,我们总的损失函数是

由于全频段M-STFT丢失有时会导致去噪语音的部分产生低频噪声,从而恶化人类听力测试。另一方面,如果只用l1损失进行训练,输出的部分是干净的,但高频带的准确性不如用M-STFT损失训练的模型。因此定义一个高波段多分辨率STFT损耗。最后,高频带损失函数为:

实验步骤

在三个数据集上评估了所提出的清洁数据集:(1)深度噪声抑制(DNS)数据集、(2)Valentini 数据集和一个内部数据集。

(1)DNS数据集包含超过10K的扬声器阅读10K的书籍的记录,采样率为16kHz。合成了500小时的-5到25dB的纯净和嘈杂的语音对来创建训练集。我们设置了剪辑L=10。然后,我们应用RevEcho增强到训练数据中。

(2)Valentini 数据集包含28.4小时的干净和噪声语音对,它们来自84个扬声器,采样率为48kHz。有4个信噪比水平(0、5、10和15dB)。在每次迭代中,随机选择L为1.33到1.5之间的实值。

(3)内部数据集包含100小时的干净和有噪声的语音,采样率为48kHz。每个干净的音频可能包含来自多个扬声器的语音。我们使用与第3.1节中的DNS数据集相同的数据准备(L=10)和增强方法。

实验结果

A CleanUNet与DNS上的几种SOTA模型比较

SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION_第2张图片

默认情况下,FAIR-denoiser只在DNS数据集上使用l1波形损失来进行更好的主观评估。研究了全波段和高波段STFT损耗。CleanUNet的性能优于所有基线客观评价。对于MOS评估,它得到的SIG和OVRL最高,BAK略低。

B 消融研究

SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION_第3张图片

进行了消融研究,以研究模型中的超参数和损失函数。调查了Bottleneck中的N=3或5个自我注意块以及损失项的不同组合。全波段STFT损失和N=5在客观评估方面始终优于其他指标。

SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION_第4张图片

为了显示CleanUNet中每个成分的重要性,我们通过逐步将成分替换为表5中的模型来进行消融研究。首先,我们用全波段STFT loss来训练FAIR-denoiser。该体系结构以D=5(内核大小K=8和步幅S=4)、重采样层(由sinc插值滤波器实现)和LSTM为bottleneck。接下来,我们用N=5的自我注意块替换LSTM,使得PESQ分数从2.849提高到3.024。然后,去掉了sinc重采样操作,并将编码器/解码器的深度降低到D=4,这只有很小的影响。最后,我们将深度增加一倍到D=8,并将内核大小减少到K=4,步幅增加到S=2,这显著提高了结果。

C 推理速度和参数量

SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION_第5张图片

D 在Valentini 数据集上的结果SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION_第6张图片

 E 在内部数据集上的结果

SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION_第7张图片

总结

本文介绍了一种在波形域内的因果语音去噪模型CleanUNet。我们的模型使用类似于U-Net的编码器-解码器作为骨干,并依赖于自注意模块来细化其表示。在不同的数据集上测试了模型,并表明它在语音去噪任务中在客观和主观评价指标方面达到了最先进的性能。还对架构设计的选择和不同的损失函数组合进行了一系列的消融研究。

2022.3.4

你可能感兴趣的:(PaperSummary,深度学习,人工智能)