FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHODBASED ON MULTI-SCALE TEMPORAL CONVOLU

题目:

FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHOD
BASED ON MULTI-SCALE TEMPORAL CONVOLUTIONAL NETWORK

[ICASSP 2022 arXiv:2203.07684v1]

Motivation

由于训练数据的限制和计算复杂度,全波段(48kHz)语音信号的实时增强非常具有挑战性。由于高频部分的频谱信息能量较低,导致利用神经网络对全频谱进行直接建模和增强更加困难。为了解决这一问题,本文提出了一种具有提取-插值机制的两阶段实时语音增强模型。

Method

通过提取的方法将单通道全频带信号分为三个子通道宽带信号,其中j表示信道的索引。在第一阶段,使用一个固定长度的长期嵌入单元和一个动态的长期嵌入单元来捕获语音信号的时间依赖性,然后使用多尺度时间卷积网络(MSTCN)对其进行多尺度特征分析。通过MSTCN后的6个一维卷积计算。在第二阶段,使用类似于动态长期嵌入单元的拓扑结构来进一步抑制剩余噪声,并补充一些被低估的频谱细节。最后,将增强的子信道信号在时域内进行插值,得到最终的波形。

FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHODBASED ON MULTI-SCALE TEMPORAL CONVOLU_第1张图片

A  Extraction and Interpolation

提出对全波段语音信号进行处理。n_{FB}表示全频带时域语音信号,nj表示提取后的子通道语音信号,其中j=为0、1、2。我们通过提取操作将单通道扩展到三个子通道,通过FB-MSTCN模型可以学习不同子通道之间的关系。这三个增强的子通道语音信号可以通过等式的逆操作被插值为一个全频带语音信号。

B  Fixed-Length Long-Term Embedding Unit

在固定长度的长期嵌入单元中,使用门控时间卷积模块(GTCMs)来捕获幅度谱的时间依赖性信息。每组有6个gtcm,重复三次。在每一组中,扩张率d分别为1、2、4、8、16,这使得模型具有固定长度的接受域,以捕获幅度域的长期嵌入特征。

FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHODBASED ON MULTI-SCALE TEMPORAL CONVOLU_第2张图片

C  Dynamic Long-Term Embedding Unit

提出了一种类似的拓扑结构U^{2}-LSTM,如图3所示,来建模压缩的复杂特征。在U^{2}-Net的基础上,添加了一个四层的LSTM来捕获动态的长期上下文信息。

FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHODBASED ON MULTI-SCALE TEMPORAL CONVOLU_第3张图片

D  Multi-Scale TCN

使用MSTCN框架,对获得的两个长期嵌入特征进行多尺度子带分析,可以表示如下:

 其中,和(t)分别为多尺度核和当前子带的输出。t、b、K和d分别表示帧指数、子带指数、核大小和膨胀因子。Y_{b}表示每个波段的输入特征,F˜md,b−1是子波段b对应的相邻波段的输出。这里的MSTCN由三组多尺度TCN模块组成。

E  Compensation Model

该补偿模型采用了类似于动态长期嵌入单元的拓扑结构,将U^{2}-LSTM输出的6个通道分别通过核大小为1的一维卷积进行卷积,计算出补偿值。通过对第一阶段的mask结果添加补偿值,可以得到增强的复谱。通过补偿模型,进一步抑制剩余噪声。

F loss

最终的损失是通过将3个子通道上的cMSE损失平均得到的。

实验步骤

Train-set:删除低信噪比的DNS-4 challenge全波段纯净数据集:885小时的英语数据,382小时的德国数据,130小时的西班牙数据,127小时的法国数据,99小时的意大利数据,还有18个小时的俄罗斯数据。最后生成了一个2000小时的noisy-clean数据作为训练集。

Test-set:5小时,信噪比范围为-5dB到10dB。

实验结果

FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHODBASED ON MULTI-SCALE TEMPORAL CONVOLU_第4张图片

 比较了GTCMs、U^{2}-LSTM、补偿阶段对模型性能的贡献,以及*代表了使用MSTCN模型直接增强全波段频谱的方法。结果表明,所提出的提取-插值处理策略可以有效地提高DNSMOS的性能。此外,U^{2}-LSTM和补偿模型对模型的性能有显著的贡献。

 FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHODBASED ON MULTI-SCALE TEMPORAL CONVOLU_第5张图片

FB-MSTCN模型具有非常显著的性能优势,总体上优于基线模型。另外,模型是在多语言数据上进行训练的,而DNS-4的盲测集仅是英语版本的,如果只对FB-MSTCN模型进行英语训练,则可以获得更好的性能。

总结

针对实时场景下的全波段语音增强任务,提出了一种新的extraction-interpolation解决方案。通过区间采样,将全频谱的困难建模问题有效地简化为三通道宽带频谱的建模问题。所提出的两阶段模型FB-MSTCN进一步将每个宽带频谱的增强问题分解为“masking + compensation”的两步优化问题。

2022.3.16

你可能感兴趣的:(PaperSummary,神经网络,深度学习)