生成对抗网络GAN(二) 语音相关

                       

多任务对抗学习[1]

这里写图片描述
为了获得对噪音的鲁棒性,引入多任务学习,分为三个网络:
- 输入网络(绿色),用作特征提取器
- senone输出网络(红色),用作senone分类
- domain输出网络(蓝色),domain这里指噪音的类型,总共17种噪声

为了增加对噪音的鲁棒性,增加了GRL层(gradient reversal layer),网络在反向传播的时候,对于domain网络过来的梯度取了α −α: 服从正态分布的noise samples

训练流程如下:
这里写图片描述
训练的时候需要clean speech和noisy speech的pair,以保证在去除噪声的同时保留原始语音的信息。

参考文献

[1].Adversarial Multi-task Learning of Deep Neural Networks for Robust Speech Recognition
[2].Invariant Representations for Noisy Speech Recognition
[3].SEGAN: Speech Enhancement Generative Adversarial Network

           

你可能感兴趣的:(生成对抗网络GAN(二) 语音相关)