《SEGAN: Speech Enhancement Generative Adversarial Network》论文阅读

本文的作者是Santiago Pascual,Antonio Bonafonte,Joan Serra。

研究动机

       目前语音增强的技术都是用在频谱域上或者高维特征上,这样的话,大多数的音频处理会受到噪声环境数量的限制并且依赖一阶统计特征。为了解决这些问题,深度网络是可以从大型的数据集上学习到复杂的映射。本论文中,提出了增强GAN网络,名叫SEGAN,它是直接用时域的波形当作输入送入到网络当中去的,在看不见的测试集下进行测试的。SEGAN有几个特点:第一,它的处理是很快的,非因果被用到,但是没有用到类似RNN当中的递归操作。第二,是一种端到端的,直接操作在时域音频上。第三,是从不同的音频和噪声类型中学习到的,共享参数,所以使得泛化性能更好。

       GAN网络由G(generative)和D(distrimi)组成的,最终用到的是G。G使用真实的分布例子x来学习到另一种分布例子z,让学习到的例子尽可能和训练集中的分布一样。G主要任务就是学习一种映射,这种映射能够从真实的数据分布中模仿去产生新的样本数据,和数据集相关的样本数据,最为重要的一点是,G没有记忆输入输出对,而是通过数据分布特征映射到先前定义的Z。D是一个二分类器,最开始的输入是真实的样本,之后输入的样本是来自G产生的假样本,这样D就可以判断那个样本是真实的,那个样本是假的,最后冻结D,让G产生的输出看看在D里面那些是真的,那些是假的,根据假的在回传调整G的网络,直到G能够产生让D判断是真的的样本,这样就骗过了D。GAN网络训练到什么时候算好呢?就是当D真的把G生成的样本当成是真实的样本,这样子,G产生的增强样本就是合格的样本,最终,我们投入到使用中的是G,因为是G产生了增强的样本。G和D的关系也可以叫做是一种极大极小博弈,当一个变大时,另一个就是小的,符合这个规律。

《SEGAN: Speech Enhancement Generative Adversarial Network》论文阅读_第1张图片《SEGAN: Speech Enhancement Generative Adversarial Network》论文阅读_第2张图片

《SEGAN: Speech Enhancement Generative Adversarial Network》论文阅读_第3张图片

        这是G网络的结构,采用的是卷积操作,encoder中,输入的是时域的波形,经过卷积后,产生了输出向量C,然后让输出的向量C和浅层表示ZCat到一起,通过decoder产生输出,得到增强样本。

       实验做的就是和维纳滤波还有本身的带噪语音进行的对比:(实验效果还可以)

《SEGAN: Speech Enhancement Generative Adversarial Network》论文阅读_第4张图片

这是一个主观的测试:效果也是挺好的。

《SEGAN: Speech Enhancement Generative Adversarial Network》论文阅读_第5张图片

你可能感兴趣的:(音视频,其他)