文章主要是将混合音频的声谱作为输入,人声,bgm的声谱作为标签, 通过GAN来完成近似过程,生成器最后一层用的output_voice=[z_voice/(z_voice+z_bgm)]*x,output_bgm=[z_bgm/(z_voice+z_bgm)]*x而且文章中的生成器是经过预先训练后的。我在MKR-100上用SVSGAN时难以训练(以后换成wgan)。
0.摘要
从混合音频中分离出两种来源是一个重要的有许多应用的任务。它是一个具有挑战性的问题,因为只能从样本中获得一个信道。在本文中,我们提出了一个利用带有时频掩蔽函数的生成对抗网络来处理背景声人声分离的新颖框架。混合声谱被认为是一种分布,其被映射到一个也被认为是一种分布的干净的声谱。对抗训练过程就是将混合声谱和干净声谱近似的过程。与当前的分离背景声人声的深度学习相比,我们所提出的框架的参数在最开始的监督学习过程被初始化,然后在对抗训练中优化。在(MIR-1K, iKala and DSD100)三个数据集上的实验结果都表明我们所提出的框架能够提升性能。
1.介绍
单声道分离对于许多音乐软件来说是很重要的,有时也被用于音乐信号分析的预处理步骤.例如,leading instrument detection[1,2] 从它的伴奏中分离一种主要的乐器。Singing pitch estimation[3-5] 能够改进通过分离人声,背景声。Cover song identification[6] 也是基于主导乐器或者音调特征。
对于背景声人声分离已经有数种方法。Rafii 和Pardo提出REPERsystem[7]通过提取重复音乐结构来分离人声,背景声。低秩且稀疏的音乐假说已经被用于矩阵分离[8-11]。广泛使用的非负矩阵分解被应用通过学习非负重组bases和weights 来分离背景声人声。再如,一个复杂的NMF模型[13] 已经被用来联合预测光谱图和相位.
随着深度学习的发展,Mass et al[14] 使用循环神经网络(RNN)来构建一个干净的人声.Huang et al[15]随后提出带有区别的训练来从背景声来重组人声。Trainging multi-context networks[16,17] 提出不同的输入在层等级上结合来提升音频分离的性能。Deep clustering[18] 也被用来音乐分离,在神经网络输出和数据增强上使用维纳滤波来进行处理,也被用来处理人声乐器分离。所有的这些深度学习技术都从监督学习中使用非线性层来学习需要优化的隐层表示。
生成对抗网络是一个新的深度学习生成网络[20],已经广泛使用在计算机视觉来生成现实图片。在音频分离方向,Pascual et al[21] 提出使用GAN来进行语音增强,这技术应用在音波领域且旨在生成更加干净的波形。
本文提出一个通过GAN(SVSGAN)来处理人声分离的新颖框架,该框架适用于频域且使用条件GAN.据我们所知这是第一次使用对抗生成网络来处理人声分离。我们把每一个声谱视为一个来自于声谱分布的一个采样向量.在对抗训练过程中优化混合谱图和干净谱图之间的分布的非线性映射。在对抗训练前,生成器的参数在监督学习中被联合优化,然后再被SVSGAN训练过程中优化。最后将时频掩蔽应用在生成器的输出。所提出的框架展示在Fig.1。
2.生成对抗网络
Ian et al[20] 提出生成对抗模型,学习来自一个分布的样本z映射到来自其他分布的样本x。GAN由生成模型G和判别模型D组成,来完成2个玩家的最小最大化游戏。G旨在模仿真实的数据分布,D是一个二分类分类器,试图去准确的辨别真实数据和生成数据。在这场min-max游戏中,优化下列目标函数:
x是采样自Pdata的真实数据,G(z)代表采样自PG分布的人工数据.在[20]中显示,足够的训练数据和epochs 允许分布PG来覆盖分布Pdata。
为了获得更多映射信息,我们使用CGAN,使用了一些边际信息来增强CGAN.假设有一个上下文向量y 作为边际信息,生成器G(z,y) 试图在y控制下合成真实数据。同样的,CGAN模型允许上下文向量y控制判别模型D(x,y)的输出。所以目标函数变成为下列.
在我们项目中,我们调整CGAN的输出,这将会在第三部分讨论。
3.我们项目
3.1 Model of Singing Voice Separation GAN (SVSGAN)
SVSGAN结构包含2个传统的深度神经网络(DNN):生成器G和判别器D,在Fig2中有所体现。我们使用幅度谱作为特征,把每个谱图作为来自于谱分布的一个采样向量。在输出的混合谱图和输出的干净谱图中进行非线性映射,这其中包括人声部分和背景声部分。生成器G输入一个混合的谱图,然后产生实际的人声和背景声谱图,判别其D再从这些生成的谱图中分辨出干净的谱图。
幅度谱是从时域语音信号进行短时傅里叶得到的,输出y1和y2是不同音轨的幅度谱。在训练后,整个网络输出预测数据-幅度谱y1_hat和 y2_hat。时频掩蔽能够平滑分离的结果,时频掩蔽定义如下:
其中f=1,2,....F,代表不同的频率.在计算完时频掩蔽完后,它将应用在混合信号的谱z上,来预测分离谱s1_hat,s2_hat。
f=1,2,.....F,代表不同的频率.但是基于[15]。联合优化能够实现更好的结果.同样的,我们不是在训练时频掩蔽,而是用时频掩蔽函数来训练。正如Fig2左边部分所展示一样,时频掩蔽函数被看作是网络输出的额外的层,定义如下:
⊗代表点乘.y1_hat和y2_hat是被预测出的谱,它俩能与相位信息使用ISTFT转成时域信号。通过这种方式,网络和时频掩蔽能够被联合优化。在我们所提出的框架中,最后输出是与等式(5)是相同的。
3.2 Training Objective Functions
在进行对抗训练之前,生成器G的参数先通过等式5进行监督训练,目标函数j是MSE函数,定义如下:
在参数初始化后,生成器G为我们的实验提供基线性能。
为了符合生成器G的输入,SVSGAN训练目标函数通过调整后的等式2 定义如下:
Sc代表y1和y2的拼接,G(z)的输出是由y1_hat和y2_hat组成的预测谱。
判别器D的输出通过增强后的谱z输出。直到这一步,SVSGAN不仅仅近似输出谱与输出谱之间的分布,而且也学习到了谱的大体结构。除此之外,我们使用logD技巧[20]作为生成器G的目标函数。
使用更复杂的训练目标函数和更强的神经网络能够得到更好的分离结果,例如RNN或者CNN,但是我们使用了一个最基本的神经网络结构和MSE作为训练目标函数。
4.实验
4.1 数据集和参数设置
我们所提出的框架在MIR-1K, iKala and DSD100数据集上进行了评测。MIR-1K数据集包含1000个持续4到13秒的采样频率为16000Hz的歌曲片段.这些片段是非专业人员所唱的110首中国流行歌曲。iKala数据集包含352 个30秒的采样频率为44100Hz的歌曲片段。这些片段都是由专业人士所演唱的中国流行歌曲片段,只有252首歌曲片段作为公共数据集被发布。在这两个数据集的每一个歌曲片段都是立体声录音,其中每一个通道都是唱歌的人声,另一个通道是背景声。在试验设置中,我们随机的选择了1/4的歌曲片段作为训练数据,剩下的作为测试集。
DSD100数据集是MUS的子数据集,它包含了训练和测试部分,每个部分包含50首采样频率为44100Hz的歌曲。每一首歌提供四个来源:bass,drum,other,vocals 和混合音频。这些歌曲的平均持续时间为4分10秒。
为了减少计算花销,来自ikala和DSD100数据集的所有的歌曲片段都被下采样为22050Hz。我们使用窗口大小为1024,hop 大小为256的STFT来产生幅度谱。然后我们用SDR(信号偏差比),SIR(信号干扰比),SAR(系统误差比)作为评测指标。对于Ikala和MIR-1k数据集,所有的评测都使用带权的SDR,SAR和SIR。
4.2 实验结果
为了比较传统DNN和SVSGANs的性能,我们建造了一个包含3层隐藏层,每层包
含512个神经单元的传统DNN。在SVSGANs中,生成器G的结构和基线结构一样,
判别其D包含3个隐藏层,每个隐藏层包含512个神经元。在SVSGANs中不同点就是判别器D的输入谱,如Table1 所示,V代表人声谱,B是背景声谱,M是混合谱。DNN与SVSGANs相比,在IKala和MIR-1k的结果表明了SVSGANS增强了SDR和SAR。SVSGAN的不同结构相比较,SVSGAN(V+B)代表原始GAN结构,SVSGAN(V+M)和SVSGAN(V+B+M)代表条件GAN的结果。我们发现SVSGAN(V+M)能够能够达到更好的效果,表明当判别器D的输入包含混合谱时,SVSGAN(V+M)不仅仅学了了从混合谱的分布映射到干净谱的分布,也从混合谱学习到了大体结构。
把SVSGAN(V+M)和SVSGAN(V+B+M)相比,SVSGAN(V+B+M)对于判别器来说有更多的输入,表明增加判别器D的输入数量能够提示升性能。
Fig.4 比较了DSD100数据集上的测试部分。DNN(baseline)和SVSGAN(V+B+M)同样在iKala和MIR-1k数据集上进行了评测。因为我们的模型只在数据集上的Dev部分进行了训练,而没有其他增强数据集,例如MedleyDB[26],SVSGAN(V+B+M)表现并不是很好。但是这结果仍然表明生成对抗网络能在人声背景声分离中有很好的前景。
5 结论
本作提出了一个人声分离模型,该模型利用带有时频掩蔽函数的对抗生成网络来分离单声道的歌曲。整个框架包含两个传统条件GAN网络,并且展现了其分离性能的潜力。我们可能会在以后进行三个改进。第一,我们会进行额外的数据增强来获得更好的性能。第二,我们将会利用CNN,RNN来提升生成器G和判别器D的性能。最后,我们会探索使用WGAN来获得好的性能。
6. 参考文献
[1] J. L. Durrieu, B. David, and G. Richard, “A musically motivated mid-level representation for pitch estimation and musical audio source separation,” IEEE J. Sel. Topics Signal Process.,
vol. 5, no. 6, pp. 1180–1191, Oct 2011.
[2] S. Uhlich, F. Giron, and Y. Mitsufuji, “Deep neural network based instrument extraction from music,” in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (ICASSP), 2015, pp.
2135–2139.
[3] C. L. Hsu, D. Wang, J.-S. R. Jang, and K. Hu, “A tandem algorithm for singing pitch extraction and voice separation from music accompaniment,” IEEE/ACM Trans. Audio,Speech, Language Processing, vol. 20, no. 5, pp. 1482–1491,July 2012.
[4] Z.-C. Fan, J.-S. R. Jang, and C.-L. Lu, “Singing voice separation and pitch extraction from monaural polyphonic audio music via DNN and adaptive pitch tracking,” in Proc. IEEE Int. Conf. Multimedia Big Data. (BigMM), 2016, pp. 178–185.
[5] Y. Ikemiya, K. Itoyama, and K. Yoshii, “Singing voice separation and vocal f0 estimation based on mutual combination of robust principal component analysis and subharmonic summation,” IEEE/ACM Trans. on Audio, Speech, and Language Processing, vol. 24, no. 11, pp. 2084–2095, Nov 2016.
[6] J. Serra, E. G ` omez, and P. Herrera, ´ Audio Cover Song Identi-fication and Similarity: Background, Approaches, Evaluation,and Beyond, pp. 307–332, Springer Berlin Heidelberg, Berlin,Heidelberg, 2010.
[7] Z. Rafii and B. Pardo, “REpeating Pattern Extraction Technique (REPET): A simple method for music/voice separation,”IEEE Trans. Audio, Speech, Language Process., vol. 21, no. 1,pp. 73–84, Jan 2013.
[8] P.-S. Huang, S. D. Chen, P. Smaragdis, and M. HasegawaJohnson, “Singing-voice separation from monaural recordings using robust principal component analysis,” in Proc. IEEE Int.Conf. Acoust., Speech and Signal Process. (ICASSP), 2012, pp.57–60.
[9] P. Sprechmann, A. M. Bronstein, and G. Sapiro, “Real-time online singing voice separation from monaural recordings using robust low-rank modeling,” in Proc. Int. Soc. Music Info.Retrieval Conf. (ISMIR), 2012, pp. 67–72.
[10] Y.-H. Yang, “Low-rank representation of both singing voice and music accompaniment via learned dictionaries,” in Proc.Int. Soc. Music Info. Retrieval Conf. (ISMIR), 2013, pp. 427–432.
[11] T.-S. Chan, T.-C. Yeh, Z.-C. Fan, H.-W. Chen, L. Su, Y.-H.Yang, and R. Jang, “Vocal activity informed singing voice separation with the iKala dataset,” in Proc. IEEE Int. Conf.
Acoust., Speech and Signal Process. (ICASSP), 2015, pp. 718–722.
[12] B. Zhu, W. Li, R. Li, and X. Xue, “Multi-stage non-negative matrix factorization for monaural singing voice separation,” IEEE/ACM Trans. Audio, Speech, Language Processing, vol.21, no. 10, pp. 2096–2107, Oct 2013.
[13] P. Magron, R. Badeau, and B. David, “Complex NMF under phase constraints based on signal modeling: Application to audio source separation,” in Proc. IEEE Int. Conf. Acoust.,Speech and Signal Process. (ICASSP), 2016, pp. 46–50.
[14] A. L. Maas, Q. V. Le, T. M. O’Neil, O. Vinyals, P. Nguyen,and A. Y. Ng, “Recurrent neural networks for noise reduction in robust ASR,” in Proc. Interspeech, 2012, pp. 22–25.
[15] P.-S. Huang, M. Kim, M. Hasegawa-Johnson, and P. Smaragdis, “Singing-voice separation from monaural recordings using deep recurrent neural networks,” in Proc. Int. Soc. Music Info. Retrieval Conf. (ISMIR), 2014, pp. 477–482.
[16] X.-L. Zhang and D. Wang, “Multi-resolution stacking for speech separation based on boosted dnn,” in Proc. Interspeech, 2015, pp. 1745–1749.
[17] X.-L. Zhang and D. Wang, “A deep ensemble learning method for monaural speech separation,” IEEE/ACM Trans. on Audio,Speech, and Language Processing, vol. 24, no. 5, pp. 967–977,Mar 2016.
[18] Y. Luo, Z. Chen, J. R. Hershey, J. L. Roux, and N. Mesgarani,“Deep clustering and conventional networks for music separation: Stronger together,” in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (ICASSP), 2017, pp. 61–65.
[19] S. Uhlich, M. Porcu, F. Giron, M. Enenkl, T. Kemp, N. Takahashi, and Y. Mitsufuji, “Imporving music source separation based on deep neural networs through data augmentation and network blenging,” in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (ICASSP), 2017, pp. 261–265.
[20] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing
Systems (NIPS), 2014, pp. 2672–2680.
[21] S. Pascual, A. Bonafonte, and J. Serra, “Segan: Speech en-hancement generative adversarial network,” in Proc. Interspeech, 2017.
[22] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-toimage translation with conditional adversarial networks,” in arXiv:1611.07004, 2016.
[23] C.-L. Hsu and J.-S. R. Jang, “On the improvement of singing voice separation for monaural recordings using the mir-1k dataset,” IEEE Trans. Audio, Speech, Language Process., vol. 18, no. 2, pp. 310–319, Feb 2010.
[24] “SiSEC MUS Homepage,” 2016, [Online]
https://sisec.inria.fr/sisec-2016/2016-professionally-producedmusic-recordings/.
[25] E. Vincent, R. Gribonval, and C. Fevotte, “Performance measurement in blind audio source separation,” IEEE Trans. Audio,Speech, Language Process., vol. 14, no. 4, pp. 1462–1469, July 2006.
[26] R. M. Bittner, J. Salamon, M. Tierney, M. Mauch, C. Cannam, and J. P. Bello, “MedleyDB: A multitrack dataset for annotation-intensive mir research,” in Proc. Int. Soc. Music Info. Retrieval Conf. (ISMIR), 2014, pp. 155–160.
[27] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein gan,” in arXiv:1701.07875, 2017