语音识别-语音增强-加噪声混响

文章目录


语音识别常用噪声库和混响库

  1. OPEN SLR17(加性噪声)

这个就是非常出名的MUSAN噪声库,总共约11G,目录包含三个分类:
├── README
├── music
├── noise
├── speech

music中是音乐噪声;
noise包含各种背景噪声;
speech是一些说话人语音;

  • 源openslr链接:http://www.openslr.org/resources/17/musan.tar.gz
  • 国内源链接:https://openslr.magicdatatech.com/resources/17/musan.tar.gz
    (用第二个链接会快一些;)
  1. OPEN SLR28(混响噪声)

这个混响包含了real和simulated,包含不同房间大小的

  • 源openslr链接:http://www.openslr.org/resources/28/rirs_noises.zip
  • 国内源链接:https://openslr.magicdatatech.com/resources/28/rirs_noises.zip

参考链接

  • https://zhuanlan.zhihu.com/p/94273132
  • https://www.zhihu.com/question/278918708/answer/631873989

PS:

  • 可以使用torchaudio.sox_effects改变音速和音量,对语音进行进一步增强;
  • 可以将这两个库作成lmdb库,在语音相关模型训练时进行在线加噪声和混响,可以参考wekws项目中的add_noise/add_reverb实现。

你可能感兴趣的:(语音识别,人工智能,python)