语音处理——NN学习相关blog

基于深度学习的单通道语音增强

https://www.cnblogs.com/LXP-Never/p/14142108.html

abstract:

介绍目前基于深度神经网络单通道的语音增强方法,大致可以分为两类:

  • 基于映射的语音增强;
  • 基于Mask的语音增强:几种常见的利用模型训练的mask模型:
  1.   时频掩蔽

  2.   理想二值掩蔽(Ideal Binary Mask,IBM)

  3.   理想浮值掩蔽(Ideal Ratio Mask,IRM)

  4.   理想幅度掩蔽(Ideal Amplitude Mask,IAM)

  5.   相位敏感掩蔽(Phase Sensitive Mask,PSM)

  6.   复数理想浮值掩蔽(Complex Ideal Ratio Mask,cIRM)

https://blog.csdn.net/shichaog/article/details/105890125

深度学习语音增强

abstract:

监督深度学习依赖监督对象(训练集),由于训练集始终只能是大千世界的一个子集中的子集,所以其普适性和鲁棒性没有基于传统信号处理强,但是由于网络可以很复杂,因而在有些情况下其得到的模型可以比传统信号处理更精确(以计算量为代价)。大部分一线工程师更倾向于信号处理+深度学习两者结合的方法。

降噪的核心任务如图中地板公式所示,纯净语音=带噪语音-噪声=带噪语音*(1-噪声/带噪语音)=带噪语音*Gain,这样的话,只需要计算Gain值就可以得到纯净语音了,传统信号处理方法通过信号建模的方式获取Gain,监督深度学习方法是通过神经网络计算得到Gain。

基于掩码的深度学习方法:

基于特征提取的不同,有多种不同掩码的估计方法;

其他场景:多通道语音增强;回声消除;

基于时域信号的深度学习:

直接使用时域信号,用Encoder网络自主学习合适的网络结构,这取代了STFT,如TasNet就是这种思想,不过这种直接时域处理计算量往往一个问题。

 

 

 

 

 

 

 

你可能感兴趣的:(深度学习,语音信号处理,自然语言处理,机器学习)