【深蓝学院】语音信号处理|ch8-深度学习语音分离

语音信号处理|ch8-深度学习语音分离

概述

1. 深度学习语音处理

【目标】
①能够有更好的自动语音识别(ASR)的指标;
②能够有更好的人类听觉感知

【现状】
①可以显著提升处理过程的速度并且提升性能;
②基于深度学习的语音信号处理已经遍布很广;
③可以作为前端独立优化,也可以和后端的ASR模型结合起来。

2. 单通道语音分离

【概述】
①语音分离的过程定义为从背景干扰中直接提取出目标语音的过程,是一个很典型的信号处理问题;
②在机器学习的概念下被定义为一个有监督学习的问题——期待能够从语音、说话人和背景噪声中学习出可以相互区分的特征模式

【分类】
按照目标语音和背景干扰直接的类别,可以划分为——
语音增强:将语音和非语音部分进行区分;
语音分离:对多个说话人的声音分别加以区分,即语音和语音之间的区分;
语音去混响:将语音和因为设备、环境带来的混响进行区分。


基于DNN的语音分离

问题建模

【深蓝学院】语音信号处理|ch8-深度学习语音分离_第1张图片

解范式


单通道分离算法

语音增强

1. Masking-based

在语音的时频域基于SNR对语音做掩码预测,将预测得到的掩码和原始音频结合起来就可以得到增强后的语音——在IBM的训练目标下,其本质上就是保留了每一个SNR值较高的时频单元

【深蓝学院】语音信号处理|ch8-深度学习语音分离_第2张图片
2. Mapping-based

利用神经网络直接学习从含噪语音(谱或其他域的特征表示)到纯净语音(谱或其他域的特征表示)的非线性函数。

【深蓝学院】语音信号处理|ch8-深度学习语音分离_第3张图片

语音去混响

①在去混响的工作中通常都是采样Mapping的框架,而很少用mask(?);
②基于端到端设计去混响的网络架构,整体的逻辑还是比较清晰直接的

【深蓝学院】语音信号处理|ch8-深度学习语音分离_第4张图片

说话人分离

【目标】
对于含有两个及其以上的人声的混合音频场景中,将多个语音信号(每一个信号对应为一个说话人)抽取出来;

【分类】
①说话人相关(speaker dependent):在从训练到测试的整个过程中,潜在的说话人身份并未发生改变;
②目标说话人相关(target speaker dependent):在训练到测试的整个阶段中,干扰音频中的说话人信息可以发生改变,但是目标说话人的信息是未改变的;
③说话人无关(speaker independent):在训练到测试的阶段中没有一个说话人身份是一样的,即训练集和测试集完全服从不一样的分布。

1. Speaker Dependent
【深蓝学院】语音信号处理|ch8-深度学习语音分离_第5张图片
2. Target Speaker Dependent

整体的网络架构和训练逻辑与前者相差无几,只不过只针对某一说话人的音频进行分离工作;数据集和统计意义下对数据的假设有微小变化。

【深蓝学院】语音信号处理|ch8-深度学习语音分离_第6张图片
3. Speaker Independent
【深蓝学院】语音信号处理|ch8-深度学习语音分离_第7张图片

你可能感兴趣的:(语音与信号,公开课笔记,人工智能,语音分离,论文,语音增强,去混响)