深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)

文章目录

  • Speech Separation
    • 1. Evaluation
      • 1.1 Signal-to-noise ratio(SNR)
      • 1.2 Scale invariant signal-to-distortion ratio(SI-SDR)
    • 2. Deep Clustering
      • 2.1 Masking
    • 3. Permutation Invariant Triaining(PIT)
    • 4. TasNet - Time-domain Audio Separation Network
    • 5. 存在问题
      • 5.1 未知说话人的个数
      • 5.2 多个麦克风
      • 5.3 基于视频的语音增强分离

Speech Separation

Speech Separation包含Speech Enhancement和Speaker Separation两种,这里主要讲的是Speaker Separation。

1. Evaluation

提到的两个指标都是值越大越好。

1.1 Signal-to-noise ratio(SNR)

该研究方向是有评价指标的,第一个是SNR,但是该方法很容易受限于声音音量的大小,如果输出结果和真实结果方向一致只是声音大小存在差异,也会导致SNR评价结果不高,但是如果因此调整音量,又会导致预测有偏差的结果SNR评价结果更差:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第1张图片

1.2 Scale invariant signal-to-distortion ratio(SI-SDR)

因此可以采用SI-SDR这样一个评价指标,可以解决上述问题如图所示:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第2张图片
在实际应用中,往往会计算对应的SI-SDR improvement,以及其他的评价指标,如图:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第3张图片

2. Deep Clustering

在训练过程中,存在ground-truth的对应问题,无法确定构建预测和groud-truth对来优化网络,如图:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第4张图片

2.1 Masking

在Deep Clustering中,将输出结果看成是Mask,然后将Mask的结果和原始matrix X点乘,再生成最终输出的结果,如图:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第5张图片
Ideal Binary Mask是通过比较两种分离的对应位置数值的大小来构建对应的Mask Matrix,将对应的Mask乘以原始Matrix就可以获得对应的分离后的人声:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第6张图片
因此可以构建一个Mask Generation网络,将Ideal Binary Mask作为训练目标,从而使得网络自动学习对应的Mask:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第7张图片
在Deep Clustering中,将原始频谱图输入到Embedding Generation网络中将每个网格转成对应的向量,再通过K-means对当前向量进行分类(如按说话人的个数分类,事先定好类别个数),从而生成对应的Mask:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第8张图片

3. Permutation Invariant Triaining(PIT)

将预测结果分别和ground-truth进行一一对应,选择loss较小的分配结果来调整模型,不断调整对齐:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第9张图片

4. TasNet - Time-domain Audio Separation Network

2019年提出的一个语音分离的模型,如图:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第10张图片
其中Encoder和Decoder细节如下:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第11张图片
Separator部门由wavenet构成:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第12张图片
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第13张图片
总的路线细节如下:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第14张图片

5. 存在问题

5.1 未知说话人的个数

在实际场景中,往往不知道有多少人在讲话,则每次仅分离一个说话人出来,然后将分离出的复合语音进一步分离:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第15张图片

5.2 多个麦克风

则将多个麦克风的输入作为输入:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第16张图片

5.3 基于视频的语音增强分离

通过视频辅助语音的分离:
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第17张图片
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)_第18张图片

你可能感兴趣的:(深度学习,深度学习,自然语言处理,神经网络)