AHOcoder声码器

AHOcoder声码器

目前最常见的声码器有WORLD,STRAIGHT,Griffin_Lim等,AHocoder算是少见的,但也可以学习一下。
代码下载网址:AHOcoder

简介

AHOcoder 语音声码器由 Daniel Erro 在巴斯克大学的 AHOLAB 信号处理实验室研发,专门为统计参数语音处理设计的语音编解码器,它可将语音信号转换为可处理的具有良好统计建模特性的向量。
AHOcoder 语音声码器的设计思想来源于谐波加噪声模型(Harmonics plus Noise Model, HNM),该模型将语音信号分解为低频段的谐波部分和高频段的噪声部分,但由于谐波数量会随基频的变化而变化。导致 HNM 特性不能直接用于统计系统。

引言

声码器做什么?
无论语音合成(主要指文语转换)、语音转换等任务中,声码器都扮演着重要的角色:它们负责将语音信号转换为易于处理的具有良好统计建模特征的向量集,从中尽可能高质量和自然地重建回语音波形。
在语音合成和语音转换中有何不同?
声码器对于语音合成系统来说尤其重要,因为它们只从模型中生成语音。语音转换系统不会产生新的语音信号,而只是对现有的语音信号进行转换。
那语音编码和语音合成有什么不同呢?
语音编码的主要目标是使用尽可能少的比特数来传输语音信号,以达到尽可能高质量的再合成语音。分析和重构过程中的实时性也是其典型要求之一。在统计参数框架中,声码器不仅必须具有高质量的再合成能力,而且还必须提供足以统计建模语音底层结构的参数,而信息压缩并不是优先考虑的问题。根据应用的不同,效率要求也可以放宽,主要是在分析模式中有所不同。
发展过程
在HTS(公开的基于hmm的语音合成系统)的第一个版本中综合系统中,语音以一定的帧速率参数化为两个流:logF0和频谱包络。
应用mel -广义倒谱分析计算谱(典型的mel -倒谱,MCEP)系数。在波形重建过程中,一个简单的脉冲/噪声激励(和F0有关)通过所谓的MLSA滤波器(和谱系数有关)进行滤波。由于激励的简单性,产生的语音会有嗡嗡声,后续工作尝试对频谱参数化后逆滤波得到残余信号进行分析,测量不同频段的发声程度,然后使用混合激励重建语音,如STRAIGHT。在后续工作中,与激励相关的第三个参数流的包含使得相对于双流基线声码器有了显著改进。其他一些工作假设受语音产生理论启发,因此用声道+声源方案取代了这种频谱包络+激励的方案。

参数分解

AHOcoder 语音声码器基于谐波加噪声模型(Harmonics plus Noise Model, HNM),该方法假定短时静止的语音信号片段可以分解为一个较低的谐波带和一个较高的类噪声带。注意,这个信号模型隐含地假设了一个双带混合激励,尽管它处理整个语音信号,而不仅仅是激励。但HNM特性(振幅,相位等)不能直接应用于统计系统,主要因为随时间变化的谐波数和它们对F0变化的巨大敏感性。
因此,我们将将语音波形参数分解成三部分:对数基频,梅尔倒谱系数和最大浊音频率。

三部分的特征提取:

对数基频

基音检测,AHOcoder 声码器使用的是自相关法检测基音周期。
语音信号x(m)的短时自相关函数为:
在这里插入图片描述
式中,
k:语音信号的延迟点数;
N:语音分帧的长度。
利用了自相关函数如下特征。
短时自相关函数反映了语音信号与其经过k 点延迟后的的相似程度。利用短时自相关函数的性质,比较原始信号与其延迟信号间的相似度,当两者具有最大相似度时,延迟量就等于基音周期。这就是获得语音信号基音周期的方法,称为自相关基音检测法。
如果信号x(m)具有周期性,则相关函数R(k)也是周期函数且周期性与x(m)相同;如果当k=0,T,2T…时,短时自相关函数取得最大值。这样就得到周期T。

为了优化基音估计,实现精确的谐波分析,我们探索了基于QHM(quasi-harmonic modeling)理论的基音优化算法。QHM假设语音片段可以局部近似为准谐波正弦的和:
AHOcoder声码器_第1张图片
其中fi为准谐波分量I频率的初始估计,ai为它们的复振幅,bi为这些复振幅随时间的复斜率。

梅尔倒谱系数

假设一个简化的语音产生模型,其中脉冲或噪声激励通过整型滤波器,得到的频谱包络就表示该滤波器的频率响应。

频谱包络不仅包含声道信息,还包括声门信息。

  • 清音帧中,噪声激励的频谱是平坦的,这意味着滤波器的响应与信号本身的频谱一致。
  • 浊音帧中,脉冲激发的频谱为恒定振幅,线性频率相位置于基频整数倍的脉冲序列。因此,信号的频谱为一系列的峰值,这些峰值由激励脉冲乘以滤波器响应的均匀间隔的频谱采样而得到。

假设信号短时平稳,全带谐波分析返回这些频谱包络的离散采样,然后可以通过插值来估计连续的包络。

k 帧处的 N 点幅度谱包络计算如下:
AHOcoder声码器_第2张图片

最大浊音频率(Maximum Voiced Frequency, MVF)

最大浊音频率是谐波与噪声在频域的分界点,假设高于 MVF 的部分只包含噪声,低于 MVF 部分只包含谐波。早期的声码器实现中 MVF 被认为是一个固定值,分解合成的语音效果也不错。但后来发现在语音合成的低频部分和句子结尾会伴随有轻微的嗡嗡声,这时就需要对MVF 进行调整。当局部最大浊音频率通过下面的线性关系进行调整时,这种现象可以得到缓解:
AHOcoder声码器_第3张图片
分析得到的 MVF 在合成语音时会产生更自然的结果,同时也保留了系统的实时生成能力。

基于HNM的波形重建

该模型以基音同步帧速率和帧长重建语音信号,时域卷积,频域乘积。
AHOcoder声码器_第4张图片

AHOcoder声码器_第5张图片
AHOcoder声码器_第6张图片

总结

综上所述,我们的最终选择是基于qhm的基音细化,和 MVF-dependent带宽,然后进行全频带谐波分析和Mel-RDC。基于since插值推荐39MCEP分析,因为它具有计算优势。

你可能感兴趣的:(信号处理,人工智能)