STRAIGHT之基频提取

基于频率定点分析到瞬时频率映射的F0和非周期性准确估计

FIXED POINT ANALYSIS OF FREQUENCY TO INSTANTANEOUS FREQUENCY MAPPING FOR ACCURATE ESTIMATION OF F0 AND PERIODICITY

参考文献:
Kawahara H, Katayose H, Cheveigné A, et al. Fixed point analysis of frequency to instantaneous frequency mapping for accurate estimation of F0 and periodicity[C]//Sixth european conference on speech communication and technology. 1999.

摘要

基于两组滤波器输出瞬时频率的微分特性,提出了一种针对非平稳,类语音的基频估计方法。
从滤波器中心频率映射到输出瞬时频率的特定类型的固定点提供了输入信号的组成正弦分量的频率。当滤波器由等距Gabor函数与基数b样条基函数卷积制成时,固定点的微分特性提供了相应分量的载波噪声比的实际估计值。
这些估计值用于选择基本分量,并集成分布在其他谐波分量中的F0信息。

引言

准确可靠的基频(F0)提取在一般声音处理应用中具有重要意义,也是语音生成和感知的研究工具。本文结合 基于小波的瞬时频率分析和载波噪声比(C/N比)估计,提供了一种集成的F0提取方法,特别适用于基于信道VOCODER类型架构[3]的高质量语音操作[4,5]。在这种应用中,需要与一个基音周期相当的时间分辨率和不受波纹效应影响的跟踪能力(见图4)。这些要求仅靠基于短期傅里叶变换(stft)的方法或基于自相关的方法很难满足。
STRAIGHT之基频提取_第1张图片

经过该算法后的时频图:
STRAIGHT之基频提取_第2张图片

该方法由两个处理阶段组成。

  • 使用在对数频率轴上具有相同形状的等间距带通滤波器提取从滤波器中心频率到滤波器输出瞬时频率的映射固定点。这些固定点根据估计的C/N比值进行评估,以选择对应于F0的固定点。这个F0的初始估计已经有了合理的精度,但是可以通过第二阶段的细化程序来提高。
  • 第二阶段,在执行F0自适应STFT之前,引入了使用F0和F0导数的抛物线时间轴规整。基于时间规整的STFT的固定点分析提供了对应于谐波分量的固定点。然后对固定点的瞬时频率进行积分,利用固定点的C/N信息得到误差最小的F0估计。估计的谐波分量的C/N比还提供了控制源信号周期性的信息,适用于语音再合成。

算法

固定点分析

由希尔伯特变换得到相位,其导数为瞬时频率。

STRAIGHT之基频提取_第3张图片

1.带通滤波器设计

要使用瞬时频率进行F0估计之前,通过一个带通滤波器组,其由沿对数频率轴等间隔的滤波器和一个特别设计的脉冲响应和选择机制组成。

假设Gabor函数在时域和频域上都具有与基本周期和F0相关的等效的相对分辨率。
STRAIGHT之基频提取_第4张图片

其中 * 表示卷积,ŋ表示时间拉伸因子。如果λ= 2πF0,与b样条进行卷积可选择性地抑制来自邻近谐波分量的干扰。
这些滤波器均匀地分配在对数频率轴上。换句话说,计算了一个连续的小波变换。

2.固定点提取
STRAIGHT之基频提取_第5张图片
其中ε表示任意小的正常数。

图1展示了F-IF映射和对应于F0的固定点。 使用一组滤波器沿对数频率轴等间隔来计算映射。 间隔是一个八度24个滤波器。 请注意,F-IF图仅在F0附近显示稳定的平台,因为只有滤波器通带中F0附近的主要正弦分量才能是基本分量。 与谐波分量或共振峰频率之一对应的其他固定点不可避免地受到同一通带内相邻(主要是较低的)谐波分量的影响。
STRAIGHT之基频提取_第6张图片

3.载波噪声(C/N)比估计
利用每个固定点的微分参数,客观地定义了平台的优度。假设下面的信号模型围绕着一个固定的点,这个点对应于一个主载波频率Wh(t)。然后假设在主正弦信号中添加一个振幅 0<ε ≤ 1 的小正弦噪声分量。

STRAIGHT之基频提取_第7张图片
STRAIGHT之基频提取_第8张图片

固定点选择

如果信噪比不是太低,那么F0对应的固定点就是C/N比最低的固定点。
F0是指当最大C/N比为20db及以上时,选择提供最大C/N比的固定点作为基础分量。它也很容易向前和向后跟踪最近的固定点,以提取浊音部分的端点。

周期性分析

上一节给出的F0估计可以通过使用分布在其他谐波分量中的F0信息进一步改进。谐波分量分析还提供了关于每个谐波频率的非周期性的信息,这对信号再合成是有用的。

抛物线时间规整
利用提取的F0信息进行自适应STFT分析有望实现谐波分量的分离。然而,在较高频率区域,定点轨迹具有不连续和不规则性。一些频率区域向基本分量轨迹的相反方向移动。图4展示了一个典型的示例。
图4显示男性连续发音的日语元音序列/aiueo/中提取的固定点的时频散点图。它与图3所示的材料相同。前四个谐波分量与基本分量成比例。然而,在450毫秒到500毫秒以及高于2KHz的区域,可以发现不规则现象。这是由于上面描述的波纹效应。
STRAIGHT之基频提取_第9张图片
STRAIGHT之基频提取_第10张图片

这些不规则性可以通过引入非线性时间规整来缓解,使新时间轴上的基频保持恒定[1]。
STRAIGHT之基频提取_第11张图片

当w0(t)的导数近似为常数时,最后一个方程近似于相位函数。这一条件适用于F0轨迹平滑的一小段。换句话说,局部的抛物线时间规整近似于原始的全局非线性时间翘曲函数。
两种表征提取的固定点的C/N比值表明波纹区域周围的C/N恶化是一个明显的影响。引入时间规整后,C/N比值恢复到正常水平。因此,基于F0导数的抛物线时间规整允许对来自更高谐波的F0信息进行基于C/N的积分。F0信息分布在不同的谐波分量之间。
每个谐波分量的C/N信息提供了分量频率的方差估计。C/N估计值足够高的谐波信息可以被整合以最小化F0估计值的误差。初步测试表明,这种整合对减少男性语音中的F0错误特别有用。

[2]首次报道了一种基于滤波器中心频率到输出瞬时频率映射的不动点的F0提取方法,[1]对其进行了改进。然而,如果没有对数线性滤波器组、特殊脉冲响应和C/N比估计的组合,它的用处是有限的。为了估计C/N比,Kaiser能量分离算子预计将提供类似的指标[6]。然而,人们发现该算子在数值上对噪声过于敏感,无法应用于定点分析。基于所提方法的初步观测,从低频分量提取的F0轨迹和从高频分量提取的F0轨迹可能存在系统差异。仔细讨论如何定义F0的各个方面是至关重要的。

你可能感兴趣的:(信号处理,语音基础知识,人工智能,音频,算法)