块处理Block Processing
• 通过麦克风捕捉并通过数字化后模数转换器,输入的语音信号变成一系列量化样本
• 数字信号处理通常在称为“块”或“帧”的固定长度样本序列上执行
– 例如 在 Pure Data 中,默认的“块大小”是 64 个样本(即默认 44.1 kHz 采样率下的 1.45 毫秒帧)
• 由于语音的准平稳特性,帧尺寸是在一个帧中有足够的数据来完成所需的测量;具有足够小的数据量以保证平稳性假设成立
• 还必须确保有足够的捕获非平稳属性的帧数
为了适应所有这些限制,通常在语音处理中使用重叠帧
– ‘帧大小frame size’ (N):每帧的样本数
– “帧移位frame shift”(R):开始之间的样本数连续帧
• 帧大小通常以时间表示:NT 秒(其中 T 是采样周期)
• 帧偏移通常表示为“帧速率” fr = 1/RT 每秒帧数 (fps)
在演讲中,通常有帧长 (NT) =30 毫秒,帧速率(fr) = 100 帧/秒
• 例如:
sample rate (fs) = 10 kHz (10,000 samples/sec)
sample period (T) = 1/fs = 100 secs/sample
frame size (N) = NT/T = 0.03/0.0001 = 300 samples
frame shift (R) = 1/frT = 1/(100*0.0001) = 100 samples
frame overlap (N-R) = 300-100 = 20 msecs (66%)
短时能量
“短期能量”= 一帧中样本的平方和
过零率
‘ZCR’ = 零轴在一帧中交叉的次数
ZCR在清音中具有很大的值
浊音和清音语音定义如下: 语音由音素组成,音素由声带和声道(包括嘴和嘴唇)产生。 发音时声带振动时产生浊音信号。 相比之下,清音信号不需要使用声带。 例如,音素 /s/ 和 /z/ 或 /f/ 和 /v/ 之间的唯一区别是声带的振动。
语音/非语音检测
• 在语音处理中,通常是有用的能够检测到某人何时说话
• 准确的语音“端点检测end-point detection”非常难的
• 一个简单的“语音/非语音检测器”可以使用短时能源建造过零率:
– 浊音中的能量很高
– ZCR 在清音中很高
自相关函数
“自相关函数”计算信号与其自身的相关性(作为时间)
• 自相关函数 (ACF) 强调周期性
• ACF 是许多频谱分析的基础方法
• 短时 ACF (STACF) 是许多“音高检测器”(基频估计者)
• ACF 的计算成本相当高(因为每个都有一个内部循环运行数据样本)
• STACF 通常与 ZCR 结合起来构建一个“有声/无声检测器”
协方差和相关Covariance & Correlation
两个离散时间信号 x[k] ,y [k] 之间的“协方差”
离散时间信号之间x[k] 相同的信号 x[k]的“自协方差”
假设“广义平稳性”(WSS)协方差仅取决于 = 2 - 1 之间的差异考虑样本指数,即2 = 1 + k