什么是语音处理?
1.语音信号的研究和这些信号的处理方法
2.数字信号的一个特例应用于语音信号的处理符号
什么是声音?
声能,机械,海浪, 空气穿过的振动(或其他介质),(空气)压力变化
速度传播取决于密度
声压级 (SPL)
• 声压是局部压力偏差从环境大气压力引起的声波
• 声压 p 的 SI 单位是帕斯卡 (Pa)
• 声压级 (SPL) 是对数,相对于 a 的声音“幅度”的测量参考值
0 dB SPL 已被定义为人类听觉 (20 µPa)
什么是分贝(db)?
分贝dB是两个值的比例 10log10 (P1/P2)
声音“频谱”
• 声音可能被认为具有“音高”和“音色”
• 音高与重复发生的频率有关(单位时间内重复事件的发生次数)
• 音色与不同频率的 SPL 相关
Lp = 20 log10 (Prms/Pref) dB
声音频率
• 频率表示为“每秒周期数”(赫兹)
其中 n 是时间 t 的周期数,并且T 是“周期”(一个周期的时间秒)
例如,对于在空气中以 440 Hz 振动的音叉,产生的声音的“波长”是:
其中空气 v 中的声速为 343 m/sec。
在水中,声速 v 更快(1372 m/sec),因此波长 λ 更长(3.117 m)。
声音类型
• ‘浮躁’(Impulsive)(例如爆炸或拍手)
• “嘈杂”( Noisy)(例如海滩上的风或海浪)
• “重复”( Repetitive)(例如嗡嗡的昆虫或音叉)
这些反映了不同的方式声压会随时间变化
纯音
• 回想一下频率对应于出现的次数每单位时间的重复事件
• 然而,最简单的重复信号是“正弦波”(由弹簧、音叉或哨子上的重物产生)
a = A.sin(2pift +phi)
叠加(Superposition)
• 通过介质传播的声波互相“干扰”
• 然而,当声波结合时,它们服从“叠加原理”(即他们只是添加)
• 如果两个纯音具有相同的频率,幅度和相位,结果是一个纯音相同的频率,振幅的两倍
(“建设性干扰”)
• 如果两个纯音具有相同的频率并且幅度,但相位相反,它们相互抵消其他输出(“破坏性干扰”)
谐振(Resonance)
• 当波浪遇到障碍物时,它们会被反射
• 直接波和反射波相结合(利用叠加原理)
– 建设性干扰导致“共振”(即强调特定频率的能量)
– 相消干涉导致“反共振”(即特定频率下的能量减少)
• 隔音罩具有共振特性,是他们的功能……
– 物理尺寸
– 表面反射特性
• 一个简单的声学结构(如管子)具有直接的共振特性
谐振管(Resonant Tubes)
• 一个圆柱体的共振频率 f由f= (nv)/2L给出 (v 是声速,L是管的长度,n 是一个正整数 (1, 2, 3 …))
n = 1 给出了“基本”( fundamental)的频率;n = 2, 3 … 给出“谐波”( harmonics)的频率
声带的简化模型
我们认为由天鹅绒管封闭的鼻腔是一端闭合(声门端glottis end),另一端打开(嘴结束mouth end)
声道的表示统一无损的串联每个长度的声管段 derta x = L/n
管模型更类似于咽和口腔(同样没有鼻腔),即管的横截面A(x)在 x-方向上变化。
弦和管的共振
产生第一个共振的波长:1 = 2
• 一般来说:波长为 =2/ 对于谐波 或 =/2
• 侧面条件(A 点和 B 点的固定)定义其中最小值和最大值用于驻波
管的谐波
长度为 = 17 的管子(对应于成年男性声道的长度)
这种管子总是满足条件声压的包络线在管子的封闭端,开口端为 0(站立波浪条件)
对于长度为 = 17 的管子(对应于成年男性的声道长度)和声速 = 340 /共振频率是
= 4/( 2 – 1)
=( 2 – 1) / 4 = (2 – 1) 500z = {500,1500,2500,…}HZ i=1,2,3….
谐振管
• 在一般情况下,a 的谐振频率 f圆柱体由下式给出
f = (2i – (x1+x2))c/4L, (c是声速”, L是管的长度,i 是一个正整数 (1, 2, 3 …),x1是管子一端的开口度,x2是管子另一端的开口度)
i = 1 给出了“基本”的频率, i = 2, 3 … 给出“谐波”的频率
谐振管
例如。 对于 25 cm 圆柱体……
– 两端开放
• 基波 = 686 Hz
• 1st 谐波 = 1372 Hz
• 2nd 谐波 = 2058 Hz
• 3rd 谐波 = 2744 Hz
– 一端打开,另一端关闭
• 基波 = 343 Hz
• 1st 谐波 = 1029 Hz
• 2nd 谐波 = 1715 Hz
• 3rd 谐波 = 2401 Hz
– 两端封闭
• 基波 = 0 Hz
• 1st 谐波 = 686 Hz
• 2nd 谐波 = 1372 Hz
• 3rd 谐波 = 2058 Hz
对于 12.5 cm 圆柱体所有的共鸣频率是双倍的
人的声道(Vocal Tract)
基本 = 490 赫兹
– 1st 谐波 = 1470 Hz
– 2nd 谐波 = 2450 Hz
– 3rd 谐波 = 3430 Hz
励磁(Excitation)
• 为了让声学结构产生共鸣需要“兴奋”(由“能源”驱动)
• 正如我们已经看到的,声源可以是浮躁,嘈杂,重复
• 这些在许多不同的地方都富含能量
频率
• 所以共振/反共振的影响是增强/减少不同的输入能量,频率可以被认为是“过滤”
什么是信号?
• 信号是一个物理量,它可以携带“信息”
• 离散信号选自有限字母表或“密码本”
• 连续信号源自一维“标量”测量,测量的多维“向量”
标量:
信号:x[k]
矢量:
信号向量 x[k] = { x[k],x[k-1],…,x[k-K+1]}
矩阵
真实、静止的自相关和互相关随机过程:
自相关函数:E{x[k]x[K+k]}= rxx[k]
互相关函数:E{x[k]y[K+k]}= rxy[k]
自动功率密度谱
交叉功率密度谱
信号处理
• “信号处理”是分析、解释和传感器数据的操纵
• 例如,信号处理可用于计算全局“统计”(均值、众数、最小值、最大值等);在数据中找到“模式”
(趋势、重复等);推断数据的“原因”(例如条件变量);从数据中预测“结果”(例如天气预报);“转换”数据(缩放、旋转、映射等)
声音信号Acoustic Signals
物理系统可以响应气压变化(例如麦克风),产生气压变化(例如扬声器)
• 物理系统的机械性能会导致他们……
–“振荡”(例如音叉)
–“共鸣”(例如风琴管)
• 物理尺寸决定行为:
– 长弦的振动频率低于短弦(例如在弦乐器上)
– 大空腔以低于小腔(例如在管乐器中)
当能量持续供应时,则共振振荡可以持续,例如吹入管乐器,弓弦乐器,吹口哨
在有限时间内提供能量时周期,那么谐振振荡将是开始,然后随时间衰减,例如拨弦乐器,打击打击乐器,来自声带的脉冲
信号类型
• 确定性信号(完全可预测,给定生成器)“非周期性”信号aperiodic signals;“周期性”信号periodic signals
• 非确定性信号(随机变量的函数,所以不能完全预测)
正弦曲线Sinusoids
e ^(iwt) = cos(wt) + j sin(wt)
白噪声
• 完全随机的“随机”信号
• 在时间 t 的信号值没有给出关于时间的信号值(即它们完全“不相关”)
• 白噪声的特点是平均值标准差(或方差)
• 白噪声可以遵循任意的“噪声分布”:均匀分布;高斯(正态)分布
二进制噪声Binary Noise
光谱和相关性属性几乎没有不同于白色高斯噪声。
固定信号Stationary Signals
• “固定信号”是一种具有以下特性的信号不随时间变化……
– 恒定幅度和频率的正弦波
– 均值和方差恒定的噪声
• “非平稳信号”随时间变化……
– 幅度调制
– 频率调制
– 调制均值(和方差)
非平稳信号
• 平稳信号意味着存在一个常数进入系统的能源
• 如果能量在一个系统衰减, 信号非平稳
= ^( −) ∙ sin
准稳态信号Quasi-Stationary Signals
• 语音是周期性、非周期性和随机信号,因此它是非平稳的自然
• 在实践中,通常假设语音是在很短的时间间隔内(10-30 毫秒)静止,如果间隔太短,则没有足够的时间准确确定信号属性;如果间隔太长,语音属性会有显著地不同
• 这种“准平稳”假设用于几乎所有的语音信号处理(尽管是粗略的近似)