声音是由振动产生的,当物体振动时,会引起周围空气的波动,导致空气粒子间的距离发生疏密的变化,从而引发空气压强的变化,这种变化会传到人的耳膜,再传到人的大脑,人就听到声音了。
物理上,声音有四个基本特性:音色、音强、音高、音长。
声波是由物体振动产生的,当物体振动时,会引起周围空气的波动,这就是声波。最简单的声波就是正弦波,正弦波发出的声音叫纯音。但日常生活中我们听到的大多不是纯音,而是复合音,也就是多个正弦波的叠加(不同频率和振幅)。
声波每秒在空气中传播的距离,单位m/s。声速c受传播介质和温度的影响,常温常压下,声速c和温度t关系可简写为:c≈331.4+0.607t
常温常压下,声速约345m/s。
沿声波传播的方向,声波振动一周的距离,用λ表示,单位m。
波长λ,声速c,频率f三者的关系:c = λ*f。
振动物体离开平衡位置的最大距离,用A表示。简谐振动的幅度不变,强迫振动的稳定阶段的振幅也是一个常数,阻尼振动的振幅越来越小。振幅是表示振动强弱的物理量。
分贝dB是信号增益或衰减的单位,是描述两个相同物理量之间的相对关系。计算公式:
Ar:基准量;Al:被测量,当取以10为底的对数,就代表“级”,被测量比基准量高出多少级,如被测量是基准量的10倍,就是1级,100倍就是2级,每1级相差10或20dB。
注:
声强是衡量声音强弱的物理量。声场中,垂直于声波传播方向上,单位时间 内通过 单位面积 的声能叫做声强,用I表示,单位w/m2
本质:声场中某点声波能量大小的度量。
LI:声强级;I1:声强;Ir:参考声强,一般取10^(-12)瓦/平方米。
该数值是人对1KHz声音刚能听到时的声强值。
声源在 单位时间 内辐射的总声能量。用W表示,单位瓦W,毫瓦mW,微瓦μW。声功率大小只与声源本身有关。
LW:声功率级;W1:声功率;Wr:参考声功率,一般取10^(-12)瓦。
声强和声功率一般不易直接测,要根据测出的声压换算得到。
目前声学测量中,常用声压衡量声音强弱。
声波在大气中传播时,引起空气质点的振动,使空气密度发生变化,声波到达的各点上,气压时而比无声时的压强高,时而比其低,某一瞬间介质中的压强相对于 无声波 时的压强的改变量,叫做声压,记为p(t)单位pa。
声音在振动过程中,声压随时间迅速起伏变化,人耳感受到的实际只是一个平均效应,因为瞬时声压有正负值,所以呢,有效声压就取瞬时声压的均方根,即总是正值。
PT:T时间内有效声压Pa;P(T):某一时刻瞬时声压Pa。
Lp:声压级;P1:声压;Pr:基准声压,一般取2*10^(-5)Pa,该值是人耳对1KHz声音刚能听见时的声压,作为声压级的0dB。
注:
具体看一个例子:
为什么16bit音频信号的采样值在正负32768之间。
在praat软件上,可查看音频信号的信息:
看蓝线下面信息,振幅,就是用声压值来标示的。
人耳对声音强弱的主观评价尺度,主要取决于声压,也和频率有一定关系。声压越大,人耳听到的响度也就越大,如使劲敲击和轻轻敲击物体。
响度用单位宋song来度量,将1000Hz,40dB的纯音的响度定义为1宋,如果另一个声音比1宋大n倍,就是n宋。
响度级,响度取对数,单位方phon,将一个声音与1000Hz纯音做比较,若两者听起来一样响,这时1000Hz纯音的声压级的数值就是该声音的响度级。例如,某声音和声压级为50dB的1000Hz纯音一样响,则该声音响度级为50方。除1000Hz纯音外,声压级和响度级的值就不等了。
频率:单位时间内物体振动次数。用f表示,单位Hz。
周期:物体振动一次花的时间。用T表示,单位秒s。
所以T=1/f
在一个自然的复合音里,有一个幅度最大,频率最低的分音,也就是第一谐波,这个波就是“基波/基音”,它的振动频率叫做“基频”。但,对于人工合成声音或通过滤波处理过的声音,其基频并不等于第一谐波的频率,如,一个300Hz和一个500Hz纯音叠加得到一个复合波,该复合波第一谐波为300Hz,但该复合波的基频为100Hz。
音高是人耳对频率的主观感受,其高低取决于声波频率。对复合波音高的感知取决于基频。
一个复合音是由多个不同频率和振幅的纯音组成的,每个纯音在物理学上叫“分音”,在电声学上叫“谐波”。其中,幅度最大,频率最低的分音,也就是第一谐波,就是“基波/基音”,它的振动频率叫做“基频”,其他的分音都比基音的振幅小,频率高(都为基频的整数倍),把这些音叫做“陪音”,也就是二次谐波,三次谐波…,在音乐学中也叫“泛音”。
纯音:由单一正弦波产生的声音
复合音:由多个不同频率和振幅的纯音组成
人耳对声音频谱特征的感知。
音色是人耳能够分辨不同声源的同一个音高的声音,如管弦乐队中笛子,二胡等不同乐器,即使音调和响度相同,再如能分辨不同的说话人。
音色由陪音的多少(数量)和它们的相对强度(振幅)决定。
声音按是否有周期性而分为两类:乐音和噪音。
乐音:周期或准周期性的声音振动,如音叉声
噪音:非周期的声音振动,如流水声
噪声的判断还和人的主观感受有关,即一切不希望存在的干扰声都叫做噪声,例如,有时候某些情绪条件下音乐也可以是噪声。
强度是听觉的基础,声音必须达到一定的强度人耳才能听见,正常人听觉范围:0dB----140dB(也有人认为-5dB----130dB)。人刚刚能听到的声音的最小强度叫做“听阈”,最大强度使耳膜引起疼痛的为“痛阈”,一般大于140dB,这些都是针对某一个频率,不同频率的听阈和痛阈不一样,单位dB。听阈和痛阈是随声压和频率变化的。
人耳可听范围20Hz—20000Hz,低于20Hz(次声波)和高于20000Hz(超声波),不管其强度再大人耳也听不到,人耳对3000Hz—5000Hz的声音最敏感,哪怕强度(幅度)很低,其他频率敏感度会下降。
任何一个信号都可分解为多个正弦波(纯音)的叠加,这个分解过程就算是频谱分析,频谱图横轴时间,纵轴幅度,把分解出来的每个纯音的频率和幅度画在上面。
频谱分为离散谱和连续谱。
(1)离散谱(线状谱)
周期性复合波,包含数目一定的频率成分,在频谱图上是分立式的线条状谱线,在频率轴上只有基频整数倍的位置上可能有振幅,其余位置为空,如元音的频谱。
下图是元音/i/的某个时刻点的频谱,测量这一时刻的音高值,就取第10个谐波f10的中心,除以10。
(2)连续谱
非周期性复合波,包含数目众多的频率成分,在频谱图上密密麻麻,分不开的谱线,如清辅音,如下图。
频谱图中,频谱的大体走势线就是谱包络。如对上图元音/i/的谱包络。
用语图仪画出来的频谱图,也叫做语谱,时频图。横轴时间,纵轴频率,平面上用灰度或彩色表示某一时刻某一频率的振幅。
可分为窄带语谱图(窄带滤波器做出的,频率分辨率高,时间分辨率低)和宽带语谱图(反之)。分析窗长至少应包含乐音的一个周期。
窄的带宽通常300Hz,宽带的带宽一般为45Hz。
具体可点击该文:宽窄带语谱图总结
对于宽带语图,由于共鸣作用,语音在某些频率上能量较强,表现出很深的横杠,可以根据注音横杠的中心频率位置来分析它的音色特性。
语音在特定频率区域聚集大量声能的表现,叫做共振峰。
语音产生过程中,不同声道形状有自己的共振频率,因此出现共振峰,一般选择元音的3–5个共振峰,来区别不同的元音。
下图中红点表示共振峰的中心频率。
浊辅音有类似于元音的共振峰,擦音和塞擦音等清辅音也会有类似于共振峰的强频区。
非周期性延续音,出现乱纹,虽没明显共振峰,但有能量集中区痕迹,它是擦音在语谱图上的典型特征。