深入探讨耳朵的细节原理。有图有真相,没有版权问题。
输入的频率的变换
稍微有点声学常识都知道,声学传感器在谐振时能最大的从周边环境拾取信号能量,而谐振必须使得谐振结构和谐振信号的波长相匹配。简而言之就是谐振信号的波长和谐振结构的尺寸相对应。
耳朵有两个显而易见的与常识相违背的事实:
1.耳蜗作为声音的传感器其尺寸7mm远小于水中对应20-22000Hz声音的波长(75000mm到68mm之间)。
2.耳蜗的实际感应频率是蜗顶蜗管截面积尺寸小的部位的对应的感应频率低(20 Hz) ,外廓蜗管截面积尺寸大的对应频率高(22 kHz) 。
物理学是不会讨价还价的,人的耳朵一定将外部的声音做了变换,才使得外部的频率整体调制到更高的频点从而被耳蜗的尺寸所接受。并且在调制过程中将频率进行了翻转,低频声音信号在耳蜗中的实际载频更高,高频信号在耳蜗中的实际载频更低。
从而消除文章一开头提出的违背常识的问题。
这个过程是这样完成的,耳朵的听觉过程有两块小肌肉和三块小骨头的参与。分别是:蹬骨肌、鼓膜张肌、锤骨、砧骨、镫骨。
鼓膜张肌和镫骨肌这两块肌肉的动作使得整个听小骨结构能够维持一定的张力,使得鼓膜的信号功率能够最大程度的传递到蜗器中去。
但不为人熟知的是肌肉本身的拮抗也使得由两组肌肉和三块听小骨组成的框架按照一定的频率振荡。
声音通过震荡的听小骨结构传入蜗窗时,被调制到这个框架的振荡频率上,这个频率正好和耳蜗的工作频率对应,原理如下。
1. 听骨和听肌组成的结构在不停的振荡;
2. 在输入声音信号频率较高时,肌肉拮抗疲劳,张力更低,整个听骨框架振荡频率更低。
3. 在输入声音信号频率较低时,肌肉拮抗增强,张力更大,听骨框架振荡频率更高。
4. 鼓膜的震动毕竟要通过听小骨组成的结构传入耳蜗,这样高频振动就和输入的声音振动复合在一起,从而完成了机械频率调制。
5. 由于2和3的缘故,在这个调制过程中,更低的外部声音频率对应到更高的耳蜗内载频,更高的声音频率对应到更低的耳蜗内载频。
按说耳朵到此时就完美了,完全对应的频率关系,与频率完美对应的谐振结构,由于载频的缘故,其对一些其他的体内的血流杂音还抗干扰。但是耳朵并不完美。最显而易见的,音阶。
音阶的不和谐
表中的音,下一个音的频率都是上一个音的频率的1.06倍。13个音的频率呈现对数线性关系或者说等比数列关系。
如果有人问我C大调的Do Re Mi Fa Sol La Si唱名的频率关系,我直觉上会想,这肯定是一组线性的频率或者等比数列的频率,必定有某种稳固的数学关系使这组音成为几乎所有歌谣的基础组合。
然而事情并不如此。这组音并不是一种纯粹的数学单调关系,而是呈现出一种难以理解的全音和半音关系,表中蓝色的唱名就是有相邻半音唱名的音,绿色唱名就是没有相邻半音唱名的音。
这种唱法倾向形成的原因很可能是耳蜗的谐振特性导致的,人们倾向与唱耳蜗谐振峰值的音。
将扫频测试信号通过蜗窗传入耳蜗中,会在蜗管内形成一些谐振峰,这些谐振峰对应的频率就是我们在歌唱时比较敏感和不容易跑调的音阶。
在理想情况下,如果延蜗管的延伸方向将蜗管剖面拉直,应该得到一组均匀间隔的谐振峰。如下图,所有的耳蜗中的谐振峰都间隔一个全音,那么在演唱歌曲的唱名时就不应该有全音和半音夹杂的情形。导致这个问题的原因是耳蜗的保护反射带来的谐振破坏了均匀性。
特殊的林钟(D音阶)
林钟是中国十二平均律钟一个音阶的名称,对应D音阶。
耳朵的听觉全部依赖于一种叫做毛细胞的细胞。
毛细胞是比较脆弱的,既不能不动,不动会导致毛细胞凋亡,又不能动太猛,动太猛也会导致毛细胞凋亡。
耳朵的神经反射会通过毛细胞的位移来检测输入功率,毛细胞敏感的是耳朵中淋巴液的速度信息。
耳朵神经节会对所有毛细胞检测到的速度信息绝对值进行求和,其总和越大,输入耳朵的功率就被认为越大。
在毛细胞检测到功率迅速增大时,耳朵会启动保护机制,鼓膜张肌和蹬骨肌收紧,这时鼓膜刚度增大,外部的功率会由于失去匹配不能从鼓膜传入耳蜗,从而使得耳蜗内的功率下降。
鼓膜僵硬时,大部分带有较大功率的低频声音根本进不了耳蜗,只有很尖的混响能被听见,这和听完爆炸等剧烈声响后只能听见高频音的感觉是符合的。
一般情况下,只有功率足够大才能引发耳朵的保护反射,但是技术体系总有漏洞可钻。耳朵在一些情况下会进入谐振态,谐振态使得所有毛细胞都被影响从而产生峰值不大,总和不小的情形。
林钟(D音阶)对应的频率293.67Hz就能产生这种效果。
在这个频率下,单个毛细胞的输出并不大,但是所有毛细胞的输出总和却很大,这时耳朵会启动保护机制,使得输入耳蜗的功率下降,而此时总功率也不大,但耳骨肌群的保护机制的作动频率似乎和这个音阶的频率是吻合的。
因此在这个频率下,保护动作导致的振动反而触发了耳朵的进一步震荡,使得耳朵的输入特性在这个点被改变。
简单的数学模型
首先,耳朵在D音阶下存在功率转换的零点。
因为耳朵在此时选择截断信号通路,因此我们可以假设此时为信号功率的传输零点,但是传递函数的知识告诉我们,零点过多会使得耳朵的带宽变得窄,以钢琴的范围为例,跨越7个八度,从而至少跨越7个D音阶的谐波频率,并因此至少有7个这样的零点,每个零点增加6dB的幅度衰减,那么我们听到的最右侧钢琴键的声音至少要比最左侧幅度低不到42dB,大约在20到30dB左右,也就是最右侧音量为最左侧的音的1/6,这与实际感受不符合。因此为了补偿零点的衰减,耳朵还要有极点。
恰好,D音阶的频点同时还诱发振荡。
极点能够导致振荡,这和系统的实际情况是符合的。假设极点数等于零点数,这样才能符合振荡改变耳蜗谐振特性的实际情况。
因此从鼓膜到耳蜗的功率传递函数如下:
(其中fd对应于D音阶的频率,m小于等于n)
畸变的蜗响应
按照常理,如果人耳的谐振没有太多的外部干预,其谐振点位应该是等间距的,那我们的唱名就不会有半音。而是按照12平均律等间隔的唱下去,但事实上经过D音阶振荡的影响,谐振变成了另外一个样式。
一般情况下输入蜗管的振动会在蜗管内形成谐振。
如果我们把这个幅度分布以蜗顶为起始点投影到上图描绘的螺旋向量d上,也就是延蜗管的延伸方向将蜗管剖面拉直来绘图,其谐振强度与对应的音阶的关系在理想情况下应该如下图是等间距的。
由于蜗管的曲率不同,能在一个八度音高之间形成6个峰的就是七度的耳朵,能在一个八度音高之间形成4个峰的就是五度耳朵。
然而由于D音阶带来的谐振影响,谐振峰发生了畸变,黑色为畸变前的七度耳朵对于十二平均律的响应幅度,红色为畸变后的7度音阶幅度,下图中注明了D音阶的位置。D音阶的谐振改变了从C到F的谐振分布。
对于七度耳朵而言,在下图所描绘的谐振状态下,最响亮最稳定的就是那七个峰值音。CDEFGAB
对于五度耳朵而言,在下图所描绘的谐振状态中,最响亮最稳定的,就是那五个峰值音,宫商角徵羽。