Spoken Language Processing读书笔记之Spoken Language Structure

  本章主要讲的是我们在说话和倾听的时候发生了什么,具体的过程是怎样实现的。明确这个目标后,心里应该有个底了。

  在正式开始之前,我想分享一个事情:今天去图书馆借书,清华大学出版的《统计自然语言处理》,本以为它会安静地躺在9楼或10楼这些计算机、数学专业书籍所在楼层的某个角落,结果却躺在一大堆商务英语和思密达书籍所在的语言专业楼层。这大概就是交叉学科的美妙之处吧。

  好了,干正事。Spoken language,暂且译为口语,它的作用是方便说话者和听者之间进行信息交流。举个例子,屌丝小明(怎么又是他)对女神小红还是念念不忘,有一天,他一个人走在大街上,想起大后天就是光棍节了,倍感凄凉。这时小红正从对面走来,小明再次鼓起勇气对小红说:“你知道吗?我喜欢你很久了”,小红愣了一下,说:“对不起,我已经有喜欢的人了”。哎,可怜的小明。

  我们来看看这个失败的表白过程发生了什么事情。Figure 2.1展示了语音交流的所有组成部分,我们来逐个分析吧。

 

  小明由于寂寞太久,导致每次遇到女神小红,脑子里都是表白的想法,这个想法是一种Message Formulation,包含着类似“我爱你小红”、“小红我喜欢你”等这些语义信息;这些想法(信息)在大脑中形成后,下一步就是利用语文老师教的拼音、电视剧里的狗血对话等这些知识(包括发音、词汇等)将之前表白的想法(信息)转换为一句表白的话(“你知道吗?我喜欢你很久了”),这句话中的每个字(如“你”)都是由若干个的音节组成(“你”->“nǐ”),这个是大脑中的语言系统(Language System)做的事情;语言系统造句完成后,小明的亿万个神经肌肉(Neuromuscular)就已经在蠢蠢欲动了,这些神经肌肉通过控制声带、嘴唇、下巴、舌、软腭等器官产生闷骚的表白语:“你知道吗?我喜欢你很久了”,这个神经肌肉控制器官把话说出口的过程叫做神经肌肉映射(Neuromuscular Mapping),通过的那些器官叫声道系统(Vocal Tract System)。到这里为止,小明真的可以松一口气了:“啊!我终于说出口了”。

  下面就来看看女神小红拒绝小明的过程吧。

  小明说的话在空气中传播,到达小红的耳朵,冲击耳膜,穿过内耳的耳蜗(可看成是一个滤波器组进行频率分析),这个过程叫做耳蜗运动(Cochlea Motion);紧接着就是神经传导(Neural Transduction)过程,这个过程频谱信号(经过耳蜗后的声音信号)转换成听觉神经上活动的信号,可近似认为是一个特征提取(Feature Extraction)过程,遗憾的是到目前为止(2001年)我们不清楚神经活动是怎样映射到语言系统(Language System)的,也不清楚大脑是怎样对信息进行理解的(Message Comprehension)。经过这些一系列的过程,小红知道小明是真心喜欢他的,但还是拒绝了他。

  故事过于悲伤,今天就写到这了。

  2014-11-08 20:41:50


 

  小明表白失败后,一直在自言自语:“刚才大脑一片空白,我到底跟女神说了什么啊?”“当然是表白的话啊,一段声音啊。”“声音?声音到底是什么鬼?”

(好吧,这引言写得好烂。)

  声音实际上是一个由空气分子的压缩和稀疏而形成的纵向压力波。Figure 2.2中,正弦曲线的波峰表示空气分子的最大压缩量,波谷表示最大稀疏量。包括两个重要参数:幅度和波长。声压力波在空气中的速度大约是331.5+0.6Tc m/s,其中Tc表示摄氏温度。简单的理解就是声音是一种气压波,可用正弦曲线表示声音随时间变化情况。

 

  由于声音变化的幅度范围很宽,通常为了方便起见,通常将声音幅度用对数形式的分贝(dB)来表示。

  那么,问题来了,声音是怎么产生的呢?小明是怎么把表白的话说出口的呢?

  语音是一种气压波,这种气压波的产生实际上是来自说话人的口腔和鼻腔,我们可以试着把手放在嘴巴和鼻子的前面,对着手说话,就可以感受到气流的变化,这就是气压波。  世界上的大部分语言,他们的音素都可以分为两类:辅音(consonants)和元音(vowels),辅音可以理解为发音的时候感觉不顺畅,没有一气呵成的感觉,如拼音里的b,p,m,f;而元音则相反,怎么喊都行,如a,o,e,i,u。

  我们都知道光靠嘴巴和鼻子是说不出话的,还要与其他器官配合,小明才能够向女神表白呀。Figure 2.4展示的是与人类发音有关的器官。

 

  我们就来看看小明的各个发音器官有什么用吧:

  • 肺(Lungs):发音过程中的空气源,类似气泵;
  • 声带(Vocal cords):当声带闭合并且彼此振荡时,发出的声音叫做浊音(voiced);当声带很松弛或不停地周期性振动时,发出的声音叫做清音(unvoiced);上下声带组合在一起的位置叫做声门(glottis);
  • 软腭(Velum):起到阀门的作用,打开时允许空气通过鼻腔进入(引起鼻腔共鸣),比如m和n的发音;
  • 硬腭(Hard palate):是口腔内的顶部一个相对较硬的表面,舌头放到那个位置时便可产生辅音;
  • 舌头(Tongue):灵活的发音器官,远离硬腭时发元音,接近硬腭时发辅音;
  • 牙齿(Teeth):另一个使用舌头来发出某些辅音而需要支撑的位置;
  • 嘴唇(Lips):打开情况影响着元音的质量,闭合时完全阻止空气流通而发出某些辅音,如p, b, m。

  解剖完小明的发音器官后,我们再来弄清楚下一个问题:既然这些乱七八糟的器官可以发出各种声音,那么怎么区分这些声音呢?小红怎么知道小明跟她说的是“我爱你”而不是“一百块钱都不给我”?

  在语音中,声音类型之间最基本的区别是浊音/清音。浊音具有更高的能量,比清音更加有规律。因此这些音素组成的一段语音是有一定区分度的,我们伟大的祖先经过长期的观察和总结,形成了今天的语言,小明终于可以把自己的想法用语言的形式表达出来啦。

  Figure 2.5展示的是英文单词sees的发音波形,包括三个音素:一个清辅音/s/,一个元音/iy/,一个浊辅音/z/。

 

  是什么语音产生机制导致浊音/清音这个基本区别呢?

  当声带在音素发音的过程中发生振动,那么这个音素就被认为是浊音;否则就被称为清音。元音都是浊音,元音也分为很多种,可通过调整舌头和嘴唇的位置形成不同的口腔共鸣而构成不同的元音。不同性别和年龄的说话者,他们的声带振动频率都有差别,一般来说一个年纪较大的男性的声带振动频率为60Hz,年纪小的女性或儿童在300Hz或跟高的频率范围。发浊音时喉部的声带的开合频率被称为基频(fundamental frequency),这是因为它集合了所有来自喉部和口腔共鸣腔的高频谐波。基频比任何其他的单一的因素都利于对音高(pitch)的感知(音调的上升和下降)。

  声带的开合情况如Figure 2.6所示,呈周期性;对应于波形的变化可以从Figure 2.7可知,近似三角形的部分为声带打开的阶段,计算基频(F0)的方法是每秒产生几个这样的周期(Hz)。

 

  了解完语音的产生机制后,我们还需要知道怎么分析这些语音,要不然它就是噪音,对我们没有任何用处。

  Figure 2.8是一种频谱(spectral)分析方法,样本为元音/iy/,横坐标为各个频率,纵坐标表示每个频率的幅度值,单位为dB。我们可以看到5,000Hz以上的频率对应的幅度值较小。

 

  另一种分析方法叫是观察语谱图(spectrogram),如Figure 2.9所示。

 

  语谱图中的深色或浅色带表示某个频率下幅度或能量的大小,颜色越深,该频率具有的能量越多,0.3s~0.8s下方的黑色水平带表示元音/iy/的共振峰(formants)。

  从上面的描述中,我们已经知道小明是怎么表白的,那么小红是怎么知道他在表白呢?

  其实前面已经粗略介绍了小红的反应过程,下面我们更加深入地认识这个过程。

  这就要靠听觉感知系统的功劳啦,它包括两个主要组件:听觉器官(耳朵)和听觉神经系统(大脑)。

  Figure 2.10为感知听觉系统的结构,包括了内耳、中耳、外耳等,语音在该结构的传播和处理过程就不讲了,意义不大。

 

         Table 2.2为感知量和物理量的对应关系:

 

         Figure 2.11为等响曲线,表明人类听觉机制的响应是一个频率和响度等级的函数。这些曲线表明了耳朵对低频的声音相对不敏感。

 

  下面是几个声学方面的术语。

  音高(pitch):与基频最接近,基频越高,我们感知到的音高越高。然而,区分两个不同的音高取决于叫低音音高的频率。

  掩蔽效应:经过实验观察发现,当耳朵同时听两种或更多不同的音调时,通常有一个音调掩蔽(mask)了其它音调。强度更强大音调掩蔽了那些较弱的音调,这就是掩蔽效应。

  偏侧性(lateralization):双耳同时听声音,可以大大增强我们感知声音源方向的能力,这种side-to-side的辨别力就是偏侧性。时间和强度分别对低频和高频有不同的影响。低频声音的偏侧性主要是基于双耳的时间差,而高频声音的偏侧性主要是基于双耳强度差。

  音色(timbre)。

  实际上,内耳的耳蜗相当于一个频谱分析仪,而人类对声音的感知不是线性的,在频率分析中,需要对频谱进行一些非线性变换,得到符合人类感知的声音刻度。一种临界带刻度称为Bark frequency scale,Bark刻度的范围是从1到24,如Table 2.3所示。

 

  如Figure 2.12所示,感知分辨率在低频区更高,公式2.5为线性频率和bark频率刻度的转换公式。

 

 

  另一种类似的符合人类听觉感知特性的刻度是mel frequency scale,这种刻度在1kHz以下是线性的,1kHz以上呈对数关系。一个mel被定义为一个1kHz音调的1/1000的音高。这种刻度在现代语音识别系统中应用广泛,它的公式如2.6所示。

 

  Figure 2.13为三种不同刻度的对比。

 

  上面简单提到了掩蔽(Masking),我们已经知道频率掩蔽现象是这样的:当“其他”声音的频率具有足够高的级别时,“某个”声音不能被感知到,这里的“某个”声音就掩蔽(masks)了“其他”声音。频率掩蔽等级是根据经验确定的,复杂的模型应考虑到掩蔽的是一个音调还是噪声,掩蔽等级以及其他因素。

  除了频率掩蔽外,还有一个现象叫做时域掩蔽,它指的是一段声音在时间上与另一段声音过于接近,我们感知不到它。Premasking大概持续5ms,postmasking可以持续50~300ms。Figure 2.16为时域掩蔽等级从0ms一直持续到200ms。

  到这里,小明总算明白了声音的产生和分析,但感觉有点晕晕的,表个白好困难啊,是不是自己哪些地方说错了,还是自己发音不标准呢?嗯,他决定下次好好学学Phonetics and Phonology(语音学与音系学),纠正自己的发音,哎,继续奋斗吧。(其实是太丑,看脸的时代)。

  2014-11-16 22:01:42


   持续更新……


 

References: Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development 2001

欢迎交流,转载请注明出处:http://www.cnblogs.com/s5plus1/p/4083988.html

你可能感兴趣的:(language)