外耳:外耳包含耳翼和外耳道,耳翼具有定向作用,外耳道同其它管道一样也有共振频率,大约是3400Hz。鼓膜位于外耳道内端,声音的振动通过鼓膜传到内耳。
中耳:由三块听小骨组成,作用包括放大声压和保护内耳。中耳通过咽鼓管与鼻腔相通,其作用是调节中耳压力。
内耳:耳蜗实现声震动到神经冲动的转换,并传递到大脑。
①人对声音强弱的感觉
通过对人群测试发现,当声音信号的强弱按指数规律增长时,人会大体上感到声音在均匀地增强,即将声音声强取对数后,才与人对声音的强弱感相对应。根据人类听觉的这一特点,通常用声强值或声压有效值的对数来表示声音的强弱,称为声强级或声压级,单位为分贝。
②人对声音频率的感觉
人对声音频率的感觉表现为音调的高低,当声音的频率按指数规律上升时,音调的感觉线性升高。这意味着只有对声音信号的频率取对数,才会与人的音高感觉成线性关系。为了适应人类听觉的音高感规律,在声学和音乐当中表示频率的坐标经常采用对数刻度。
③人类听觉的频响特性
人类听觉频响的特点时声压级越高听觉频响越平直;随着声音声压级的降低,听觉频响变坏,低频响应下降明显。人的听觉频带为20Hz-20kHz,高于20kHz的声音称为“超声”,低于20Hz的声音称为“次声”。不论声压级高低,人对3-5kHz频率的声音最敏感。
④人类听觉的掩蔽效应
在人类听觉系统中的另一个现象时一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音,级所谓的“掩蔽效应”,通信、电声系统常利用该特性。
一般人讲话声音的主要能量分布较窄,以频带下降25dB计大概为100Hz-5kHz,因此在电话通信中每一路的频带一般限制在300Hz-3.4kHz,即可将语音信号中的大部分能量发送出去,同时保持一定的可懂度和声色的平衡。
英语有48个音素:20个元音和28个辅音
普通话32个音素:10个元音和22个辅音
22个辅音:
b、p、m、f、z、c、s、d、t、n
l、zh、ch、sh、r、j、q、x、g、k
h、ng,
10个元音:a、o、e、ê、i、u、ü、-i(前i)和-i(后i)、er;
1978 年,日本人 Sakoe and Chiba 在前苏联科学家 Vintsyuk 的工作基础上,成功地使用动态规划算法将两段不同长度的语音在时间轴上进行了对齐,这就是我们现在经常提到的 动态时间规整 Dynamic Time Warping DTW )。
在 80 年代中期, Bell 实验室的 L.R. Rabiner 等人对 隐马尔可夫模型 Hidden Markov Model HMM )做了深入浅出的介绍,并出版了语音识别专著 《 Fundamentals of Speech Recognition 》。
在 DARPA 的语音研究计划的资助下,又诞生出了一批著名的语音识别系统,其中包括 李开复( K.F. Lee 在 CMU 攻读博士学位时开发的 SPHINX 系统。
英国剑桥大学 Steve Young 开创的的语音识别工具包 HTK Hidden Markov Tool Kit 自 1995 年发布以来,持续近 20 年被广泛采用。
但 GMM HMM 系统对日常对话、新闻广播等场景的 识别率达到 80% 左右,就无法再取得突破。2000 年前后 这个阶段语音识别的研究 陷入了瓶颈期 。
8、深度学习
2006 年, Hinton 揭开了属于 深度学习 的时代序幕。
2009 年, Hinton 和他的学生 Mohamed 将 深度神经网络( DNN 应用于声学建模,他们的尝试在 TIMIT 音素识别任务上取得了成功。
2012 年,微软研究院的 俞栋和邓力 等人提出了上下文相关的深度神经网络与隐马尔可夫模型融合的声学模型( CD DNN HMM ),相比于传统的GMM HMM 系统 获得超过 20% 的相对性能提升 ,这项工作是深度学习在语音识别上具有重大意义的成果。
由 Daniel Povey 领衔开发在 2011 年发布的 Kaldi ,是 DNN HMM 系统的基石,在工业界得到广泛应用。
深度学习技术在近十几年中,一直保持着飞速发展的状态,从 DNN 到 RNN 、CNN 、 LSTM 、 GRU 、 TDNN 等模型,推动着语音识别技术不断取得突破。
最近几年,基于 端对端( End to End E2E 的语音识别方案逐渐成为了行业中的关注重点。
HTK (HMM Toolkit )是一个专门用于建立和处理隐马尔科夫模型的实验工具包,由剑桥大学的 Steve Young 开创,非常适合 GMM HMM 系统的搭建; 2015 年也推出了 DNN HMM 。
Kaldi 是一个开源的语音识别工具箱,是基于 C++ 编写的,可以在 Windows 和 Unix 平台上编译,主要由 Daniel Povey 博士在维护。 Kaldi 适合 DNN HMM 系统(包括 Chain 模型)的搭建,支持 TDNN/TDNN F 等模型,基于+有限状态转换器( FST )进行训练和解码。
Espnet 是端到端语音处理工具集,主要侧重于端到端语音识别和语音合成。 Espnet 用 Python开发,使用 Chainer 和 Pytorch 作为主要的深度学习引擎,并遵循 Kaldi 风格的数据处理方式,为语音识别和其他语音处理实验提供完整的设置,支持 CTC/Attention 等模型。
TIMIT 经典的英文语音识别库,包含 630 人,来自美国 8 个主要口音地区,每人 10 句,包含了词和音素级的标注。
SwitchBoard 对话式电话语音库,采样率 8kHz ,包含来自美国各个地区 543 人的 2400 条通话录音。
LibriSpeech 免费的英文语音识别数据库,总共 1000 小时,采样率 16kHz ,包含朗读式语音和对应的文本。
Thchs 30 清华大学提供的一个中文示例,并配套完整的发音词典,其数据集有 30 小时,采样率 16kHz 。
AISHELL 1 希尔贝壳开源的 178 小时中文普通话数据,采样率 16kHz 。包括 400 位来自中国不同口音区域的发音人,语料内容涵盖财经、科技、体育、娱乐、时事新闻。
本文主要参考厦门大学 洪青阳教授的课件,其中图片除了第一张来源于网络,其余均来自洪教授的课件,部分内容参考了纪越峰教授编写的《现代通信技术第五版》。