最近在读王泉老师刚刚出版的新书《声纹技术》,收获很多,想分享一下我从小白到入门觉得有用的书籍。
由于技术发展很快,书籍的初版年份也被列出,供大家参考。
因为入门是要求用最快的时间了解一个领域,以下列出的都是中文书籍,分为研究向和科普向,研究向是推荐给已经确定研究此方向并希望能做出一些研究的小白同学,科普向是面对没想好选什么方向的童鞋。
这本书首先对声纹识别的前生今世做了一个概述,对于刚接触声纹的同学来说可以了解本领域技术的发展,要是我当初开始学习时有这本书的话,就会少走很多弯路。这本书还有配套的代码,对新手小白十分友好。
对科研人员来讲,书里有很多近些年重量级的论文,这些论文依据时间和技术发展脉络梳理,对于了解主流的科研问题和研究方法很有帮助。
对于工程技术人员,书里也有一章专门讲工程实践。
https://book.douban.com/subject/35217627/
语音识别领域目前最全面的中文书籍,具有一定深度和专业性,非常推荐。
全书首先概要介绍语音识别、口语理解和人机对话的基本概念与理论;接着全面深入地依次详述传统声学模型、深层神经网络在语音识别中的应用及分析、先进深度学习模型在语音识别中的应用、高级语音识别方法、复杂场景下的语音识别、以及口语理解及对话系统的深度学习实践。书中涉及的所有算法及技术细节都有详尽的参考文献,提供了深度学习在语音识别和口语对话理解中的应用全景。
https://book.douban.com/subject/35244600/
非常经典的教材,2019年出了第三版,加上了深度学习的部分,非常推荐。
https://book.douban.com/subject/33426664/
也是一本经典教材,内容稍微老一点。配套的《语音信号处理实验教程》在基础的算法实现上有指导意义。
本书介绍了语音信号处理的基础、原理、方法和应用,以及该学科领域近年来取得的一些新成果、新进展及新技术。全书共分十二章。内容包括:绪论;语音信号处理的基础知识;语音信号的分析技术;语音信号的矢量量化;隐马尔可夫模型技术;神经网络在语音信号处理中的应用;语音编码;语音合成;语音识别;说话人识别和语种辨识技术;语音信号的情感信息处理技术;语音增强技术。本书不仅可作为高等院校通信与信息专业的教材,还可供从事信号与信息处理、通信、自动控制、模式识别以及计算机科学等领域的科研人员参考。
相比上两本语音信号处理,关于语音信号的分析部分讲的更全面细致。
全书分三篇共17章。语音信号处理基础,包括章绪论,第2章语音信号处理的基础知识;第二篇语音信号分析,包括第3章时域分析,第4章短时傅里叶分析,第5章倒谱分析与同态滤波,第6章线性预测分析,第7章语音信号的非线性分析,第8章语音特征参数检测与估计,第9章矢量量化,0章隐马尔可夫模型;第三篇语音信号处理技术与应用,包括1章语音编码,2章语音合成,3章语音识别,4章说话人识别和语种辨识,5章智能信息处理技术在语音信号处理中的应用,6章语音增强,7章基于麦克风阵列的语音信号处理。
这本书推荐给还没有入门声纹/语音识别领域的同学。
这本书有很多具有科普性质的讲述,最适合没有选定自己研究领域的电信专业同学来读。
比起《浪潮之巅》,吴军老师的这本《数学之美》热度貌似低一点。 这本书看标题是讲数学,其实很大一部分是在讲语音识别技术的发展过程和信息科学领域的重大成就。
https://book.douban.com/subject/26163454/
这是我入门时看的第一本关于深度学习与语音识别的书籍,讲述浅显易懂,但是大部分内容比较过时,不特别推荐。
https://book.douban.com/subject/26820808/
目录涵盖了语音信号处理的基本概念和方法,但每一个方法都点到为止,只看目录就看完了全书,不推荐。
https://book.douban.com/subject/35036604/