原标题:语音识别从菜鸟到入门必看的参考书目
此前研究这一方面的容,搜罗了些资料,在这里整理如下,做毕业设计,写毕业论文的朋友购书时可以参考一下:
一、《MATLAB数字信号处理》 编者:王彬、于丹、汪洋
第10章 基于matlab的语音信号处理
二、《MATLAB扩展编程》 编者:何强、何英
第12章 MATLAB录音工具
12.1 MATLAB的音频信号处理工具
12.2 语音信号的特征及其端点检测
12.3 MATLAB的语音端点检测算法
12.3.1 语音信号的分帧
12.3.2 短时能量的计算
12.3.3 过零率的计算
12.3.4 端点检测的流程
12.3.5 实际的端点检测算法
12.4 实时录音和端点检测--mex程序
12.4.1 Windows音频输入接口函数
12.4.2 录音程序的代码
12.4.3 mex程序接口代码
12.4.4 录音程序MatWave的使用
12.5 实时录音和端点检测--ActiveX控件
12.5.1 MATLAB与ActiveX控件
12.5.2 用VC建立ActiveX控件
12.5.3 启动和停止录音的代码
12.5.4 读取语音数据的代码
12.5.5 编译和注册控件
12.5.6 在MATLAB中使用录音控件
第13章 基于MATLAB的语音识别系统
13.1 语音识别简介
13.1.1 语音识别系统的分类
13.1.2 语音识别系统的基本构成
13.2 语音识别的参数
13.2.1 线性预测系数
13.2.2 线性预测倒谱系数
13.2.3 MFCC系数
13.2.4 完整的参数计算流程
13.3 特定人语音识别算法--DTW算法
13.3.1 DTW算法原理
13.3.2 DTW算法的实现
13.3.3 DTW的高效算法
13.4 非特定人语音识别算法---HMM
13.4.1 HMM的原理
13.4.2 前向概率和后向概率--HMM的输出概率计算
13.4.3 识别算法--Viterbi解码
13.4.4 HMM参数训练算法Baum-Welch
13.4.5 多观察序列的训练算法
13.4.6 HMM算法的MATLAB实现
13.5 其他形式的HMM
三、《数字语音处理及MATLAB仿真》 编者:张雪英
第1章 绪论
1.1 概述
1.2 语音信号处理的发展
1.2.1 语音合成
1.2.2 语音编码
1.2.3 语音识别
1.3 语音信号处理的应用及新方向
1.4 语音信号处理过程的总体结构
1.5 MATLAB在数字语音信号处理中的应用
第2章 语音信号的数字模型
2.1 概述
2.2 语音的发声机理
2.2.1 人的发声器官
2.2.2 语音生成
2.3 语音的听觉机理
2.3.1 听觉器官
2.3.2 耳蜗的信号处理机制
2.3.3 语音信号听觉模型
2.4 语音的感知
2.4.1 几个概念
2.4.2 掩蔽效应
2.4.3 临界带宽与频率群
2.5 语音信号模型
2.5.1 激励模型
2.5.2 声道模型
2.5.3 辐射模型
2.6 语音信号数字模型
2.6.1 数字模型
2.6.2 模型局限性
第3章 语音信号的短时时域分析
3.1 概述
3.2 语音信号的预处理
3.2.1 语音信号的预加重处理
3.2.2 语音信号的加窗处理
3.3 短时平均能量
3.4 短时平均幅度函数
3.5 短时平均过零率
3.6 短时自相关分析
3.6.1 短时自相关函数
3.6.2 语音信号的短时自相关函数
3.6.3 修正的短时自相关函数
3.6.4 短时平均幅度差函数
3.7 基于能量和过零率的语音端点检测
3.8 基音周期估值
3.8.1 基于短时自相关法的基音周期估值
3.8.2 基于短时平均幅度差函数AMDF法的基音周期估值
3.8.3 基音周期估值的后处理
3.8.4 基音周期估值后处理的MATLAB实现
第4章 语音信号短时频域分析
4.1 概述
4.2 傅里叶变换的解释
4.3 滤波器的解释
4.4 短时谱的时域及频域采样率
4.5 短时综合的滤波器组相加法
4.5.1 短时综合的滤波器组相加法原理
4.5.2 短时综合的滤波器组相加法的MATLAB程序实现
4.5.3 短时综合的叠接相加法原理及MATLAB程序实现
第5章 语音信号的同态处理
5.1 概述
5.2 叠加原理和广义叠加原理
5.3 卷积同态系统
5.4 复倒谱和倒谱
5.4.1 定义
5.4.2 复倒谱的性质
5.5 复倒谱的几种计算方法
5.5.1 最小相位信号法
5.5.2 递归法
5.5.3 倒谱的MATLAB实现
5.6 语音的倒谱分析及应用
5.6.1 语音的倒谱分析原理
5.6.2 语音的倒谱应用
第6章 语音信号线性预测分析
6.1 概述
6.2 LPC的基本原理
6.3 LPC和语音信号模型的关系
6.4 LPC方程的自相关解法及其MATLAB实现
6.5 模型增益G的确定
6.6 线谱对LSP分析
6.6.1 LSP的定义和特点
6.6.2 LPC参数到LSP参数的转换及MATLAB实现
6.6.3 LSP参数到LPC参数的转换及MATLAB实现
6.7 导抗谱对ISP分析
6.7.1 ISP的定义和特点
6.7.2 LPC与ISP参数间的转换及MATLAB实现
6.8 LPC导出的其他语音参数
6.8.1 反射系数
6.8.2 对数面积比系数LAR
6.8.3 LPC倒谱及其MATLAB实现
6.9 LPC分析的频域解释
6.9.1 最小预测误差的频域解释
6.9.2 LPC谱估计
第7章 矢量量化
7.1 概述
7.2 矢量量化基本原理
7.2.1 矢量量化的定义
7.2.2 失真测度
7.2.3 矢量量化器
7.3 最佳矢量量化器
7.4 矢量量化器的设计算法及MATLAB实现
7.4.1 LBG算法
7.4.2 初始码书的选定与空胞腔的处理
7.4.3 已知训练序列的LBG算法的MATLAB实现
7.5 降低复杂度的矢量量化系统
7.5.1 树形搜索矢量量化器
7.5.2 多级矢量量化器
7.5.3 波形/增益矢量量化器
7.5.4 分离均值矢量量化器
7.5.5 有记忆的矢量量化
第8章 语音编码
8.1 概述
8.2 语音编码的分类及特性
8.2.1 波形编码
8.2.2 参数编码
8.2.3 混合编码
8.2.4 语音压缩编码的依据
8.3 语音编码性能的评价指标
8.3.1 编码速率
8.3.2 编码质量
8.3.3 编解码延时
8.3.4 算法复杂度
8.4 语音信号波形编码
8.4.1 脉冲编码调制PCM
8.4.2 自适应预测编码APC
8.4.3 自适应差分脉冲编码调制
8.5 语音信号参数编码
8.5.1 LPC声码器原理
8.5.2 LPC?10编码器
8.6 语音信号混合编码
8.6.1 合成分析技术和感觉加权滤波器
8.6.2 激励模型的改进
8.6.3 G.728语音编码标准简介
8.7 语音信号宽带变速率编码
第9章 语音合成
9.1 概述
9.2 语音合成的原理及分类
9.2.1 波形合成法
9.2.2 参数合成法
9.2.3 规则合成法
9.3 共振峰合成法
9.3.1 级联型共振峰模型
9.3.2 并联型共振峰模型
9.3.3 混合型共振峰模型
9.4 线性预测参数合成法
9.5 基音同步叠加法
9.5.1 基音同步叠加PSOLA算法原理
9.5.2 基音同步叠加PSOLA算法实现步骤
9.6 文语转换系统
9.6.1 文语转换系统的组成
9.6.2 汉语按规则合成
第10章 语音识别
10.1 概述
10.1.1 预处理
10.1.2 语音识别特征提取
10.1.3 语音识别方法
10.2 HMM基本原理及在语音识别中的应用
10.2.1 隐马尔可夫模型
10.2.2 隐马尔可夫模型的三个基本问题
10.2.3 隐马尔可夫模型用于语音识别
第11章 语音增强
11.1 概述
11.2 语音感知特性和噪声特性
11.2.1 语音特性
11.2.2 人耳感知特性
11.2.3 噪声特性
11.3 语音增强算法
11.3.1 参数方法
11.3.2 非参数方法
11.3.3 统计方法
11.3.4 其他方法
11.3.5 谱减法语音增强的仿真实现
四、《MATLAB在语音信号分析与合成中的应用》 编者:宋知用
第1章 语音的产生和感知
1.1发声器官
1.2语音信号的数字模型
1.2.1激励模型
1.2.2声道模型
1.2.3辐射模型
1.3语音的感知
1.3.1人耳的构造
1.3.2听觉感受性
1.3.3掩蔽效应
1.3.4响度
1.3.5音高
第2章 语音信号的时域、频域特性和短时分析技术
2.1MATLAB中的语音信号分帧
2.2语音分析中的窗函数
2.3语音信号短时时域处理
2.3.1短时能量和短时平均幅度
2.3.2短时平均过零率
2.3.3短时自相关函数
2.3.4短时平均幅度差函数
2.4语音信号短时频域处理
2.4.1短时傅里叶变换的定义
2.4.2语谱图
2.4.3短时功率谱密度
第3章 语音信号在其他变换域中的分析技术和特性
3.1 语音信号的同态处理和倒谱分析
3.1.1 同态处理的基本原理
3.1.2复倒谱和倒谱
3.2离散余弦变换
3.3Mel频率倒谱系数的分析
3.3.1Mel滤波器组
3.3.2MFCC特征参数提取
3.4小波和小波包变换
3.4.1小波变换
3.4.2小波包变换
3.4.3小波包算法
3.4.4MATLAB中一维小波和小波包变换函数
3.4.5MATLAB语音信号小波和小波包变换的例子
3.5EMD的基本理论和算法
3.5.1EMD的基本概念
3.5.2EMD的基本原理
3.5.3EMD法的完备性和正交性
3.5.4基于EMD的Hilbert变换的基本原理和算法
3.5.5EMD法的MATLAB函数
第4章 语音信号的线性预测分析
4.1线性预测分析的基本原理
4.1.1信号模型
4.1.2线性预测方程的建立
4.1.3语音信号的线性预测分析
4.2线性预测分析自相关和自协方差的解法
4.2.1自相关法
4.2.2协方差法
4.3线性预测分析格型法的解法
4.3.1格型法的基本原理
4.3.2格型法的求解
4.4线性预测导出的其他参数
4.4.1预测误差及其自相关函数
4.4.2反射系数和声道面积
4.4.3线性预测的频谱和预测误差滤波器A(z)多项式的根81
4.4.4线性预测倒谱
4.5线谱对的分析法
4.5.1LSP的定义和特点
4.5.2LPC到LSP参数的转换
4.5.3LSP参数到LPC的转换
第5章 带噪语音和预处理
5.1纯语音和带噪语音
5.2信噪比
5.3带噪语音的产生
5.4语音信号的预处理一——消除趋势项和直流分量
5.4.1最小二乘法拟合趋势项的原理
5.4.2最小二乘法拟合消除趋势项的函数
5.5语音信号的预处理二——数字滤波器
5.5.1IIR低通、高通、带通和带阻滤波器的设计
5.5.2FIR低通、高通、带通和带阻滤波器的设计
第6章 语音端点的检测
6.1双门限法
6.2双门限法的改进和推广
6.2.1噪声的影响
6.2.2平滑处理
6.2.3双参数的双门限检测法
6.2.4单参数的双门限检测法
6.3相关法的端点检测
6.3.1自/互相关函数最大值的端点检测
6.3.2归一化自相关函数的端点检测
6.3.3自相关函数主副峰比值的端点检测
6.3.4自相关函数余弦角值的端点检测
6.4方差法的语音端点检测
6.4.1频带方差的端点检测
6.4.2均匀子带分离频带方差的端点检测
6.4.3频域BARK子带方差的端点检测
6.4.4小波包BARK子带方差的端点检测
6.5谱距离法的端点检测
6.5.1对数频谱距离的端点检测
6.5.2倒谱距离的端点检测
6.5.3MFCC倒谱距离的端点检测
6.6谱熵在端点检测中的应用
6.6.1谱熵法的端点检测
6.6.2谱熵法端点检测的改进
6.7能零比和能熵比的端点检测
6.7.1能零比的端点检测
6.7.2能熵比法的端点检测
6.8小波变换和EMD分解在端点检测中的应用
6.8.1小波变换在端点检测中的应用
6.8.2EMD分解在端点检测中的应用
6.9低信噪比时的端点检测
6.9.1噪声的估算
6.9.2基本谱减法和方差法的端点检测
6.9.3多窗谱估计谱减法和能熵比法的端点检测
第7章 语音信号的减噪
7.1自适应滤波器减噪
7.1.1LMS算法基本原理
7.1.2基本LMS自适应算法
7.1.3LMS的自适应陷波器
7.2谱减法减噪
7.2.1基本谱减法
7.2.2改进的谱减法
7.3维纳滤波法减噪
7.3.1维纳滤波的基本原理
7.3.2维纳滤波减噪的具体步骤和函数WienerScalart
7.3.3维纳滤波的MATLAB例子
第8章 基音周期的估算方法
8.1基音周期提取的预处理
8.1.1基音检测中的端点检测
8.1.2基音检测中的带通滤波器
8.2倒谱法的基音检测
8.2.1倒谱法基音检测原理
8.2.2倒谱法基音检测的MATLAB程序
8.2.3简单的后处理方法
8.3短时自相关法的基音检测
8.3.1短时自相关函数法
8.3.2中心削波的自相关法
8.3.3三电平削波的互相关函数法
8.3.4基于自相关函数法提取基音的MATLAB程序
8.4短时平均幅度差函数的基音检测
8.4.1短时平均幅度差函数法
8.4.2改进的短时平均幅度差函数法
8.4.3循环平均幅度差函数法
8.4.4基于平均幅度差函数法提取基音的MATLAB程序
8.4.5自相关函数法和平均幅度差函数法的结合
8.5线性预测的基音检测
8.5.1线性预测倒谱法
8.5.2简化逆滤波法
8.6基音检测的进一步完善
8.6.1主体延伸法的原理和方法
8.6.2主体延伸基音检测法的步骤
8.6.3端点检测和元音主体的检测
8.6.4元音主体的基音检测
8.6.5计算延伸区间和长度
8.6.6在延伸区间进行基音检测
8.6.7主体延伸基音检测法的MATLAB程序
8.7带噪语音中的基音检测
8.7.1小波自相关函数法
8.7.2谱减自相关函数法
8.7.3谱减法与主体延伸法相结合
第9章 共振峰的估算方法
9.1预加重和端点检测
9.1.1预加重
9.1.2端点检测
9.2倒谱法对共振峰的估算
9.2.1倒谱法共振峰估算的原理
9.2.2倒谱法共振峰估算的MATLAB程序
9.3LPC法对共振峰的估算
9.3.1LPC法共振峰估算的原理
9.3.2LPC内插法共振峰的估算
9.3.3LPC求根法共振峰的估算
9.4连续语音LPC法共振峰的检测
9.4.1简单LPC共振峰检测
9.4.2改进的LPC共振峰检测
9.5基于HilbertHuang变换(HHT)的共振峰检测
9.5.1希尔伯特变换
9.5.2语音信号的另一种模型——AMFM模型
9.5.3对AMFM模型的分析
9.5.4语音信号共振峰特征参数提取的HHT方法
9.5.5基于HilbertHuang变换的共振峰检测步骤和MATLAB程序
五、《语音识别基本原理》 作者:[美]Lawrence_R._Rabiner
原美国贝尔实验室的,HMM模型就是通过他介绍,广为流传的,国内介绍语音识别涉及HMM模型的章节基本上就是本书章节的翻译。最初这本书我是在台湾的网站上下载的,虽然是影印版(应该是扫描仪扫的,一页PDF两页文字那种),但也如获至宝,打印出来,一句句地啃英文。后来在国内的找到了清华大学出版社出的影印版,排版要好多了。重点是啃第六章。
1、语音识别原理
2、语言信号的产生、感知及声学语言学特征
3、用于语言识别的信号处理和分析方法
4、模式对照技术
5、语音识别系统的设计与实现结果
6、隐马尔可夫模型(HMM)的理论应用
六、《解密复兴科技 基于隐马尔科夫模型的时序分析方法》编者:刘振亚,邓磊
第一部分 基础知识
第一章 极大似然估计法简介
第一节 线性模型的极大似然估计量
第二节 极大似然估计法的几个重点问题
第二章 贝叶斯分析
第一节 统计学历史发展简介
第二节 贝叶斯分析简介
第三章 马尔科夫链
第一节 有两种状态的马尔科夫链
第二节 转移函数和初始分布
第三节 马尔科夫链的一些性质
第四节 转移矩阵的估计问题
第二部分 隐蔽马尔科夫模型
第四章 混合分布和隐蔽马尔科夫模型
第一节 状态序列相互独立的混合分布模型
第二节 状态相互独立混合分布的参数估计
第三节 简单隐蔽马尔科夫模型
第四节 隐蔽马尔科夫模型的极大似然函数
第五章 隐蔽马尔科夫模型似然函数估计方法
第一节 数值算法
第二节 EM算法
第六章 隐蔽马尔科夫模型应用与模型选择
第一节 条件分布
第二节 预测分布
第三节 解码
第四节 状态预测
第五节 模型选择标准
七、《语音信号处理实验教程》作者:梁瑞宇 赵力 魏昕
是2009年《语音信号处理》的升级版,加入了matlab代码,有源码有真相。
第2章 语音信号处理基础实验
2.1语音采集与读写实验
2.2语音编辑实验
2.3声强与响度实验
2.4语音信号生成的数学模型
2.5语音信号的预处理
第3章 语音信号分析实验
3.1语音分帧与加窗
3.2短时时域分析
3.3短时频域分析
3.4倒谱分析与MFCC系数
3.5线性预测分析
3.6线谱对转换实验
第4章 语音信号特征提取实验
4.1语音端点检测实验
4.2基音周期检测实验
4.3共振峰估计实验
第5章 语音增强实验
5.1基于自适应滤波器法的语音降噪实验
5.2基于谱减法的语音降噪实验
5.3基于维纳滤波的语音降噪实验
5.4基于小波分解的语音降噪实验
第10章 语音识别实验
10.1基于动态时间规整(DTW)的孤立字语音识别实验
10.2基于隐马尔可夫模型(HMM)的孤立字语音识别实验
第11章 说话人识别实验
11.1基于矢量量化(VQ)的说话人识别实验
11.2基于高斯混合模型(GMM)的说话人识别实验
八、《语音信号处理C++版》作者:梁瑞宇、赵力、王青云
是2009年《语音信号处理》的升级版,加入了C++代码。
九、《实用语音识别基础》作者:王炳锡、屈丹、彭煊
第3章 语音信号处理方法:时域处理
3.1 概述
3.2 语音信号的数字化和预处理
3.3 短时平均能量和短时平均幅度
3.4 短时过零分析
3.5 短时自相关函数和平均幅度差函数
3.6 高阶统计量
第4章 语音信号处理方法:时频处理
4.1 概述
4.2 短时傅里叶变换
4.3 小波变换
4.4 Wigner分布
第5章 语音信号处理方法:倒谱同态处理
5.1 概述
5.2 复倒谱和倒谱
5.3 语音信号的倒谱分析与同态解卷积
5.4 避免相位卷绕的算法
第7章 语音识别的预处理
第8章 语音信号特征参数
8.1 概述
8.2 基音周期
8.3 线性预测参数
8.4 线谱对(LSP)参数
8.5 LPCC参数
8.6 MFCC参数
8.7 ASCC参数
8.8 感觉加权线性预测(PLP)特征
8.9 动态差分参数
8.10 高阶信号谱类特征
第9章 特征变换
9.1 概述
9.2 线性判别分析
9.2 主分量分析
9.2 独立分量分析
第10章 语音识别模型
10.1 概述
10.2 动态时间规整 (DTW)
10.3 隐马尔可夫模型(HMM)
这节参考来自劳伦斯 拉宾纳(Lawrence R.Rabiner)的书
10.4 分类模型(SVM)
10.5 人工神经网络
10.6 高斯混合模型(GMM)
十、《解析深度学习:语音识别实践》 编者:俞栋,邓力 著
1.3.1 第一部分:传统声学模型
1.3.2 第二部分:深度神经网络
1.3.3 第三部分:语音识别中的DNN-HMM 混合系统
1.3.4 第四部分:深度神经网络中的特征表示学习
1.3.5 第五部分:高级的深度模型
十一、《语音增强(Speech Enhancement)》作者:陈景东
主要介绍了一些比较工业化应用的算法。
第一章~第四章
主要介绍语音增强算法的基础知识;
第五章 谱减法
第六章 维纳滤波
第七章 统计模型方法
主要介绍基于统计模型的语音算法,大框架分两类:最大似然估计,最大后验概率估计
第八章 子空间算法
利用不相关性,借助特征值分解/奇异值分解进行表达
第九章 噪声估计的常用算法
第十章:语音增强的性能评估
十二、《深度学习理论与实战:基础篇》与《深度学习理论与实战:提高篇》 编者: 李理
这本书是免费的,网上网页有原文。
这本书详细介绍经典的基于 HMM-GMM 的语音识别系统,包括基于 WFST 的解码器和 Kaldi 的用法。Kaldi是基一个基于深度学习的一个著名的开源工具,具体可以用搜索引擎搜索更多资料。
Kaldi官方网址:https://github.com/kaldi-asr/kaldi.
随着近几年深度学习的火热,语音识别领域也纷纷投入深度学习的大潮之中。将传统HMM-GMM声学模型替换成HMM-DNN声学模型后,可以获得超过20%的相对提升,在传统N-Gram语言模型基础上叠加NN-LM语言模型也可以获得进一步的提高。因此,基于深度学习的语音识别模型层出不穷。
后记:
此前学习HMM时,对马尔可夫过程、前向算法、后向算法、EM算法、Baum-Welch和Viterbi算法是一无所知,都是陌生的概念。光一个EM算法就是号称十大人工智能算法之一,因为大学时数学没认真学,于是又把最似然估计看了好多遍才恍然大悟。上述算法一个一个啃下并编程实现以后,再整体调试HMM模型,并结合语音素材进行识别。可以说HMM模型算是比较庞大的算法,如果彻底掌握了,对后面学习人工神经网络(BP神经网络和卷积神经网络有非常大的帮助)或深度学习(其实大多也是人工神经网络模型)非常有帮助。返回搜狐,查看更多
责任编辑: