语音不识别

语音识别框架之kaldi

kaldi环境配置

下载

https://github.com/kaldi-asr/kaldi.git

安装编译依赖库

cd kaldi
tools/extras/check_dependencies.sh

注意：根据提示安装相关依赖工具

安装第三方工具

OpenFst：
- kaldi使用FST作为状态图的表现形式，期待吗依赖OpenFst中定义的FST结构及一些基本操作，因此OpenFst对于Kaldi的编译是不可或缺的，安装方法如下
- 需要g++ 11

cd tools
make openfst

cub:
- cub是NVIDIA官方提供的CUDA核函数开发库，是目前Kaldi编译的必选工具，安装方法如下

cd tools
make cub

Sph2pipe:
- 这个工具是用来对SPH音频格式进行转换的，使用LDC数据的示例都要用到这个工具

cd tools
make sph2pipe

ITSTLM/SRILM/Kaldi_lm:
- 这是三个不同的语言模型工具，不同的示例使用不同的语音模型工具

cd tools
extras/install_irstlm.sh		
extras/install_srilm.sh
extras/install_kaldi_lm.sh

其中安装SRILM时有两点需要注意：
- 第一，SRILM用于商业用途不是免费的，需要到SRILM网站注册、接收许可协议，并需要命名为srilm.tgz,放到tools文件夹下
- 第二，STILM的安装依赖lbfgs库，这个库的安装方法是
- ```
cd tools
extras/install_liblbfgs.sh
```
OpenBLAS/MKL
- kaldi的最新版本已经选用MKL作为默认的矩阵运算库，如果需要手工安装OpenBLAS或者MKL，方法如下
- ```
cd tools
extras/install openblas.sh
```

编译kaldi

cd src
./configure --help # 查看相关配置

# 如果编译目的实在夫妻上搭建训练环境，推荐使用编译方式
./configure --share
make #单线程编译
make -j 4 # 多线程编译



# 如果只有cpu运算，则需要在配置时加入如下选项
./configure --share --use-cuda=no
# 如果ARMv8交叉编译，则使用如下编译方式，前提是armv-8-rpi3-linux-gnueabihf工具链是可用的，同时要求OpenFst和ATLAS使用armv8-rpi3-linux-gnueabihf工具链编译并安装到/opt/cross/armv8hf
./configure --static --fst-root=/opt/cross/armv8hf --atlas-root=/opt/cross/armv8hf -host=armv8-rpi3-linux-gnueabihf
# 如果为ARM架构的Android编译，则需要加上--android-includes这个选项，因为Android NDK提供的工具链可能没有吧C++的stdlib头文件加入交叉编译路径中
./configure --static --openblas-root=/opt/cross/arm-linux-androideabi --fst-root=/opt/cross/arm-linux-androideabi --fst-version=1.4.1 --android-incdir=/opt/cross/arm-linux-androideabi/sysroot/usr/include --host=arm-linux-androideabi

运行配置工具会在src文件夹在生成kaldi.mk文件，这个文件在编译过程中会被各个子目录的编译文件引用。

测试编译是否成功

# 如果kaldi代码做了修改，则可以使用如下选项来确定代码能够运行：
make test # 运行测试代码
make valgrind # 运行测试代码，检查内存泄漏
make cudavalgrinda # 运行GPU矩阵和测试代码，检查内存泄漏

重新编译

make clean
make depend
make

kaldi并没有提供类型make install 的方式把所有的编译结果复制到同一个指定地点，编译结束之后，生成的可执行文件都存放在各自的代码目录下，如：bin、featbin,可以在环境变量PATH中添加这些目录以方便调用Kaldi工具

配置并行环境

脚本工具

utils/run.pl

这个Perl脚本的作用是多任务地执行某个程序，这是一个非常方便的工具，可以独立于kaldi使用

utils/run.pl JOB=1:8 ./tmp/log.JOB.text echo "this is the job JOB"

kaldi流程

准备数据

四个标准文件

wav.scp

utt2spk

spk2utt

text

训练集和测试集所在路径-data/test_yesno和data/train_yesno

test_yesno

spk2utt

记录说话人说的每个ID
说话人id->语音id

global 0_0_0_0_1_1_1_1 0_0_0_1_0_0_0_1 0_0_0_1_0_1_1_0 0_0_1_0_0_0_1_0 0_0_1_0_0_1_1_0 0_0_1_0_0_1_1_1 0_0_1_0_1_0_0_0 0_0_1_0_1_0_0_1 0_0_1_0_1_0_1_1 0_0_1_1_0_0_0_1 0_0_1_1_0_1_0_0 0_0_1_1_0_1_1_0 0_0_1_1_0_1_1_1 0_0_1_1_1_0_0_0 0_0_1_1_1_0_0_1 0_0_1_1_1_1_0_0 0_0_1_1_1_1_1_0 0_1_0_0_0_1_0_0 0_1_0_0_0_1_1_0 0_1_0_0_1_0_1_0 0_1_0_0_1_0_1_1 0_1_0_1_0_0_0_0 0_1_0_1_1_0_1_0 0_1_0_1_1_1_0_0 0_1_1_0_0_1_1_0 0_1_1_0_0_1_1_1 0_1_1_1_0_0_0_0 0_1_1_1_0_0_1_0 0_1_1_1_0_1_0_1 0_1_1_1_1_0_1_0 0_1_1_1_1_1_1_1

text

记录每个ID的文本内容

语音id->语音的内容

0_0_0_0_1_1_1_1 NO NO NO NO YES YES YES YES
0_0_0_1_0_0_0_1 NO NO NO YES NO NO NO YES
0_0_0_1_0_1_1_0 NO NO NO YES NO YES YES NO

utt2spk

记录每个ID的说话人信息
语音id -> 说话人id

0_0_0_0_1_1_1_1 global
0_0_0_1_0_0_0_1 global
0_0_0_1_0_1_1_0 global

wav.scp

记录每个ID的音频文件路径
语音id -> 语音id所对应的文件路径

0_0_0_0_1_1_1_1 waves_yesno/0_0_0_0_1_1_1_1.wav
0_0_0_1_0_0_0_1 waves_yesno/0_0_0_1_0_0_0_1.wav
0_0_0_1_0_1_1_0 waves_yesno/0_0_0_1_0_1_1_0.wav

train_yesno
- spk2utt
- text
- utt2spk
- wav.scp

生成的这两个目录使用的是Kaldi的标准数据文件夹格式，每个句子都没有指定了一个唯一的id

kaldi输入输出机制

表单

经过local文件夹中的预处理脚本的处理，原始数据文件被处理成kaldi的标准格式——表单（table）
表单的本质是若干元素的集合，每个元素有一个索引
- 索引必须是一个不包含空格的非空字符串
- 而元素的类型取决于创建表单时的定义
  - 例如：摇窗机一个音频表单，那么元素的内容就是音频文件名：aduio1 /音频/audio1.wav
  - audio1 就是索引，后面的路径就是表单元素
在kaldi中，所有的数据文件都是以表单形式存储的，比如文本、音频特征、特征变换矩阵
表单可以存储在磁盘上，也可以存储在内存中[以管道的形式]
表单有两种
- 列表（Script-file) 表单
- 存档（Archive）表单
一套特有的输入输出机制

列表表单

作用
- 列表表单用于索引存储于磁盘或内存中的文件
- 在Kaldi通用脚本中，这类表单默认以.scp为扩展名，但对于Kaldi可执行程序来说并没有扩展名的限制
- ```
file1_index /path/to/file1
file2_index /path/to/file2
```
  - 空格之前的字符串是表单索引，空格之后的内容是文件定位符，用于定位文件
- 文件定位符
  - 可以是磁盘中的物理地址
  - 也可以是以管道形式的内存地址
  - ```
  file1_index gunzip -c /path/to/file1.gz |
  file2_index gunzip -c /path/to/file2.gz |
```
  - 上面的示例中，第一个空格之后的内容表示wav格式的音频文件的压缩包酱油gunzip进行解压并传输到内存管道中
  - 而kaldi的可执行文件将从管道中读取解压之后的文件内容并执行后续操作
  - 这样做可以节省磁盘空间
- 偏移定位符
  - 如果文件定位符执行的是二进制的kaldi存档文件，则还可以增加偏移定位符
  - 用于指向该二进制文件中从某一个字节开始的内容
  - 扩展偏移定位符：
    - 通过切片操作指定读取的行和列的范围
从管道文件和偏移定位符可以看出，文件定位符定义的“文件”，本质是上一个存储地址，这个地址可能是一个外部磁盘的物理地址，也可能是管道指向的内存地址，还可能是从一个磁盘文件中的某个字节开始的地址。
无论哪种形式，列表表单的元素一定是“文件”

存档表单

存档表单用于存储数据，数据可以是文本数据，也可以是二进制数据
这类表单通常默认以.ark为扩展名，但没有严格限制
存档表单没有行的概念，存档表单的元素直接没有间隔符，对于文本类型的存档文件来说，需要保证每个元素都以换行符结尾
- ```
text_index1 this is first text\text_index2 this is second text\n
```

二进制类型存档表单中

索引以每个字符对于的ASCII值存储，然后是一个空格，接下来是“\0B”，这个标志位是区别文本和二进制内容的重要标识

紧接着是二进制的表单元素，直至下一个索引

可以通过内容本身判断这个元素占用的空间大小，这个信息保存在一段文件头中

binary_index1 \0Bbinary_index2 \0B

中可以包含特征的帧数，维度，声学特征类型，占用字节数和释放压缩等信息

读写声明符

读声明符和谐声明符定义了可执行程序处理输入表单文件和输出表单文件的方式，他们都是有两部分组成
- 表单属性（specifier option）
  - scp：列表表单
  - ark,t ; ark ：存档表单
- 表单文件名 ( xfilename)
  - path/file1
- 这两部分都冒号组合在一起
- 他们可以接受的表单文件名如下：
  - 磁盘路径
    - 对于读声明符，指定一个存在于磁盘的文件路径
    - 对于写声明符，制定一个希望输出的文件路径
  - 标准输入
    - 对于读声明符和写声明符，如果指定 “-” 为表单文件名，则意味着要从标准输入获取文件内容，或者将输出打印到标准输入
  - 管道符号
    - 如果在某个可执行程序后边加上管道符号，则意味着要将输出送入管道，由管道后边的可执行程序接收
    - 如果在某个可执行程序前面加上管道符号，则意味着要从管道中获取输入
  - 磁盘路径夹偏移定位符
    - 这种方式只能用于读声明符，用户告知可执行程序从文件的某个字节开始读取

# 参数1：
# 	读声明符 
#		表单属性：	 	scp:
#		表单文件名：		path/file1
# 参数2：写声明符 ark,t:path/utt2dur
cmd scp:path/file1 ark,t:path/utt2dur

表单属性

写属性

表单类型：标识符为scp或ark，这个属性定义了输出表单文件的类型
- scp是列表表单
- ark是存档表单
- 同时输出一个存档表单和一个列表表单，必须ark在前scp在后
- ```
ark,scp:/path/archiver.ark,/path/archive.scp
```
二进制模式：标识符为b，表示将输出表单保存为二进制文件，只对输出存档表单生效
文本模式：标识符为t，表示输出的表单保存为文本文件，只对输出存档表单生效
刷新模式：标识符为f，表示刷新，标识符为nf，表示不刷新，用于确定在每次写操作后是否刷新数据流，默认是刷新
宽容模式：标识符为p，只对输出列表生效。在同时输出存档表单和列表表单时，如果表单的某个元素对应的存档内容无法获取，那么在列表表单中直接跳过这个元素，不提示错误

读属性

表单类型：标识符为scp或ark，输入表单文件的类型，无法在输入时同时定义一个存档表单和列表表单，只能输入一个表单文件，当同时输入多个表单时，可以通过多个读声明符实现
单次访问：标识符为o，标识符no为多次访问，告知可执行程序在读入表单中每个索引值出现一次，不会出现多个元素使用同一个索引的情况
有序表单：标识符为s，告知可执行程序元素的索引是有序的，ns是无序的
有序访问：标识符是cs或ncs，字面含义与有序表单属性的含义类似。这个属性的含义是，告知可执行程序表单中的元素将被顺序访问
二进制模式：标识符为b，表示将输出表单保存为二进制文件，只对输出存档表单生效
文本模式：标识符为t，表示输出的表单保存为文本文件，只对输出存档表单生效
刷新模式：标识符为f，表示刷新，标识符为nf，表示不刷新，用于确定在每次写操作后是否刷新数据流，默认是刷新
宽容模式：标识符为p，只对输出列表生效。在同时输出存档表单和列表表单时，如果表单的某个元素对应的存档内容无法获取，那么在列表表单中直接跳过这个元素，不提示错误

使用方法

可以把命令输出到管道，通过管道作为表单文件

# scp echo 'utt1 data/103-1240-0000.wav |' 读声明符
# echo 'utt1 data/103-1240-0000.wav' 输出一个表单
# 表单组成： "scp:[磁盘路径、标准输入-、管道符号|、磁盘路径夹偏移定位符]"  
# 表单组成： "ark:[磁盘路径、标准输入-、管道符号|、磁盘路径夹偏移定位符]" 
wav-to-duration "scp:echo 'utt1 data/103-1240-0000.wav' |" ark,t:-

多个读入文件，和多个输出文件，读入文件只能是单个类型的表单，输出可以是多种类型的表单

# 读声明符1 "ark:compute-mfcc scp:wav1.scp ark:- |",
# 读声明符2 "ark:compute-pitch scp:wav2.scp ark:- |"
# 写声明符：输输出多个文件feats.ark,feats.scp：ark,scp:feats.ark,feats.scp
paste-feats "ark:compute-mfcc scp:wav1.scp ark:- |" "ark:compute-pitch scp:wav2.scp ark:- |" ark,scp:feats.ark,feats.scp

数据文件

给出了声学模型训练数据的描述，其中文本标注是以词为单位的

列表类数据表单

句子音频表
- 句子音频表单的文件名为wav.scp
- 表单元素为音频文件或者音频处理工具输出的管道，每个元素可以表示一个切分后的句子，也可以表示包含多个句子的为切分整段音频
- 例如：说话人1录制的一段阅读段落
  - 这种未切分的，为分段的音频表单需要配合切分表单Segments使用
声学特征表单
- 声学特征表单的文件名为feats.scp
- 表单元素保存的是声学特征，每个元素表示一个句子。
普特征归一化表单
- 文件名称：cmvn.scp
- 通过声学特征处理脚本提取的谱归一化系数文件，其归一化可以以句子为单位，也可以以说话人为单位
VAD信息表单
- vad.scp
- 表单元素为用Kaldi的compute-vad工具提取的vad信息文件。
- 这个表单有提取vad的通用脚本生成的，以句子为单位

存档类型数据表单

说话人映射表单
- 文件名为：utt2spk、spk2utt
- 存放的是文本内容，一个句子到说话的映射，以及说话人到句子的映射
- ```
103-1240-0000 103-1240
103-1240-0001 103-1240
103-1240-0002 103-1240
103-1240-0003 103-1240

...
```
标注文本表单
- 标注文本表单的文件名：text
- 其内容是每一句音频的标注内容，通常保存为一个文本类型的存档表单
- 该文件保存的应当是文本归一化之后的内容，所谓的归一化，就是保证文本中的词都在发音字典和语言模型的此表中，而未出现的词都将被当做未知词。对于英语，通常要将所有字母统一成大写和小写。对于中文，最基本的要求是完成文本分词。
切分信息表单
- 切分信息表单文件名为：segments
- kaldi处理的数据是以句子为单位，如果音频文件没有按句切分，就需要将音频中的每一句的起止时间记录在segments文件中。
- ```
103-1240-0000 103-1240 2.81 6.41
103-1240-0001 103-1240 9.74 12.62
103-1240-0003 103-1240 15.27 24.23
...
```
  - 后两部分表示句子的起始时间和结束时间，以秒为单位
VTLN相关系数表单
- VTLN是一种说话人自适应技术
- 在Kaldi的数据文件中，有三个文本类型的存档文件与此相关，分别是：
  - 说话人性别映射（spk2gender) 索引是说话人，内容是性别标识f：女性，m男性
  - 说人话卷曲因子映射(spk2warp) 索引是说话人，内容是卷曲因子，用一个0.5~1.5的浮点数表示，
  - 句子卷曲映射(utt2warp) 索引是句子，内容与spk2warp内容相同
句子时长表单
- 文件名为：utt2dur，表单可以由一个通用脚本生成，
- 句子为索引，内容是每个句子的时长，以秒为单位

数据文件夹处理脚本

在kaldi的数据文件夹中常见的表单内容，其中需要自行准备，保存wav.scp、text和utt2spk，其它的文件都可以通过kaldi通用脚本生成

脚本名称	功能简介
combine-data.sh	将多个数据文件夹合并为一个，并合并对应的表单
combine_short_segments.sh	合并原来文件夹的短句，创建一个新的数据文件夹
copy_data_dir.sh	复制原文件夹，创建一个新的数据文件夹，可以指定说话人或句子的前缀。后缀，复制一部分数据
extract_wav_segments_data_dir.sh	利用原文件夹中的分段信息，切分音频文件，并保存为一个新的数据文件夹
fix_data_dir.sh	为原文件夹保留一个备份，删除没有同时出现在多个表单中的句子，并修正排序
get_frame_shift.sh	获取数据文件夹的帧移信息，打印到屏幕
get_num_frames.sh	获取数据文件夹的总帧移信息，打印到屏幕
get_segments_for_data.sh	获取音频时长信息，转为segments文件
get_utt2dur.sh	获取音频时长信息，生成 utt2dur 文件
limit feature dim.sh	根据原数据文件夾中的 feats. scp，取其部分维度的声学特征，保存到新创建的数据文件夹中
modify_speaker _info.sh	修改原数据文件夹中的说话人索引，构造“伪说话人”，保存到新创建的数据文件夹中
perturb_ data_ dir _speed.sh	为原数据文件夹创建一个速度扰动的副本
perturb data dir volume.sh	修改数据文件夹中的 wav.scp 文件，添加音量扰动效果
remove_ dup_utts.sh	刪除原数据文件夹中文本内容重复超过指定次数的句子，保存到新创建的数据文件夹中
resample data dir.sh	修改数据文件夹中的 wav.scp 文件，修改音频采样率
shift feats.sh	根据原数据文件夹中的 feats.scp 进行特征偏移，保存到新创建的数据文件夹中
split data.sh	将数据文件夹分成指定数目的多个子集，保存在原数据文件夹中以 split 开头的目录下
subsegment data dir.sh	根据一个额外提供的切分信息文件，将原数据文件夹重新切分，创建一个重切分的数据文件夹
subset data dir.sh	根据指定的方法，创建一个原数据文件夹的子集，保存为新创建的数据文件夹
validate data dir.sh	检查给定数据文件夹的内容，包括排序是否正确、元素索引是否对应等

表单索引一致性

表单索引分为三类：句子、音频、说话人
- 音频索引
  - 的作用是定位数据集中的音频文件，音频wav.scp一定是以音频为索引的。在kaldi的帮助文件中，音频索引被称为Recording identifier。这个索引对应的是一个录音文件，如果这个录音文件已经被切分为句子，则音频索引等同于句子索引。
- 句子索引
  - 在kaldi的帮助文件中被称为Utterance identifier，它定义了kaldi处理的数据的基本单元。大部分表单时以句子为索引的，其中最重要的就是text、utt2spk和feats.scp.在完成声学特征提取之后，音频索引就不再被使用了，这个声学模型训练过程都是使用上述三个表单完成的，因此这些表单的索引需要保持一一致
- 说话人索引
  - 这个索引并不一定对应一个真正的录音人，事实上，在kaldi的语音识别示例中，大部分都没有使用录音人作为说话人。
  - 以说话人为索引的表单包括spk2utt和cmvn.scp
说话人信息在自适应声学建模中使用，用来增强识别系统对不同说话人的适应能力，例如倒谱归一化（CMVN）。对CMVN系数估计和使用，kaldi的可执行程序有两种模式，一种是每句估计一套归一化系数，另一种是一个说话人使用一套归一化系数。在官方给出的训练脚本中，cmvn.scp默认安装spk2utt给出的映射统计每个说话人的归一化系数。

语言模型相关文件

在开始训练声学模型之前，需要定义发音词典、音素集和HMM的结构

在进行音素上下文聚类的时候，还可以通过制定聚类问题的方式融入先验知识。

生成词典文件夹

包括了发音词典与音素集，一般保存文件名为：dict

在下载数据阶段，还下载了预先整理好的发音词典和语言模型，以及语言模型的训练数据，

用于生成L.fst，，发音词典的fst：四个文件

lexiconp.txt、nonsilence_phones.txt、optional_silence.txt、silence_phones.txt

# 生成dict文件夹
# lexiconp.txt 概率音素词典 
# lexicon.txt  音素词典
# lexicon_words.txt  音素词典
# nonsilence_phones.txt  非静音音素
# optional_silence.txt  可选音素 sil
# silence_phones.txt 静音音素 sil
local/prepare_dict.sh

lexicon.txt

  SIL
 ！SIL SIL 表示静音，其发音是静音音素
  SPN 表示噪声和集外词，其发音都是SPN
  SPN
 YES Y
 NO N

给出了YES、NO和这三个单词的音素序列，其中、是一个特殊单词，表示静音

lexicon_nosil.txt
- 和lexicon.txt文件相同，只是去掉了行
- ```
YES Y
NO N	
```
phones.txt
- 给出了音素集
- ```
SIL
Y
N
```
silence_phones.txt
- 所有可以用来表示无效语音内容的音素
- ```
SIL
SPN # 表示有声音但是无法识别的声音片段
```
optional_silence.txt
- 用于填充词间静音的音素，选择用SIL这个音素表示词间静音。

生成语言文件夹

通过词典文件夹，生成语言文件夹，L.fst

L_disambig.fst # 增加消歧之后的发音词典生成的FST
L.fst # 增加消歧之前的发音词典生成的FST
oov.int  # 集外词
oov.txt # 集外词
phones # 定义了关于音素的各种属性，音素上下文无关、聚类时共享根节点
phones.txt # 音素索引 
topo # HMM拓扑结构
words.txt # 词索引

phones.txt和words.txt，分别定义了音素索引和词索引

集外词：无法被识别的

静音词、噪声词

!SIL SIL 表示静音，其发音是静音音素
 SPN 表示噪声和集外词，其发音都是SPN
 SPN

数据文件夹生成后，就可以根据其中的文本信息，以及事先准备好的发音词典等文件，生成语言模型文件夹

# 生成L.fst
utils/prepare_lang.sh --position-dependent-phones false data/local/dict “<SIL>” data/local/lang data/lang

生成语言模型

通过语料text，每句话的标注文本文件，生成语言模型，即3-ngram

task.arpabo
- 是语音模型
- 可以通过第三方工具和语料直接得到
- ```
\data\
ngram 1=4

\1-grams:
-1      NO
-1      YES
-99 
-1 
```

通过语言模型生成G.fst

准备文件

text

BAC009S0002W0122 而 对 楼市 成交 抑制 作用 最 大 的 限 购
BAC009S0002W0123 也 成为 地方 政府 的 眼中 钉
BAC009S0002W0124 自 六月 底 呼和浩特 市 率先 宣布 取消 限 购 后
BAC009S0002W0125 各地 政府 便 纷纷 跟进
BAC009S0002W0126 仅 一 个 多 月 的 时间 里
BAC009S0002W0127 除了 北京 上海 广州 深圳 四 个 一 线 城市 和 三亚 之外
BAC009S0002W0128 四十六 个 限 购 城市 当中
BAC009S0002W0129 四十一 个 已 正式 取消 或 变相 放松 了 限 购
BAC009S0002W0130 财政 金融 政策 紧随 其后 而来
BAC009S0002W0131 显示 出 了 极 强 的 威力
BAC009S0002W0132 放松 了 与 自 往 需求 密切 相关 的 房贷 政策
BAC009S0002W0133 其中 包括 对 拥有 一 套住 房 并 已 结清 相应 购房 贷款 的 家庭
BAC009S0002W0134 为 改善 居住 条件 再次 申请 贷款 购买 普通 商品 住房
BAC009S0002W0135 银行 业金 融机 构 执行 首套 房贷 款 政策
...

lexicon.txt

SIL sil
 sil
啊 aa a1
啊 aa a2
啊 aa a4
啊 aa a5
啊啊啊 aa a2 aa a2 aa a2
啊啊啊 aa a5 aa a5 aa a5
阿 aa a1
阿 ee e1
阿尔 aa a1 ee er3
阿根廷 aa a1 g en1 t ing2
阿九 aa a1 j iu3
阿克 aa a1 k e4
阿拉伯数字 aa a1 l a1 b o2 sh u4 z iy4
阿拉法特 aa a1 l a1 f a3 t e4
阿拉木图 aa a1 l a1 m u4 t u2
阿婆 aa a1 p o2
...

脚本

# 生成LM
local/prepare_lm.sh

声学分的固有分，即下一个单词出现的概率

通过L.fst和G.fst可以合成LG.fst，音素到词的fst，即输入是音素，输出是词的wfst——加权有限状态机

音素与音素之间也有概率转移，lexconp.txt文件

词与词之间也有概率转移

概率转移即使加权

声学模型相关文件

特征提取

事实上，我们人类的听觉器是通过频域而不是波形来辨别声音的，把声音进行短时傅里叶变换（STFT），就得到了声音的频谱。因此我们以帧为单位，依据听觉感知机理，按需调整声音片段频谱中各个成分的幅值，并将其参数化，得到适合表示语音信号特性的向量，这就是声学特征（Acoustic Feature）

声学特征

把波形分成若干离散的帧，整个波形可以看做是一个矩阵。

波形被分为了很多帧，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

常见声学特征

梅尔频率倒谱系数（MFCCs）是最常见的声学特征

compute-mfcc-feats  # 提取mfcc的脚本

FilterBank也叫FBank，是不做DCT的MFCCs，保留了特征维间的相关性，再用卷积神经网络作为声学模型时，通常选用FBank作为特征

compute-fbank-feats  # 提取fbank的脚本

PLP特征提取字线性预测系数（Linear Prediction Coefficient，LPC）

compute-plp-feats  # 提取plp的脚本

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v6DfXaoB-1648518966054)(assets/v2-1150511699482f0b4b2bd255bcd024f2_r.png)]

生成声学特征

这是训练声学模型的前提，特征提取需要读取配置文件，默认的配置文件路径是当前调用路径下的conf/mfcc.conf，也可以通过–mfcc-config选项来指定

for x in train_yesno test_yesno;do
	# mfcc 提取音频特征 
	steps/make_mfcc.sh --nj 1 data/$x exp/make_mfcc/$x mfcc
	steps/compute_cmvn_stats.sh data/$x exp/make_mfcc/$x mfcc
	utils/fix_data_dir.sh data/$x
done

特征提取的输出就是声学特征表单和用于保存声学特征的二进制文档

倒谱均值方差归一化

生成cmvn（Cepstral Mean and Variance Normalization,CMVN）

steps/compute_cmvn_stats.sh data/$x exp/make_mfcc/$x mfcc

该表单的元素以说话人为索引，每个方括号内是其对应的倒谱均值方差归一化系数，一个均值归一化，一个是方差归一化，以使得模型的输入特征趋于正态分布，这对于与说话人无关的声学模型建模非常重要。

查看CMVN

copy-matrix ark:mfcc/cmvn_train.ark ark,t:- # 查看cmvn 倒谱均值方差归一化

使用特征

特征提取完成之后，可以通过数据文件夹中的声学特征表单feats.scp和倒谱均值方差归一化系数表单cmvn.scp获取归一化的特征。在训练声学模型时，通常还要对特征做更多的扩展，例如kaldi的单音子模型训练，在谱归一化的基础上做了差分系数（Delta)扩展

mfcc->cmvn->delta

变换技术

无监督特征变换

无监督特征变换：差分（Delta）、拼帧（Splicing）和归一化（Normalize）

差分：即在一定的窗长内，计算前后帧的差分特征，补充到当前特征上。

src/featbin/add-deltas scp:data/train/feats.ark \
	ark,scp:data/ train/feats_delta.ark,data/train/feats_delta.scp

拼帧：即在一定的窗长内，将前后若干帧拼接成一帧特征

sec/featbin/splice-feats scp:data/feats.ark \
	ark,scp:data/feats_splice.ark,data/teats_splice.scp

归一化：通常被称为倒谱均值方差归一化，使其符合正太分布。

#估计CMVN系数
src/featbin/compute-cmvn0stats scp:data/train/feats.ark \
	ark,scp:data/train/cmvn.ark,data/train/cmvn.scp
# 应用CMVN进行特征变换
src/featbin/apply-cmvn scp:data/train/cmvn.scp scp:data/train/train/feats.ark \
	ark,scp:data/train/feats_cmvn.ark,data/trian/feats_cmvn.scp

有监督特征变换

有监督特征变换：有监督特征变换借助标注信息，估计一组变换系数，增强输入特征的表征能力，有助于提升声学模型的建模能力。

在语音识别中特征变换矩阵的估计方法主要分为两大类，线性判别分析（LDA）和最大似然线性变换（MLLT）。

LDA

LDA的目的是通过变换来减少同类特征间的方差，增加不同类特征之间方差，这里的类指的是声学模型的状态。

MLLT

是一类变换技术的统称，

均值最大线性自然回归（MeanMLLR），方差最大线性自然回归（VarMLLR），针对模型参数进行变换

报错半绑定协方差（STC），和特征最大似然线性回归（FMLLR），针对特征进行变换的技术

steps/train_lda_mllt.sh 
steps/train_sat.sh

常用特征类型

在中文语音识别中还常用基频

脚本名	作用	配置文件（conf文件夹下）
make_mfcc.sh	提取mfcc加基频特征	mfcc.conf
make_mfcc_pitch.sh	提取mfcc加基频特征	mfcc.conf pitch.conf
make_mfcc_pitch_online.sh	提取mfcc加在线基频特征	mfcc.conf,pitch_online.conf
make_fbank.sh	提取fbank特征	fbank.conf
make_fbank_pitch.sh	提取fbank加基频特征	fbank.conf,pitch.conf
make_plp.sh	提取plp特征	plp.conf
make_plp_pitch.sh	提取plt加基频特征	plp.conf,pitch.conf

在训练时候的特征和预测时候的特征是有偏差的，采用GMM-HMM的声学模型，没有NN-HMM的模型泛化能力强。

单音子模型的训练

做好了前面的各项准备工作，就可以开始训练声学模型（Acoustic Model，AM）

基本的模型结构：使用高斯混合模型（GMM）描述单因子（Monophone）发音转台的概率分布函数（PDF）的HMM模型

声学模型基本概念

一个声学模型就是一组HMM，一个HMM的参数是有初始概率，转移概率，观察概率三部分构成。

对于语音识别框架中的声学模型的每一个HMM，都应当定义该HMM中有多少个状态，以及各个状态起始的马尔科夫链的初始化概率，个状态间的转移概率以及每个状态的概率分布函数。

初始概率
- 一般零初始化概率恒为1
转移概率
- 预设为固定值，不再训练中更新转移概率
观察概率
- 声学模型包含的信息主要是状态定义和个状态的观察概率分布
- 如果用混合高斯模型对观察概率分布建模，那么就是GMM-HMM模型
- 如果使用神经网络模型对观察概率分布建模，那么就是NN-HMM模型

声学分

根据声学模型，可以计算某一帧声学特征在某一个状态上的声学分（AM score）

指的是该帧声学特征对于该状态的对数观察概率，或者成为对数似然值（log-likelihood)：

$AmScore(t,i) = logP(o_t|s_i)$

在上式子中，是第t帧语音声学特征 $o_t$ 在状态 $s_i$ 上的声学分

GMM建模

用于GMM建模观察概率分布的函数如下：

$logP(o_t|s_i)=log(\sum^{M}_{m=1}\frac{c_i,_mexp(-\frac{1}{2}(o_t-u_i,_m)^T(\sum^{-1}_{i,m})(o_t-u_i,_m))}{(2\pi)^{\frac{D}{2}}|\sum{}_{i,m}|^{\frac{1}{2}}})$

一个GMM-HMM模型存储的主要参数为各状态和高斯分类的 $u_{i,m}、\rho_{i,m}$ 和 $c_{i,m}$ 。

查看声学模型

gmm-copy --binary=false final.mdl final.mdl.txt

将声学模型用于语音识别

识别的过程就是语音的特征的序列特征取匹配一个状态图，搜索最优路径。

状态图中有无数条路径，每条路径代表一种可能的识别结果，且都有一个分数，该分数表示语音和该识别结果的匹配程度。

判断标准

判断两条路径的优劣就是比较这两条路径的的分数，分数高的路径更有，即高分路径上的识别结果和声音更匹配。

分数
- 声学分
  - 声学分则是在识别过程中根据声学模型和待识别语音匹配关系动态计算的，声学模型在语音识别过程中的最主要的就是计算声学分。
- 图固有分（Graph score）
  - 图固有分主要来源于语言模型概率，同时来源于发音词典的多音词选择概率和HMM模型的转移概率。
  - 这些概率在状态图构建过程中就固定在了状态图中，和待识别的语音无关，因此我们称它为图固有分

模型初始化

这个基础模型的每个状态只有一个高斯分类，在后续的训练过程中，会进行单高斯分量到混合多高斯分量的分裂。

# HMM topo结构
# 声学特征维数
# 初始化声学模型
gmm-init-mono topo 39 mono.mdl mono.tree

对齐

获取帧级别的标注，通过下面的工具

compile-train-graphs # 输出一个状态图

gmm-align # 内部调用了FasterDecoder，解码器来完成对齐

gmm-align-compiled # 对训练数据进行反复对齐

transition模型

transition模型存储于kaldi声学模型的头部

<TransitionModel> 
<TopologyEntry>
# 第一部分
</TopologyEntry>
<Triples>
# 第二部分
<音素索引，HMM状态索引，PDF索引>
</Triples>
</TransitionModel>

查看transition-state

transition-state对这些状态从0开始编号，

这样就得到了transition-index，把（transition-state，transition-index）作为一个二元组并从1开始编号，该编号就被称为transition-id

$ show-transitions phones.txt mono.mdl

Transition-state 1：phone = a hmm-state=0 pdf=0
Transition-id=1 p=0.75 [self-loop]
Transition-id=2 p=0.25 [0>1]
Transition-state 2：phone = a hmm-state=1 pdf=1
Transition-id=3 p=0.75 [self-loop]
Transition-id=4 p=0.25 [1>2]
Transition-state 3：phone = a hmm-state=2 pdf=2
Transition-id=5 p=0.75 [self-loop]
Transition-id=6 p=0.25 [2>3]

Transition-state 4：phone = a hmm-state=0 pdf=3
Transition-id=7 p=0.75 [self-loop]
Transition-id=8 p=0.25 [0>1]
Transition-state 5：phone = b hmm-state=1 pdf=4
Transition-id=9 p=0.75 [self-loop]
Transition-id=10 p=0.25 [1>2]
Transition-state 6：phone = a hmm-state=2 pdf=5
Transition-id=11 p=0.75 [self-loop]
Transition-id=12 p=0.25 [2>3]

transition-state:可以理解为是fst图的状态节点

transition-id:可以理解为fst的弧

设计transition-id的原因

相比 transition-id， pdfid 似乎是表示 HMM 状态更直观的方式，为什么 Kaldi要定义这样烦琐的编号方式呢？这是考虑到 paf-id 不能唯一地映射成音素，而transition id 可以。如果直接使用 paf-id 构建状态图，固然可以正常解码并得到 pdf-id序列作为状态级解码结果，但难以从解码结果中得知各个pdf-id 对应哪个音素，也就无法得到音素级的识别结果了，因此 Kaldi 使用 transition-id 表示对齐的结果。

GMM模型迭代

声学模型训练需要对齐结果，而对齐过程又需要声学模型，这看起来是一个鸡生蛋蛋生鸡的问题

Kaldi采取了一种更加简单粗暴的方式进行首次对齐，即直接把训练样本按该句的状态个数平均分段，认为每段对应相应的状态

align-equal-compiled # 对齐结果

对齐结果作为gmm-acc-stats-ali的输入。

# 输入一个初始模型：gmm-init-mono得到、
# 训练数据、
# 对齐结果
# 输出用于GMM模型参数更新的ACC文件
gmm-acc-stats-ali 1.mdl scp：train.scp ark:1.ali 1.acc

ACC文件

acc文件存储了GMM在EM训练中所需要的统计量。

生成ACC文件后，可以使用gmm-est工具来更新GMM模型参数

gmm-est

每次模型参数的迭代都需要成对使用这两个工具

gmm-acc-stats-ali

gmm-est

三音子模型训练

单音子作为建模单元的语音识别模型机器训练，在实际使用中，单音子模型过于简单，往往不能达到最好识别性能。

上下文相关的声学模型

Content Dependent Acoustic Model

三音子

描述的是一个音素模型实例取决于实例中心音素、左相邻音素和右相邻音素，共三个音素。

和HMM三状态要区分清楚，一个音素模型实例内部有三个HMM状态组成，在概念上不同的HMM状态用来分别捕捉该音素发音时启动、平滑、衰落等动态变化。

无论是单音子还是三音子，通常使用三状态HMM结构来建模

三音子聚类裁剪

单音子模型到三音子模型的扩展，虽然解决了语言学中协同发音等上下文的问题。但也带来了另一个问题，模型参数数据“爆炸”。

解决办法

将所有的三音子模型放到一起进行相似性聚类，发音相似的三音子被聚类到同一个模型，共享参数，通过人为控制聚类算法最终的类的个数，可以有效的减少整个系统中实际的模型个数，同时又兼顾解决了单音子假设无效的问题。

具体实现：通过决策树算法，将所有需要建模的三音子的HMM状态放到决策树的根节点中，作为基类。

Kaldi中的三音子模型训练流程

和单音子训练流程一样，训练之后用生成的模型对训练数据重新进行对齐，作为后续系统的基础

三音子训练模型的脚本功能又train_deltas.sh完成

steps/train_deltas.sh <num-leaves叶子数量> <tot-gauss高斯数量> <data-dir训练数据> <lang-dir语言词典等资源> <alignment-dir单音子模型产生的对齐文件> <exp-dir生成训练的的三音子模型>

steps/train_deltas.sh 2000 10000 data/train data/lang exp/mono_ali exp/tri

音素聚类

问题集：通过yes、no的形式进行提问

特征

区分性训练思想

语音识别的过程是在解码空间中衡量和评估所有的路径，将打分最高的路径代表的识别结果作为最终的识别结果。传统的最大似然训练是使正确路径的分数尽可能高，而区分性训练，则着眼于加大这些路径直接的打分差异，不仅要使正确路径的分数尽可能的高，还要使错误路径，尤其是易混淆路径的分数尽可能的低，这就是区分性训练的核心思想。

构图与解码

N元文法语言模型：ARPA

从语言模型构建G

词图

词与词之间的跳转，权重是语言模型

# 对APRA格式的语言模型文件解压后，直接输入到arpa2fst程序中，就得到目标G.fst
gunzip -c n.arpa.gz | arpa2fst --disambig-symbol=#0 \
--read-symbol-table=words.txt - G.fst

从发音词典构建L

音素图

单音子与词之间的跳转，权重是音素词典概率

prepare_lang.sh

WFST的复合运算

Compose

生成LG.fst

音素到单词的转录机

LG图对上下文展开

得到C之后，将C和LG复合，就得到了CLG。CLG把音素上下文序列转录为单词序列

fstmakecontextfst ilabels.sym <LG.fst> CLG.fst

实际上，并不是任意单音子的组合都是有意义的，在kaldi的实现中，并不去真正地构建完整的C，而是根据LG一边动态构建局部C，一边和LG复合，避免不必要地生成C的全部状态和跳转。

C的输入标签：是状态

输出标签是：音素对应的id

权重是：左侧音素和右侧音素

用WFST表示HMM拓扑结构

在生成从HMM状态到单词的转录机，之前需要有从上下文音素到单词的转录机。

首先把HMM模型的拓扑结构以及转移概率构成的WFST，这个WFST习惯上被简称为H

输入标签是HMM状态号

输入出标签是C中的ilabel

跳转权重是转移概率

# 构建H的工具
make-h-transducer

kaldi构建HCLG的主要流程为

## 构造G
arpa2fst --natural-base=false lm.arpa |\
fstprint | esp2disambig.pl | s2eps.pl |\
fstcompile -isymbols=map_word --osymbols=map_word \
--keep_isymbols=false --keep_osymbols=false |\
fstrmepsilon > G.fst

## 构造L

make_lexicon_fst.pl lexicon_disambig 0.5 sil | \
fstcompile --isymbols=map_phone --psymbols=map_word \
--keep_isymbols=false --keep_osymbols=false |\
fstarcsort --sort_type=olabel > L.fst

## 构造LG = L * G
fsttablecompose L.fst G.fst | fstdeterminizestar --use-log=true | \
fstminimizeencoded | fstpushspecial > LG.fst

## 动态奶生成C，并组合到LG，得到CLG
fstcomposecontext --context-size=3 --central-position=1 \
--read-disambig-syms=list_disambig \
--write-disambig-syms=ilabels_disambig \
ilabels LG.fst > CLG.fst

## 构造H
make-h-transducer --disambig-syms-out=tid_disambig \
ilabels tree final.mdl >H.fst

## 最终得到HCLG
fsttablecompose H.fst CLG.fst | \ # 复合
fstdeterminizestar --use-log=true | \ # 确定化
fstrmsymbols tid_disambig | fstrmepslocal | fstminimizeencoded | \ # 移除消歧符 最小化
add-self-loops --self-loop-scale=0.1 --reorder=true \ # 增加自跳转
model_final.mdl > HCLG.fst

解码部分

基于令牌传递的维特比搜索

构建了HCLG后，我们希望在图中找到一条最优路径，该路径上输出标签所代表的的HMM状态在待识别语音上的代价要尽可能的低。这条路径上取出静音音素后的输出标签就是单词级别的识别结果，这个过程就是解码。

维特比搜索

通常建立一个$T \times X $矩阵，$ T $为帧数，$ S$为HMM状态总数，对声学特征按帧遍历，对于每一帧的每个状态，把前一帧各个状态的累计代价和当前帧状态下的代价累加，选择使当前帧代价最低的前置状态作为当前路径的前置状态。现实中，并不需要始终存储整个矩阵信息，而只保留当前帧及上一帧信息即可

N-best

有时候我们也希望找到最优的多条路径，每条路径都对应一个识别结果，这个识别结果的列表被称为最优N个

Token

令牌传递算：该算法的基本思路就是把令牌进行传递。这里所说的令牌实际上是历史路径的记录，对每个令牌，都可以读取或回溯出全部的历史路径信息。令牌上还存储该路径的累计代价，用于评估该路径的优劣。

代价越低路径越优

剪枝

每个状态只保留一个令牌的方法，可以大幅度减少计算量，但令牌的数量仍然会快速增长，因此需要采用其他方法进一步限制解码器的计算量。

常见的方法是制定一套规则，比如全局最多令牌个数，当前令牌个数和最优令牌的最大差分等一系列条件，每传递指定的帧数，就把不满足这些条件的令牌删除，称为剪枝（Prune）

控制剪枝能力beam

当Decode()函数执行完毕后，解码的主体流程实际上就已经结束了，接下来需要执行一些步骤来取出识别结果。

simpledecode解码器提供了一个函数：ReachedFinal()，用于检测是否解码到最后一帧。

通常来说如果模型训练较好，解码时都可以到达最后一帧。

使用beam的情况

如果声学模型或语言模型和待测音频不匹配，则有可能所有的令牌在传递过程中都被剪掉，这时，就无法解码到最后一帧了。出现这种情况时，就是可以尝试设置更大的beam值

beam值越大，剪枝能力越弱

如果还是无法解码到最后，就需要分析声音，考虑重新训练声学模型和语言模型了。

Simp0leDecoder

src/gmmbin/gmm-decode-simple GMM模型 HCLG解码图 声学特征 输出单词级解码结果

声学模型：exp/tri1/final.mdl
状态图：exp/tri1/graph/HCLG.fst

声学特征：data/test.feats.scp

但需要对声学特征进行CMVN以及Delta处理

apply-cmvn --utt2spk=ark:utt2spk scp:cmvn.scp\
	scp:feats.scp ark:- | add-deltas ark:- ark:feats_cmvn_delta.ark

以上就是解码所需要的全部输入，可以使用gmm-decode-simple工具解码

gmm-decode-simple final.mdl hclg.fst ark:feats_cmvn_delta.ark ark,t:result.txt

识别结果保存在result.txt文件中

带词网格生成的解码-词格

解码的更常见做法不是只输出一个最佳路径，而是输出一个词网格（word Lattice）。词网格没有一个统一的定义，在Kaldi中，词网格被定义为一个特殊的WFST，该WFST的每个跳转的权重有两个值构成，不是一个标准WFST的一个值。这两个值分别代表声学分数和语言分数，和HCLG一样，词网格的输入标签和输出标签分别是transition-id和word-id

特点：
- 所有解码分数或负代价大于某阈值的输出标签（单词）序列，都可以在词网格中找到对应的路径
- 词网格中每条路径的分数和输入标签序列都能在HCLG中找到对应的路径
- 对于任意输出标签序列，最多只能在词网格中找到一条路径

词格：包含了最佳路径也包含了其它可能路径

LatticeDecoder
lattice-to-nbest # 
lattice-best-path # 得到文本方式表示的最佳路径单词序列

用语言模型重打分提升识别率

在构建HCLG时，如果语言模型非常大，则会构建出很大的G.fst，而HCLG.fst 的大小有事G.fst的若干倍，以至于HCLG。fst达到无法载入。

所以通过会采用语言模型裁剪等方法来控制HCLG的规模

ngram-count -prune # 参数提供了裁剪功能

重打分

裁剪后的语言模型或多或少会减少损失识别率。基于WFST的解码方法对这个问题的解决策略是使用一个较小的语言模型来构造G，进而构造G，进而构造HCLG。使用这个HCLG解码后，对得到的词格的语言模型使用大的语言模型进行修正，这样就在内存有限的情况下较好的利用大语言模型的信息。

固有分

语言分和HMM转移概率、多音字特定发音概率混在一起共同够了固有分

语言模型重打分调整的知识语言分，因此需要首先想办法去掉原固有分中的旧语言模型分数，然后应用新的语言模型分数

# 去掉旧语言模型分数
lattice-lmrescore --lm-scale=-.10 ark:in.lats G_old.fst ark:nolm.lats
# 应用新的语言模型分数
lattice-lmrescore --lm-scale=1.0 ark:nolm.lats G_new.fst ark:out.lats

构建大语言模型

构建大语言模型，无需构建HCLG，只需要构建G，使用arpa-to-const-arpa工具把ARPA文件转成CONST ARPA

arpa-to-const-arpa --bos-symbol=$bos \
 --eos-symbol=$eos --unk0symbol-$unk \
 lm.arpa G.carpa

和G 不同，CONSTARPA 是一种树结构，可以快速第查找到某一个单词的语言分，而不需要构建庞大的WFST，构建CONST ARPA后，就可以使用lattice-lmrescore-const-arpa工具进行重打分，他可以支持非常巨大的语言模型

# 去掉旧语言模型分数
lattice-lmrescore --lm-scale=-.10 ark:in.lats G_old.fst ark:nolm.lats
# 用CARPA应用新的语言模型分数
lattice-lmresocre-const-arpa --lm-scale=1.0 ark:nolm.lats \
	G.carpa ark:out.lats

从数据准备到解码

# 准备dict

. ./path.sh


# lexicon.txt文件夹
echo ">>>lexicon.txt "
res_dir=study
dict_dir=study/dict
mkdir -p $dict_dir
# 准备文件lexicon.txt
cp $res_dir/lexicon.txt $dict_dir

cat $dict_dir/lexicon.txt | awk '{ for(n=2;n<=NF;n++){ phones[$n] = 1; }} END{for (p in phones) print p;}'| \
  perl -e 'while(<>){ chomp($_); $phone = $_; next if ($phone eq "sil");
    m:^([^\d]+)(\d*)$: || die "Bad phone $_"; $q{$1} .= "$phone "; }
    foreach $l (values %q) {print "$l\n";}
  ' | sort -k1 > $dict_dir/nonsilence_phones.txt  || exit 1;

echo sil > $dict_dir/silence_phones.txt
echo sil > $dict_dir/optional_silence.txt

# No "extra questions" in the input to this setup, as we don't
# have stress or tone

cat $dict_dir/silence_phones.txt| awk '{printf("%s ", $1);} END{printf "\n";}' > $dict_dir/extra_questions.txt || exit 1;
cat $dict_dir/nonsilence_phones.txt | perl -e 'while(<>){ foreach $p (split(" ", $_)) {
  $p =~ m:^([^\d]+)(\d*)$: || die "Bad phone $_"; $q{$2} .= "$p "; } } foreach $l (values %q) {print "$l\n";}' \
 >> $dict_dir/extra_questions.txt || exit 1;

echo ">>>字典准备完成 "

# 准备数据
echo ">>>准备wav数据，生成 "


aishell_audio_dir=$res_dir/wav
aishell_text=$res_dir/text/aishell_transcript_v0.8.txt
# 前期数据
data=$res_dir/data

mkdir -p $data

# find wav audio file for train, dev and test resp.
find $aishell_audio_dir -iname "*.wav" > $data/wav.flist
n=`cat $data/wav.flist | wc -l`
[ $n -ne 141925 ] && \
  echo Warning: expected 141925 data data files, found $n

dir=$data
# Transcriptions preparation
echo Preparing $dir transcriptions
sed -e 's/\.wav//' $dir/wav.flist | awk -F '/' '{print $NF}' > $dir/utt.list
sed -e 's/\.wav//' $dir/wav.flist | awk -F '/' '{i=NF-1;printf("%s %s\n",$NF,$i)}' > $dir/utt2spk_all
paste -d' ' $dir/utt.list $dir/wav.flist > $dir/wav.scp_all
utils/filter_scp.pl -f 1 $dir/utt.list $aishell_text > $dir/transcripts.txt
awk '{print $1}' $dir/transcripts.txt > $dir/utt.list
utils/filter_scp.pl -f 1 $dir/utt.list $dir/utt2spk_all | sort -u > $dir/utt2spk
utils/filter_scp.pl -f 1 $dir/utt.list $dir/wav.scp_all | sort -u > $dir/wav.scp
sort -u $dir/transcripts.txt > $dir/text
utils/utt2spk_to_spk2utt.pl $dir/utt2spk > $dir/spk2utt

# kaldi_file标准文件目录
kaldi_file=$data/kaldi_file
mkdir -p $kaldi_file
for f in spk2utt utt2spk wav.scp text; do
  cp $data/$f $kaldi_file/$f || exit 1;
done

echo ">>>准备spk2utt utt2spk wav.scp text数据，生成kaldi_file标准文件格式 "
lang=${res_dir}/lang
# 生成L.fst
utils/prepare_lang.sh --position-dependent-phones false $dict_dir  "" $res_dir/lang_tmp $lang || exit 1;
echo ">>>spk2utt utt2spk wav.scp text数据准备完成 "
echo ">>>准备语言模型，LM "

echo `pwd`
# LM training
study/train_code/aishell_train_lms.sh || exit 1;


echo ">>>关键的一步，开始生成G.fst>>>"
G=${res_dir}/G
# 生成G.fst
utils/format_lm.sh ${res_dir}/lang ${res_dir}/lm/3gram-mincount/lm_unpruned.gz \
    ${dict_dir}/lexicon.txt $G || exit 1;
echo ">>>恭喜，生成G.fst完成 "


# 生成声学模型，H.fst
echo ">>>关键的一步，声学模型，开始生成H.fst "
echo ">>>提取音频特征MFCC "
train_cmd=run.pl
mfccdir= ${dict_dir}/mfcc
exp=${res_dir}/exp
steps/make_mfcc_pitch.sh --cmd "$train_cmd" --nj 8 $kaldi_file $exp/make_mfcc $mfccdir || exit 1;
echo ">>>提取完成"
steps/compute_cmvn_stats.sh $kaldi_file exp/make_mfcc $mfccdir || exit 1;
utils/fix_data_dir.sh $kaldi_file || exit 1;
echo ">>>CMVN完成"

echo ">>>开始训练单音素"
# steps/train_mono.sh --cmd "run.pl"  --nj 8 data/train data/lang exp/mono
steps/train_mono.sh --cmd "$train_cmd" --nj 8 $kaldi_file $lang $exp/mono || exit 1;
echo ">>>恭喜，生成H.fst完成"


# 生成HCLG.fst
# Monophone decoding
# 合成HCLG
# # 解码
utils/mkgraph.sh $G $exp/mono $exp/mono/graph || exit 1;
steps/decode.sh --cmd "run.pl" --config conf/decode.config --nj 8 \
  $exp/mono/graph $kaldi_file $exp/mono/decode

语音识别系统评价

评价指标

英文词错率 WER
- 计算方法
  - 将识别结果错误词的累计个数除以标注中的总词数，结果表示为一个百分数。
  - 对错误词有以下三种定义
    - 插入错误（Insertion）
    - 删除错误（Deletion）
    - 替换错误（Substitiute）
中文字错率 CER
正确率ACC来评价
- 测试句子的正确识别次数和全部标注文本词数

深度学习声学模型建模技术

基于神经网络的声学模型

为了捕捉发音单元的变换，通常将单音子（MonoPhone)扩展为上下文相关的三音子（Triphone），其副作用是模型参数急剧扩大，导致数据系数，训练效率降低，为了解决这个问题，建模过程引入了基于聚类方法的上下文决策树，以期在建模精度和数据量之间达到平滑。基于决策树的声学模型中，决策树的叶子节点的观察概率分布用GMM拟合，即似然度。在NN-HMM框架中，使用神经网络的输出表示每个叶子节点的分类概率，即后验概率。为了不影响声学模型训练和识别过程中的得分幅值，将后验概率除以对应叶子节点的先验概率，得到似然度。因此NN-HMM中的NN是发音状态分类模型，输入是声学特征，输出是分类概率。

词表的扩展

背景

我们前面介绍过，语音识别是一个封闭词表的任务,通常来说一旦构建就词表就以固定。但实际应用中总会出现各种各样的新词汇，有时我们还需要删除词表中的一些完全无用的垃圾词。name，我们想对词表进行增补或者删除时，是否需要重新构建整个系统呢？

为了回答这个问题，这里需要明确一个概念：语音识别系统训练过程中的词表（词典）与解码时的词表可以完全独立的。

在Kaldi的很多方法中只涉及一个词典，因此体现不明显，但开发者需要了解一下

训练词典：
- 其作用在于覆盖训练文本中出现的词汇，一旦将训练数据的文本转换为声学建模单元（入音素、音节等），接下来的声学模型训练就与词典无关了。
解码词典：
- 其作用在于覆盖实际应用可能出现的所有词汇
- 一方面，当面对狭窄的应用领域时，其词表可能比声学模型训练阶段的词表少很多
- 另一方面，当面对专业词的应用时，其中也可以包含许多训练阶段中没有出现的词汇

解决方法

因此，我们在应用阶段对词表进行变更时，无关训练，只需变更解码词典，并对解码空间进行离线重构。具体来说，在Kaldi中的HCLG的WFST框架下，整体的解码空间为HCLG，对于词表的变更，我们只需要参数Kaldi中的HCLG的相关流程，将其中的L及G进行更新，并与原声学模型搭配即可。

构建HCLG

构建G

构建G的方法1

echo "》》》关键的一步，开始生成G.fst===================================="
G=${res_dir}/G
# 生成G.fst
utils/format_lm.sh ${res_dir}/lang ${res_dir}/lm/3gram-mincount/lm_unpruned.gz \
    ${dict_dir}/lexicon.txt $G || exit 1;
echo "》》》恭喜，生成G.fst完成=========================================="

构建G的方法2

## 构造G
arpa2fst --natural-base=false lm.arpa |\
fstprint | esp2disambig.pl | s2eps.pl |\
fstcompile -isymbols=map_word --osymbols=map_word \
--keep_isymbols=false --keep_osymbols=false |\
fstrmepsilon > G.fst

构建L

## 构造L

make_lexicon_fst.pl lexicon_disambig 0.5 sil | \
fstcompile --isymbols=map_phone --psymbols=map_word \
--keep_isymbols=false --keep_osymbols=false |\
fstarcsort --sort_type=olabel > L.fst

构建CLG

## 构造LG = L * G
fsttablecompose L.fst G.fst | fstdeterminizestar --use-log=true | \
fstminimizeencoded | fstpushspecial > LG.fst

## 动态生成C，并组合到LG，得到CLG
fstcomposecontext --context-size=3 --central-position=1 \
--read-disambig-syms=list_disambig \
--write-disambig-syms=ilabels_disambig \
ilabels LG.fst > CLG.fst

构造H

make-h-transducer --disambig-syms-out=tid_disambig \
ilabels tree final.mdl >H.fst

构建HCLG

## 最终得到HCLG
fsttablecompose H.fst CLG.fst | \ # 复合
fstdeterminizestar --use-log=true | \ # 确定化
fstrmsymbols tid_disambig | fstrmepslocal | fstminimizeencoded | \ # 移除消歧符 最小化
add-self-loops --self-loop-scale=0.1 --reorder=true \ # 增加自跳转
model_final.mdl > HCLG.fst

封装构建HCLG

再有L和G的基础上

# 生成HCLG.fst
# Monophone decoding
utils/mkgraph.sh $G $exp/mono $exp/mono/graph || exit 1;

解码

需要HCLG.fst

# 参数 
# 	解码配置文件
# 	HCLG所在目录
# 	生成解码的文件识别的结果文本txt放在 
# 		这个目录：..exp/tri1/decode_test/scoring_kaldi/penalty_1.0
steps/decode.sh --cmd "run.pl" --config conf/decode.config --nj 8 \
  $exp/mono/graph $kaldi_file $exp/mono/decode
 # 内部使用的是gmm-latgen-faster解码器

重打分

在Librispeech示例中使用的是 faster-rnnlm方案，重打分的脚本是steps/rnnlmrescore.sh.这个脚本使用了RNN LM 和N元文法LM混合的重打分方案，其中 RNN LM的语言分计算由脚本utils/rnnlm_compute_scores.sh完成，并使计算出的分数修改词格。

构建大语言模型

# 去掉旧语言模型分数
lattice-lmrescore --lm-scale=-.10 ark:in.lats G_old.fst ark:nolm.lats
# 应用新的语言模型分数
lattice-lmrescore --lm-scale=1.0 ark:nolm.lats G_new.fst ark:out.lats

构建大语言模型，无需构建HCLG，只需要构建G，使用arpa-to-const-arpa工具把ARPA文件转成CONST ARPA

arpa-to-const-arpa --bos-symbol=$bos \
 --eos-symbol=$eos --unk0symbol-$unk \
 lm.arpa G.carpa

# 去掉旧语言模型分数
lattice-lmrescore --lm-scale=-.10 ark:in.lats G_old.fst ark:nolm.lats
# 用CARPA应用新的语言模型分数
lattice-lmresocre-const-arpa --lm-scale=1.0 ark:nolm.lats \
	G.carpa ark:out.lats

你可能感兴趣的:(语音识别,kaldi,语音识别,人工智能)

《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d

语音识别框架之kaldi

kaldi环境配置

安装编译依赖库

安装第三方工具

编译kaldi

测试编译是否成功

重新编译

配置并行环境

脚本工具

utils/run.pl

kaldi流程

准备数据

kaldi输入输出机制

表单

列表表单

文件定位符

偏移定位符

存档表单

二进制类型存档表单中

你可能感兴趣的:(语音识别,kaldi,语音识别,人工智能)