ABEL in China

Kaldi的简单介绍和基本使用说明

- 前言
- 一、ASR简介
- - 1.语音识别系统
  - - 特征提取：
    - 声学模型
    - 发音词典
    - 语言模型
    - 语音解码
  - 2. ASR项目
- 二、Kaldi简介
- 三、Kaldi项目的结构
- 四、Kaldi的安装
- - 1. 安装依赖的几个系统开发库
  - 2. 安装依赖的第三方工具库
  - 3. 编译Kaldi代码
  - - 配置Kaldi
    - 编译Kaldi
- 五、Kaldi的使用
- - 1. 训练模型
  - - 模型训练前的准备工作
    - 训练模型
    - 模型训练过程（run.sh）概述
  - 2. 搭建语音识别系统

前言

Kaldi是目前最流行的ASR（自动语音识别技术）开源项目之一，已被众多商用的语言识别系统使用。自从2019年Kaldi最主要的开发维护者，被称为Kaldi之父的Daniel Povey加入小米，出任小米集团语音首席科学家后，更加提升了小米的智能语音产品，并且小米也承诺会继续坚持自己纯粹、极致的开源文化，继续不断地加大对Kaldi的投入，持续为Kaldi社区做贡献。
虽然近些年随着神经网络技术的广泛应用，端到端的语音识别技术也随之兴起流行了起来，但也并不意味着Kaldi就要被淘汰了。目前比较流行的端到端开源项目espnet也融合了kaldi的数据处理工具，而且Daniel已经在小米组建团队研发新一代Kaldi（支持端到端），并且已经成功开发，正式发布了。

新一代kaodi项目的相关链接：
1. 核心算法库k2 
(https://github.com/k2-fsa/k2)
2. 通用语音数据处理工具包Lhotse
(https://github.com/lhotse-speech/lhotse)
3. 语音识别完整解决方案Icefall
(https://github.com/k2-fsa/icefall)
有兴趣的朋友可以去看看。

Daniel认为，从现有端到端语音识别模型的流行和准确率的逐步提升，到PyTorch、TensorFlow等易用的深度学习工具包的普及，开发新一代Kaldi已势如破竹。但新一代Kaldi的目标不仅仅是赶上或者稍微领先这些语音识别库，而是要根本地改变语音识别的实现方式。

新一代Kaldi已经面世，并且生命力强劲，但下面要介绍的还是传统的基于HMM的语音识别和老的Kaldi项目。

一、ASR简介

ASR（Automatic Speech Recognition）自动语音识别技术，是一种将人的语音转换为文本的技术。ASR是属于自然语言处理(NLP，Natural Language Processing) 的一个应用领域，而输入法（Input Method）、机器翻译（Machine translation）、语音合成（Speech synthesis）等技术也属于NLP的范畴。站在NLP的角度看，这些技术之间有很多相通性，学好一个，对其他的理解和掌握也有帮助。

1.语音识别系统

语音识别，顾名思义，是要把人的声音转化成文本，目标是在给定声音的前提下找到最有可能的文本序列。语音识别系统的结构可以用图1.1表示：

                               图 1.1 语音识别系统结构图

从图1.1中可以看出，语音识别系统总共有模型训练、语音识别两个过程，包含了特征提取、声学模型、发音词典、语言模型、语音解码五个部分。

其中模型训练是语音识别系统的核心工作，单这个过程就包含了图中的全部五个部分（模型训练完成后会用这个模型给语音库中的测试语音解码，然后打分，用误码率的指标来评估模型的识别率）。
语音识别的过程和给模型打分的过程差不多，基本可以认为就是把测试语音文件换成了实际输入的音频。

下面来简单说明一下上面提到的五个部分：

特征提取：

 不管是语音库中的音频文件还是通过mic输入的音频都是声学信号。声学信号只是根据时间变化的震动波的数字化数据。单从波形看输入的音频根本就没有完全相同的，每个音频都差别很大。但是，根据我们的实践，我们能识别出不同音频的内容，很清楚相同内容的音频之间有相同的特征，所以我们要把这些能分辨的特征从声学参数上体现出来，这就是这里要提到的**声学特征提取**。
 **声学特征提取**不管是从**时域、频域转换**还是**频谱分析**都牵涉到很多数学、信号处理等学科的专业知识，没有基础的话很难看明白，所以我们可以先了解这里面用到的技术方法名称，感兴趣的可以下去深入学习（包括之后的各部分都是这样）。
 目前语音识别系统常用的声学特征有：**梅尔频率倒谱系数（MFCC）、感知线性预测（PLP）、Fbank（Filter-bank）** 等。其中MFCC是相对用的比较多的，Fbank是不做DCT（离散余弦变换）的MFCC。一般经过MFCC等的特征提取后还要经过**CMVN**（Cepstral Mean and Variance Normalization，倒谱均值方差归一化）处理，以确保各个特征参数形式一致，特征参数形式不一致就不好比较，在检索匹配特征时会很麻烦。

声学模型

 有了声学特征后就要对这些特征进行建模，建模后就相当于一个音频可以用一个函数或公式来描述了，这样想要的结果就通过运算来得到，所以你会发现每一种ASR系统都会用到线性代数库工具。
 声学模型早期多使用**DTW（Dynamic Time Warping，动态时间规整）**，现在多使用**HMM（Hidden Markov Model，隐马尔可夫模型）**。声学模型训练常使用**GMM（Gaussian mixture model，高斯混合模型）**，随着神经网络算法的兴起**DNN（Deep Neural Networks，深度神经网络）**慢慢成了主流。不过GMM也没有完全废弃，一般的声学模型训练过程还是要先进行**单音素（mono-phone）**的**GMM**训练，接着是**三音素（Triphone）**的**GMM**训练，之后是在此基础之上的**三音素DNN**训练。三音素的GMM训练和DNN训练一般都会迭代好多次，虽然每次迭代后的模型都可以使用，但是一般迭代的次数越多模型越理想。

发音词典

一般是字或词和其发言音素的对照表文件，一般形如：

    SIL sil
     sil
    啊 aa a1
    啊 aa a2
    啊 aa a4
    啊 aa a5
    啊啊啊 aa a2 aa a2 aa a2
    啊啊啊 aa a5 aa a5 aa a5
    阿 aa a1
    阿 ee e1
    阿尔 aa a1 ee er3
    阿根廷 aa a1 g en1 t ing2
    阿九 aa a1 j iu3
    ... ...
    ... ...
    坐诊 z uo4 zh en3
    坐庄 z uo4 zh uang1
    坐姿 z uo4 z iy1
    座充 z uo4 ch ong1
    座驾 z uo4 j ia4

的文本文件。这个文件相对容易制作和获取，只是要特别注意的是，原始发音词典中有一些同音的字词，这个在建立发音词典模型时要特别处理。

语言模型

是从语言学或者说是语法的角度来处理的，不过这里的语言模型并不是通过显式的规定语法规则而是通过统计模型来建模的。比较常用的是用N-gram语言模型。
N-gram模型由于其简单有效，在语音识别中得到了广泛的应用。其目标为计算字符串ω作为一个句子出现的概率P(ω)。解码时会查找匹配出现概率最高的词序组合。
语言模型一般是使用N-gram工具对各种书籍、网页、报刊、新闻等资源的文本信息进行训练的，一般资源越多越好训练出的模型越理想。

语音解码

前面训练出的声学模型、发音词典模型、语言模型基本都可以认为是图的数据结构，解码的本质就是在图的网络中寻找最优路径。

为了加速解码识别效率又引入了WFST（Weighted Finite State Transducer，带权重的有限状态转换器）解码机制，这样可以把动态知识源提取编译好，形成静态网络，在解码时直接调用。从输入HMM状态序列，直接得到词序列及其相关得分。
现在的解码基本上都是基于WFST的，所以前面训练声学模型、发音词典模型、语言模型的时候也都是基于WFST构建的。基于WFST的模型的构建过程称为HCLG过程，也就是用H、C、L、G分别表示上述HMM模型、三音子模型、字典和语言模型的WFST形式。

整个过程会生产相应的H.fst、C.fst、L.fst、G.fst：

G.fst对应语言模型，用来描述词与词之间组合的可能性。
L.fst对应发音词典，实现单音子到词的转换。
C.fst描述音素上下文关系的转换，一般是三音子到单音子的转换。
H.fst表示HMM的转换关系。

最终这4个fst会合并成HCLG.fst的WFST。

一般HCLG网络构建的流程如下：

上面的过程是个静态的解码过程，由于静态网络已经把搜索空间全部展开，它只需要根据节点间的转移权重计算声学概率和累计概率即可，因此解码速度非常快。
用的比较多静态解码的有：

基于WFST的Viterbi静态解码
基于WFST的Lattice静态解码
其中Viterbi解码识别只保留一条最优路径，若要保存多种候选识别结果，就需要Lattice（因为不能保证viterbi给的最优路径就是真正的对的路径，错误的路径一样可能成为viterbi算法跑出来的最优路径）。

基于静态图HCLG解码的一些问题：

静态图HCLG自身占用空间大，难以使用大的语言模型，其在解码运行过程中占用内存也大，难以在移动端直接使用HCLG。
静态图HCLG构建过程速度慢，消耗内存高。

就相应的有动态解码：
on-the-fly Composition；
Rescoring（常规Rescoring、on-the-fly Rescoring）。

on-the-fly Composition动态解码思路是把HCLG分开成HCL和G，称之为HCL/G。构图时分别构建HCL和G，分别构建的HCL和G。因为不是完全展开的图，这两个图的大小远比其展开的静态图HCLG小，这样就节省了空间。另一方面无需再进行HCL和G的Compose这一过程，而这一步恰恰是静态图HCLG构建过程中最为耗时的一步，所以又节省了构图时间。在解码时，分别加载HCL和G，然后根据解码动态的对HCL和G进行按需动态Compose，而无需完全Compose展开。
虽然在节省了构图时间和图的空间，但是动态图HCL/G要在解码时动态的做Compose，也就加大了解码时的计算量，所以解码速度会相对降低。
Rescoring，其思路是在构建时使用小的LM1构建G1，使用G1构建静态图HCLG1，然后使用小的LM1和大的LM2构建G2（G2中LM的weight为LM2的weight减去LM1的weight）。解码时根据HCLG1和G2的使用方式，又可以做进一步细分：
1）常规Rescoring：利用HCLG1先全部解码，生成lattice或者nbest，然后在G2上做lattice和nbest的Rescoring。
2）on-the-fly Rescoring：使用HCLG1做解码，在解码过程中，每当解码出word时，立即再加上G2中的LM weight，所以称之为on-the-fly Rescoring。Kaldi中的BigLM Decoder即为on-the-fly Rescoring。

实际应用中常常搭建ASR online服务器，供需要语音识别的终端访问，一般服务器资源都比较丰富，所以可以不用担心构图的时间和静态图的大小，而且访问量大，解码效率更为重要，所以基于WFST的Lattice静态解码更为常用。
至于移动终端直接部署ASR的需求，有很多专门的嵌入式离线语音识别方案更为实用。

2. ASR项目

ASR比较流行的项目有早期的HTK、多年来的Kaldi和近年的netesp。
HTK是非常成熟的项目，相关工具、文档等资料都比较完善，而且至今仍在被使用。
Kaldi继承了HTK的很多优点，又做了很多改善，虽然已被广泛使用但是官方资料不够完善。
netesp是端到端语音识别技术中比较流行的一个，发展迅速，广受欢迎。

虽然端到端语音识别是未来语音识别系统非常有前途的发展方向，netesp也很火热，但这里还是选择了Kaldi，Kaldi作为一个优秀的传统语音识别项目，涵盖了语音识别的完整过程，对理解和掌握语音识别有很大帮助，并且其开放的精神，模块化、工具化的特点、降低耦合性，方便用户使用的理念很吸引人。另外Kaldi使用c++开发，不仅主项目开源而且项目使用到的第三方库也都是开源的或者有开源的选项，这样不仅可以方便深入学习Kaodi的实现，而且还可以根据需要来修改扩展，方便为各个平台上移植部署。
至于Kaldi的官方资料不够完善的问题，HTK的丰富资料也都是可以拿来参考（很多技术理论是相同的，而且Kaldi也提供了兼容HTK项目的工具），而且Dan Povey的个人主页上也有很多资料，众多的Kaldi参与者和使用者也做出了很多贡献。

二、Kaldi简介

关于Kaldi的介绍在官方文档（或者翻译的中文文档）中有更多的描述，这里就不完全照着写了。

Kaldi是一个用C + +编写的语音识别工具包，在Apache License v2.0（最自由的开源协议）下授权使用。Kaldi旨在供语音识别研究人员使用（而非普通用户）。
Kaldi的目标和HTK类似，它提供了现代和灵活的代码，使用C++实现，容易修改和扩展。
Kaldi使用OpenFST作为WFST工具，直接把OpenFST的源码作为一个库编译了进来。(而不是脚本的方式集成)。
Kaldi提供了广泛的线性代数支持，包括封装了标准BLAS和LAPACK库的矩阵库，默认使用Intel的MKL(Math Kernel Library)，也支持openblas等开源库。
Kaldi依赖的如SPHERE音频文件转换工具(sph2pipe)、scoring工具(sctk)、N-gram语言模型工具(srilm或irstlm)等工具和库也都是直接使用源码来构建。
尽量避免把简单问题复杂化
Kaldi提供的算法会尽量的简单通用，提功能的每个工具只完成特定的功能。
各个模块尽量松耦合。这就意味着一个头文件需要include的头文件尽可能少。比如矩阵库，它只依赖于下面的子目录而完全不依赖其它部分，因此它可以独立于Kaldi的其它部分被使用(比如把它当成一个普通的和Kaldi完全没有关系的矩阵库使用)。
完整的recipe
Kaldi对于很多常见语音数据集(主要是LDC的数据，当然也有一些其它开源数据集)的模型训练都提供完整的recipe，从而可以完整的复现整个过程。
Kaldi只维护最新的版本，所以用户应该定期更新到最新的master分支。

三、Kaldi项目的结构

Kaldi的项目可以在https://github.com/kaldi-asr/kaldi.git下载
或者使用命令

git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream
cd kaldi
git pull

通过git pull命令可以更新项目并修复一些bug。
进入项目的根目录，可以看到下面这些文件和目录

ls
cmake/
docker/
egs/
tools/
misc/
scripts/
src/
windows/
COPYING
CMakeLists.txt
INSTALL
README.md

一级目录	内容
egs	Kaldi的实例，包含了语音识别，语种识别，声纹识别，关键字识别等。
misc	包含了一些 pdf，以及相关 docker，htk 等资源。
scripts	只用来存放 Rnnlm，以及相应的运行脚本。
src	存放 Kaldi 的源代码，包括GMM，Ivector，Nnet等一系列的传统语音识别算法。
tools	主要存放 Kaldi 依赖库的安装脚本。
windows	在 Windows 平台运行所必须的脚本以及相关的执行程序。

其中，tools、src、egs这三个目录是比较重要的。

tools目录下面全部都是Kaldi依赖的包。其中主要有：

工具	内容
OpenFst	加权有限状态转换器（FST）的库。
IRSTLM	一种统计语言建模工具包。可以将任何Arpa格式的语言模型转换为FST。
SRILM	一种统计语言建模工具包。它是比IRSTLM更好，更完整的语言建模工具包。
sph2pipe	一款处理SPHERE_formatted数字音频文件的软件，它可以将LDC的sph格式的文件转换成其它格式。
sclite	这是NIST SCTK打分工具的一部分，用于生成符合NIST评测规范的统计文件。
CUB	是NVIDIA官方提供的CUDA核函数开发库，是目前Kaldi编译的必选工具
ATLAS	线性代数库。
CLAPACK	线性代数库。这仅在没有ATLAS且使用CLAPACK进行编译的系统上有用。
OpenBLAS	这是ATLAS或CLAPACK的替代方案。
MKL	Intel 的数学核心库，作为默认的线性代数库

egs目录下的很多实例就是前面提到的语音数据集的完整的recipe，下面列出几个常用的实例，更详细的可以访问这里和官网

实例	描述
Aishell	此目录为中文语音识别和声纹识别相关例子。
Aishell2	此目录主要为中文语音识别例子，但是针对 Aishell 在脚本方面更加规整。
rm	英语语音识别例子，包含了如何进行迁移学习。
thchs30	普通话语音识别例子。
wsj	wsj 英文语音识别例子。

src 目录为 Kaldi 的源码目录，在这个目录中，有两类文件夹，一类是算法原目录，一类为算法组合生成bin（可执行程序）目录，下面随便列举几个，想深入学习的可以访问这里和官网。

目录	功能
base	基础目录，主要包括与 Kaldi 项目相关的基础宏定义、类型定义等。
bin	基础 bin 目录，主要是包括基础的执行程序。例如，查看 tree 信息、矩阵拷贝等基础操作。
cudamatrix	矩阵计算相关 GPU 计算
matrix	矩阵计算相关 CPU 计算
hmm	隐马尔可夫算法的代码
feat	特征提取算法目录
featbin	特征提取可执行目录
gmm	GMM 算法
gmmbin	GMM 算法可执行文件目录
ivector	ivector 算法基础目录
ivectorbin	ivector 算法的可执行目录，以及基于能量的 vad 执行目录。
lat	网格生成基础算法目录
latbin	网格生成算法的可执行文件目录
nnet3	nnet3 相关基础算法实现目录
nnet3bin	nnet3 相关实现算法的可执行文件目录
online	online1 相关解码算法的实现目录
onlinebin	online1 相关解码器算法的可执行目录
online2	online2 相关解码器算法的实现目录
online2bin	online2 相关解码器算法的可执行目录

四、Kaldi的安装

Kaldi不是一个终端用户软件，没有安装包。安装Kaldi指的是编译Kaldi代码，以及准备一些必要的工具和运行环境。
由于Kaldi的示例都是使用shell脚本的，并且其I/O大量依赖管道，因此最佳的运行环境是UNIX类系统。这里以Ubuntu为例。

1. 安装依赖的几个系统开发库

在编译Kaldi之前，先要检查和安装Kaldi依赖的几个系统开发库，这些库有很多（g++、LLVM、Clang、zlib、python、gawk、perl、wget、git、libtool等），可以暂时不用知道有哪些，只需进入Kaldi下面的tools目录执行extras/check_dependencies.sh脚本来检查依赖的库是否已经安装，没有的话会给出提示，之后根据提示把缺少的库安装下就好了。

cd kaldi/tools/
extras/check_dependencies.sh

特别要注意的是Kaldi的线性代数库默认是IntelMKL，没有安装的话会给出提醒，如果想使用其他其他线性代数库的话（比如ATLAS或OpenBLAS）可以忽略。

2. 安装依赖的第三方工具库

进入kaldi/tools目录，执行make

cd kaldi/tools/
make

这样如果成功的话ATLAS headers、OpenFst、SCTK 、sph2pipe、CUB都会被自动下载编译安装，如果github能访问的话，基本都能顺利安装，如果不能访问可以把从这个地方下载好的压缩包放到tools目录下，然后对照更改下tools/Makefile中相应库的版本号，之后再执行make就可以了。
tools/Makefile中相应库的版本号位置如下：

# SHELL += -x

CXX ?= g++
CC ?= gcc        # used for sph2pipe
# CXX = clang++  # Uncomment these lines...
# CC = clang     # ...to build with Clang.

WGET ?= wget

OPENFST_VERSION ?= 1.7.2
CUB_VERSION ?= 1.8.0
# No '?=', since there exists only one version of sph2pipe.
SPH2PIPE_VERSION = 2.5
# SCTK official repo does not have version tags. Here's the mapping:
# 2.4.9 = 659bc36; 2.4.10 = d914e1b; 2.4.11 = 20159b5.
SCTK_GITHASH = 2.4.12

安装语音模型工具

cd kaldi/tools/
extras/install_irstlm.sh 
extras/install_srilm.sh
extras/install_kaldi_lm.sh

IRSTLM / SRILM / Kaldi_lm 这是三个不同的语言模型工具，不同的示例使用不同的工具。
其中安装SRILM有两点需要注意

第一、SRILM是商业软件，不是免费的，需要到SRILM网站上注册、接受许可协议才能下载，并且要重命名为srilm.tgz放到tools目录下。
第二、SRILM的安装依赖lbfgs库，这个库的安装方式为
```
cd kaldi/tools/
extras/install_liblbfgs.sh
```
SRILM等源码包我已经下载好放在了这里需要的话可以直接下载使用。

安装线性代数库
OpenBLAS / MKL / ATLAS / CLAPACK 任选一个就行，

其中MKL是默认使用的非常庞大且不开源，另外安装完Intel MKL后，不管是安装还是使用kaldi都要先在当前终端下以source方式执行MKL安装目录下的setvars.sh。
ATLAS与OpenBLAS是开源的，性能基本接近MKL,其中OpenBLAS会比ATLAS运行效率更高些。
CLAPACK 是在LAPACK的基础上，增加了c的调用方式，而LAPACK底层是调用的BLAS代码库。BLAS是一个早期很经典的一个库，他定义了后续线性代数库的API接口规范，但是太过老旧，没有针对架构进行优化，效率比较慢。
OpenBLAS和MKL的安装方式如下：
```
cd kaldi/tools/
extras/install_openblas.sh
extras/install_mkl.sh
```
安装CUDA
执行神经网络时要使用GPU进行运算，Kaldi的GPU计算部分使用了NVIDIA的CUDA框架。
除了CUDA框架的工具CUDA Toolkit外还需要用到CUDA的dnn工具cuDNN，这些工具都可在NVIDIA官网上下载CUDA Toolkit、cuDNN。
Kaldi通常支持最新的版本，在安装过程中需要root权限，每一步都使用默认设置，按照提示一步步执行就好。

安装好后查看CUDA的安装位置

ls -l /usr/local/cuda
lrwxrwxrwx 1 root root 22 11月  8 11:59 /usr/local/cuda -> /etc/alternatives/cuda/
ls -l /etc/alternatives/cuda
lrwxrwxrwx 1 root root 20 11月  8 11:59 /etc/alternatives/cuda -> /usr/local/cuda-11.7/

查看CUDA 编译工具nvcc的版本

/usr/local/cuda/bin/nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Jun__8_16:49:14_PDT_2022
Cuda compilation tools, release 11.7, V11.7.99
Build cuda_11.7.r11.7/compiler.31442593_0

需要注意的是CUDA的工具不会自动添加到环境变量中，使用时需要自己添加。

将　/usr/local/cuda/bin　加入　PATH　环境变量
将　/usr/local/cuda/lib64　加入　LD_LIBRARY_PATH　环境变量

3. 编译Kaldi代码

Kaldi的源代码使用gnu的autotools构建系统，可以根据配置自动生成相应平台的编译文件，
下面x86平台的PC机为例。

配置Kaldi

autotools构建系统是使用configure命令来配置的，关键配置如下：

cd kaldi/src

./configure --help
  --static              # 静态编译，会得到静态库，生成文件比较大，便于移植，默认不使用
  --shared              # 动态编译，会得到动态库和比较小的可执行文件，不便移植，默认不使用
  --double-precision    # 双浮点精度，默认不使用

  # CUDA相关设置
  --use-cuda            # 使用CUDA,默认使用，如果只用CPU运算，则不启用
  --cudatk-dir=DIR      # CUDA安装位置，默认是/usr/local/cuda
  --cuda-arch=FLAGS     # CUDA架构的相关参数，不配置就使用默认参数，详情可以查看:
         # https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html
         # 特别要注意的是要指定当前显卡的架构的版本代号，否则默认是用最新架构，这样可能会有问题，
         # 其参数的格式为 --cuda-arch=-arch=sm_xy ，xy是两个数字分别代表第几代和子版本

  # OpenFst 相关设置
  --static-fst          # 使用静态OpenFst库，默认不使用
  --fst-root=DIR        # OpenFst 安装位置，默认是../tools/openfst/

  # 线性代数库相关设置
  --mathlib=LIB         # 指定数学库，可选MKL（默认）、OPENBLAS、ATLAS、CLAPACK。
  --static-math         # 指定静态数学库，默认不使用
  --atlas-root=DIR      # ATLAS 安装位置，默认是../tools/ATLAS/
  --openblas-root=DIR   # OpenBLAS 安装位置，默认是../tools/openblas/
  --clapack-root=DIR    # CLAPACK 安装位置
  --mkl-root=DIR        # MKL 安装位置
  --mkl-libdir=DIR      # MKL库安装位置

使用默认数学库MKL、动态编译、不使用 gpu 的配置命令

./configure --shared --use-cuda=no

使用 gpu 则配置去掉 --use-cuda=no 并加上

--use-cuda --cudatk-dir=/usr/local/cuda/ --cuda-arch=-arch=sm_62

使用数学库使用OpenBLAS 则加上

 --mathlib=OPENBLAS --openblas-root=../tools/openblas/

推荐的完整配置命令为

./configure --shared --use-cuda --cudatk-dir=/usr/local/cuda/ --cuda-arch=-arch=sm_62 --mathlib=OPENBLAS --openblas-root=../tools/openblas/

编译Kaldi

配置成功后终端上就会给出Kaldi的编译命令

make depend -j 8
make -j 8

编译的时间比较长，请耐心等待，
上面的命令执行成功后Kaldi就算安装成功了。

五、Kaldi的使用

Kaldi安装成功后，接下来就可以使用egs下面的示例或者参照这些示例来训练模型，搭建语音识别系统了。
使用自己的语音库，来训练模型需要编写整理不少文件和脚本，还是比较复杂的，这里就不深入说明，只以希尔贝壳的开源语音库Aishell为例来说明怎么使用。

Aishell的recipe已经在kaldi/egs/目录下存在了，基本就是最新的，可以直接使用。

1. 训练模型

进入Aishell的recipe目录

cd kaldi/egs/aishell/
ls 
s5/
v1/        
README.txt

查看README.txt文件

cat README.txt
... ...
s5: a speech recognition recipe
v1: a speaker recognition recipe
... ...

我们知道
s5是语音识别的recipe，
v1是说话人识别的recipe，
这里使用s5就行。

ls s5
drwx------ 10      4096  9月 23 10:01 ./
drwx------  4      4096  9月 22 21:36 ../
drwx------  2      4096  8月 18 17:00 conf/
drwx------  4      4096  8月 18 17:00 local/
lrwxrwxrwx  1        62  8月 18 17:00 steps -> ../wsj/s5/steps/
lrwxrwxrwx  1        62  8月 18 17:00 utils -> ../wsj/s5/utils/
-rw-rw-r--  1      1018  8月 18 17:00 cmd.sh
-rw-r--r--  1       421  8月 18 17:00 path.sh
-rw-rw-r--  1      1514  8月 18 17:00 RESULTS
-rw-r--r--  1      6025  8月 18 17:00 run.sh

s5下的目录中

steps 和 utils 是指向egs/wsj示例下的相应目录，这两个文件夹下包含了好多通用脚本，被所有的示例共用。
- steps 中的是各个训练阶段的子脚本，如特征提取、GMM训练、dnn训练、解码等。
- utils 中的脚本是更细小的工具，用于协助处理，如任务管理、文件夹整理、临时文件删除、数据复制和验证等。
local 目录下的是处理当前示例数据的脚本、识别测试的脚本、以及出GMM训练之外的其他训练步骤的脚本。这些脚本调用了大量steps和utils目录下的脚本。
conf 目录下保存了一些如特征提取和识别解码的配置文件。
path.sh 定义了训练脚本中所使用的环境变量的位置，包括kaldi编译输出的位置、kaldi/tools下各个工具的位置、steps和utils脚本的位置等。
cmd.sh 定义了训练任务的提交方式。相关命令使用run.pl就是单机执行，使用queue.pl就是任务管理服务器集群的任务提交方式。常用的集群系统有SGE、PBS、SLURM，默认使用SGE，但个人建议使用SLURM是开源免费的，其维护积极，资料全，而且很多大型商用服务器都在使用，表现出色。当然只有一台电脑就直接使用run.pl就行了。
run.sh 是顶层运行脚本，集成了从资源下载、数据准备、特征提取到模型训练和测试的全部脚本，并给出了获取统计结果的方法。直接运行run.sh就可以得到训练测试好的模型。
RESULTS 是结果列表文件，给出了run.sh中每一步训练的模型在测试集上的效果。

模型训练前的准备工作

首先要准备一台有NVIDIA高性能独立显卡的电脑，否则 dnn 的 nnet3 或 chain 训练无法完成。
Aishell的语音库在数据准备的脚本中会自动下载，不过语音库数据有十几个GB，可以事先在Aishell官网，或者在openslr（本人测试发现openslr中的资源的下载链接中，欧洲的最好）下载好data_aishell.tgz 和resource_aishell.tgz 。放在同一个目录下，然后修改run.sh中data路径为此目录，即可。
```
#data=/export/a05/xna/data
data=Aishell的语音库所在目录
data_url=www.openslr.org/resources/33
```

修改cmd.sh ，因为我们是单机运行，所以需要将相关的queue.pl都改成run.pl（run.pl后面的–mem参数没有意义）。

#export train_cmd="queue.pl --mem 2G"
#export decode_cmd="queue.pl --mem 4G"
#export mkgraph_cmd="queue.pl --mem 8G"
export train_cmd="run.pl"
export decode_cmd="run.pl"
export mkgraph_cmd="run.pl"

修改path.sh，保证KALDI_ROOT的路径是当前kaldi项目的根目录（src和tools的上级目录），其他的不需要改。

export KALDI_ROOT=`pwd`/../../..        #修改这里的值，如果是kaldi/egs/下的示例则不需要修改
[ -f $KALDI_ROOT/tools/env.sh ] && . $KALDI_ROOT/tools/env.sh
export PATH=$PWD/utils/:$KALDI_ROOT/tools/openfst/bin:$PWD:$PATH
[ ! -f $KALDI_ROOT/tools/config/common_path.sh ] && echo >&2 "The standard file $KALDI_ROOT/tools/config/common_path.sh is not present -> Exit!" && exit 1
. $KALDI_ROOT/tools/config/common_path.sh
export LC_ALL=C
export PYTHONUNBUFFERED=1

确认 GPU 的运算环境

检查cuda toolkit环境

nvcc --version
如果出现
Command 'nvcc' not found, but can be installed with:
apt install nvidia-cuda-toolkit
说明cuda-toolkit没有安装或这没有配置环境变量

如果cuda-toolkit已经安装需要执行
export PATH=$PATH:/usr/local/cuda/bin

配置成功后可以看到
nvcc --version
nvcc: NVIDIA ® Cuda compiler driver
Copyright © 2005-2022 NVIDIA Corporation
Built on Wed_Jun__8_16:49:14_PDT_2022
Cuda compilation tools, release 11.7, V11.7.99
Build cuda_11.7.r11.7/compiler.31442593_0

 2. 修改GPU模式为独占式运行模式（dnn训练时非常消耗显卡存储资源，如果同时执行多个训练任务，显卡资源会很快枯竭。）
 ```shell
 sudo nvidia-smi -c 3
 Set compute mode to EXCLUSIVE_PROCESS for GPU 00000000:01:00.0.
All done.

修改local/chain/run_tdnn.sh和local/nnet3/run_tdnn.sh，把--use-gpu=true 设置成 –use-gpu=wait，没有则不修改。（理由同上）

if [ $stage -le 8 ]; then
if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d $dir/egs/storage ]; then
utils/create_split_dir.pl \
 /export/b0{5,6,7,8}/$USER/kaldi-data/egs/aishell-$(date +'%m_%d_%H_%M')/s5/$dir/egs/storage $dir/egs/storage
fi

steps/nnet3/train_dnn.py --stage=$train_stage \
--cmd="$decode_cmd" \
--feat.online-ivector-dir exp/nnet3/ivectors_${train_set} \
--feat.cmvn-opts="--norm-means=false --norm-vars=false" \
--trainer.num-epochs $num_epochs \
--trainer.optimization.num-jobs-initial $num_jobs_initial \
--trainer.optimization.num-jobs-final $num_jobs_final \
--trainer.optimization.initial-effective-lrate $initial_effective_lrate \
--trainer.optimization.final-effective-lrate $final_effective_lrate \
--egs.dir "$common_egs_dir" \
--cleanup.remove-egs $remove_egs \
--cleanup.preserve-model-interval 500 \
--use-gpu wait \                                    ## 修改这里 把 true 改为 wait
--feat-dir=data/${train_set}_hires \
--ali-dir $ali_dir \
--lang data/lang \
--reporting.email="$reporting_email" \
--dir=$dir  || exit 1;
fi

至此准备工作就基本完成了。

训练模型

准备工作完成后给run.sh加上可执行权限，然后直接执行静待完成即可。（训练时间会非常长，可能要好多天）

chmod a+x run.sh
./run.sh

模型训练过程（run.sh）概述

#!/usr/bin/env bash

# Copyright 2017 Beijing Shell Shell Tech. Co. Ltd. (Authors: Hui Bu)
#           2017 Jiayu Du
#           2017 Xingyu Na
#           2017 Bengu Wu
#           2017 Hao Zheng
# Apache 2.0

# This is a shell script, but it's recommended that you run the commands one by
# one by copying and pasting into the shell.
# Caution: some of the graph creation steps use quite a bit of memory, so you
# should run this on a machine that has sufficient memory.

data=/export/a05/xna/data
data_url=www.openslr.org/resources/33

. ./cmd.sh

############# 下载语音库数据 #############
local/download_and_untar.sh $data $data_url data_aishell || exit 1;
local/download_and_untar.sh $data $data_url resource_aishell || exit 1;

############# 预处理发音词典 #############
# Lexicon Preparation,
local/aishell_prepare_dict.sh $data/resource_aishell || exit 1;

############# 声学训练的数据准备 ############
# Data Preparation,
local/aishell_data_prep.sh $data/data_aishell/wav $data/data_aishell/transcript || exit 1;

############# 准备并训练语言模型 ############
# Phone Sets, questions, L compilation
utils/prepare_lang.sh --position-dependent-phones false data/local/dict \
    "" data/local/lang data/lang || exit 1;

# LM training
local/aishell_train_lms.sh || exit 1;

# G compilation, check LG composition
utils/format_lm.sh data/lang data/local/lm/3gram-mincount/lm_unpruned.gz \
    data/local/dict/lexicon.txt data/lang_test || exit 1;

############# 提取语音库中的音频特征 ###########
# Now make MFCC plus pitch features.
# mfccdir should be some place with a largish disk where you
# want to store MFCC features.
mfccdir=mfcc
for x in train dev test; do
  steps/make_mfcc_pitch.sh --cmd "$train_cmd" --nj 10 data/$x exp/make_mfcc/$x $mfccdir || exit 1;
  steps/compute_cmvn_stats.sh data/$x exp/make_mfcc/$x $mfccdir || exit 1;
  utils/fix_data_dir.sh data/$x || exit 1;
done

############### 训练单音素 GMM-HMM模型 ############
# Train a monophone model on delta features.
steps/train_mono.sh --cmd "$train_cmd" --nj 10 \
  data/train data/lang exp/mono || exit 1;

############### 解码，测试 训练出的单音素 GMM-HMM模型，并评估打分 #############
############ 解码前要构建状态图 ###########
# Decode with the monophone model.
utils/mkgraph.sh data/lang_test exp/mono exp/mono/graph || exit 1;
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \
  exp/mono/graph data/dev exp/mono/decode_dev
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \
  exp/mono/graph data/test exp/mono/decode_test


############### 在单音素 GMM-HMM模型 的基础上 训练三音素 GMM-HMM模型 ###############
########### 开始训练前要先将上一次训练出的模型进行gmm对齐 ###########
# Get alignments from monophone system.
steps/align_si.sh --cmd "$train_cmd" --nj 10 \
  data/train data/lang exp/mono exp/mono_ali || exit 1;

# Train the first triphone pass model tri1 on delta + delta-delta features.
steps/train_deltas.sh --cmd "$train_cmd" \
 2500 20000 data/train data/lang exp/mono_ali exp/tri1 || exit 1;


############### 解码，测试 训练出的三音素 GMM-HMM模型，并评估打分 #############
############ 同样解码前要构建状态图 ###########
# decode tri1
utils/mkgraph.sh data/lang_test exp/tri1 exp/tri1/graph || exit 1;
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \
  exp/tri1/graph data/dev exp/tri1/decode_dev
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \
  exp/tri1/graph data/test exp/tri1/decode_test
... ...
... ...
# align tri4a with fMLLR
steps/align_fmllr.sh  --cmd "$train_cmd" --nj 10 \
  data/train data/lang exp/tri4a exp/tri4a_ali

# Train tri5a, which is LDA+MLLT+SAT
# Building a larger SAT system. You can see the num-leaves is 3500 and tot-gauss is 100000

steps/train_sat.sh --cmd "$train_cmd" \
  3500 100000 data/train data/lang exp/tri4a_ali exp/tri5a || exit 1;

# decode tri5a
utils/mkgraph.sh data/lang_test exp/tri5a exp/tri5a/graph || exit 1;
steps/decode_fmllr.sh --cmd "$decode_cmd" --nj 10 --config conf/decode.config \
   exp/tri5a/graph data/dev exp/tri5a/decode_dev || exit 1;
steps/decode_fmllr.sh --cmd "$decode_cmd" --nj 10 --config conf/decode.config \
   exp/tri5a/graph data/test exp/tri5a/decode_test || exit 1;

############### 到此为止 三音素 GMM-HMM模型 训练 共进行了 5 次迭代 ###############



############### 在最后一个三音素 GMM-HMM模型 tri5a 的基础上 训练三音素 NNET3-HMM模型 ###############
########### 同样 在开始nnet3训练前要先将tri5a的模型进行对齐 ###########
# align tri5a with fMLLR
steps/align_fmllr.sh --cmd "$train_cmd" --nj 10 \
  data/train data/lang exp/tri5a exp/tri5a_ali || exit 1;

# nnet3
local/nnet3/run_tdnn.sh

############### 在三音素 NNET3-HMM模型的基础上 训练三音素 NNET3-CHAIN-HMM模型 ###############
# chain
local/chain/run_tdnn.sh

############### 打印每个训练的模型的测试打分结果（即WER，word error rate）###############
# getting results (see RESULTS file)
for x in exp/*/decode_test; do [ -d $x ] && grep WER $x/cer_* | utils/best_wer.sh; done 2>/dev/null
for x in exp/*/*/decode_test; do [ -d $x ] && grep WER $x/cer_* | utils/best_wer.sh; done 2>/dev/null

exit 0;

上面的训练过程中前面的语音库准备、发音词典处理，声学训练的数据准备、语言模型数据的准备是个很繁杂细致的工作，是最需要使用者做的工作，虽然后面的模型训练、测试等工作也很多，但是因为有很多实现好的工具和脚本，最难的部分不需要自己来做，反而轻松很多。

2. 搭建语音识别系统

语音识别就是将人说话的音频数据提取特征然后使用已训练好的模型来进行解码，得到说话的文本内容。
所以，语音识别系统就包括了音频数据的获取、音频特征提取、语音识别模型的导入和配置、使用模型解码音频。

下面使用上面训练出的 nnet3-chain模型和 kaldi的online2-tcp-nnet3-decode-faster工具来演示：

准备解码所需的配置文件

steps/online/nnet3/prepare_online_decoding.sh \
        --add-pitch true \            #aishell训练时提取的特征加入了pitch(音高)特征，所以这里也要加上
        data/lang_chain \            #存储了chain模型解码网络图中的G.fst和L.fst文件以及词汇表words.txt文件
        exp/nnet3/extractor \    #有关特征提取器的一些文件
        exp/chain/tdnn_1a_sp \        #chain模型的存放路径
        nnet_online                #生成的解码配置文件存放路径

解码配置文件生成后要检查修改nnet_online/conf/mfcc.conf为

--use-energy=false   # only non-default option.
--sample-frequency=16000
######下面4行参数和mfcc_hire有关########
--num-mel-bins=40     # similar to Google's setup.                        
--num-ceps=40     # there is no dimensionality reduction.            
--low-freq=40    # low cutoff frequency for mel bins                    
--high-freq=-200 # high cutoff frequently,relative to Nyquist of 8000 (=3800)

因为默认生成的特征类型是MFCC，而aishell训练nnet和chain模型输入的是更高维度的MFCC，叫mfcc_hire（hire是high resolution单词的缩写），所以这个地方要把mfcc_hire的参数加上，否则解码时会报维度不匹配的错误。

运行nnet3在线语音识别服务器online2-tcp-nnet3-decode-faster，监听tcp传输的实时音频数据，并返回解码结果

online2-tcp-nnet3-decode-faster --samp-freq=16000 \
 --frames-per-chunk=20 --extra-left-context-initial=0 \
 --frame-subsampling-factor=3 \
  --config=nnet_online/conf/online.conf \        #解码配置文件的主文件
 --min-active=200 --max-active=7000 --beam=15.0 \
 --lattice-beam=6.0 --acoustic-scale=1.0 、
 --port-num=5050 \            # tcp服务监听端口
 nnet_online/final.mdl \            # chain模型文件
 exp/chain/tdnn_1a_sp/graph/HCLG.fst \            # chain解码图文件
 data/lang_chain/words.txt            # chain词汇表文件

传输音频数据给online2-tcp-nnet3-decode-faster获取解码结果

#发送一个音频文件audio.wav给语音识别服务器
sox audio.wav -t raw -c 1 -b 16 -r 8k -e signed-integer - | nc -N localhost 5050
#通过MIC录音并事实传输给语音识别服务器
rec -r 8k -e signed-integer -c 1 -b 16 -t raw -q - | nc -N localhost 5050

通过上面3步，一个简单的语音识别系统就算完成了。

实际应用中有很多人用gstreamer来搭建kaldi在线语音识别系统。
其中还用到了kaldi-gstreamer-server、 gst-kaldi-nnet2-online gstreamer插件
感兴趣的朋友可以自己研究下。

参考资料
《Kaldi语音识别实践》—— 陈果果，都家宇，那兴宇，张俊博著
《基于声调信息的拉萨方言声学建模方法研究》—— 李建
Kaldi官方文档
Daniel Povey 的个人网站
OpenSLR—Open Speech and Language Resources
Kaldi官方文档的部分中文翻译和整理- 李想
AI大道理的语音识别（ASR）专栏
AI大道理的语音框架（Kaldi）专栏
Kaldi的HCLG构图过程可视化

你可能感兴趣的:(ASR,语音识别,人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
mysql查询统计聚合函数三小皮 mysql 数据库
业务中用户统计报表使用，查询字段使用聚合函数+条件，快速实现报表统计。SELECTMIN(s.org_name)ASorgName,s.way_nameASwayName,COUNT(s.id)ASwaybillTotal,SUM(s.take_weight)AStakeWeightTotal,SUM(s.revert_weight)ASrevertWeightTotal,SUM(s.settle
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri