ferb2015

kaldi入门详解——aishell步骤解释

kaildi讲解

kaldi是一个开源的语音识别工具箱，是基于c++、perl、shell编写的，可以在windows和unix 平台上编译。

教程网页：http://www.kaldi-asr.org/doc/ 里面可以查阅语音/说话人识别实现过程、kaldi的数据结构、命令的使用说明等。还有网上的dan的ppt。

kaldi下载：https://github.com/kaldi-asr/kaldi。

语音识别基础知识快速入门

英文：《Speech and Language Processing》第9、10章。

中文入门方式可以看《语音信号处理》韩纪庆（编）的语音识别章节；或者《模式分类》这本书的部分章节。

kaldi安装

简要说明：（运行环境centos7、ubuntu16.4、macos 10.13都能安装成功）
0. 安装前你需要对你的 linux 进行配置，需要安装的软件apt-get、subversion、automake、autoconf、libtool、g++、zlib、libatal、wget，如何安装见《kaldi的全部资料_v0.7(未完成版本).pdf》。

git clone https://github.com/kaldi-asr/kaldi.git 选择某个路径，下载kaldi。
在命令行cd到kaldi路径下，cd到tool目录下，在命令行分别输入:

make -j nproc

extras/install_irstlm.sh

install_irstlm.sh是安装语言模型。
3. make 完后，在src目录下:在命令行分别输入：

./configure

make depend

make

make阶段是编译阶段，将下载的包编译为可执行文件，耗时较长，耐心等待。

ubuntu安装遇到问题最少，centos和macos上安装都会出现一些问题，得手动解决。

遇到过的error和解决方法：

make过程中，openfst-1.6.7.tar.gz没有解压完全，因此自动又解压一遍，生成openfst-1.6.7.tar.gz.1，因此要把原openfst-1.6.7.tar.gz删掉（rm openfst-1.6.7.tar.gz），openfst-1.6.7.tar.gz.1重命名为openfst-1.6.7.tar.gz（mv openfst-1.6.7.tar.gz.1 openfst-1.6.7.tar.gz）。再次make（不需要手动解压）。
sudo make仍出现permission denied造成error。把文件夹的用户改成使用者。比如我的用户名叫work，chown -R work kaldi。
如果多次make都遇到error，建议先make clean把编译过的全删掉，再重新装。

kaldi各文件解释

/egs：不同语料例子的执行脚本文件
/tools：存放asr过程中用到的库
/src：存放实际执行的c++算法

以aishell为例的ASR过程

命令行到kaldi路径下，输入

cd egs/aishell/s5

首先改cmd的配置：

vim cmd.sh

改为：

export train_cmd=run.pl         #"queue.pl --mem 2G"
export decode_cmd="run.pl --mem 4G"    #"queue.pl --mem 4G"
export mkgraph_cmd="run.pl --mem 8G"   #"queue.pl --mem 8G"
export cuda_cmd="run.pl --gpu 1"

原文件的queue是基于集群的，这里我们用本机/服务器跑，因此改为run.sh。

:wq保存后，输入：

vim run.sh

看见data=/export/a05/xna/data改成想存放语料的路径，返回后，新建对应的文件夹。之后输入

./run.sh

就开始进行asr过程了。强烈建议逐行运行，运行当前行时，把其他暂时注释调，这样清楚看见每个阶段的过程。

过程简单说来就是：

语料数据准备下载语料库到本地/服务器的文件夹
数据关系，词典、语言文件（text, wav.scp, utt2pk, spk2utt）准备，训练集、测试集、验证集准备
单音素（或者其他模型）训练和解码
构建解码图
解码查看结果

run.sh详细解释：

这里是简单的介绍，具体细节可以参考kaldi入门详解 aishell2步骤解释（二）

vim run.sh

查看run.sh脚本，这里逐行解释：

下载并解压aishell 178小时语料库，（音频和lexicon词典）：

local/download_and_untar.sh $data $data_url data_aishell || exit 1;
local/download_and_untar.sh $data $data_url resource_aishell || exit 1;

准备词典：

local/aishell_prepare_dict.sh $data/resource_aishell || exit 1;

准备数据。分成test、dev、train集。：

local/aishell_data_prep.sh $data/data_aishell/wav $data/data_aishell/transcript || exit 1;

词典、语言文件准备，生成对应的数据关系：

Phone Sets, questions, L compilation
utils/prepare_lang.sh --position-dependent-phones false data/local/dict \
    "" data/local/lang data/lang || exit 1;

其中，数据关系保存在/data里，文件解释如下：

spk2gender 包含说话人的性别信息
spk2utt 包含说话人编号和说话人的语音编号的信息
text 包含语音和语音编号之间的关系
utt2spk 语音编号和说话人编号之间的关系
wav.scp 包含了原始语音的路径信息等

提取MFCC特征：

# Now make MFCC plus pitch features.
# mfccdir should be some place with a largish disk where you
# want to store MFCC features.
mfccdir=mfcc
for x in train dev test; do
  steps/make_mfcc_pitch.sh --cmd "$train_cmd" --nj 10 data/$x exp/make_mfcc/$x $mfccdir || exit 1;
  steps/compute_cmvn_stats.sh data/$x exp/make_mfcc/$x $mfccdir || exit 1;
  utils/fix_data_dir.sh data/$x || exit 1;
done

分为两步，先通过steps/make_mfcc.sh提取MFCC特征，再通过steps/compute_cmvn_stats.sh计算倒谱均值和方差归一化。

生成了两个文件夹：mfcc 和 exp/make_mfcc，其中 mfcc 里主要保存了提取的特征，而 exp/make_mfcc 里保存了日志，即 .log 文件。

在 steps/make_mfcc.sh 里用到的最主要的命令就是 compute-mfcc-feats 和 copy-feats，其在 src 里编译好的。

mfcc 目录里主要是 .ark 和 .scp 文件，其中 .scp 文件里的内容是语音段和特征对应，而真正的特征保存在 .ark 文件里。用下面的命令可以看清楚

copy-feats ark:mfcc/raw_mfcc_train.1.ark ark,t:-

单音素训练：

steps/train_mono.sh --cmd "$train_cmd" --nj 10 \
    data/train data/lang exp/mono || exit 1;

之后会在 exp 文件夹下产生一个 mono 的目录，里面以 .mdl 结尾的就保存了模型的参数。使用下面的命令可以查看模型的内容。

$ gmm-copy --binary=false exp/mono/0.mdl - | less

构建单音素解码图：

# Monophone decoding
utils/mkgraph.sh data/lang_test exp/mono exp/mono/graph || exit 1;

mkgraph.sh主要生成了HCLG.fst和words.txt这两个重要的文件，后续识别主要利用了三个文件，分别是final.mdl、HCLG.fst、words.txt。

解码：分别针对开发集和测试集解码

steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \
  exp/mono/graph data/dev exp/mono/decode_dev
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \
  exp/mono/graph data/test exp/mono/decode_test

解码的日志会保存在 exp/mono/decode_dev/log 和 exp/mono/decode_test/log 里。

Veterbi 对齐

# Get alignments from monophone system.
steps/align_si.sh --cmd "$train_cmd" --nj 10 \
  data/train data/lang exp/mono exp/mono_ali || exit 1;

之后就是和训练单音素一样，进行其他模型的训练解码，生成声学模型和语言模型，保存在/exp中。

查看结果：

输入下面的命令来查看结果

# getting results (see RESULTS file)
for x in exp/*/decode_test; do [ -d $x ] && grep WER $x/cer_* | utils/best_wer.sh; done 2>/dev/null

总结：aishell的/s5/run.sh文件运行了gmm+hmm hybrid模型以及dnn+hmm hybrid模型。

首先用标准的13维MFCC加上一阶和二阶导数训练单音素GMM系统，采用倒谱均值归一化（CMN）来降低通道效应。然后基于具有由LDA和MLLT变换的特征的单音系统构造三音GMM系统，最后的GMM系统用于为随后的DNN训练生成状态对齐。
基于GMM系统提供的对齐来训练DNN系统，特征是40维FBank，并且相邻的帧由11帧窗口（每侧5个窗口）连接。连接的特征被LDA转换，其中维度降低到200。然后应用全局均值和方差归一化以获得DNN输入。DNN架构由4个隐藏层组成，每个层由1200个单元组成，输出层由3386个单元组成。基线DNN模型用交叉熵的标准训练。使用随机梯度下降（SGD）算法来执行优化。将迷你批量大小设定为256，初始学习率设定为0.008。
被噪声干扰的语音可以使用基于深度自动编码器（DAE）的噪声消除方法。DAE是自动编码器（AE）的一种特殊实现，通过在模型训练中对输入特征引入随机破坏。已经表明，该模型学习低维度特征的能力非常强大，并且可以用于恢复被噪声破坏的信号。在实践中，DAE被用作前端管道的特定组件。输入是11维Fbank特征（在均值归一化之后），输出是对应于中心帧的噪声消除特征。然后对输出进行LDA变换，提取全局标准化的常规Fbank特征，然后送到DNN声学模型（用纯净语音进行训练）。

train_mono.sh 用来训练单音子隐马尔科夫模型，一共进行40次迭代，每两次迭代进行一次对齐操作
train_deltas.sh 用来训练与上下文相关的三音子模型
train_lda_mllt.sh 用来进行线性判别分析和最大似然线性转换
train_sat.sh 用来训练发音人自适应，基于特征空间最大似然线性回归
nnet3/run_dnn.sh 用nnet3来训练DNN，包括xent和MPE
用chain训练DNN

结果

aishell训练模型的词错误率wer和字错误率cer如下：

%WER 44.23 [ 28499 / 64428, 1821 ins, 4610 del, 22068 sub ] exp/mono/decode_test/wer_13_0.0
%WER 29.67 [ 19113 / 64428, 1567 ins, 2934 del, 14612 sub ] exp/tri1/decode_test/wer_14_0.5
%WER 29.24 [ 18841 / 64428, 1557 ins, 2813 del, 14471 sub ] exp/tri2/decode_test/wer_15_0.5
%WER 27.38 [ 17640 / 64428, 1764 ins, 2267 del, 13609 sub ] exp/tri3a/decode_test/wer_16_0.0
%WER 23.44 [ 15102 / 64428, 1468 ins, 2110 del, 11524 sub ] exp/tri4a/decode_test/wer_15_0.5
%WER 21.76 [ 14017 / 64428, 1383 ins, 1954 del, 10680 sub ] exp/tri5a/decode_test/wer_16_0.5
%WER 17.43 [ 11233 / 64428, 1077 ins, 1675 del, 8481 sub ] exp/nnet3/tdnn_sp/decode_test/wer_16_0.5
%WER 15.96 [ 10281 / 64428, 919 ins, 1672 del, 7690 sub ] exp/chain/tdnn_1a_sp/decode_test/wer_12_0.5

%CER 34.13 [ 35757 / 104765, 783 ins, 3765 del, 31209 sub ] exp/mono/decode_test/cer_11_0.0
%CER 19.56 [ 20496 / 104765, 910 ins, 1436 del, 18150 sub ] exp/tri1/decode_test/cer_13_0.5
%CER 19.16 [ 20073 / 104765, 989 ins, 1211 del, 17873 sub ] exp/tri2/decode_test/cer_13_0.5
%CER 17.24 [ 18060 / 104765, 780 ins, 1024 del, 16256 sub ] exp/tri3a/decode_test/cer_13_0.5
%CER 13.58 [ 14227 / 104765, 640 ins, 716 del, 12871 sub ] exp/tri4a/decode_test/cer_14_0.5
%CER 12.22 [ 12803 / 104765, 668 ins, 565 del, 11570 sub ] exp/tri5a/decode_test/cer_14_0.5
%CER 8.44 [ 8838 / 104765, 331 ins, 510 del, 7997 sub ] exp/nnet3/tdnn_sp/decode_test/cer_14_0.5
%CER 7.37 [ 7722 / 104765, 303 ins, 581 del, 6838 sub ] exp/chain/tdnn_1a_sp/decode_test/cer_11_1.0

参考资料：
1.解读thchs30/s5/run.sh的主要步骤：https://blog.csdn.net/BBZZ2/article/details/72884979
2.kaldi的语音识别数据timit例子详解：https://blog.csdn.net/DanyHgc/article/details/75222517

说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
2020-11-23 安装kaldi提示CUDA版本与实际安装版本不符 CBCU Ubuntu Kaldi CUDA 语音识别 linux 深度学习
安装kaldi提示CUDA版本与实际安装版本不符在kaldi的src文件夹下运行./configure--shared提示：***configurefailed:CUDA9_1doesnotsupportg++(g++-7).Youneedg++<7.0.***而我在实际安装的版本是10_1：nvcc:NVIDIA(R)CudacompilerdriverCopyright(c)2005-2019
sherpa-onnx开源语音处理框架研究报告：从技术解析到应用实践 chanalbert AI 开源分享开源 python c++java
1项目概述与技术背景开源地址：https://github.com/k2-fsa/sherpa-onnxsherpa-onnx是一个基于下一代Kaldi和ONNX运行时的开源语音处理框架，由K2-FSA团队开发并维护。该项目专注于提供跨平台、高效率的语音处理能力，支持在完全离线的环境中运行语音识别(ASR)、文本转语音(TTS)、说话人识别、语音活动检测(VAD)等多项功能。与依赖云服务的传统语音
使用kaldi的sherpa-onnx根据文字语音合成（英文）静候光阴架设私有大模型语音识别语音识别人工智能
专栏总目录文字转语音，不论文字有多长，立刻出结果一、准备sherpa-onnx项目文件（一）下载项目文件下载地址：https://github.com/k2-fsa/sherpa-onnx（二）下载最新模型文件下载地址：https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models
Kaldi GStreamer 服务器：实时语音识别的强大工具滑辰煦Marc
KaldiGStreamer服务器：实时语音识别的强大工具kaldi-gstreamer-serveralumae/kaldi-gstreamer-server:KaldiGStreamerServer是基于Kaldi语音识别工具包和GStreamer多媒体框架构建的一个服务器应用，允许通过网络传输音频数据，并利用Kaldi处理这些数据以实现语音识别。项目地址:https://gitcode.co
学习基本咖啡知识帅云毅职业技能成长学习印象笔记
本文主要内容咖啡豆的历史和种类如何制作一杯咖啡咖啡种类有哪些咖啡历史和种类咖啡的历史咖啡的起源起源地：咖啡的起源可以追溯到非洲的埃塞俄比亚。传说在公元9世纪，一位名叫卡尔迪（Kaldi）的埃塞俄比亚牧羊人发现，他的羊群在食用了一种红色浆果后变得异常兴奋，整夜不睡觉。卡尔迪尝试了这种浆果后，也感到精神振奋。后来，这种浆果被传入寺院，僧侣们用它来制作饮品，以帮助他们在夜间祈祷时保持清醒。植物学起源：咖
python实现语音转文字张航柯 python 开发语言
一、下载模型地址模型地址两个模型一个小一点，加载快一个大一点，加载慢加载的话每次启动只加载一次二、代码pipinstallspeech_recognitionvosk代码importjsonimportspeech_recognitionassrfromvoskimportModel,KaldiRecognizerrecognizer=sr.Recognizer()defrecognize_aud
最方便的离线python实时中文语音识别！迟钝皮纳德 python 语音识别
废话不多说，直接上代码，先安装环境需要安装的包：jsonpyaudionumpyvosk新建一个py文件写入：importjsonimportpyaudioimportnumpyasnpfromvoskimportModel,KaldiRecognizer,SetLogLeveldefSaveWave(model):#设置音频参数FORMAT=pyaudio.paInt16#音频流的格式RATE=
数字人源头厂商-源码出售源码交付-OEM系统贴牌余~~18538162800 音视频线性代数网络人工智能
引言在数字化浪潮中，数字人正成为创新应用的焦点。从虚拟偶像活跃于舞台，到虚拟客服在各行业的普及，数字人展现出巨大的潜力。搭建数字人源码系统，是融合多领域前沿技术的复杂工程，涵盖图形学、人工智能、语音处理等。本文将深入剖析数字人源码搭建的技术开发细节，为开发者提供全面且深入的技术指南。技术体系架构感知层语音识别：技术选型：采用Kaldi语音识别框架，它是一个开源且灵活的工具包，支持多种语言和声学模型
python pyaudio使用调用本地麦克风获取音频哦里哦里哦里给 AI 大语言模型实战 python 音视频开发语言
目录一、直接上代码二、代码解析一、直接上代码importpyaudiofromvoskimportModel,KaldiRecognizer#加载模型MODEL_PATH="vosk-model-en-us-0.22"#修改为您的模型路径model=Model(MODEL_PATH)#初始化音频流recognizer=KaldiRecognizer(model,16000)p=pyaudio.Py
通过手机控制家用电器的一个程序的设计（一） zhumin726 智能家居智能家居
一、概述设计一款安卓平台上的家庭智能控制软件，通过语音识别指令控制家用电器。该软件结合离线语音识别技术、红外线和WIFI通讯技术，实现对家电的智能控制，如开关机、调温度、调频道等操作。二、主要功能模块离线语音识别模块功能：识别用户的语音指令。技术：使用离线语音识别API，如PocketSphinx或Kaldi。操作流程：用户说出指令→语音数据被传输到离线语音识别引擎→引擎返回文本指令。命令解析模块
Vosk Android使用方法熊爱吃鱼 android 语音识别 java
Vosk是一个基于kaldi的开源语音识别框架，支持多种编程语言和多个平台，易于使用和集成，是做语音识别时很好的选择。使用步骤如下：下载vosk源码：源码地址。利用源码编译so库，不会编译的小伙伴可以从这里下载aar包：libvosk.so，然后把文件后缀名从.aar改为.zip，再解压这个文件即可在其中jni目录下找到so库。删除源码vosk-api-0.3.45\android\lib\src
Token Passing解码搬砖人NO17 语音神经网络共同学习语音识别人工智能
1、TokenPassing讲解视频参考地址：Tokenpassing2、TokenPassing（以Kaldi代码为例）（1）取src/fstext/deterministic-fst-test.cc，描述了怎么创建fst。StdVectorFst*CreateBackoffFst(){StdVectorFst*fst=newStdVectorFst();fst->AddState();//st
智能语音技术栈 chenkaifang 不归类
识别原理——硬件数据采集——软件数据处理目前主流的开源平台包括CMUSphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等，CMUSphinx是离线的语音识别工具，支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用，所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行，Kaldi的优势就是集成了很多
ai智能语音机器人如何基于本地语音识别，搭建一款智能聊天机器人？ VO_794632978 WX-794632978 语音机器人人工智能机器人语音识别腾讯云阿里云
基于本地语音识别技术，搭建智能聊天机器人是一种广泛使用的人工智能应用。它可以为用户提供语音聊天、语音指令和语音控制等服务，提高用户的体验和方便性。以下是基于本地语音识别的智能聊天机器人搭建过程。确定使用的技术在搭建智能聊天机器人之前，需要确定将使用的技术和平台。通常情况下，语音识别技术可以使用开源框架，如CMUSphinx、Kaldi、DeepSpeech等。它们都提供了丰富的文档和示例代码，用于
julius开源语音识别引擎 xyc310898673 语音识别
开源语音识别软件HTK，对Julius和Kaldi等系统了解者更佳一.InstallationBySourcetarballInstallationprocessissimpleandcontainsthefollowingpoints:1.DownloadthenewestsourcetarbalfromJuliusofficialsite–link2.Unpackthearchiveforex
Kaldi单步完美运行AIShell v1 S5之四：DNN (nnet3、xent、MPE) aiXpert Kaldi dnn nnet3 kaldi asr 语音识别
Kaldi单步完美运行AIShellv1S5之四：DNN（nnet3、xent、MPE）致谢机器配置问题：显卡设备老旧，一个GPU，想跑tdnn模型，如何破？第11部分：nnet3DNN第12部分：nnet3训练、解码、校准第13部分：迭代深度计算第14部分：Chain致谢感谢AIShell在商业化道路上的探索。期待着v3的到来。机器配置sv@HP:~$sudolsb_release-aDistr
Kaldi完美运行TIMIT完整结果（含DNN） aiXpert Kaldi kaldi timit 语音识别 asr dnn
Kaldi完美运行TIMIT完整结果（含DNN）完全完整含DNN的TIMIT结果RESULTS机器配置Kaldi下TIMIT详细输出第一部分：数据准备第二部分：MFCC&CMVN第三部分：单音素第四部分：tri1:Deltas第五部分：LDA+MLLT第六部分：LDA+MLLT+SAT第七部分：SGMM2第八部分：MＭＩ+SGMM2第九部分：DNN第十部分：ＤＮＮ+SGMM第十一部分：成功的结果后
wenet环境部署 weixin_43870390 语音识别
下载镜像、生成container原始nvidia提供镜像的网站（包含kaldi）：https://docs.nvidia.com/deeplearning/frameworks/kaldi-release-notes/rel_20-03.html#rel_20-03本次采用的是21.02版本，包含如下内容：Ubuntu20.04includingPython3.8NVIDIACUDA11.2.0i
tensorflow环境安装配置 weixin_43870390 网络
下载匹配cuda的kaldi镜像Ubuntu20.04includingPython3.8NVIDIACUDA11.6.0cuBLAS11.8.1.74NVIDIAcuDNN8.3.2.44NVIDIANCCL2.11.4(optimizedforNVLink™)rdma-core36.0NVIDIAHPC-X2.10OpenMPI4.1.2rc4+OpenUCX1.12.0GDRCopy2.3N
离线语音识别 sherpa-ncnn 尝鲜体验杭州_燕十三语音识别 sherpa-ncnn
文章目录1、ubuntu编译运行依赖安装下载与编译模型下载运行2、树莓派4B编译运行确认树莓派4B环境交叉编译交叉编译模型下载与运行模型对比测试树莓派4B运行大模型Sherpa-NCNN是一个基于C++的轻量级神经网络推理框架，是kaldi下的一个子项目，它专门针对移动设备和嵌入式系统进行了优化。Sherpa-NCNN的目标是提供高性能、低延迟的推理能力，适用于移动设备和嵌入式系统，可以以满足实时
RivaGAN 水印项目张昊亮 typescript
git地址https://github.com/DAI-Lab/RivaGANDockerfile(/tools下文件为git下的文件)################################################使用NVIDIACUDA10.0开发环境作为基础镜像FROMkaldiasr/kaldi:gpu-ubuntu18.04-cuda10.0#设置非交互式安装模式以避免某
Kaldi中语言模型 legendayue 语音识别语言模型语音识别
数据准备流程是为了整理数据，生成指定的文件或者是变成指定的格式，方便kaldi后面的语言模型训练，数据准备流程1、处理集外词，将分词后的预料库data/local/train/text中的文件索引全部替换成，在生成语言模型时，如果计数文件中或者训练文件总出现了词典之外的词（OOV）将被替换成，然后将作为正常词进行统计，这么做的好处是给大量OOV分配概率，使得相比于以前频数稀少的精确词，使用增大计算
如何解决kaldi的依赖库mkl安装失败的问题醉心编码 shell基础知识及技巧 c/c++kaldi python asr
最近在学习如何使用kaldi进行语音识别。按照进程进行安装部署时发现IntelMKL库总是失败。通过搜索大量的资料，但都发现不太适用。现在将失败的症状和解决方法分享一下，希望能给读者提供一些帮助。通过执行./check_dependencies.sh发现缺少IntelMKL。[root@localhostextras]#./check_dependencies.sh./check_dependen
报名开启丨2023 SpeechHome 语音技术研讨会语音之家语音之家活动专区智能语音人工智能语音识别 AIGC 开源
2023SpeechHome语音技术研讨会将于11月18日—11月19日，在北京举办，同时举行开源语音技术交流会和第八届Kaldi技术交流会。欢迎大家报名参加（报名链接在文末）！本届研讨会覆盖5大主题，包括语音前沿技术、音频生成、音频与大模型、数据与大模型及开源技术，其中开源技术内容包括Kaldi、ESPnet、WeNet、ModelScope、AISHELL等。邀请来自产学研智能语音技术领域的专
Lhotse 音频库管理音频数据集 mingqian_chu #音频部分音视频
原文参考这里，原文作者GenerativeAI，作者FeitengLhotse是一个旨在使语音和音频数据准备更具灵活性和可访问性的Python库，它与k2一起，构成了下一代Kaldi语音处理库的一部分。主要目标：1.以Python为中心的设计吸引更广泛的社区参与语音处理任务。2.为有经验的Kaldi用户提供富有表现力的命令行接口。3.为常用的语料库提供标准的数据准备方案。4.为与语音和音频相关的任
语音识别学习笔记 AI视觉网奇语音识别语音识别学习笔记
目录端到端的多说话人语音识别序列化训练方法简介新一代Kaldi:Two-pass实时语音识别端到端的多说话人语音识别序列化训练方法简介端到端的多说话人语音识别序列化训练方法简介-知乎2.2基于排列不变性训练PermutationInvariantTraining(PIT)的多说话人语音识别所谓排列不变性训练是在AED的基础之上，添加多个output分支（通常支持几个人就有几个分支），文本序列和输出
kaldi mfcc 落红灬有丶情 kaldi
Kaldi特征提取之-预处理背景本质上语音信号是一维的时间信号，随时间上下波动。现实中，人们再说话时会受到各种音素的干扰，为了进一步进行处理，我们必须进行必要的预处理以便之后的特征提取。诸如FBank，MFCC，PLP等都需要经过预处理步骤。本章将假设语音的格式为wav。预处理整个预处理过程如下图所示：分帧从图中可以看出我们需要将不定长的音频切分成固定长度的小段，这一步称为分帧。分帧的原因在于语音
语音识别开源框架 Swaggie 机器学习语音识别开源人工智能
语音识别开源框架文章目录语音识别开源框架Whisper特征Github地址开源文档介绍论文参考ASRT特征环境Github地址开源文档介绍DeepSpeech特征环境Github地址文档介绍论文参考DeepSpeech2环境Github地址文档介绍论文参考ESPNET特征Github地址开源文档介绍kaldi特征Kaldi'sversusothertoolkitsTheflavorofKaldiG
双系统Ubuntu-22.04.3安装编译kaldi 伪_装 ubuntu linux 运维
Ubuntu物理内存要求85-100G以上，运行内存5-6G以上（如果第一次安装的Ubuntu物理内存不够，请勿进行扩容，扩容易出现黑屏、蓝屏、死机的情况，应该卸载Ubuntu重新安装，在安装过程中进行内存分配；运行内存可直接在虚拟机进行操作）1.1下载kaldiKaldi地址：GitHub-kaldi-asr/kaldi:kaldi-asr/kaldiistheofficiallocationo
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include