lucky_ricky

Kaldi WFST HCLG.fst 构图学习

HCLG.fst由四部分构成

1.G：语言模型WFST，输入输出符号相同，实际是一个WFSA（acceptor接受机），为了方便与其它三个WFST进行操作，将其视为一个输入输出相同的WFST。

2.L：发音词典WFST，输入符号：monophone，输出符号：词;

3.C:上下文相关WFST，输入符号：triphone（上下文相关），输出符号：monophnoe;

4.H:HMM声学模型WFST，输入符号：HMMtransitions-ids，输出符号：triphone。

将四者逐层合并，即可得到最后的图。

HCLG= asl（min（rds（det（H'omin（det（Co min（det（Lo G）））））））

其中asl==“add-self-loops”和rds==“remove-disambiguation-symbols“，H'为没有自环的H。

一、G.fst用于对语言模型进行编码。当使用统计语言模型时，用srilm训练出来的语言模型为arpa格式，可以用arpa2fst将arpa转换成fst，详见kaldi中的utils/format_lm.sh。

举个栗子：

假设语言模型由data.txt内的数据训练得到，$cat data.txt

今天天气怎么样

今天北京的天气怎么样

明天天气怎么样

分词后，$cat data.split

今天天气怎么样

今天北京的天气怎么样

明天天气怎么样

训练语言模型$ngram-count -text data.split -order 3 -lm query.arpa

$cat query.arpa

\data\

ngram1=9

ngram2=10

ngram3=2

\1-grams:

-0.7533277

-99 ~~-0.7907404~~

-0.9294189今天-1.059586

-1.230449北京-0.6268836

-0.7533277天气-0.5177391

-0.7533277怎么-0.5177391

-1.230449明天-0.5688916

-0.7533277样-0.5177391

-1.230449的-0.5688916

\2-grams:

-0.39794 今天

-0.3309932 明天

-0.3309932今天北京

-0.3309932今天天气

-0.1091445北京的

-0.1249387天气怎么0

-0.1249387怎么样0

-0.1091445明天天气

~~-0.1249387样~~

-0.1091445的天气

\3-grams:

-0.1249387天气怎么样

~~-0.1249387怎么样~~

\end\

同时还需要给每一个词赋予一个唯一的id（symboltable）

$cat data.split | tr ' ' '\n' | grep -v ^$ | sort -u |awk '{print $1""NR }END{print """ "0;print "#0"""NR+1;print "~~"" "NR+2;print "~~"""NR+3 }' > words.txt

$cat words.txt

今天1

北京2

天气3

怎么4

明天5

样6

的7

0

#08

9

10

这样做的原因是：Kaldi运行时不会使用文本形式，而是用整数标号形式来表达和传递信息。

word.txt文件包含单个消歧符号“＃0”（用于G.fst输入上的epsilon）。在语言模型G中的退避弧上有一个符号＃0;

这确保了G在删除epsilons之后是可确定的。

然后即可用arpa2fst将arpa格式语言模型转换为fst

arpa2fst--disambig-symbol=#0 --max-arpa-warnings=-1--read-symbol-table=words.txt query.arpa G.fst

在实际应用中，需要有剔除不可用/包含集外词的N元语法等的操作，详见local/wsj_format_data.sh

至此，G.fst已经构好，想看构好的图长什么样，可以用fstdraw与dot

$fstdraw --isymbols=words.txt --osymbols=words.txt G.fst > fst.dot

通常dot转换为jpg后分辨率会过低且不支持显示中文，因此打开fst.dot文件，将其中的size大小扩大，

并将编码格式转换为utf-8，在每个fontsize前加上fontname="simsun.ttc",

vim中:%s:fontsize= 14:fontname="simsun.ttc",fontsize = 20:g

$dot -Tjpg fst.dot > fst.jpg

这部分最后一条命令是fstisstochastic，这是一个诊断步骤，他打印出两个数字，最小权重和最大权重，以告诉用户FST不随机的程度。

eg：9.14233e-05-0.259833

第一个数字很小，它证实没有状态的弧的概率加上最终状态明显小于1。第二个数字是重要的，这意味着有些状态具有“太多”的概率。对于具有回退的语言模型的FST来说，有一些具有“太多”概率的状态是正常的。

(thenumeric values of the weights in the FSTs can generally beinterpreted as negated log probabilities)FST中权重的数值通常可以解释为负对数概率。

二、L.fst是一个把音素映射成为词的发音词典FST，L.fst位于data/lang目录（language，与“语言”本身相关），在该目录下有如下内容：

L.fst L_disambig.fst oov.int oov.txt phones phones.txt topo words.txt

L.fst是FST形式的发音词典，对每个词的发音进行编码，输入是音素，输出是词。

L_disambig.fst也是FST形式的发音词典，不过它还包含为了消歧而引入的消歧符号（如#1、#2）和为自环（self-loop）而引入的#0。#0是来自G.fst的特殊消歧符号，它的作用是让消歧符号能够“通过”（passthrough）整个语言模型。

oov.txt中仅有一个元素：，其作用是将所有词汇表以外的词都映射为这个词，这使得这个词的发音只包含一个被指定为“垃圾音素”（garbagephone）的音素。该音素被称为，就是“spokennoise”的缩写，该音素会与各种口语噪声对齐。

#grep -w UNK data/local/dict/lexicon.txt

SPN

oov.int中有所对应的id。

phones.txt和words.txt为符号表（symboltable）文件，第一列为文本，第二列为数字。这两个文件用于将每个元素对应到唯一的id上。

topo指明了所用的HMM模型的拓扑结构//待补充

phones文件夹下有一系列文件，指明音素集合的各种信息，这些文件大多数包含三个不同版本：txt、int、csl。详见http://www.kaldi-asr.org/doc/data_prep.html

以上这些文件都不需要手动创建，kaldi提供了一个脚本utils/prepare_lang.sh可以用于创建这个目录中的多数文件：

utils/prepare_lang.shdata/local/dict "" data/local/lang data/lang。

脚本utils/prepare_lang.sh支持很多选项。

--position-dependent-phones(true|false)。默认ture；用于决定是否将phone更详细地拆分为开始、

中间、结束、孤立灯给未知相关的phones。如果允许，则在每个phone后面加上_B_I _E _S用于标定位置[(B)egin,(E)nd, (I)nternal and (S)ingleton]。在构建决策树时可以对phone的位置进行提问，然后产生分裂。

-share-silence-phones(true|false)。该选项默认是false。如果该选项被设为true，所有静音音素（如静音、发声噪声、噪声和笑声）会共享同一个pdf（高斯混合模型），只有模型中的转移概率不同。这对IARPA的BABEL项目中的广东话数据集非常有效。它会构造一个roots文件，在文件中同一行出现的所有音素对应的HMM会共享他们的混合高斯分布。如果不想共享，可以把他们放在不同行。roots文件中，每一行前面都会有shared/not-shared和split/not-split修饰。

--sil-prob # default: 0.5 [must have0 < silprob < 1]也可能很重要，只是具体该设置成多少需要更多的实验。

输入目录是data/local/dict/，需要在字典中，是标注中所有OOV词的映射词（映射情况会写入data/lang/oov.txt中）。data/local/lang/只是脚本使用的一个临时目录，data/lang/才是输出文件将会写入的地方。

我们需要做的是准备好data/local/dict/。该目录下需包含以下文件：

extra_questions.txt lexicon.txt[lexiconp.txt] nonsilence_phones.txt optional_silence.txt silence_phones.txt

nonsilence_phones.txt内容为“真正”的音素，kaldi建议将每个basephone的不同形式都组织在单独的一行中。他们可以有不用的重音或者声调，例如aa1 a2 a3 a4

silence_phones.txt内容为“静音”音素，包含各种噪声、笑声、咳嗽、填充停顿等（SIL SPN NSN LAU）

extra_questions.txt有可能是空的；但通常会包含多行音素，每行的音素成员都有相同的声调，有的行可能是静音音素。这样做可以增强自动产生问题。在nonsilence_phones.txt中每个音素的不同声调表示都在同一行，这确保了他们在data/lang/phones/roots.txt和data/lang/phones/sets.txt也属同一行，这反过来又确保了它们共享同一个（决策）树根，并且不会有决策问题弄混它们。因此，我们需要提供一个特别的问题，能为决策树的建立过程提供一种区分音素的方法。注意：我们在sets.txt和roots.txt中将音素分组放在一起的原因是，这些同一音素的不同声调变体可能缺乏足够的数据去稳健地估计一个单独的决策树，或者是产生问题集时需要的聚类信息。像这样把它们组合在一起，我们可以确保当数据不足以对它们分别估计决策树时，这些变体能在决策树的建立过程中“聚集在一起”（staytogether）。

optional_silence.txt只包含一个音素来作为字典中的选择静音音素，通常是SIL。

lexicon.txt每个词的发音，格式为：<词> …

注意： lexicon.txt中，如果一个词有不同发音，则会在不同行中出现多次。

在这些输入中，没有词位信息，即没有像_B和_E这样的后缀。

脚本prepare_lang.sh会帮我们添加这些后缀。

lexiconp.txt带概率的发音词典，格式为：<词> …

注： 0.0
如果存在lexiconp.txt，则优先使用lexiconp.txt而不用lexicon.txt

消歧符号是在词典中的音素序列末尾插入的符号＃1，＃2，＃3等。当音素序列是词典中另一个音素序列的前缀，或者出现在一个以上的单词中时，需要在其后加上这些符号之一。需要这些符号以确保产品Lo G是可确定的。

可以使用脚本utils/make_lexicon_fst.pl将词典转换成fst输入文件的格式。

Usage:make_lexicon_fst.pl [--pron-probs] lexicon.txt [silprob silphone[sil_disambig_sym]] >lexiconfst.txt

使用fstcompile可以将text描述性的fst转换为二进制形式：

fstcompile–isymbols=phones.txt --osymbols=words.txt text_format.fstbinary.fst

为了之后要做的compose操作，这里还需要fstaddselfloops和fstarcsort。

生成的二进制fst可以使用fstdraw可视化，命令为：

fstdraw--isymbol=phones.txt –osymbol=words.txt binary.fst |dot -Tjpg >fst.jpg

三、有了G和L，我们就可以计算min（det（Lo G）），命令行如下：

fsttablecomposedata/L_disambig.fst data/G.fst | \

fstdeterminizestar--use-log=true | \

fstminimizeencoded| fstpushspecial | \

fstarcsort--sort-type=ilabel > somedir/LG.fst

四、上下文相关FST：triphone到monophone的转换器，加入他可以避免枚举所有可能的monophone

我们还有一个消歧符号＃-1代替出现在上下文FSTC的左边的epsilons，在开始的话语（在我们开始输出符号之前）。这是必要的，以解决一个相当微妙的问题，当我们有一个空的语音表示的话（例如句子符号的开始和结束和）。

数据准备（datapreparation）阶段需要的文件有：

text中第一列为录音编号，后面跟着每段录音的标注。

wav.scp中第一列为录音编号，第二列为音频文件路径

utt2spk中第一列为录音编号，第二列为讲话这id

spk2utt中第一列为讲话着，后面跟着他所说的话 …

thchs30中执行local/thchs-30_data_prep.sh

就可以根据音频名和标注创建:wav.scp, utt2spk.scp, spk2utt.scp, text以及words.txtphone.txt

wav.trn第一行中文标注，第二行拼音，第三行音素

reference： http://www.kaldi-asr.org/doc/data_prep.html

http://blog.csdn.net/duishengchen/article/details/52514477

http://blog.csdn.net/wbgxx333/article/details/26233527

http://ftli.farbox.com/post/kaldizhong-wen-shi-bie#QuFenDuTrain

http://blog.csdn.net/u012361418/article/details/73006870

Vosk Android使用方法熊爱吃鱼 android 语音识别 java
Vosk是一个基于kaldi的开源语音识别框架，支持多种编程语言和多个平台，易于使用和集成，是做语音识别时很好的选择。使用步骤如下：下载vosk源码：源码地址。利用源码编译so库，不会编译的小伙伴可以从这里下载aar包：libvosk.so，然后把文件后缀名从.aar改为.zip，再解压这个文件即可在其中jni目录下找到so库。删除源码vosk-api-0.3.45\android\lib\src
Token Passing解码搬砖人NO17 语音神经网络共同学习语音识别人工智能
1、TokenPassing讲解视频参考地址：Tokenpassing2、TokenPassing（以Kaldi代码为例）（1）取src/fstext/deterministic-fst-test.cc，描述了怎么创建fst。StdVectorFst*CreateBackoffFst(){StdVectorFst*fst=newStdVectorFst();fst->AddState();//st
智能语音技术栈 chenkaifang 不归类
识别原理——硬件数据采集——软件数据处理目前主流的开源平台包括CMUSphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等，CMUSphinx是离线的语音识别工具，支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用，所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行，Kaldi的优势就是集成了很多
ai智能语音机器人如何基于本地语音识别，搭建一款智能聊天机器人？ VO_794632978 WX-794632978 语音机器人人工智能机器人语音识别腾讯云阿里云
基于本地语音识别技术，搭建智能聊天机器人是一种广泛使用的人工智能应用。它可以为用户提供语音聊天、语音指令和语音控制等服务，提高用户的体验和方便性。以下是基于本地语音识别的智能聊天机器人搭建过程。确定使用的技术在搭建智能聊天机器人之前，需要确定将使用的技术和平台。通常情况下，语音识别技术可以使用开源框架，如CMUSphinx、Kaldi、DeepSpeech等。它们都提供了丰富的文档和示例代码，用于
julius开源语音识别引擎 xyc310898673 语音识别
开源语音识别软件HTK，对Julius和Kaldi等系统了解者更佳一.InstallationBySourcetarballInstallationprocessissimpleandcontainsthefollowingpoints:1.DownloadthenewestsourcetarbalfromJuliusofficialsite–link2.Unpackthearchiveforex
Kaldi单步完美运行AIShell v1 S5之四：DNN (nnet3、xent、MPE) aiXpert Kaldi dnn nnet3 kaldi asr 语音识别
Kaldi单步完美运行AIShellv1S5之四：DNN（nnet3、xent、MPE）致谢机器配置问题：显卡设备老旧，一个GPU，想跑tdnn模型，如何破？第11部分：nnet3DNN第12部分：nnet3训练、解码、校准第13部分：迭代深度计算第14部分：Chain致谢感谢AIShell在商业化道路上的探索。期待着v3的到来。机器配置sv@HP:~$sudolsb_release-aDistr
Kaldi完美运行TIMIT完整结果（含DNN） aiXpert Kaldi kaldi timit 语音识别 asr dnn
Kaldi完美运行TIMIT完整结果（含DNN）完全完整含DNN的TIMIT结果RESULTS机器配置Kaldi下TIMIT详细输出第一部分：数据准备第二部分：MFCC&CMVN第三部分：单音素第四部分：tri1:Deltas第五部分：LDA+MLLT第六部分：LDA+MLLT+SAT第七部分：SGMM2第八部分：MＭＩ+SGMM2第九部分：DNN第十部分：ＤＮＮ+SGMM第十一部分：成功的结果后
wenet环境部署 weixin_43870390 语音识别
下载镜像、生成container原始nvidia提供镜像的网站（包含kaldi）：https://docs.nvidia.com/deeplearning/frameworks/kaldi-release-notes/rel_20-03.html#rel_20-03本次采用的是21.02版本，包含如下内容：Ubuntu20.04includingPython3.8NVIDIACUDA11.2.0i
tensorflow环境安装配置 weixin_43870390 网络
下载匹配cuda的kaldi镜像Ubuntu20.04includingPython3.8NVIDIACUDA11.6.0cuBLAS11.8.1.74NVIDIAcuDNN8.3.2.44NVIDIANCCL2.11.4(optimizedforNVLink™)rdma-core36.0NVIDIAHPC-X2.10OpenMPI4.1.2rc4+OpenUCX1.12.0GDRCopy2.3N
离线语音识别 sherpa-ncnn 尝鲜体验杭州_燕十三语音识别 sherpa-ncnn
文章目录1、ubuntu编译运行依赖安装下载与编译模型下载运行2、树莓派4B编译运行确认树莓派4B环境交叉编译交叉编译模型下载与运行模型对比测试树莓派4B运行大模型Sherpa-NCNN是一个基于C++的轻量级神经网络推理框架，是kaldi下的一个子项目，它专门针对移动设备和嵌入式系统进行了优化。Sherpa-NCNN的目标是提供高性能、低延迟的推理能力，适用于移动设备和嵌入式系统，可以以满足实时
RivaGAN 水印项目张昊亮 typescript
git地址https://github.com/DAI-Lab/RivaGANDockerfile(/tools下文件为git下的文件)################################################使用NVIDIACUDA10.0开发环境作为基础镜像FROMkaldiasr/kaldi:gpu-ubuntu18.04-cuda10.0#设置非交互式安装模式以避免某
Kaldi中语言模型 legendayue 语音识别语言模型语音识别
数据准备流程是为了整理数据，生成指定的文件或者是变成指定的格式，方便kaldi后面的语言模型训练，数据准备流程1、处理集外词，将分词后的预料库data/local/train/text中的文件索引全部替换成，在生成语言模型时，如果计数文件中或者训练文件总出现了词典之外的词（OOV）将被替换成，然后将作为正常词进行统计，这么做的好处是给大量OOV分配概率，使得相比于以前频数稀少的精确词，使用增大计算
如何解决kaldi的依赖库mkl安装失败的问题醉心编码 shell基础知识及技巧 c/c++kaldi python asr
最近在学习如何使用kaldi进行语音识别。按照进程进行安装部署时发现IntelMKL库总是失败。通过搜索大量的资料，但都发现不太适用。现在将失败的症状和解决方法分享一下，希望能给读者提供一些帮助。通过执行./check_dependencies.sh发现缺少IntelMKL。[root@localhostextras]#./check_dependencies.sh./check_dependen
报名开启丨2023 SpeechHome 语音技术研讨会语音之家语音之家活动专区智能语音人工智能语音识别 AIGC 开源
2023SpeechHome语音技术研讨会将于11月18日—11月19日，在北京举办，同时举行开源语音技术交流会和第八届Kaldi技术交流会。欢迎大家报名参加（报名链接在文末）！本届研讨会覆盖5大主题，包括语音前沿技术、音频生成、音频与大模型、数据与大模型及开源技术，其中开源技术内容包括Kaldi、ESPnet、WeNet、ModelScope、AISHELL等。邀请来自产学研智能语音技术领域的专
Lhotse 音频库管理音频数据集 mingqian_chu #音频部分音视频
原文参考这里，原文作者GenerativeAI，作者FeitengLhotse是一个旨在使语音和音频数据准备更具灵活性和可访问性的Python库，它与k2一起，构成了下一代Kaldi语音处理库的一部分。主要目标：1.以Python为中心的设计吸引更广泛的社区参与语音处理任务。2.为有经验的Kaldi用户提供富有表现力的命令行接口。3.为常用的语料库提供标准的数据准备方案。4.为与语音和音频相关的任
语音识别学习笔记 AI视觉网奇语音识别语音识别学习笔记
目录端到端的多说话人语音识别序列化训练方法简介新一代Kaldi:Two-pass实时语音识别端到端的多说话人语音识别序列化训练方法简介端到端的多说话人语音识别序列化训练方法简介-知乎2.2基于排列不变性训练PermutationInvariantTraining(PIT)的多说话人语音识别所谓排列不变性训练是在AED的基础之上，添加多个output分支（通常支持几个人就有几个分支），文本序列和输出
kaldi mfcc 落红灬有丶情 kaldi
Kaldi特征提取之-预处理背景本质上语音信号是一维的时间信号，随时间上下波动。现实中，人们再说话时会受到各种音素的干扰，为了进一步进行处理，我们必须进行必要的预处理以便之后的特征提取。诸如FBank，MFCC，PLP等都需要经过预处理步骤。本章将假设语音的格式为wav。预处理整个预处理过程如下图所示：分帧从图中可以看出我们需要将不定长的音频切分成固定长度的小段，这一步称为分帧。分帧的原因在于语音
语音识别开源框架 Swaggie 机器学习语音识别开源人工智能
语音识别开源框架文章目录语音识别开源框架Whisper特征Github地址开源文档介绍论文参考ASRT特征环境Github地址开源文档介绍DeepSpeech特征环境Github地址文档介绍论文参考DeepSpeech2环境Github地址文档介绍论文参考ESPNET特征Github地址开源文档介绍kaldi特征Kaldi'sversusothertoolkitsTheflavorofKaldiG
双系统Ubuntu-22.04.3安装编译kaldi 伪_装 ubuntu linux 运维
Ubuntu物理内存要求85-100G以上，运行内存5-6G以上（如果第一次安装的Ubuntu物理内存不够，请勿进行扩容，扩容易出现黑屏、蓝屏、死机的情况，应该卸载Ubuntu重新安装，在安装过程中进行内存分配；运行内存可直接在虚拟机进行操作）1.1下载kaldiKaldi地址：GitHub-kaldi-asr/kaldi:kaldi-asr/kaldiistheofficiallocationo
使用 Lhotse 高效管理音频数据集希尔贝壳AISHELL 智能语音音视频
Lhotse是一个旨在使语音和音频数据准备更具灵活性和可访问性的Python库，它与k2一起，构成了下一代Kaldi语音处理库的一部分。主要目标：1.以Python为中心的设计吸引更广泛的社区参与语音处理任务。2.为有经验的Kaldi用户提供富有表现力的命令行接口。3.为常用的语料库提供标准的数据准备方案。4.为与语音和音频相关的任务提供PyTorch数据集类。5.通过音频剪辑的概念实现模型训练中
python 3.8+vscode 无法启动jupyter kernal问题一点飞鸿影 python
在python3.8环境下，所有包更新到最新之后，使用vscode打开ipynb，提示`kerkaldiedwithexitcode1.`通过命令行启动jupyternotebook，提示启动内核失败，现象如下：详细报错信息是：```Traceback(mostrecentcalllast):File"c:\work\projects\test_robot\venv\lib\site-packag
ubuntu16.04安装和卸载Kaldi ZQSZXY 个人笔记 kaldi安装深度学习
Ubuntu16.04环境：g++=4.9版本,gcc=4.9版本，刚开始我的gcc=5.4，结果报错：Ubuntu16.04默认的gcc版本是5以上，亲测会报错，***configurefailed:CUDA7_5doesnotsupportg++(g++-5.4.0).Youneedg++<5.0.***，如果报同样的错误，那就需要把系统的gcc和g++降级。下载Kaldi安装包Kaldi官网
基于深度学习的语音识别系统构建周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发语音识别人工智能信号处理
加我微信hezkz17进数字音频系统研究开发交流答疑(课题组)项目内容：1.语音识别系统构建：负责基于kaldi的混合语音识别模型系统的构建，包括训练数据的搜集与处理，模型训练测试、rescore解码流程和上线部署等；2.声纹识别系统构建：使用cnn+aam-softmax的模型结构提取说话人声纹特征(embedding),然后在声纹库内进行声纹相似度的检索匹配；3.语种识别算法：使用类似声纹识别
python语音识别库kaldi_Kaldi语音识别库在Linux下的安装和编译岑依惜
1.介绍Kaldi语音识别工具将HTK比较零碎的各种各样的指令和功能进行整理集合，使用perl脚本调用。同时也加入了深度神经网络的分类器(DNN)，本身由原来做HTK开发的人员制作而成，可以说是HTK的升级加强版。kaldi官方网站请见：http://kaldi.sourceforge.net/index.html2.安装和编译第一步：下载kaldi工具包kaldi有两个版本，kaldi-1和ka
kaldi在linux上编译,Kaldi语音识别库linux环境下的安装和编译三上酱 kaldi在linux上编译
介绍：Kaldi语音识别库可以说是，HTK数据库的整理加强版，将HTK比较零碎的各种各样的指令和功能进行整理，使用更加的方便，同时也加入了深度神经网络的分类器(DNN)，本身由原来做HTK开发的人员制作而成。kaldi官方网站请见：http://kaldi.sourceforge.net/index.html安装以及编译：第一步：下载kaldi工具包kaldi有两个版本，kaldi-1和kaldi
linux编译aidl接口,ubuntu下安装kaidl实用教程 weixin_39779530 linux编译aidl接口
1.介绍Kaldi语音识别工具将HTK比较零碎的各种各样的指令和功能进行整理集合，使用perl脚本调用。同时也加入了深度神经网络的分类器(DNN)，本身由原来做HTK开发的人员制作而成，可以说是HTK的升级加强版。kaldi官方网站请见：http://kaldi.sourceforge.NET/index.html2.安装和编译第一步：下载kaldi工具包kaldi有两个版本，kaldi-1和ka
kaldi在Linux下的安装 ch977
1.介绍Kaldi语音识别工具将HTK比较零碎的各种各样的指令和功能进行整理集合，使用perl脚本调用。同时也加入了深度神经网络的分类器(DNN)，本身由原来做HTK开发的人员制作而成，可以说是HTK的升级加强版。kaldi官方网站请见：http://kaldi.sourceforge.net/index.html2.安装和编译第一步：下载kaldi工具包kaldi有两个版本，kaldi-1和ka
Fedora 32安装Kaldi 胖多鱼 Kaldi
网上很多LInux安装Kaldi的链接，讲的都比较明确，例如：kaldi的编译安装与报错解决方法_extras/check_dependencies.shextras/check_dependen-CSDN博客保姆级kaldi语音识别（2）Linux系统Ubuntu20.04下开源语音识别工具kaldi配置_mozun2020的博客-CSDN博客这里面写的比较清楚。我用的是VMWARE+Fedor
kaldi安装编译泉泉酱
Kaldi是一款基于C++编写的开源语音识别工具箱。这款工具既可以在Windows下编译也可以在Linux下编译。一般建议在linux下开发。一、下载打开终端terminal，输入命令：gitclonehttps://github.com/kaldi-asr/kaldi.gitkaldi-trunk--origingolden二、各目录功能下载完毕以后，cdkaldi-trunk进去看看下载了一些
Kaldi语音识别技术(八) ----- 整合HCLG Python-AI Xenon 学习笔记语音识别基本法语音识别人工智能 kaldi NLP
Kaldi语音识别技术(八)-----整合HCLG文章目录Kaldi语音识别技术(八)-----整合HCLGHCLG概述组合LG.fst可视化LG.fst组合CLG.fst可视化CLG.fst生成H.fst组合HCLG.fst生成HaCLG.fst生成HCLG.fstHCLG概述HCLG=min(det(Homin(det(Comin(det(LoG）))))将四者逐层合并，即可得到最后的图。其中
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

Kaldi WFST HCLG.fst 构图 学习

你可能感兴趣的:(kaldi)

Kaldi WFST HCLG.fst 构图学习