DuishengChen

kaldi学习笔记之卷积神经网络(CNN)

摘要：

本文将以switchboard为例，解读kaldi卷积神经网络部分的bash脚本。一方面便于以后自己回顾，另一方面希望能与大家互相交流。

正文：

在switchboard部分的训练代码中，kaldi官方并未提供相关训练的deamon，但kaldi本身支持卷积神经网络的训练，在egs/swbd/s5c/steps/nnet2中，kaldi提供了训练的CNN网络的核心代码脚本 train_convnet_accel2.sh，因此我们只需按照egs/swbd/s5c/run.sh的执行步骤，对代码进行一定的修改，便能进行卷积神经网络的构建。

在本文中，假设读者已经熟悉run.sh中的训练脚本并且对语音识别模型训练相关步骤有一定的经验。（目前没时间，不久之后我将会对run.sh的一些步骤进行解读。）

好，现在开始正式进入话题。

训练流程：

Created with Raphaël 2.1.0 HMM-GMM模型进行标注对齐数据准备 CNN模型训练 CNN模型测试

1. 标注对齐：训练CNN模型需要对每一帧进行标注，由于switchboard数据中仅对某段时间内的数据内容进行标注，因此我们需要用一个前面已经通过run.sh训练过的HMM-GMM模型进行数据对齐。
2. 数据准备：kaldi提供的CNN训练所选用的是FBANK特征，此处为了便于下文网络的结构解析，因此沿用kaldi的特征，读者理解完脚本以后可以根据自己的需要修改特征。FBANK特征维度是36维,对每一个说话人的特征进行归一化，训练CNN网络时还会用到特征的一阶和二阶差分参数。
对训练集进行划分，从中选取4000句作为交叉验证，剩下的全部作为训练集使用。
3. CNN模型训练：应用kaldi提供的核心训练代码，向训练脚本中传递相关的训练参数：网络的结构，learning rate,运行环境，任务数等。下文将会展开脚本对各个参数进行解析。
4. CNN模型测试：对训练所得的模型进行测试，与HMM-GMM模型,DNN模型进行比较。

s5c/conf/fbank.conf的配置：

--window-type=hamming # disable Dans window, use the standard
--sample-frequency=8000 

--low-freq=64         # typical setup from Frantisek Grezl
--high-freq=3800
--dither=1

--num-mel-bins=36     # 8kHz so we use 36 bins (@ 8 filters/octave to get closer to 40 filters/16Khz used by IBM)

训练代码：

#!/bin/bash


#=> This script training the CNN(Convoluntional neural network ) model for swbd

temp_dir=
dir=nnet_cnn_fbank
has_fisher=true

. cmd.sh
. path.sh

set -e
printf 'Start CNN training in:'
date

. utils/parse_options.sh

#data prepare
echo '===============================CNN data preparing================================='
#fbank feature extract
fbankdir=fbank
for x in train eval2000;do
  mkdir -p data/fbank/$x
  cp data/$x/* data/fbank/$x
  rm -rf data/fbank/$x/.backup data/fbank/$x/cmvn.scp data/fbank/$x/feats.scp
  steps/make_fbank.sh --nj 64 --cmd "$train_cmd" \
    data/fbank/$x exp/make_fbank/$x $fbankdir
#对每一个说话人进行特征归一化，将归一化值写入到$mfccdir/cmvn_$x.ark文件，不改变上一步提取的特征。
  steps/compute_cmvn_stats.sh data/fbank/$x exp/make_fbank/$x $fbankdir 
#去除utt2spk spk2utt feats.scp text segments wav.scp cmvn.scp vad.scp reco2file_and_channel spk2gender utt2lang中的物理上不存在的文件，
#并按照文件名对标注进行排序。
  utils/fix_data_dir.sh data/fbank/$x
done
echo '*******************************************Start subset data for training *******************************************'
# Use the first 4k sentences as dev set.  Note: when we trained the LM, we used
# the 1st 10k sentences as dev set, so the 1st 4k won't have been used in the
# LM training data.   However, they will be in the lexicon, plus speakers
# may overlap, so it's still not quite equivalent to a test set.
#将数据分为训练集（train set）和交叉验证集（dev set）
utils/subset_data_dir.sh --first data/fbank/train 4000 data/train_cnn_dev # 5hr 6min
n=$[`cat data/fbank/train/segments | wc -l` - 4000]
utils/subset_data_dir.sh --last data/fbank/train $n data/train_cnn_nodev
#The full training set:
#取整个完整的训练集，去除其中重复次数超过300次的句子。
local/remove_dup_utts.sh 300 data/train_cnn_nodev data/train_cnn_nodup  # 286hr

parallel_opts="--gpu 1" 
echo "==============================Start CNN training.==============================="
(
    if [ ! -f exp/$dir/final.mdl ];then
        if [[ $(hostname -f) == hnlg.cn ]] || [[ $(hostname -f) == compute-0-* ]] && [ ! -d exp/$dir/egs/storage ]; then
          # spread the egs over various machines. 
          utils/create_split_dir.pl \
          /export/home/$USER/b0{1,2,3,4}/kaldi-data/egs/swbd-$(date +'%m_%d_%H_%M')/s5c/$dir/egs/storage exp/$dir/egs/storage
        fi
        steps/nnet2/train_convnet_accel2.sh --parallel-opts "$parallel_opts" \
          --cmd "$cuda_train_cmd" --stage -3 \
          --num-threads 1 --minibatch-size 512 \
          --mix-up 20000 --samples-per-iter 300000 \
          --num-epochs 15 --num-hidden-layers 4 \
          --initial-effective-lrate 0.005 --final-effective-lrate 0.0002 \
          --num-jobs-initial 3 --num-jobs-final 24 \
          --delta-order 2 --splice-width 5 \
          --num-filters1 128 --patch-dim1 7 --pool-size 3 --patch-step1 1 \
          --num-filters2 256 --patch-dim2 4 \
          data/train_cnn_nodup \
          data/lang exp/tri4_ali_nodup exp/$dir || exit 1;
    fi

    steps/nnet2/decode.sh --cmd "$cuda_decode_cmd" --nj 32 \
        --config conf/decode.config \
        --transform-dir exp/tri4/decode_eval2000_sw1_tg \
    exp/tri4/graph_sw1_tg data/eval2000 \
    exp/$dir/decode_eval2000_sw1_tg || exit 1;

    if $has_fisher; then
      steps/lmrescore_const_arpa.sh --cmd "$decode_cmd" \
        data/lang_sw1_{tg,fsh_fg} data/eval2000 \
        exp/$dir/decode_eval2000_sw1_{tg,fsh_fg} || exit 1;
    fi
)

脚本参数：

steps/nnet2/train_convnet_accel2.sh
Usage: steps/nnet2/train_convnet_accel2.sh [opts]    
 e.g.: steps/nnet2/train_convnet_accel2.sh data/train data/lang exp/tri3_ali exp/tri4_nnet

Main options (for others, see top of script file)
  --config                            # config file containing options
  --cmd (utils/run.pl|utils/queue.pl ) # how to run jobs.
  --num-epochs <#epochs|15>                        # Number of epochs of training
  --initial-effective-lrate 0.02> # effective learning rate at start of training,
                                         # actual learning-rate is this time num-jobs.
  --final-effective-lrate 0.004>   # effective learning rate at end of training.
  --add-layers-period <#iters|2>                   # Number of iterations between adding hidden layers
  --mix-up <#pseudo-gaussians|0>                   # Can be used to have multiple targets in final output layer,
                                                   # per context-dependent state.  Try a number several times #states.
  --num-jobs-initial 1>                  # Number of parallel jobs to use for neural net training, at the start.
  --num-jobs-final 8>                    # Number of parallel jobs to use for neural net training, at the end
  --num-threads 16>                   # Number of parallel threads per job (will affect results
                                                   # as well as speed; may interact with batch size; if you increase
                                                   # this, you may want to decrease the batch size.
  --parallel-opts "-pe smp 16 -l ram_free=1G,mem_free=1G">      # extra options to pass to e.g. queue.pl for processes that
                                                   # use multiple threads... note, you might have to reduce mem_free,ram_free
                                                   # versus your defaults, because it gets multiplied by the -pe smp argument.
  --io-opts "-tc 10">                      # Options given to e.g. queue.pl for jobs that do a lot of I/O.
  --minibatch-size 128>            # Size of minibatch to process (note: product with --num-threads
                                                   # should not get too large, e.g. >2k).
  --samples-per-iter <#samples|400000>             # Number of samples of data to process per iteration, per
                                                   # process.
  --splice-width 4>                         # Number of frames on each side to append for feature input
                                                   # (note: we splice processed, typically 40-dimensional frames
  --realign-epochs "">           # A list of space-separated epoch indices the beginning of which
                                                   # realignment is to be done
  --align-cmd (utils/run.pl|utils/queue.pl ) # passed to align.sh
  --align-use-gpu (yes/no)                         # specify is gpu is to be used for realignment
  --num-jobs-align <#njobs|30>                     # Number of jobs to perform realignment
  --stage 4>                               # Used to run a partially-completed training process from somewhere in
                                                   # the middle.
ConvNet configurations
  --num-filters1 128>                # number of filters in the first convolutional layer.
  --patch-step1 1>                    # patch step of the first convolutional layer.
  --patch-dim1 7>                      # dim of convolutional kernel in the first layer.
                                                   # (note: (feat-dim - patch-dim1) % patch-step1 should be 0.)
  --pool-size 3>                        # size of pooling after the first convolutional layer.
                                                   # (note: (feat-dim - patch-dim1 + 1) % pool-size should be 0.)
  --num-filters2 256>                # number of filters in the second convolutional layer.
  --patch-dim2 4>                      # dim of convolutional kernel in the second layer.

steps/nnet2/train_convnet_accel2.sh中使用了两个卷积层，第一个卷积层卷积后的结果会经过max-pooling层，再进入第二个卷积层，第二个卷积层以后的结果直接作为后面全连接层的输入。

卷积层相关参数：

参数	意义
num-filters1	第一个卷积层的卷积核数目
patch-step1	第一个卷积层卷积核每次前进的步数
patch-dim	第一个卷积层卷积核的大小（维度）
pool-size	池化面积
num-filters2	第二个卷积层的卷积核数目
patch-dim2	第二个卷积层的卷积核的大小（维度）

在steps/nnet2/train_convnet_accel2.sh的脚本中，会根据以上的输入参数配置卷积层：

  echo "$0: initializing neural net";
  tot_splice=$[($delta_order+1)*($left_context+1+$right_context)]
  #添加一阶二阶差分参数以后的特征维度
  delta_feat_dim=$[($delta_order+1)*$feat_dim]
  #CNN网络输入维度
  tot_input_dim=$[$feat_dim*$tot_splice]
  #=>一个卷积核卷积后的输出维度
  num_patch1=$[1+($feat_dim-$patch_dim1)/$patch_step1]
  #=>patch_dim1= --patch-dim1|7  #第一个卷积层的卷积核维度
  #=>patch_step1= --patch-step1|1 #第一个卷积层的滤波器步进
  #=>patch_stride1= $feat_dim  #第一个卷积层输入矩阵/向量的行数
  #=>一个卷积核进行池化后的输出维度  
  num_pool=$[$num_patch1/$pool_size]
  #=>多个卷积核经过卷积层后的输出维度
  conv_out_dim1=$[$num_filters1*$num_patch1] # 128 x (36 - 7 + 1)
  #=>多个卷积核池化后的输出维度
  pool_out_dim=$[$num_filters1*$num_pool]

  #=>第二个卷积层卷积核维度
  patch_dim2=$[$patch_dim2*$num_filters1]
  #=>卷积核步进长度
  patch_step2=$num_filters1
  #=>第二个卷积层的输入矩阵/向量的行数
  patch_stride2=$[$num_pool*$num_filters1]   # same as pool outputs
  #=> num_patch2=$[1+($num_pool-$patch_dim2)]
  #=>第二个卷积层一个卷积核的输出维度
  num_patch2=$[1+($num_pool*$num_filters1-$patch_dim2)/$patch_step2]
  #=>多个滤波器的输出维度
  conv_out_dim2=$[$num_filters2*$num_patch2]

计算的结果将用来配置卷积网络：

cat >$dir/nnet.config <$delta_feat_dim 
    left-context=$left_context 
    right-context=$right_context
Convolutional1dComponent 
    input-dim=$tot_input_dim 
    output-dim=$conv_out_dim1 
    learning-rate=$initial_lrate 
    param-stddev=$stddev  
    bias-stddev=$bias_stddev  
    patch-dim=$patch_dim1  
    patch-step=$patch_step1  
    patch-stride=$feat_dim
MaxpoolingComponent  
     input-dim=$conv_out_dim1 
     output-dim=$pool_out_dim  
     pool-size=$pool_size  
     pool-stride=$num_filters1
NormalizeComponent 
    dim=$pool_out_dim
AffineComponentPreconditionedOnline 
    input-dim=$pool_out_dim  
    output-dim=$num_leaves  
    $online_preconditioning_opts 
    learning-rate=$initial_lrate  
    param-stddev=0  
    bias-stddev=0
SoftmaxComponent dim=$num_leaves
EOF

cat >$dir/replace.1.config <$pool_out_dim  
    output-dim=$conv_out_dim2  
    learning-rate=$initial_lrate  
    param-stddev=$stddev  
    bias-stddev=$bias_stddev  
    patch-dim=$patch_dim2  
    patch-step=$patch_step2  
    patch-stride=$patch_stride2
NormalizeComponent  
    dim=$conv_out_dim2
AffineComponentPreconditionedOnline  
    input-dim=$conv_out_dim2  
    output-dim=$num_leaves  
    $online_preconditioning_opts  
    learning-rate=$initial_lrate  
    param-stddev=0  
    bias-stddev=0
SoftmaxComponent  
    dim=$num_leaves
EOF

以上代码会构建卷积网络，这部分有点让人疑惑，因为涉及卷积核特征是怎样展开的，下面是我的个人观点：

SpliceComponent :

对输入特征进行左右展开，目的是为了让网络能够获取到帧间特征的关联性。例如我要识别当前帧是哪个triphone，我可以将当前帧之前5帧和当前帧以后5帧一起构成一个由11个帧组成的特征作为网络输入。

参数	意义	例子
input-dim	每一帧特征维度	input-dim=36*3（一阶差分和二阶差分
left-context	向左展开帧数	left-context=5
right-context	向左展开帧数	right-context=5

Convolutional1dComponent:

卷积层Component，该层会对输入特征进行卷积运算。

参数	作用	例子
input-dim	卷积层的输入特征维度	第一层卷积层 : fbank特征的维度[包含差分部分]*(1+left-context+right-context)
output-dim	output-dim=卷积层输出特征维度	跟卷积核的步进大小以及卷积的个数有关; 若：一个卷积核的输出维度: num_patch1=$[1+($feat_dim-$patch_dim1)/$patch_step1] 卷积核的数目为：num_filters1 则： output-dim=$num_patch1*$num_filters1
learning-rate	网络的学习率，该参数决定网络的收敛速度及稳定性 : 较低，模型学习速度缓慢但稳定，比较容易陷入较差的局部最优点; 较高，模型收敛速度快且能够帮助模型跳过较差的局部最优点但收敛不稳定	推荐两种常用的方法： - 根据模型开始训练时选择较高再随着迭代逐渐降低：这样能够让模型在一开始时能够快速收敛到较好的局部最优点，并在较低的学习率下收敛于该局部最优点。 - 根据模型在训练集以及交叉验证集上的error-rate选择，若某轮迭代前后的error-rate差值比上一轮迭代的差值大，说明此处cost-function比较陡，可以增大learning-rate，否则降低lerning-rate。
param-stddev	将参数的标注差限制在一个范围内，防止参数变化过大，该方法有利于防止over-fitting	param-stddev=$stddev
bias-stddev	限制bias参数的标注差，其他同上	bias-stddev=$bias_stddev
patch-dim	卷积核的大小（维度）	patch-dim=7
patch-step	卷积核的每次步进大小	patch-step=1 若大于patch-dim，则卷积运算没有重叠部分。
patch-stride	卷积层会将输入向量特征转换成二维矩阵（类似于图像）进行卷积，该值确定了二维矩阵的行数，同时，卷积核也受该值的影响	以kaldi提供核心代码为例：第一个卷积层输入是一个36311的一维特征向量，令该值等于fbank不包含差分特征的维度（即36），则输入特征向量可转换成一个3633的特征矩阵，再利用卷积核（733）进行卷积。第二个卷积层的输入是池化层的输出，令该值等于输入的维度，则转换成的特征矩阵仍然是原来的向量。

MaxpoolingComponent:

池化层Component，该层会对卷积的特征进行最大化池化，即在一个范围内（池化面积）从同一个卷积核的输出选取最大的一个作为下一层的输入，池化核不重叠。池化的好处除了能够降维以外，更重要的一点是能够去除输入特征中的一些扰动。

参数	作用	例子
input-dim	池化层输入维度	input-dim=$conv_out_dim1
output-dim	池化层输出维度	output-dim=$pool_out_dim
pool-size	池化面积	pool-size=$pool_size
pool-stride	池化范围，此处与卷积层相同，会将向量转换成矩阵进行处理。	pool-stride=$num_filters1

NormalizeComponent :

归一化层，对输入进行归一化。网络训练过程中，输入特征是一个mini-batch,即包含多个特征向量的矩阵。归一化层会对这个mini-batch进行归一化。

参数	作用	例子
dim	输入特征维度	dim=$pool_out_dim

AffineComponentPreconditionedOnline

全连接层的权重参数层，在kaldi的表示中，一层网络被拆分成权重层和后面的非线性变换层，其中权重层保存了网络的连接参数W，这些参数是可以改变的，而后面的非线性变换层（如下面的SoftmaxComponent）是固定的。

参数	作用	例子
input-dim	网络层输入维度	input-dim=$pool_out_dim
output-dim	网络层输出维度	output-dim=$num_leaves
learning-rate	学习率，同Convolutional1dComponent	同Convolutional1dComponent
param-stddev	参数标准差，同Convolutional1dComponent	同Convolutional1dComponent
bias-stddev	bias标准差，同Convolutional1dComponent	同Convolutional1dComponent
其他参数	跟在线预处理有关，暂时没搞懂	alpha=$alpha num-samples-history=$num_samples_history update-period=$update_period rank-in=$precondition_rank_in rank-out=$precondition_rank_out max-change-per-sample=$max_change_per_sample

SoftmaxComponent

非线性变换层,这一层一旦定义以后就是固定的了。

参数	作用	例子
dim	输入特征维度	dim=$pool_out_dim

网络训练其他参数：

参数	作用	例子
config	配置文件；但在接下来的训练过程中，并没有用到这个选项，可以暂时忽略
cmd (utils/run.pl\|utils/queue.pl )	指定任务训练方式，如果单机环境采用run.pl脚本，如果是安装了SGE的集群，则采用queue.pl提交集群任务	- -cmd “queue.pl -q CPU_QUEUE -l arch=64” 一般此选项内容在cmd.sh中配置
num-epochs <#epochs\|15>	整个训练集数据训练的轮次，模型的迭代次数将根据这数字计算得到，这里可暂时理解为同个数据在模型训练过程中被用到的次数	- -num-epochs 15
initial-effective-lrate	初始时训练网络的学习率，如果采用多任务训练，则实际的学习率是这个数值乘以任务数	- -initial-effective-lrate 0.02
final-effective-lrate	结束时训练网络的学习率，如果采用多任务训练，则实际的学习率是这个数值乘以任务数	- -final-effective-lrate 0.001
add-layers-period <#iters\|2>	添加网络的迭代间隔，网络起始训练时是采用两个CNN层加一个softmax层这个三层网络，随着训练的进行，会逐渐往第二个卷积层和softmax层间添加全连接网络，这个参数选择会影响网络的更新稳定度。	- -add-layers-period 2
mix-up <#pseudo-gaussians\|0>	在网络输出层前加入一层mixup层，网络的输出层神经元输出概率是mixup层神经元输出概率的加权求和。（可借鉴GMM模型的方法进行类比，mixup层一个节点的网络输出概率是单个高斯的输出概率 P(vl\|μi,σi) ；多个节点进行加权求和相当于GMM中的加权求和 ∑Ni=0αiP(vl\|μi,σi) ）	- -mix-up=20000
num-jobs-initial	网络开始训练时的任务数，为了训练的稳定性，一般选择较小的任务数开始	- -num-jobs-initial 3
num-jobs-final	网络结束训练时的任务数，为了训练速度，一般选择较大的任务数结果，网络训练过程中，会根据起始任务数已经结束任务数逐渐增加训练的任务数。
num-threads	任务内并行线程数目，kaldi集群任务支持任务内并行训练，但如果该值设定超过1，将会使用CPU而不是GPU进行网络训练。	若是使用GPU训练则：–num-threads 1 若是使用CPU进行训练则可选为:每个节点CPU数目*每个CPU支持线程数/当前平均每个节点的任务数（–num-jobs）
parallel-opts	其他跟队列配置相关的参数（包括内存需求等等）
io-opts	跟磁盘IO相关配置,限制IO操作严重的任务数	- -io-opts 3
minibatch-size	mini-batch 大小，一次前向传播的输入特征数。	- -minibatch-size 128
samples-per-iter <#samples\|400000>	一次迭代（一个轮次里面有多个迭代）的样本数目，这个数值只是起引导作用，脚本会根据实际总的迭代次数计算出样本数目	- -samples-per-iter 400000
splice-width	当前帧向左右两边拓展作为网络输入的帧数	- -splice-width 5
realign-epochs	进行数据对齐的轮次，该值应该小于–num-epochs 参数	- -realign-epochs 8
align-cmd (utils/run.pl\|utils/queue.pl )	跟对齐相关的任务环境，可在cmd.sh中进行定义。
align-use-gpu (yes/no)	是否对齐的时候使用GPU	- -align-use-gpu yes
num-jobs-align	对齐的集群任务数	- -num-jobs-align 32
stage	训练CNN需要较长时间，如果脚本运行过程中出错或者由于某些原因中断，设置该值可以让脚本从某个步骤重新运行，从而跳过中断前已经顺利完成的任务，避免不必要的重复运行。	跟指定的脚本有关。

====================================未完待续… ====================================

数字人源头厂商-源码出售源码交付-OEM系统贴牌余~~18538162800 音视频线性代数网络人工智能
引言在数字化浪潮中，数字人正成为创新应用的焦点。从虚拟偶像活跃于舞台，到虚拟客服在各行业的普及，数字人展现出巨大的潜力。搭建数字人源码系统，是融合多领域前沿技术的复杂工程，涵盖图形学、人工智能、语音处理等。本文将深入剖析数字人源码搭建的技术开发细节，为开发者提供全面且深入的技术指南。技术体系架构感知层语音识别：技术选型：采用Kaldi语音识别框架，它是一个开源且灵活的工具包，支持多种语言和声学模型
python pyaudio使用调用本地麦克风获取音频哦里哦里哦里给 AI 大语言模型实战 python 音视频开发语言
目录一、直接上代码二、代码解析一、直接上代码importpyaudiofromvoskimportModel,KaldiRecognizer#加载模型MODEL_PATH="vosk-model-en-us-0.22"#修改为您的模型路径model=Model(MODEL_PATH)#初始化音频流recognizer=KaldiRecognizer(model,16000)p=pyaudio.Py
通过手机控制家用电器的一个程序的设计（一） zhumin726 智能家居智能家居
一、概述设计一款安卓平台上的家庭智能控制软件，通过语音识别指令控制家用电器。该软件结合离线语音识别技术、红外线和WIFI通讯技术，实现对家电的智能控制，如开关机、调温度、调频道等操作。二、主要功能模块离线语音识别模块功能：识别用户的语音指令。技术：使用离线语音识别API，如PocketSphinx或Kaldi。操作流程：用户说出指令→语音数据被传输到离线语音识别引擎→引擎返回文本指令。命令解析模块
Vosk Android使用方法熊爱吃鱼 android 语音识别 java
Vosk是一个基于kaldi的开源语音识别框架，支持多种编程语言和多个平台，易于使用和集成，是做语音识别时很好的选择。使用步骤如下：下载vosk源码：源码地址。利用源码编译so库，不会编译的小伙伴可以从这里下载aar包：libvosk.so，然后把文件后缀名从.aar改为.zip，再解压这个文件即可在其中jni目录下找到so库。删除源码vosk-api-0.3.45\android\lib\src
Token Passing解码搬砖人NO17 语音神经网络共同学习语音识别人工智能
1、TokenPassing讲解视频参考地址：Tokenpassing2、TokenPassing（以Kaldi代码为例）（1）取src/fstext/deterministic-fst-test.cc，描述了怎么创建fst。StdVectorFst*CreateBackoffFst(){StdVectorFst*fst=newStdVectorFst();fst->AddState();//st
智能语音技术栈 chenkaifang 不归类
识别原理——硬件数据采集——软件数据处理目前主流的开源平台包括CMUSphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等，CMUSphinx是离线的语音识别工具，支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用，所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行，Kaldi的优势就是集成了很多
ai智能语音机器人如何基于本地语音识别，搭建一款智能聊天机器人？ VO_794632978 WX-794632978 语音机器人人工智能机器人语音识别腾讯云阿里云
基于本地语音识别技术，搭建智能聊天机器人是一种广泛使用的人工智能应用。它可以为用户提供语音聊天、语音指令和语音控制等服务，提高用户的体验和方便性。以下是基于本地语音识别的智能聊天机器人搭建过程。确定使用的技术在搭建智能聊天机器人之前，需要确定将使用的技术和平台。通常情况下，语音识别技术可以使用开源框架，如CMUSphinx、Kaldi、DeepSpeech等。它们都提供了丰富的文档和示例代码，用于
julius开源语音识别引擎 xyc310898673 语音识别
开源语音识别软件HTK，对Julius和Kaldi等系统了解者更佳一.InstallationBySourcetarballInstallationprocessissimpleandcontainsthefollowingpoints:1.DownloadthenewestsourcetarbalfromJuliusofficialsite–link2.Unpackthearchiveforex
Kaldi单步完美运行AIShell v1 S5之四：DNN (nnet3、xent、MPE) aiXpert Kaldi dnn nnet3 kaldi asr 语音识别
Kaldi单步完美运行AIShellv1S5之四：DNN（nnet3、xent、MPE）致谢机器配置问题：显卡设备老旧，一个GPU，想跑tdnn模型，如何破？第11部分：nnet3DNN第12部分：nnet3训练、解码、校准第13部分：迭代深度计算第14部分：Chain致谢感谢AIShell在商业化道路上的探索。期待着v3的到来。机器配置sv@HP:~$sudolsb_release-aDistr
Kaldi完美运行TIMIT完整结果（含DNN） aiXpert Kaldi kaldi timit 语音识别 asr dnn
Kaldi完美运行TIMIT完整结果（含DNN）完全完整含DNN的TIMIT结果RESULTS机器配置Kaldi下TIMIT详细输出第一部分：数据准备第二部分：MFCC&CMVN第三部分：单音素第四部分：tri1:Deltas第五部分：LDA+MLLT第六部分：LDA+MLLT+SAT第七部分：SGMM2第八部分：MＭＩ+SGMM2第九部分：DNN第十部分：ＤＮＮ+SGMM第十一部分：成功的结果后
wenet环境部署 weixin_43870390 语音识别
下载镜像、生成container原始nvidia提供镜像的网站（包含kaldi）：https://docs.nvidia.com/deeplearning/frameworks/kaldi-release-notes/rel_20-03.html#rel_20-03本次采用的是21.02版本，包含如下内容：Ubuntu20.04includingPython3.8NVIDIACUDA11.2.0i
tensorflow环境安装配置 weixin_43870390 网络
下载匹配cuda的kaldi镜像Ubuntu20.04includingPython3.8NVIDIACUDA11.6.0cuBLAS11.8.1.74NVIDIAcuDNN8.3.2.44NVIDIANCCL2.11.4(optimizedforNVLink™)rdma-core36.0NVIDIAHPC-X2.10OpenMPI4.1.2rc4+OpenUCX1.12.0GDRCopy2.3N
离线语音识别 sherpa-ncnn 尝鲜体验杭州_燕十三语音识别 sherpa-ncnn
文章目录1、ubuntu编译运行依赖安装下载与编译模型下载运行2、树莓派4B编译运行确认树莓派4B环境交叉编译交叉编译模型下载与运行模型对比测试树莓派4B运行大模型Sherpa-NCNN是一个基于C++的轻量级神经网络推理框架，是kaldi下的一个子项目，它专门针对移动设备和嵌入式系统进行了优化。Sherpa-NCNN的目标是提供高性能、低延迟的推理能力，适用于移动设备和嵌入式系统，可以以满足实时
RivaGAN 水印项目张昊亮 typescript
git地址https://github.com/DAI-Lab/RivaGANDockerfile(/tools下文件为git下的文件)################################################使用NVIDIACUDA10.0开发环境作为基础镜像FROMkaldiasr/kaldi:gpu-ubuntu18.04-cuda10.0#设置非交互式安装模式以避免某
Kaldi中语言模型 legendayue 语音识别语言模型语音识别
数据准备流程是为了整理数据，生成指定的文件或者是变成指定的格式，方便kaldi后面的语言模型训练，数据准备流程1、处理集外词，将分词后的预料库data/local/train/text中的文件索引全部替换成，在生成语言模型时，如果计数文件中或者训练文件总出现了词典之外的词（OOV）将被替换成，然后将作为正常词进行统计，这么做的好处是给大量OOV分配概率，使得相比于以前频数稀少的精确词，使用增大计算
如何解决kaldi的依赖库mkl安装失败的问题醉心编码 shell基础知识及技巧 c/c++kaldi python asr
最近在学习如何使用kaldi进行语音识别。按照进程进行安装部署时发现IntelMKL库总是失败。通过搜索大量的资料，但都发现不太适用。现在将失败的症状和解决方法分享一下，希望能给读者提供一些帮助。通过执行./check_dependencies.sh发现缺少IntelMKL。[root@localhostextras]#./check_dependencies.sh./check_dependen
报名开启丨2023 SpeechHome 语音技术研讨会语音之家语音之家活动专区智能语音人工智能语音识别 AIGC 开源
2023SpeechHome语音技术研讨会将于11月18日—11月19日，在北京举办，同时举行开源语音技术交流会和第八届Kaldi技术交流会。欢迎大家报名参加（报名链接在文末）！本届研讨会覆盖5大主题，包括语音前沿技术、音频生成、音频与大模型、数据与大模型及开源技术，其中开源技术内容包括Kaldi、ESPnet、WeNet、ModelScope、AISHELL等。邀请来自产学研智能语音技术领域的专
Lhotse 音频库管理音频数据集 mingqian_chu #音频部分音视频
原文参考这里，原文作者GenerativeAI，作者FeitengLhotse是一个旨在使语音和音频数据准备更具灵活性和可访问性的Python库，它与k2一起，构成了下一代Kaldi语音处理库的一部分。主要目标：1.以Python为中心的设计吸引更广泛的社区参与语音处理任务。2.为有经验的Kaldi用户提供富有表现力的命令行接口。3.为常用的语料库提供标准的数据准备方案。4.为与语音和音频相关的任
语音识别学习笔记 AI视觉网奇语音识别语音识别学习笔记
目录端到端的多说话人语音识别序列化训练方法简介新一代Kaldi:Two-pass实时语音识别端到端的多说话人语音识别序列化训练方法简介端到端的多说话人语音识别序列化训练方法简介-知乎2.2基于排列不变性训练PermutationInvariantTraining(PIT)的多说话人语音识别所谓排列不变性训练是在AED的基础之上，添加多个output分支（通常支持几个人就有几个分支），文本序列和输出
kaldi mfcc 落红灬有丶情 kaldi
Kaldi特征提取之-预处理背景本质上语音信号是一维的时间信号，随时间上下波动。现实中，人们再说话时会受到各种音素的干扰，为了进一步进行处理，我们必须进行必要的预处理以便之后的特征提取。诸如FBank，MFCC，PLP等都需要经过预处理步骤。本章将假设语音的格式为wav。预处理整个预处理过程如下图所示：分帧从图中可以看出我们需要将不定长的音频切分成固定长度的小段，这一步称为分帧。分帧的原因在于语音
语音识别开源框架 Swaggie 机器学习语音识别开源人工智能
语音识别开源框架文章目录语音识别开源框架Whisper特征Github地址开源文档介绍论文参考ASRT特征环境Github地址开源文档介绍DeepSpeech特征环境Github地址文档介绍论文参考DeepSpeech2环境Github地址文档介绍论文参考ESPNET特征Github地址开源文档介绍kaldi特征Kaldi'sversusothertoolkitsTheflavorofKaldiG
双系统Ubuntu-22.04.3安装编译kaldi 伪_装 ubuntu linux 运维
Ubuntu物理内存要求85-100G以上，运行内存5-6G以上（如果第一次安装的Ubuntu物理内存不够，请勿进行扩容，扩容易出现黑屏、蓝屏、死机的情况，应该卸载Ubuntu重新安装，在安装过程中进行内存分配；运行内存可直接在虚拟机进行操作）1.1下载kaldiKaldi地址：GitHub-kaldi-asr/kaldi:kaldi-asr/kaldiistheofficiallocationo
使用 Lhotse 高效管理音频数据集希尔贝壳AISHELL 智能语音音视频
Lhotse是一个旨在使语音和音频数据准备更具灵活性和可访问性的Python库，它与k2一起，构成了下一代Kaldi语音处理库的一部分。主要目标：1.以Python为中心的设计吸引更广泛的社区参与语音处理任务。2.为有经验的Kaldi用户提供富有表现力的命令行接口。3.为常用的语料库提供标准的数据准备方案。4.为与语音和音频相关的任务提供PyTorch数据集类。5.通过音频剪辑的概念实现模型训练中
python 3.8+vscode 无法启动jupyter kernal问题一点飞鸿影 python
在python3.8环境下，所有包更新到最新之后，使用vscode打开ipynb，提示`kerkaldiedwithexitcode1.`通过命令行启动jupyternotebook，提示启动内核失败，现象如下：详细报错信息是：```Traceback(mostrecentcalllast):File"c:\work\projects\test_robot\venv\lib\site-packag
ubuntu16.04安装和卸载Kaldi ZQSZXY 个人笔记 kaldi安装深度学习
Ubuntu16.04环境：g++=4.9版本,gcc=4.9版本，刚开始我的gcc=5.4，结果报错：Ubuntu16.04默认的gcc版本是5以上，亲测会报错，***configurefailed:CUDA7_5doesnotsupportg++(g++-5.4.0).Youneedg++<5.0.***，如果报同样的错误，那就需要把系统的gcc和g++降级。下载Kaldi安装包Kaldi官网
基于深度学习的语音识别系统构建周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发语音识别人工智能信号处理
加我微信hezkz17进数字音频系统研究开发交流答疑(课题组)项目内容：1.语音识别系统构建：负责基于kaldi的混合语音识别模型系统的构建，包括训练数据的搜集与处理，模型训练测试、rescore解码流程和上线部署等；2.声纹识别系统构建：使用cnn+aam-softmax的模型结构提取说话人声纹特征(embedding),然后在声纹库内进行声纹相似度的检索匹配；3.语种识别算法：使用类似声纹识别
python语音识别库kaldi_Kaldi语音识别库在Linux下的安装和编译岑依惜
1.介绍Kaldi语音识别工具将HTK比较零碎的各种各样的指令和功能进行整理集合，使用perl脚本调用。同时也加入了深度神经网络的分类器(DNN)，本身由原来做HTK开发的人员制作而成，可以说是HTK的升级加强版。kaldi官方网站请见：http://kaldi.sourceforge.net/index.html2.安装和编译第一步：下载kaldi工具包kaldi有两个版本，kaldi-1和ka
kaldi在linux上编译,Kaldi语音识别库linux环境下的安装和编译三上酱 kaldi在linux上编译
介绍：Kaldi语音识别库可以说是，HTK数据库的整理加强版，将HTK比较零碎的各种各样的指令和功能进行整理，使用更加的方便，同时也加入了深度神经网络的分类器(DNN)，本身由原来做HTK开发的人员制作而成。kaldi官方网站请见：http://kaldi.sourceforge.net/index.html安装以及编译：第一步：下载kaldi工具包kaldi有两个版本，kaldi-1和kaldi
linux编译aidl接口,ubuntu下安装kaidl实用教程 weixin_39779530 linux编译aidl接口
1.介绍Kaldi语音识别工具将HTK比较零碎的各种各样的指令和功能进行整理集合，使用perl脚本调用。同时也加入了深度神经网络的分类器(DNN)，本身由原来做HTK开发的人员制作而成，可以说是HTK的升级加强版。kaldi官方网站请见：http://kaldi.sourceforge.NET/index.html2.安装和编译第一步：下载kaldi工具包kaldi有两个版本，kaldi-1和ka
kaldi在Linux下的安装 ch977
1.介绍Kaldi语音识别工具将HTK比较零碎的各种各样的指令和功能进行整理集合，使用perl脚本调用。同时也加入了深度神经网络的分类器(DNN)，本身由原来做HTK开发的人员制作而成，可以说是HTK的升级加强版。kaldi官方网站请见：http://kaldi.sourceforge.net/index.html2.安装和编译第一步：下载kaldi工具包kaldi有两个版本，kaldi-1和ka
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

kaldi学习笔记之卷积神经网络(CNN)

kaldi学习笔记之卷积神经网络(CNN)

摘要：

正文：

你可能感兴趣的:(Kaldi)