Audior

语音识别——kaldi基于GMM的单音素模型训练部分

文章目录

1. gmm-init-mono 模型初始化
2. compile-train-graghs 训练图初始化
3. align-equal-compiled 特征文件均匀分割
4. gmm-acc-stats-ali 累积模型重估所需数据
5. gmm-sum-accs 并行数据合并
6. gmm-est 声音模型参数重估
7. gmm-boost-silence 模型平滑处理
8. gmm-align-compiled 特征重新对齐
9. train_mono.sh 整体流程详解

转载注明出处。

1. gmm-init-mono 模型初始化

gmm-init-mono --train-feats=ark:feats.ark topo 39 0.mdl tree
0.mdl 中使用初始化的状态转换概率，其中 pdf模型共享参数。
tree中的树为提出两个问题，第一个问题为各个音素是什么，第二个问题为状态为第几个。

实例：

将特征进行均值方差归一化后抽取一阶差分和二阶差分：

/home/speech.AI/kaldi/src/featbin/apply-cmvn scp:cmvn.scp scp:copy-feats.scp ark:- | /home/speech.AI/kaldi/src/featbin/add-deltas ark:- ark:delta.ark

利用提取的39维特征进行进行模型初始化：

gmm-init-mono --train-feats=ark:delta.ark topo 39 0.mdl tree

2. compile-train-graghs 训练图初始化

使用compile-train-graghs生成训练用的FST，是每个句子构造一个FST网络：

Usage: compile-train-graphs [options]      
e.g.:  compile-train-graphs tree 1.mdl lex.fst ark:train.tra ark:graphs.fsts

其中的ark:train.tra一般通过ark:sym2int.pl -f 2- words.txt text|利用词典将文本信息转化为对应的音素序号。

下面是我的路径下的测试命令：

/home/speech.AI/kaldi/src/bin/compile-train-graphs 0.tree 0.mdl ../data/lang/L.fst 'ark:/home/speech.AI/kaldi/egs/wsj/s5/utils/sym2int.pl -f 2- words.txt text|' ark:graphs.fsts

3. align-equal-compiled 特征文件均匀分割

使用align-equal-compiled根据我们得到的训练用的fst对特征文件进行均匀分割。
需要留意，切割的文件中间都掺杂着SIL单词，但是标注中没有体现，我还不知道为何，切对齐文件每个状态的帧数也不相同。

Usage: align-equal-compiled   
e.g.:  align-equal-compiled ark:graphs.fsts ark:delta.ark ark:equal.ali

对文件的每一帧进行均匀标准，具体算法不了解：

[2 1 1 1 1 1 1 1 1 6 5 5 5 5 5 5 5 5 11 10 10 10 10 10 10 10 10 13 15 15 15 15 15 15 15 15 8 5 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 4 1 1 1 1 1 1 1 1 14 15 15 15 15 15 15 15 15 12 10 10 10 10 10 10 10 10 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 2 1 1 1 1 1 1 1 1 6 5 5 5 5 5 5 5 5 11 10 10 10 10 10 10 10 10 13 15 15 15 15 15 15 15 15 8 5 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 3 1 1 1 1 1 1 1 1 9 10 10 10 10 10 10 10 10 7 5 5 5 5 5 5 5 5 14 15 15 15 15 15 15 15 15 9 10 10 10 10 10 10 10 10 7 5 5 5 5 5 5 5 5 13 15 15 15 15 15 15 15 15 7 5 5 5 5 5 5 5 5 14 15 15 15 15 15 15 15 15 12 10 10 10 10 10 10 10 10 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 4 1 1 1 1 1 1 1 13 15 15 15 15 15 15 15 15 7 5 5 5 5 5 5 5 16 15 15 15 15 15 15 15 18 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 24 23 23 23 23 23 23 23 3 1 1 1 1 1 1 1 11 10 10 10 10 10 10 10 13 15 15 15 15 15 15 15 6 5 5 5 5 5 5 5 11 10 10 10 10 10 10 10 14 15 15 15 15 15 15 15 9 10 10 10 10 10 10 10 8 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 24 23 23 23 23 23 23 23 3 1 1 1 1 1 1 1 11 10 10 10 10 10 10 10 16 15 15 15 15 15 15 15 18 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 24 23 23 23 23 23 23 23 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 24 23 23 23 23 23 22 23 2 1 1 1 1 1 1 1 7 5 5 5 5 5 5 5 14 15 15 15 15 15 15 15 12 10 10 10 10 10 10 10 18 17 17 17 17 17 17 17];

均匀分割后的每一帧trans-id的标注，不知道为何每个音素的时间并不相同，也不知道原因。
且每个单词中间都出现了未被标注的静音音素。

实例：

home/speech.AI/kaldi/src/bin/align-equal-compiled ark:graphs.fsts ark:delta.ark ark:equal.ali

4. gmm-acc-stats-ali 累积模型重估所需数据

Usage: gmm-acc-stats-ali [options]    
e.g.:  gmm-acc-stats-ali 1.mdl scp:train.scp ark:1.ali 1.acc

对于每一帧的特征和其对齐（transition-id）：
- 对于转移模型（TM），累积tid出现的次数；
- 对于AM，由tid得到pdf-id，也就是找到对应该pdf-id的DiagGmm对象，更新与该DiagGmm对象相关的AccumDiagGmm的参数，也就是计算得到三个GMM参数更新公式的分子部分（包括每一混合分量的后验（occupancy_中保存 $nj=1γ^jk$ ）、每一分量的后验乘以当前帧的特征(mean_accumulator_中保存 $nj=1γ^jkyj$ ， $M x D$ 维)、每一分量的后验乘以当前帧的特征每一维的平方(variance_accumulator_中保存 $nj=1γ^jky2j$ ， $M x D$ 维)）
处理完所有数据后，将TM和AM的累积量写到一个文件中：x.JOB.acc中

实例：

/home/speech.AI/kaldi/src/gmmbin/gmm-acc-stats-ali 0.mdl ark:delta.ark ark:equal.ali 0.acc

5. gmm-sum-accs 并行数据合并

gmm-acc-stats-ali生成的累计量分散在JOB个文件中，该程序将分散的对应同一trans-id、pdf-id的累计量合并在一起
如果不是多个线程就不必进行合并。

Usage: gmm-sum-accs [options]    ...
E.g.:  gmm-sum-accs 1.acc 1.1.acc 1.2.acc

6. gmm-est 声音模型参数重估

作用：Do Maximum Likelihood re-estimation of GMM-based acoustic model.调用gmm-est对0.mdl进行重新估计，该程序对基于GMM的声学模型进行最大似然重新估计，生成exp/mono/1.mdl

Usage: gmm-est [options]   
e.g.:  gmm-est 1.mdl 1.acc 2.mdl

实例：

/home/speech.AI/kaldi/src/gmmbin/gmm-est 0.mdl 0.acc 1.mdl

7. gmm-boost-silence 模型平滑处理

作用：修改基于GMM的模型以（通过某个因素）提升与指定电话相关的所有概率（可以是所有静音电话，或者仅用于可选静音）。注意：这是通过修改GMM权重来完成的。如果沉默模型与其他模型共享GMM，则它将修改可能对应于静音的所有模型的GMM权重
Modify GMM-based model to boost (by a certain factor) all probabilities associated with the specified phones (could be all silence phones, or just the ones used for optional silence). Note: this is done by modifying the GMM weights. If the silence model shares a GMM with other models, then it will modify the GMM weights for all models that may correspond to silence.

Usage:  gmm-boost-silence [options]   
e.g.: gmm-boost-silence --boost=1.5 1:2:3 1.mdl 1_boostsil.mdl

实例：

/home/speech.AI/kaldi/src/gmmbin/gmm-boost-silence --boost=1.0 1 1.mdl 1_new.mdl

8. gmm-align-compiled 特征重新对齐

使用新的模型和原来的训练状态图对原来的特征文件进行重新对齐。

Usage: gmm-align-compiled [options]     [scores-wspecifier]
e.g.:  gmm-align-compiled 1.mdl ark:graphs.fsts scp:train.scp ark:1.ali

或者重新编译新的训练状态图然后对齐：

or： compile-train-graphs tree 1.mdl lex.fst 'ark:sym2int.pl -f 2- words.txt text|' ark:- | gmm-align-compiled 1.mdl ark:- scp:train.scp t, ark:1.ali

实例：

首先重新生成训练图：

/home/speech.AI/kaldi/src/bin/compile-train-graphs 0.tree 1.mdl ../data/lang/L.fst 'ark:/home/speech.AI/kaldi/egs/wsj/s5/utils/sym2int.pl -f 2- words.txt text|' ark:graphs_new.fsts

然后使用新的解码图进行对齐：

/home/speech.AI/kaldi/src/gmmbin/gmm-align-compiled 1.mdl ark:graphs_new.fsts ark:delta.ark ark,t:ali1.txt

然后就可以获得新的对齐标注：

3 1 12 10 10 10 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 26 25 25 25 28 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 29 29 29 29 29 29 2 7 5 5 5 13 15 15 15 15 15 7 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 14 15 15 15 15 15 9 10 7 5 5 5 13 15 15 15 15 15 15 8 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 17 17 26 25 25 25 25 28 27 27 27 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 29 29 2 1 1 1 1 1 6 5 9 10 10 10 10 10 8 5 5 5 5 5 5 5 5 5 5 18 17 17 17 17 17 26 25 25 25 28 27 27 27 27 27 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 29 29 29 2 8 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 29 2 1 1 1 1 1 1 1 1 1 1 1 1 8 5 5 5 5 5 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 21 21 24 23 23 23 23 3 1 1 1 1 1 1 12 10 10 10 10 10 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 19 19 19 22 21 21 21 21 21 21 24 23 23 23 23 23 23 23 2 1 1 1 1 1 1 8 5 5 5 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 19 22 21 21 21 24 23 23 23 23 23 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 21 24 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 2 1 1 1 8 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17];

重新对齐的文件如下所示：
常用的可选项为--beam=16，调整参数可以得到不同的对齐结果。

/home/speech.AI/kaldi/src/gmmbin/gmm-align-compiled --beam=16 1.mdl ark:graphs_new.fsts ark:delta.ark ark,t:ali1.txt

9. train_mono.sh 整体流程详解

整个脚本的思想就是：

1.  gmm-init-mono 模型初始化
2. compile-train-graghs 训练图初始化
3. align-equal-compiled 特征文件均匀分割
4. gmm-acc-stats-ali 累积模型重估所需数据
5. gmm-sum-accs 并行数据合并
6. gmm-est 声音模型参数重估
7. gmm-boost-silence 模型平滑处理
8. gmm-align-compiled 特征重新对齐
9. 重复n次执行：7->8->4->5->6（重新对齐->参数重新估计）
10. 输出最终参数

#!/bin/bash
# Copyright 2012  Johns Hopkins University (Author: Daniel Povey)
# Apache 2.0


# To be run from ..
# Flat start and monophone training, with delta-delta features.
# This script applies cepstral mean normalization (per speaker).

# Begin configuration section.
nj=4
cmd=run.pl
scale_opts="--transition-scale=1.0 --acoustic-scale=0.1 --self-loop-scale=0.1"
num_iters=40    # Number of iterations of training   训练迭代次数
max_iter_inc=30 # Last iter to increase #Gauss on.   高斯数递增的最大次数
totgauss=1000 # Target #Gaussians.
careful=false
boost_silence=1.0 # Factor by which to boost silence likelihoods in alignment   强制改变某些音素的似然概率因子，见下面的代码
realign_iters="1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 23 26 29 32 35 38";
config= # name of config file.
stage=-4
power=0.25 # exponent to determine number of gaussians from occurrence counts 
norm_vars=false # deprecated, prefer --cmvn-opts "--norm-vars=false"   
cmvn_opts=  # can be used to add extra options to cmvn.   cmvn选项
# End configuration section.

echo "$0 $@"  # Print the command line for logging

if [ -f path.sh ]; then . ./path.sh; fi
. parse_options.sh || exit 1;

if [ $# != 3 ]; then
  echo "Usage: steps/train_mono.sh [options]   "
  echo " e.g.: steps/train_mono.sh data/train.1k data/lang exp/mono"
  echo "main options (for others, see top of script file)"
  echo "  --config                            # config containing options"
  echo "  --nj                                         # number of parallel jobs"
  echo "  --cmd (utils/run.pl|utils/queue.pl ) # how to run jobs."
  exit 1;
fi

data=$1
lang=$2
dir=$3

oov_sym=`cat $lang/oov.int` || exit 1;#静音符号表

# 按照任务数，将训练数据分成多份，每个任务处理一份数据。
mkdir -p $dir/log
echo $nj > $dir/num_jobs
sdata=$data/split$nj;
[[ -d $sdata && $data/feats.scp -ot $sdata ]] || split_data.sh $data $nj || exit 1;

# 特征归一化选项，这里默认指定要对variance进行归一化，还可从外部接收其他归一化选项，如果外部指定不对variance进行归一化，则外部指定生效。
$norm_vars && cmvn_opts="--norm-vars=true $cmvn_opts"
echo $cmvn_opts  > $dir/cmvn_opts # keep track of options to CMVN.

feats="ark,s,cs:apply-cmvn $cmvn_opts --utt2spk=ark:$sdata/JOB/utt2spk scp:$sdata/JOB/cmvn.scp scp:$sdata/JOB/feats.scp ark:- | add-deltas ark:- ark:- |"
example_feats="`echo $feats | sed s/JOB/1/g`";

echo "$0: Initializing monophone system."

[ ! -f $lang/phones/sets.int ] && exit 1;
shared_phones_opt="--shared-phones=$lang/phones/sets.int"

if [ $stage -le -3 ]; then
  # Note: JOB=1 just uses the 1st part of the features-- we only need a subset anyway.
  # 获取特征的维度
  if ! feat_dim=`feat-to-dim "$example_feats" - 2>/dev/null` || [ -z $feat_dim ]; then
    feat-to-dim "$example_feats" -
    echo "error getting feature dimension"
    exit 1;
  fi
  # Flat-start（又称为快速启动），作用是利用少量的数据快速得到一个初始化的 HMM-GMM 模型和决策树
  # $lang/topo 中定义了每个音素（phone）所对应的 HMM 模型状态数以及初始时的转移概率
  # --shared-phones=$lang/phones/sets.int 选项指向的文件，即$lang/phones/sets.int(该文件生成roots.txt中开头为share split的部分，表示同一行元素共享pdf，允许进行决策树分裂),文件中同一行的音素（phone）共享 GMM 概率分布。tree文件由sets.int产生。
  # --train-feats=$feats subset-feats --n=10 ark:- ark:-| 选项指定用来初始化训练用的特征，一般采用少量数据，程序内部会计算这批数据的means和variance，作为初始高斯模型。sets.int中所有行的初始pdf都用这个计算出来的means和variance进行初始化。
  $cmd JOB=1 $dir/log/init.log \
    gmm-init-mono $shared_phones_opt "--train-feats=$feats subset-feats --n=10 ark:- ark:-|" $lang/topo $feat_dim \
    $dir/0.mdl $dir/tree || exit 1;
fi
# 计算当前高斯数，（目标高斯数 - 当前高斯数）/ 增加高斯迭代次数 得到每次迭代需要增加的高斯数目
numgauss=`gmm-info --print-args=false $dir/0.mdl | grep gaussians | awk '{print $NF}'`
incgauss=$[($totgauss-$numgauss)/$max_iter_inc] # per-iter increment for #Gauss

# 构造训练的网络，从源码级别分析，是每个句子构造一个phone level 的fst网络。
# $sdaba/JOB/text 中包含对每个句子的单词(words level)级别标注， L.fst是字典对于的fst表示，作用是将一串的音素（phones）转换成单词（words）
# 构造monophone解码图就是先将text中的每个句子，生成一个fst（类似于语言模型中的G.fst，只是相对比较简单，只有一个句子），然后和L.fst 进行composition 形成训练用的音素级别（phone level）fst网络（类似于LG.fst）。
# fsts.JOB.gz 中使用 key-value 的方式保存每个句子和其对应的fst网络，通过 key(句子) 就能找到这个句子的fst网络，value中保存的是句子中每两个音素之间互联的边（Arc）,例如句子转换成音素后，标注为："a b c d e f",那么value中保存的其实是 a->b b->c c->d d->e e->f 这些连接（kaldi会为每种连接赋予一个唯一的id），后面进行 HMM 训练的时候是根据这些连接的id进行计数，就可以得到转移概率。
if [ $stage -le -2 ]; then
  echo "$0: Compiling training graphs"
  $cmd JOB=1:$nj $dir/log/compile_graphs.JOB.log \
    compile-train-graphs $dir/tree $dir/0.mdl  $lang/L.fst \
    "ark:sym2int.pl --map-oov $oov_sym -f 2- $lang/words.txt < $sdata/JOB/text|" \
    "ark:|gzip -c >$dir/fsts.JOB.gz" || exit 1;
fi

if [ $stage -le -1 ]; then
  echo "$0: Aligning data equally (pass 0)"
  $cmd JOB=1:$nj $dir/log/align.0.JOB.log \
# 训练时需要将标注跟每一帧特征进行对齐，由于现在还没有可以用于对齐的模型，所以采用最简单的方法 -- 均匀对齐
# 根据标注数目对特征序列进行等间隔切分，例如一个具有5个标注的长度为100帧的特征序列，则认为1-20帧属于第1个标注，21-40属于第2个...
# 这种划分方法虽然会有误差，但待会在训练模型的过程中会不断地重新对齐。
    align-equal-compiled "ark:gunzip -c $dir/fsts.JOB.gz|" "$feats" ark,t:-  \| \
# 对对齐后的数据进行训练，获得中间统计量，每个任务输出到一个acc文件。
# acc中记录跟HMM 和GMM 训练相关的统计量：
# HMM 相关的统计量：两个音素之间互联的边（Arc） 出现的次数。
#                 如上面所述，fst.JOB.gz 中每个key对于的value保存一个句子中音素两两之间互联的边。
#                 gmm-acc-stats-ali 会统计每条边（例如a->b）出现的次数，然后记录到acc文件中。
# GMM 相关的统计量：每个pdf-id 对应的特征累计值和特征平方累计值。
#                 对于每一帧，都会有个对齐后的标注，gmm-acc-stats-ali 可以根据标注检索得到pdf-id,
#                 每个pdf-id 对应的GMM可能由多个单高斯Component组成，会先计算在每个单高斯Component对应的分布下这一帧特征的似然概率（log-likes），称为posterior。
#                 然后：
#                    （1）把每个单高斯Component的posterior加到每个高斯Component的occupancy（占有率）计数器上，用于表征特征对于高斯的贡献度，
#                        如果特征一直落在某个高斯的分布区间内，那对应的这个值就比较大；相反，如果一直落在区间外，则表示该高斯作用不大。
#                        gmm-est中可以设置一个阈值，如果某个高斯的这个值低于阈值，则不更新其对应的高斯。
#                        另外这个值（向量)其实跟后面GMM更新时候的高斯权重weight的计算相关。
#                    （2）把这一帧数据加上每个单高斯Component的posterior再加到每个高斯的均值累计值上；
#                        这个值（向量）跟后面GMM的均值更新相关。
#                    （3）把这一帧数据的平方值加上posterior再加到每个单高斯Component的平方累计值上；
#                        这个值（向量）跟后面GMM的方差更新相关。
#                 最后将均值累计值和平方累计值写入到文件中。
    gmm-acc-stats-ali --binary=true $dir/0.mdl "$feats" ark:- \
    $dir/0.JOB.acc || exit 1;
fi

# In the following steps, the --min-gaussian-occupancy=3 option is important, otherwise
# we fail to est "rare" phones and later on, they never align properly.
# 根据上面得到的统计量，更新每个GMM模型，AccumDiagGmm中occupancy_的值决定混合高斯模型中每个单高斯Component的weight；
# --min-gaussian-occupancy 的作用是设置occupancy_的阈值，如果某个单高斯Component的occupancy_低于这个阈值，那么就不会更新这个高斯，
# 而且如果 --remove-low-count-gaussians=true,则对应得单高斯Component会被移除。
if [ $stage -le 0 ]; then
  gmm-est --min-gaussian-occupancy=3  --mix-up=$numgauss --power=$power \
    $dir/0.mdl "gmm-sum-accs - $dir/0.*.acc|" $dir/1.mdl 2> $dir/log/update.0.log || exit 1;
  rm $dir/0.*.acc
fi


beam=6 # will change to 10 below after 1st pass
# note: using slightly wider beams for WSJ vs. RM.
x=1
while [ $x -lt $num_iters ]; do
  echo "$0: Pass $x"
  if [ $stage -le $x ]; then
    if echo $realign_iters | grep -w $x >/dev/null; then
      echo "$0: Aligning data"
      # gmm-boost-silence 的作用是让某些phones（由第一个参数指定）对应pdf的weight乘以--boost 参数所指定的数字，强行提高（如果大于1）/降低（如果小于1）这个phone的概率。
      # 如果多个phone共享同一个pdf,程序中会自动做去重，乘法操作只会执行一次。
      mdl="gmm-boost-silence --boost=$boost_silence `cat $lang/phones/optional_silence.csl` $dir/$x.mdl - |"
      # 执行force-alignment操作。
      # --self-loop-scale 和 --transition-scale 选项跟HMM 状态跳转相关，前者是设置自转因子，后者是非自传因子，可以修改这两个选项控制HMM的跳转倾向。
      # --acoustic-scale 选项跟GMM输出概率相关，用于平衡 GMM 输出概率和 HMM 跳转概率的重要性。
      # --beam 选项用于计算对解码过程中出现较低log-likelihood的token进行裁剪的阈值，该值设计的越小，大部分token会被裁剪以便提高解码速度，但可能会在开始阶段把正确的token裁剪掉导致无法得到正确的解码路径。
      # --retry-beam 选项用于修正上述的问题，当无法得到正确的解码路径后，会增加beam的值，如果找到了最佳解码路径则退出，否则一直增加指定该选项设置的值，如果还没找到，就抛出警告，导致这种问题要么是标注本来就不对，或者retry-beam也设计得太小。
      $cmd JOB=1:$nj $dir/log/align.$x.JOB.log \
        gmm-align-compiled $scale_opts --beam=$beam --retry-beam=$[$beam*4] --careful=$careful "$mdl" \
        "ark:gunzip -c $dir/fsts.JOB.gz|" "$feats" "ark,t:|gzip -c >$dir/ali.JOB.gz" \
        || exit 1;
    fi
       # 更新模型 
    $cmd JOB=1:$nj $dir/log/acc.$x.JOB.log \
      gmm-acc-stats-ali  $dir/$x.mdl "$feats" "ark:gunzip -c $dir/ali.JOB.gz|" \
      $dir/$x.JOB.acc || exit 1;

    $cmd $dir/log/update.$x.log \
      gmm-est --write-occs=$dir/$[$x+1].occs --mix-up=$numgauss --power=$power $dir/$x.mdl \
      "gmm-sum-accs - $dir/$x.*.acc|" $dir/$[$x+1].mdl || exit 1;
    rm $dir/$x.mdl $dir/$x.*.acc $dir/$x.occs 2>/dev/null
  fi
  # 线性增加混合高斯模型的数目，直到指定数量。
  if [ $x -le $max_iter_inc ]; then
     numgauss=$[$numgauss+$incgauss];
  fi
  # 提高裁剪门限。
  beam=10
  x=$[$x+1]
done

( cd $dir; rm final.{mdl,occs} 2>/dev/null; ln -s $x.mdl final.mdl; ln -s $x.occs final.occs )

utils/summarize_warnings.pl $dir/log

echo Done

# example of showing the alignments:
# show-alignments data/lang/phones.txt $dir/30.mdl "ark:gunzip -c $dir/ali.0.gz|" | head -4

大部分内容参考如下：
心胸决定格局…：Kaldi单音素模型训练部分

转载请注明出处

手机通话语音离线ASR识别商用和优化方向 limingade 本地AI电话机器人手机提取电话的信令和声音智能手机 FunASR离线识别 Android做ASR 手机断网离线ASR ASR语音转文字识别语音识别
手机通话语音离线ASR识别商用和优化方向--本地AI电话机器人上一篇：手机FunASR识别SIM卡通话占用内存和运行性能分析下一篇：编写中。一、前言前面的篇章中，我们尝试了将FunASR的ONNX模型文件加载到Android应用中，实现手机本地不依赖服务器和网络的离线ASR语音识别。并将这个ASR能力应用到了手机麦克风、手机本地的历史通话录音、手机实时的SIM卡电话通话内容的解析上。在实践中，我们
鸟类识别与分类相关数据集 Bryan Ding 分类数据挖掘人工智能
随着深度学习技术的快速发展，其在图像识别、语音识别等领域取得了显著的成果。鸟类识别作为生态学研究的重要内容，对于物种多样性保护、生态环境监测等领域具有深远的影响。将深度学习技术应用于鸟类识别，有望提高识别的准确性和效率，为鸟类学研究提供有力支持。本文综述了近年来深度学习在鸟类识别中的应用进展，包括基于图像和声音的鸟类识别系统，分析了其技术框架、实现方法以及在实际应用中的效果。通过对相关文献的梳理，
AI技术通过多模态应用（即融合文本、图像、语音、视频、传感器数据等多维度信息）正在深刻重塑工作模式、行业生态和人类创造力边界。 zzywxc787 人工智能音视频大数据 java spring 开发语言
AI技术通过多模态应用（即融合文本、图像、语音、视频、传感器数据等多维度信息）正在深刻重塑工作模式、行业生态和人类创造力边界。以下从技术融合、行业变革、职业重构三个维度展开分析，并附具体案例：一、技术融合：多模态AI的核心突破跨模态理解引擎案例：Meta的AudiovisualNeuralNetwork（AV-Wav2Vec）实现语音-唇形-场景的联合建模，语音识别错误率降低40%技术指标：跨模态
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
QT的语音识别 heng6868 imx6ull 嵌入式项目 qt http java
难点：难点就是如何跟百度云的语音应用进行通信。首先，要获取应用的APIKey、SecretKey，并通过请求鉴权接口换取token。向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求（推荐使用POST），并在URL中带上以下参数：并在URL中带上以下参数：grant_type：必须参数，固定为client_credentials；client_i
19｜Whisper+ChatGPT：请AI代你听播客 _Rye_ AI大模型 whisper chatgpt
今天，我们的课程开始进入一个新的主题了，那就是语音识别。过去几周我们介绍的ChatGPT虽然很强大，但是只能接受文本的输入。而在现实生活中，很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版，所以这个时候，我们就需要一个能够将语音内容转换成文本的能力。作为目前AI界的领导者，OpenAI自然也不会放过这个需求。他们不仅发表了一个通用的语音识别模型Whisper，还把对应的代码开源了。在
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
智能家居-深耕10年原创合集(2025/06更新) CYP_2015 智能家居 xcode ios macos ide
2025-06更新篇章2025年广州光亚展参展记录智能插座：技术与应用演进之路语音识别技术：全链路技术栈解析6000字干货长文，深度解读智能家居7大派系，谁能真正统一“江湖”？最近参与某智能家居项目的早期调研，再次感慨用户对我们所说的“便捷”实则是“无感”。用户原话："你们总说'智能'，我就想要个不用记按钮、不用掏手机的家伙。"我们说的"便捷"，在用户那儿根本不是"多快多远"，而是"不用刻意"。现
隐马尔可夫模型：语音识别系统的时序解码引擎大千AI助手人工智能 Python #OTHER 语音识别人工智能机器学习概率马尔科夫链 HMM
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！1HMM与语音识别的理论基础隐马尔可夫模型（HMM）作为一种双重随机过程的统计模型，其核心在于描述一个包含隐含状态的马尔可夫链，以及这些状态生成可观测输出的概率分布。在语音识别领域，HMM的时序建模能力与语音信号的特性形成了完美契合：隐含状态：对应语音
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
Kimi Audio一个通用的音频基础模型处理各种任务如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话 skywalk8163 人工智能 xcode ide kaggle Kimi Audio
KimiAudio被设计为一个通用的音频基础模型，能够在一个统一的框架内处理各种音频处理任务。主要功能包括：通用功能：处理各种任务，如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话。最先进的性能：在众多音频基准测试中取得SOTA结果（见评估和技术报告）。大规模预训练：对超过1300万小时的各种音频数据
HarmonyOS开发：使用语音识别的步骤演示
引言在当下的生活与工作场景中，语音识别技术早已渗透到方方面面——从手机上的语音助手快速拨打电话、发送消息，到智能音箱根据语音指令播放音乐、查询天气，再到办公场景里通过语音转文字功能高效记录会议纪要，其应用的广泛性不言而喻。而HarmonyOS在语音识别领域展现出了强大的技术实力，为用户带来了全方位的支持。它不仅能够精准识别普通话，满足大多数用户的日常需求，还兼容多种方言以及外语，极大地拓宽了使用范
蒙特卡罗方法与深度学习的关系 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
蒙特卡罗方法与深度学习的关系作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来蒙特卡罗方法和深度学习都是近年来在计算科学和人工智能领域取得重大突破的技术。蒙特卡罗方法是一种基于随机抽样的数值计算方法，广泛应用于物理、工程、金融等领域。深度学习则是一种基于人工神经网络的学习方法，在图像识别、语音识别、自然语言处理等领域取得了显
AI人工智能语音识别马里亚纳海沟网人工智能语音识别 python 学习运维笔记
AI人工智能构建语音识别器语音识别或自动语音识别(ASR)是AI机器人等AI项目的关注焦点。没有ASR，就不可能想象一个认知机器人与人进行交互。但是，构建语音识别器并不容易。开发语音识别系统的困难开发高质量的语音识别系统确实是一个难题。语音识别技术的困难可以广泛地表征为如下所讨论的许多维度-词汇大小词汇大小影响开发ASR的难易程度。考虑以下词汇量以便更好地理解。例如，在一个语音菜单系统中，一个小词
基于Python的智能语音识别系统设计 MATLAB算法工程师Y python 语音识别开发语言
引言语言是人类最原始直接的一种交流方式，通俗易懂、便于理解。随着科技的发展，语言交流不再只存在于人与人之间，如何让机器“听懂”人类的语言并做出反应成为人工智能的重要课题，语音智能交互技术应运而生。作为其中重要一环的语音识别技术近年来不断发展，走出了实验室，随着人工智能进入人们的日常生活中。当今市场上语音识别技术相关的软件、商品涉及人类生活的方方面面，语音识别的实用性已经得到充分的印证。如今语音识别
基于python的语音识别系统,Python语音识别技术路线快乐的小肥熊 ai智能写作 python 语音识别开发语言 cnn
如何用python调用百度语音识别1、首先需要打开百度AI语音系统，开始编写代码，如图所示，编写好回车。2、然后接下来再试一下的音频，开始编写成功回车，如图所示的编写。3、最后，查看音频c的属性，可以看到音频持续28秒，这样就是用python调用百度语音识别成功解决问题。谷歌人工智能写作项目：神经网络伪原创Python语音识别,调用的是哪个客户端接口函数调用腾讯云的语音识别(一句话识别)接口-Py
Python 语音识别与语音合成的实现方法加班不如去钓鱼 python 语音识别 xcode
```htmlPython语音识别与语音合成的实现方法Python语音识别与语音合成的实现方法随着人工智能技术的发展，语音处理在实际应用中变得越来越重要。Python作为一种功能强大的编程语言，提供了丰富的库和工具来实现语音识别和语音合成的功能。本文将详细介绍如何使用Python实现语音识别与语音合成。一、语音识别语音识别（SpeechRecognition）是将人类的语音转换为文本的过程。Pyt
阿里云一句话语音识别
前端：阿里云语音识别应用（一句话语音识别）{{isRecording?'停止录音':'开始录音'}}识别结果:{{recognitionResult}}WebSocket状态:{{websocketStatus}}使用的音频格式:{{usedMimeType}}import{ref,onMounted,onUnmounted}from'vue'//状态管理constisRecording=ref(
Unity使用讯飞语音模型(语音合成+语音识别+语音唤醒)Window端SDK 苏轼轼语音识别人工智能
1.查看官方文档、登录并下载我们所需的SDK。语音唤醒需要我们设置唤醒词。讯飞智能语音SDK文档官网讯飞智能语音产品介绍官网在控制台下载对应SDK，由于讯飞官方只提供了C++/C语音版本，我们需要用C#调用下载SDK的dll库文件。2.将dll库拖进Unity项目中如果目标设备为64位，我们选择msc_x64.dll；如果是32位，我们选择msc.dll。另外我们如果要使用语音唤醒功能，还需要wa
ESP32S3接入讯飞在线语音识别教程及配套源代码 2401_88800025 高级技术笔记高级笔记语音识别人工智能音视频嵌入式硬件单片机
1.准备工作1.1硬件准备ESP32-S3开发板（推荐ESP32-S3-WROOM-1）麦克风模块（如SPH0645LM4H或WM8978）MicroSD卡模块（可选，用于存储语音文件）扬声器模块（可选，用于播放识别结果）1.2软件准备安装ArduinoIDE（推荐2.0版本以上）安装ESP32-S3开发支持注册讯飞开放平台账号并创建应用获取讯飞语音识别API的AppID、APIKey和APISe
科普语音交互所需开源技术方案
以下是ASR（自动语音识别）、LLM（大语言模型）和TTS（文本转语音）三者结合的应用场景及开源方案：一、应用场景智能语音助手如百聆（Bailing），支持语音输入、意图理解、任务管理及语音输出，端到端延迟仅800ms，支持打断和记忆功能。车载语音交互系统（如蔚来、小鹏），结合ASR识别指令、LLM处理复杂查询（如"找有充电桩的高评分餐厅"）和TTS提供语音反馈。语音到语音翻译（S2ST）阿里Fu
android 多通道音频,支持多通道录音虾仁芝麻卷 android 多通道音频
原生Android只支持2channel的录音。可是偏偏会有多mic的需求，比如说语音识别。目前已知TDM协议可以将多mic数据从kernel送到hal，从内核空间搬运到用户空间中。可是原生AudioRecord接口是完全不支持多channel录音数据的采集的，怎么修改，才能让原生进行支持呢?我们就从AudioRecord的构造函数开始往下研究。无论行不行，都要研究出个所以然来！我们如果写个录音a
音频单声道跟立体声道的区别张海森_168820 音视频
音频单声道跟立体声道的区别摘自chatgpt单声道（Mono）和立体声（Stereo）的区别，主要在于声道数与空间感的不同：1.定义对比：项目单声道（Mono）立体声（Stereo）声道数1个2个（左声道+右声道）声音来源所有声音都从一个声道发出声音分布在两个声道，模拟空间感空间效果无空间感有方向、空间定位感（左右差异）文件大小相对较小文件更大（多一倍音频数据）常见应用电话、对讲机、语音识别等音乐
Python实现语音识别功能，只需3个步骤！
调用科大讯飞语音听写，使用Python实现语音识别，将实时语音转换为文字。首先在官网下载了关于语音听写的SDK，然后在文件夹内新建了两个.py文件，分别是get_audio.py和iat_demo.py，并且新建了一个存放录音的文件夹audios，文件夹内存放录音文件input.wav，我的整个文件目录如下：asr_SDK(文件名)├─Readme.html├─audios│└─input.wav
从零开始：Python实现语音识别的完整教程 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别 xcode ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、完整教程、语音输入、文字输出摘要：本文将带领大家从零开始，用Python实现语音识别功能。我们会详细介绍语音识别的核心概念、相关算法原理，通过具体的代码示例，一步步教大家搭建开发环境、实现语音识别代码，并对代码进行解读。同时，还会探讨语音识别的实际应用场景、推荐相关工具和资源，最后分析未来发展趋势与挑战。背景介绍目的和范围
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
从零开始：用Python构建AI语音识别应用的完整指南 AI大模型应用之禅人工智能 python 语音识别 ai
从零开始：用Python构建AI语音识别应用的完整指南关键词：Python语音识别、AI语音处理、语音转文本、SpeechRecognition库、端到端模型摘要：本文从0到1带您掌握用Python构建AI语音识别应用的全流程。我们将用“给小学生讲故事”的方式，拆解语音识别的核心概念（如音频采集、特征提取、模型解码），结合代码实战（从调用API到自定义模型），并覆盖环境搭建、常见问题和未来趋势。无
人工智能的发展历程与未来展望唐骁虎 ai
人工智能的发展历程与未来展望一、人工智能的起源与早期发展1.1人工智能的定义与概念起源人工智能（AI）的定义与概念起源可追溯至20世纪中叶，当时一群具有远见的科学家和工程师开始探索机器是否能够模拟人类智能行为。1956年，在达特茅斯会议上，约翰·麦卡锡首次提出了“人工智能”这一术语，标志着该领域的正式诞生。AI的定义涉及创建能够执行需要人类智能的任务的机器，如视觉感知、语音识别、决策和语言翻译等。
一键字幕翻译配音！这个免费神器让外语视频秒变母语版，AI翻译官已就位[特殊字符] 人工智能我来了人工智能 AI 音视频人工智能
一键字幕翻译配音！这个免费神器让外语视频秒变母语版，AI翻译官已就位字幕组连夜辞职！这年头谁还手动做字幕啊？最近挖到个叫pyVideoTrans的开源神器，直接把视频翻译玩成全自动流水线——语音识别、字幕翻译、AI配音、视频合成四步打包完成，连手都不用动一下！外语生肉党狂喜！管你是追剧还是学网课，把视频往里一丢，喝着奶茶的功夫就能收获带双语字幕+地道配音的熟肉成品。关键是免费！开源！离线也能用！程
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

语音识别——kaldi基于GMM的单音素模型 训练部分