会飞行的小蜗牛

如何用 Kaldi 训练一个 DNN 声学模型

英文原文地址：点击打开链接

本人译文如下：

1. 介绍：

首先，需要完成标准的 GMM-HMM 声学模型的训练

训练 monophone model 是通过 GMM-HMM System 做 utterance-level transcriptions，即训练 label-audio 的映射

训练 triphone model 是通过 GMM-HMM System 做 phoneme-to-audio aglignments

因此，DNN 是严格依赖于 GMM-HMM 的质量，如果 GMM-HMM 很差，那么 DNN 的结果也好不到哪里去（不管你用了多少个 epoch，用了什么样的 cost function，你的用了多么聪明的 learning rate）；相反，如果 GMM-HMM 质量很高，那么 DNN 结果也会有很大的提升。

一个神经网络就是一个分类工具，能够将一些新的特征(如声学特征)分类到某一个 class。DNN 的输入 nodes 一般为 39 维的 MFCC 特征，输出的 nodes 为相关的 labels(eg: 900 个输出 <-> 900 个 context-dependent triphones[即 decision tree leaves])。也就是说：Acoustic features 用于训练 GMM-HMM 和 decision tree，这两部分是 Acoustic model(input layer and outlayer) 建模的关键部分。

隐藏层的尺寸不受限于前面讲的 GMM-HMM 结构或声学特征的维度，而取决于模型的研究人员和开发者。

一旦确定了 DNN 确定的 input node 和 output node 的维度，就可以做 phoneme-to-audio alignment 和训练神经网络。

audio feature frames 做为 input layer 的输入，网络将为该 frame 分配一个 phoneme label；对于任意给定的 fames, 我们已经有对应的 gold-standard label(eg: 做 GMM-HMM alignments 后的 phoneme label) ，我们就可以比较网络输出的 phoneme lable 与真实的 phoneme，使用 loss function 和 backpropigation ，我们就可以迭代训练所有的 frames 得到网络层合适的 weights 和 biases。

注意，不像训练 GMM-HMM 时，需要对 audio frames 使用 EM 算法做 iteratively realign transcriptions；在 DNN 训练时不需要这样的工作。

最后，我们的目的是得到这样一个 DNN，它能将一个正确的 phoneme label 分配给相应的输入 audio frame。

2. 训练一个 DNN

主要的过程如下：

CMVN adaptation of raw (MFCC/PLP) features
pnorm non-linearities
online preconditioning of weights and biases
all training diagnostics (no more validation examples)
final model combination
weighting of posteriors of silence phones
“mixing up” the number of nodes before the Softmax layer

1) First Things First: train a GMM system and generate alignments

a training data dir (as generated by a prepare_data.sh script in a s5/local directory)
a language dir (which has information on your phones, decision tree, etc, probably generated byprepare_lang.sh)
an alignment dir (generated by something like align_si.sh).
a feature dir (for example MFCCs; made by the make_mfcc.sh script)

train 目录结构如下：

我的项目中 train 目录位于 data/train

train/
├── feats.scp
└── split4
    ├── 1
    │   └── feats.scp
    ├── 2
    │   └── feats.scp
    ├── 3
    │   └── feats.scp
    └── 4
        └── feats.scp

lang 目录结构如下：

我的项目中 lang 目录位于 data/lang

lang/
└── topo

align 目录结构如下：

我的项目中 align 目录位于 exp/tri1_ali 或者 exp/tri2_ali。。。

triphones_aligned/
├── ali.1.gz
├── ali.2.gz
├── ali.3.gz
├── ali.4.gz
├── final.mdl
├── num_jobs
└── tree

mfcc 目录结构如下：

我的项目中 mfcc 目录位于 exp/make_mfcc

mfcc/
├── raw_mfcc_train.1.ark
├── raw_mfcc_train.1.scp
├── raw_mfcc_train.2.ark
├── raw_mfcc_train.2.scp
├── raw_mfcc_train.3.ark
├── raw_mfcc_train.3.scp
├── raw_mfcc_train.4.ark
└── raw_mfcc_train.4.scp

2) 训练 DNN 时，主要的 RUN 脚本

为了简单说明框架，去掉了其它繁琐的细节

run_nnet2.sh，内容类似下面：

#!/bin/bash

# Joshua Meyer 2017
# This script is based off the run_nnet2_baseline.sh script from the wsj eg
# This is very much a toy example, intended to be for learning the ropes of 
# nnet2 training and testing in Kaldi. You will not get state-of-the-art
# results.
# The default parameters here are in general low, to make training and 
# testing faster on a CPU.

stage=1
experiment_dir=experiment/nnet2/nnet2_simple
num_threads=4
minibatch_size=128
unknown_phone=SPOKEN_NOISE # having these explicit is just something I did when
silence_phone=SIL          # I was debugging, they are now required by decode_simple.sh


. ./path.sh
. ./utils/parse_options.sh

进入一步跟踪，调用脚本 train_pnorm_fast.sh(steps/nnet2/train_pnorm_fast.sh)，内容类似如下：

tip: 我的项目中 align 目录位于 run_nnet2.sh

if [ $stage -le 1 ]; then

    echo ""
    echo "######################"
    echo "### BEGIN TRAINING ###"
    echo "######################"

    mkdir -p $experiment_dir

    steps/nnet2/train_simple.sh \
        --stage -10 \
        --num-threads "$num_threads" \
        --feat-type raw \
        --splice-width 4 \
        --lda_dim 65 \
        --num-hidden-layers 2 \
        --hidden-layer-dim 50 \
        --add-layers-period 5 \
        --num-epochs 10 \
        --iters-per-epoch 2 \
        --initial-learning-rate 0.02 \
        --final-learning-rate 0.004 \
        --minibatch-size "$minibatch_size" \
        data/train \
        data/lang \
        experiment/triphones_aligned \
        $experiment_dir \
        || exit 1;

    echo ""
    echo "####################"
    echo "### END TRAINING ###"
    echo "####################"

正如你所看到的：主要含有如下参数：

the training data
the language dir
our alignments from our previous GMM-HMM model
the name of the dir where we will save our new DNN model

训练完成，测试部分如下：

if [ $stage -le 2 ]; then

    echo ""
    echo "#####################"
    echo "### BEGIN TESTING ###"
    echo "#####################"

    steps/nnet2/decode_simple.sh \
        --num-threads "$num_threads" \
        --beam 8 \
        --max-active 500 \
        --lattice-beam 3 \
        experiment/triphones/graph \
        data/test \
        $experiment_dir/final.mdl
        $unknown_phone \
        $silence_phone \
        $experiment_dir/decode \
        || exit 1;

    for x in ${experiment_dir}/decode*; do
        [ -d $x ] && grep WER $x/wer_* | \
            utils/best_wer.sh > nnet2_simple_wer.txt;
    done

    echo ""
    echo "###################"
    echo "### END TESTING ###"
    echo "###################"

fi

解码部分一般由如下 6 部分结成：

the original decoding graph from your GMM-HMM
dir for your test data
the final, trained DNN acoustic model
the “unknown” phone (eg. UNK)
the “silence” phone (eg. SIL)
new dir to save decoding information in (lattices, etc)

上面训练出的模型可能没有得较低的识别率，可以通过调整参数、添加更复杂的非线性函数、尝试不同的加权、以及一些 CMVN 或者说话人自适应等。

3) 主要的脚本

首先，steps/nnet2/train_pnorm_fast.sh 中的一些默认参数设置：

#!/bin/bash

# Copyright 2012-2014  Johns Hopkins University (Author: Daniel Povey). 
#           2013  Xiaohui Zhang
#           2013  Guoguo Chen
#           2014  Vimal Manohar
# Apache 2.0.
#

# Begin configuration section.
cmd=run.pl
stage=-4
num_epochs=15      # Number of epochs of training
initial_learning_rate=0.04
final_learning_rate=0.004
bias_stddev=0.5
hidden_layer_dim=0
add_layers_period=2 # by default, add new layers every 2 iterations.
num_hidden_layers=3
minibatch_size=128 # by default use a smallish minibatch size for neural net
                   # training; this controls instability which would otherwise
                   # be a problem with multi-threaded update. 
num_threads=4   # Number of jobs to run in parallel.
splice_width=4 # meaning +- 4 frames on each side for second LDA
lda_dim=40
feat_type=raw  # raw, untransformed features (probably MFCC or PLP)
iters_per_epoch=5

. ./path.sh || exit 1; # make sure we have a path.sh script
. ./utils/parse_options.sh || exit 1;

当完成上面命令行的解析后，接下来就确认做为 DNN 训练时由 GMM-HMM 训练产的文件。

data_dir=$1
lang_dir=$2
ali_dir=$3
exp_dir=$4

# Check some files from our GMM-HMM system
for f in \
    $data_dir/feats.scp \
    $lang_dir/topo \
    $ali_dir/ali.1.gz \
    $ali_dir/final.mdl \
    $ali_dir/tree \
    $ali_dir/num_jobs;
    do [ ! -f $f ] && echo "$0: no such file $f" && exit 1;
done

一旦确认完上述文件后，接下来就是从这些文件中提取 “参数信息”

# Set number of leaves
num_leaves=`tree-info $ali_dir/tree 2>/dev/null | grep num-pdfs | awk '{print $2}'` || exit 1;

# set up some dirs and parameter definition files
nj=`cat $ali_dir/num_jobs` || exit 1;
echo $nj > $exp_dir/num_jobs
cp $ali_dir/tree $exp_dir/tree
mkdir -p $exp_dir/log

上面的脚本定义了一连串的变量，创建了两个文件 tree(从GMM-HMM中拷贝而来)，num_jobs, 并创建了一个空 log 目录，目录结构如下：

experiment/nnet2/
└── nnet2_simple
    ├── log
    ├── num_jobs
    └── tree

接下来，进入训练前数据准备部分，通过脚本 local/train_mllt.sh 估计 LDA 特征变换，这些特征 transformation matrix 将用于 DNN 输入前的 spliced features (拼接特征)。

if [ $stage -le -5 ]; then

    echo ""
    echo "###############################"
    echo "### BEGIN GET LDA TRANSFORM ###"
    echo "###############################"

    steps/nnet2/get_lda_simple.sh \
        --cmd "$cmd" \
        --lda-dim $lda_dim \
        --feat-type $feat_type \
        --splice-width $splice_width \
        $data_dir \
        $lang_dir \
        $ali_dir \
        $exp_dir \
        || exit 1;

    # these files should have been written by get_lda.sh
    feat_dim=$(cat $exp_dir/feat_dim) || exit 1;
    lda_dim=$(cat $exp_dir/lda_dim) || exit 1;
    lda_mat=$exp_dir/lda.mat || exit;

    echo ""
    echo "#############################"
    echo "### END GET LDA TRANSFORM ###"
    echo "#############################"
fi

上面的脚本将输出 LDA transform matrix，当初始化神经网络时，位于 input layer 的拼接之后，该矩阵将用于 DNN 的 “ FixedAffineComponent”，也就是说：一旦我位得到 LDA transform，它将被应用到所有的 input，由于它是 FixedComponent，所以 LDA transform matrix 将不会被 back-propagation (反向传播)更新。产生的输出如下：

experiment/nnet2/
└── nnet2_simple
    ├── feat_dim
    ├── lda.1.acc
    ├── lda.2.acc
    ├── lda.3.acc
    ├── lda.4.acc
    ├── lda.acc
    ├── lda_dim
    ├── lda.mat
    ├── log
    │   ├── lda_acc.1.log
    │   ├── lda_acc.2.log
    │   ├── lda_acc.3.log
    │   ├── lda_acc.4.log
    │   ├── lda_est.log
    │   └── lda_sum.log
    ├── num_jobs
    └── tree

上面得到了 LDA transform，接下来进行 format training data，在脚本“get_egs.sh” 中，我们将训练数据分成了 training 和 validation，validation 用于在训练迭代中的 diagnostics

为了简单，以下脚本将 validation 和 diagnostics 放在了一起，以只有训练数据和格式化部分，没有将其分成各个子集进行 diagnostic （诊断）

if [ $stage -le -4 ]; then

    echo ""
    echo "###################################"
    echo "### BEGIN GET TRAINING EXAMPLES ###"
    echo "###################################"

    steps/nnet2/get_egs_simple.sh \
        --cmd "$cmd" \
        --feat-type $feat_type \
        --splice-width $splice_width \
        --num-jobs-nnet $num_threads \
        --iters-per-epoch $iters_per_epoch \
        $data_dir \
        $ali_dir \
        $exp_dir \
        || exit 1;

    # this is the path to the new egs dir that was just created
    egs_dir=$exp_dir/egs

    echo ""
    echo "#################################"
    echo "### END GET TRAINING EXAMPLES ###"
    echo "#################################"

fi

运行上述脚本，将输出新目录，结构如下：

experiment/nnet2/
└── nnet2_simple
    ├── egs
    │   ├── egs.1.0.ark
    │   ├── egs.1.1.ark
    │   ├── egs.2.0.ark
    │   ├── egs.2.1.ark
    │   ├── egs.3.0.ark
    │   ├── egs.3.1.ark
    │   ├── egs.4.0.ark
    │   ├── egs.4.1.ark
    │   ├── iters_per_epoch
    │   └── num_jobs_nnet
    ├── feat_dim
    ├── lda.1.acc
    ├── lda.2.acc
    ├── lda.3.acc
    ├── lda.4.acc
    ├── lda.acc
    ├── lda_dim
    ├── lda.mat
    ├── log
    │   ├── get_egs.1.log
    │   ├── get_egs.2.log
    │   ├── get_egs.3.log
    │   ├── get_egs.4.log
    │   ├── lda_acc.1.log
    │   ├── lda_acc.2.log
    │   ├── lda_acc.3.log
    │   ├── lda_acc.4.log
    │   ├── lda_est.log
    │   ├── lda_sum.log
    │   ├── shuffle.0.1.log
    │   ├── shuffle.0.2.log
    │   ├── shuffle.0.3.log
    │   ├── shuffle.0.4.log
    │   ├── shuffle.1.1.log
    │   ├── shuffle.1.2.log
    │   ├── shuffle.1.3.log
    │   ├── shuffle.1.4.log
    │   ├── split_egs.1.log
    │   ├── split_egs.2.log
    │   ├── split_egs.3.log
    │   └── split_egs.4.log
    ├── num_jobs
    └── tree

到目前为止，我们已经将训练样本（phone-to-frame alignments）正确的格式化，并排序，接下来进行神经网络的初始化。

类似将 topo 配置文件应用于 GMM-HMM 训练中，在初始化神经网络之前，我们需要神经网络的尺寸和结构，相关信息位于配置文件“exp/tri4-si/nnet.config”中，详细信息如下：

SpliceComponent input-dim=$feat_dim left-context=$splice_width right-context=$splice_width 
FixedAffineComponent matrix=$lda_mat 
AffineComponent input-dim=$lda_dim output-dim=$hidden_layer_dim learning-rate=$initial_learning_rate param-stddev=$stddev bias-stddev=$bias_stddev 
TanhComponent dim=$hidden_layer_dim 
AffineComponent input-dim=$hidden_layer_dim output-dim=$num_leaves learning-rate=$initial_learning_rate param-stddev=$stddev bias-stddev=$bias_stddev 
SoftmaxComponent dim=$num_leaves

各层的含义如下：

SpliceComponent defines the size of the window of feature-frame-splicing to perform.
FixedAffineComponent is our LDA-like transform created by get_lda_simple.sh.
AffineComponent is the standard Wx+b affine transform found in neural nets. This first AffineComponent represents the weights and biases between the input layer and the first hidden layer.
TanhComponent is the standard tanh nonlinearity.
AffineComponent is the standard Wx+b affine transform found in neural nets. This second AffineComponent represents the weights and biases between the hidden layer and the output layer.
SoftmaxComponent is the final nonlinearity that produces properly normalized probabilities at the output.

    SpliceComponent: 定义了完成 feature-frame-splicing 的窗口尺寸(以中间 frame 为轴，左右各四个 frame，共9帧为单位组合后做为输入(通常由 MFCC+splice+LDA+MLLT+fMLLR 组成的 40 维特征，splicing width = 4 是最优的)
    FixedAffineComponent：类 LDA-like 的非相关转换，由标准的 weight matrix plus bias 组成，通过标准的 stochastic gradient descent 训练而来，使用 global learning rate
    AffineComponentPreconditionedOnline：为 FixedAffineComponent 的一种提炼，训练过程中不仅使用global learning rate，还使用 matrix-valued learning rate 来预处理梯度下降。参见 dnn2_preconditioning。
    PnormComponent：为非线性，传统的神经网络模型中使用 TanhComponent
    NormalizeComponent：用于稳定训练 p-norm 网络，它是固定的，非可训练，非线性的。它不是在个别 individual activations 上起作用，而是对单帧的整个 vetor 起作用，重新使它们单位标准化。
    SoftmaxComponent：为最终的非线性特征，便于输出标准概率

上述初始化 DNN 配置文件一个隐藏层

  也就是说：有 6 个 Kaldi components, 但网络中仅有 3 层

  因此，只有 2 个可更新 weight matrices 和可更新 bias vectors。如果回顾一下 nnet.config 文件中的定义，确实只有 2 个可更新的 components，都是 AffineComponent 形式

  而 hidden layer 的定义位于文件“exp/tri4-si/hidden.config”

  内容如下：

AffineComponent input-dim=$hidden_layer_dim output-dim=$hidden_layer_dim learning-rate=$initial_learning_rate param-stddev=$stddev bias-stddev=$bias_stddev 
TanhComponent dim=$hidden_layer_dim

再一次，我们发现 affine transform 之后紧跟着一个 non-linearity。

现在，我们可以使用 decision tree、HMM topology file 和 nnet.config file，并初始化第一个神经网络，即 0.mdl，如下：

$cmd $exp_dir/log/nnet_init.log \
 nnet-am-init \
 $ali_dir/tree \
 $lang_dir/topo \
 "nnet-init $exp_dir/nnet.config -|" \
 $exp_dir/0.mdl \
 || exit 1;

接下来 “check-in” 来看看都产生了哪些文件，如下：

nnet2/
└── nnet2_simple
    ├── 0.mdl
    ├── hidden.config
    ├── log
    │   └── nnet_init.log
    └── nnet.config

此外，我们可以看一下未训练的模型，并通过使用 nnet-am-info 获取 exp/tri4-si/0.mdl 一些信息

num-components 6
num-updatable-components 2
left-context 4
right-context 4
input-dim 13
output-dim 1759
parameter-dim 181759
component 0 : SpliceComponent, input-dim=13, output-dim=117, context=-4 -3 -2 -1 0 1 2 3 4 
component 1 : FixedAffineComponent, input-dim=117, output-dim=40, linear-params-stddev=0.0146923, bias-params-stddev=2.91086
component 2 : AffineComponent, input-dim=40, output-dim=100, linear-params-stddev=0.100784, bias-params-stddev=0.49376, learning-rate=0.02
component 3 : TanhComponent, input-dim=100, output-dim=100
component 4 : AffineComponent, input-dim=100, output-dim=1759, linear-params-stddev=0, bias-params-stddev=0, learning-rate=0.02
component 5 : SoftmaxComponent, input-dim=1759, output-dim=1759
prior dimension: 0

现在我们已经有一个初始化的模型和标记的训练示例，我们可以在DNN-HMM声学模型中训练 HMM's transitions，在GMM-HMM 训练过程中，在 EM training 阶段更新 transitions，但由于我们没有对DNN训练进行任何 realignment，因此初始转移概率将会很好。

$cmd $exp_dir/log/train_trans.log \
    nnet-train-transitions \
        $exp_dir/0.mdl \
        "ark:gunzip -c $ali_dir/ali.*.gz|" \
        $exp_dir/0.mdl \
        || exit 1;

由于我们使用原始的 0.mdl 进行 “seeding”，并将其重命名为 0.mdl，上述命令生成唯一的日志文件“train_trans.log”

Kaldi 的 nnet-train-transitions 作用如下：用于计算 HMMs decoding 时的“转移概率”（与神经网络本身无关），并计算“targets”(several thousand contex-dependent states)的 prior probabilities（先验概率）。之后，当进行解码时，将这些通过网络计算出的先验概率划分为 “pseudo-likehoods”（伪似然），这样一来，比原始的先验概率更加兼容 HMM framwork。

通过通过 nnet-am-info 查看 exp/tri4-si/0.mdl 这些先验概率，如下：

nnet-am-info 0.mdl 
num-components 6
num-updatable-components 2
left-context 4
right-context 4
input-dim 13
output-dim 1759
parameter-dim 181759
component 0 : SpliceComponent, input-dim=13, output-dim=117, context=-4 -3 -2 -1 0 1 2 3 4 
component 1 : FixedAffineComponent, input-dim=117, output-dim=40, linear-params-stddev=0.0146923, bias-params-stddev=2.91086
component 2 : AffineComponent, input-dim=40, output-dim=100, linear-params-stddev=0.100784, bias-params-stddev=0.49376, learning-rate=0.02
component 3 : TanhComponent, input-dim=100, output-dim=100
component 4 : AffineComponent, input-dim=100, output-dim=1759, linear-params-stddev=0, bias-params-stddev=0, learning-rate=0.02
component 5 : SoftmaxComponent, input-dim=1759, output-dim=1759
prior dimension: 1759, prior sum: 1, prior min: 1.68406e-05

接下来进入主训练循环阶段，该阶段利用 backpropagation (反向传播)进行“参数更新”

if [ $stage -le -2 ]; then

    echo ""
    echo "#################################"
    echo "### BEGIN TRAINING NEURAL NET ###"
    echo "#################################"
    
    # get some info on iterations and number of models we're training
    iters_per_epoch=`cat $egs_dir/iters_per_epoch` || exit 1;
    num_jobs_nnet=`cat $egs_dir/num_jobs_nnet` || exit 1;
    num_tot_iters=$[$num_epochs * $iters_per_epoch]

    echo "Will train for $num_epochs epochs = $num_tot_iters iterations"
    
    # Main training loop
    x=0
    while [ $x -lt $num_tot_iters ]; do
            
        echo "Training neural net (pass $x)"
        
        # IF *not* first iteration \
        # AND we still have layers to add \
        # AND its the right time to add a layer
        if [ $x -gt 0 ] \
            && [ $x -le $[($num_hidden_layers-1)*$add_layers_period] ] \
            && [ $[($x-1) % $add_layers_period] -eq 0 ]; 
        then
            echo "Adding new hidden layer"
            mdl="nnet-init --srand=$x $exp_dir/hidden.config - |"
            mdl="$mdl nnet-insert $exp_dir/$x.mdl - - |" 
        else
            # otherwise just use the past model
            mdl=$exp_dir/$x.mdl
        fi
        
        # Shuffle examples and train nets with SGD
        $cmd JOB=1:$num_jobs_nnet $exp_dir/log/train.$x.JOB.log \
            nnet-shuffle-egs \
                --srand=$x \
                ark:$egs_dir/egs.JOB.$[$x%$iters_per_epoch].ark \
                ark:- \| \
            nnet-train-parallel \
                --num-threads=$num_threads \
                --minibatch-size=$minibatch_size \
                --srand=$x \
                "$mdl" \
                ark:- \
                $exp_dir/$[$x+1].JOB.mdl \
                || exit 1;
        
        # Get a list of all the nnets which were run on different jobs
        nnets_list=
        for n in `seq 1 $num_jobs_nnet`; do
            nnets_list="$nnets_list $exp_dir/$[$x+1].$n.mdl"
        done
        
        learning_rate=`perl -e '($x,$n,$i,$f)=@ARGV; print ($x >= $n ? $f : $i*exp($x*log($f/$i)/$n));' $[$x+1] $num_tot_iters $initial_learning_rate $final_learning_rate`;
        
        # Average all SGD-trained models for this iteration
        $cmd $exp_dir/log/average.$x.log \
            nnet-am-average \
                $nnets_list - \| \
            nnet-am-copy \
                --learning-rate=$learning_rate \
                - \
                $exp_dir/$[$x+1].mdl \
                || exit 1;
        
        # on to the next model
        x=$[$x+1]
        
    done;
    
    # copy and rename final model as final.mdl
    cp $exp_dir/$x.mdl $exp_dir/final.mdl
    
    echo ""
    echo "################################"
    echo "### DONE TRAINING NEURAL NET ###"
    echo "################################"
    
fi

  上述过程中，主要的训练在这个 loop: “nnet-train-parallel”

nnet-train-parallel 功能：使用 minibatches （小批量）数据来训练具有反向和随机梯度下降的神经网络参数，对于 nnet-train-simple，在Hogwild 类型的更新中使用多线程（CPU,而不是GPU）

因此，使用这种并行化的训练程序，我们实际上会为每个迭代训练多个 DNN。

  正如你看到的 log 文件 “train.$x.JOB.log”，$x 表示迭代次数，JOB 为 job number。由于我的笔记本电脑上只有四个处理器，我在每个迭代运行 4 个 jobs。这也意味着每次迭代我都要以巧妙的方式合并这 4 个网络，或者选择最好的网络。

  原始的 train_pnorm_simple 脚本的设置方式为：平均/选择最佳模型。理由如下：

  在某些迭代中，模型是不稳定的，因此，最好的方法是选择最好的，而不是选择平均。

  其中，不稳定的迭代指的是“第 1 次迭代，或者当新增隐藏层时的迭代”。

  Kaldi 中 tip：

  在迭代为 0 时，或者我们刚添加一个 layer，使用 minibatch size 和仅一个 job: 当模型变化太快时，model-averaging 似乎没有什么好处（即，恶化目标函数），而较小尺寸的 minibatch size 将保持更新稳定

  我已经从train_simple.sh中删除了“选择最佳工作”选项。这肯定会导致不稳定，但它简化了训练过程，使流程更清晰。

  此外，在原始脚本中，我们通常可以选择混合神经网络中的组件数量。但是，为了尽可能地减少网络，我去掉了混合选项。

你可能感兴趣的:(语音识别)

从0构建 HarmonyOS 本地语音识别项目：Whisper 完整落地教程观熵国产大模型部署实战全流程指南 harmonyos 语音识别 whisper 深度学习机器学习
第一章：鸿蒙手机语音识别项目实战（基于Whisper本地推理）项目目标：构建一个可以在鸿蒙系统手机本地运行的语音识别应用，使用Whisper模型识别用户语音为文字，全程无需联网。1.为什么要在鸿蒙手机本地部署语音识别？在很多移动场景下（驾驶、弱网环境、隐私敏感场景等），云端语音识别存在如下痛点：⏳网络延迟高、体验割裂⚠️数据隐私风险大网络依赖强，弱网/无网直接无法使用而将语音识别模型部署在鸿蒙设备
网页语音识别demo zy_qqqqqq 语音识别 css html
语音demo*{box-sizing:border-box;margin:0;padding:0;font-family:'PingFangSC','MicrosoftYaHei',sans-serif;}body{display:flex;flex-direction:column;align-items:center;padding:20px;background-color:#f7f9fc;
VUE如何设置语音穆罕周 vue.js 前端 javascript
在Vue项目中设置语音功能可以通过1、使用WebSpeechAPI和2、集成第三方语音合成库来实现。WebSpeechAPI是一种浏览器内置的API，它提供了语音识别和语音合成功能，而第三方语音合成库则提供了更加丰富和灵活的功能。一、使用WebSpeechAPIWebSpeechAPI是一种原生浏览器API，它包括了语音识别和语音合成两部分。以下是如何在Vue项目中使用WebSpeechAPI设置
webkitSpeechRecognitionHTML5语音识别文字（直接运行） AIGC创想家 html5 语音识别前端
前端想要实现语音转文字，其实不需要任何云服务，浏览器自带的api就能搞定。下面是已经封装好的代码，复制之后可以在控制台只接运行。classSpeechRecognitionManager{??tempTranscript=''??isRecording=false;??timeoutid=0;??exitKeywors=['stop','exit','quit','退出','停止识别','说完了'
语音识别文字
记录项目中的语音识别文字功能是怎么做的，有需要的可以借鉴一下，都是干货，简单实用。实现原理：调用浏览器的API监听用户语音，浏览器监听到语音后，就会转成文字。测试环境：Edge--免费(国内可用)Safari--免费(国内可用)Chorme--免费(需要科学上网)FireFox--不支持下面是代码函数干货：注意我用的vue2写的，所以有一些语音展示的动画控制按钮和文本显示的代码。复制代码后，根据你
开源模型应用落地-全能音频新纪元-Kimi-Audio-7B-Instruct-重塑多模态交互边界开源技术探险家开源模型-实际应用落地开源音视频 AIGC agi
一、前言在AI技术持续突破的2025年，音频交互正从单一任务处理迈向全场景融合的新阶段。4月27日，月之暗面（MoonshotAI）开源的Kimi-Audio-7B-Instruct，以“全能音频通才”之姿，为这一进程树立了里程碑式标杆。这款基于70亿参数架构的模型，首次在单一框架内整合语音识别（ASR）、情感分析（SER）、跨语言对话、语音生成（TTS）等十余项任务，并通过12.5Hz混合标记器
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
FunASR Paraformer-zh：高效中文端到端语音识别方案全解
项目简介FunASR是阿里巴巴达摩院开源的端到端语音识别工具箱，集成了多种语音识别、语音活动检测（VAD）、说话人识别等模块。其中paraformer-zh和paraformer-zh-streaming是针对中文语音识别任务优化的端到端模型，分别适用于离线和流式场景。Paraformer采用并行Transformer架构，兼具高精度和低延迟，广泛应用于智能客服、会议转写、语音助手等场景。主要特点
Spring AI 项目实战（十八）：Spring Boot + AI + Vue3 + OSS + DashScope 实现高效语音识别系统（附完整源码）程序员岳彬 SpringAI spring 人工智能 spring boot 语音识别后端 ai java
系列文章序号文章名称1SpringAI项目实战（一）：SpringAI核心模块入门2SpringAI项目实战（二）：SpringBoot+AI+DeepSeek深度实战（附完整源码）3SpringAI项目实战（三）：SpringBoot+AI+DeepSeek打造智能客服系统（附完整源码）4
AI数字人系统开发上线全攻略：从0到1全流程解析 v_qutudy 人工智能 AI系统开发 AI数字人开发
一、需求分析：定义数字人核心能力1.1功能规划矩阵模块基础功能进阶功能形象生成2D/3D建模实时表情捕捉与驱动语音交互TTS语音合成情感识别与应激反应动作系统预设动作库骨骼动画与物理引擎智能决策规则引擎强化学习驱动决策多模态交互文本/语音输入AR/VR空间交互1.2非功能性指标实时性：唇形同步延迟B[语音识别]A-->C[姿态检测]A-->D[文本理解]B-->E[NLP引擎]C-->F[动作解析
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
基于 esp32-s3，结合私有化大模型，集asr语音识别、llm大模型、tts语音合成，设计一个技术方案，要求用websocket保持长链接，
以下方案演示了如何基于ESP32-S3，通过私有化大模型组合ASR（语音识别）、LLM（语言大模型）和TTS（语音合成）来构建一个语音交互系统，并且通过WebSocket保持与服务器的长连接通讯。整体方案分为以下几个部分：系统整体架构与数据流协议设计与消息格式服务器端实现示例ESP32-S3端实现示例运行流程与示例下面将对各部分进行详细说明。ESP32-S3没想到私有化大模型速度也能这么快ESP3
Python 语音识别系列-实战学习-语音识别特征提取
Python语音识别系列-实战学习-语音识别特征提取前言1.预加重、分帧和加窗2.提取特征3.可视化特征4.总结前言语音识别特征提取是语音处理中的一个重要环节，其主要任务是将连续的时域语音信号转换为连续的特征向量，以便于后续的语音识别和语音处理任务。在特征提取阶段，这些特征向量能够捕捉到语音信号中的关键信息，如音调、音色和音节等。特征提取主要可以分为以下几个方面：时域特征提取：包括自相关函数、方差
如何获取微信公众号用户的个人信息（包括OpenId）一杯冰美式_丶 Java相关知识
最近，对微信公众号有点兴趣，就自己研究了研究里面的一些内容，发现还挺有意思的，而且通过微信公众号可以调用一些比较有意思的接口，就比如百度开发服务平台点击进入里面的很有接口，就比较常见的翻译，语音识别，地理位置等等，都挺好的。好了，不多说，进入正题好了。我想，做微信公众号开发的，对于想获取关注了公众号的用户信息，或者说是当前与后台服务器进行交互的当前用户信息，这个功能是很重要的吧。因为，通过这个，可
AI技术正在深度重构全球产业格局，其影响已超越工具属性，演变为推动行业变革的核心引擎。
一、AI如何重塑AI的工作与行业（AI助手领域）能力升级理解与生成：基于LLM（大语言模型），AI能处理开放式问题、撰写报告、翻译代码，替代部分人类知识工作。个性化交互：通过用户历史对话分析，提供定制化建议（如学习计划、投资策略）。多模态扩展：结合图像/语音识别（如GPT-4V），实现图文分析、医学影像解读等跨模态任务。行业变革客服行业：AI客服处理70%+常规咨询（如阿里小蜜），人力转向复杂问题
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
手机通话语音离线ASR识别商用和优化方向 limingade 本地AI电话机器人手机提取电话的信令和声音智能手机 FunASR离线识别 Android做ASR 手机断网离线ASR ASR语音转文字识别语音识别
手机通话语音离线ASR识别商用和优化方向--本地AI电话机器人上一篇：手机FunASR识别SIM卡通话占用内存和运行性能分析下一篇：编写中。一、前言前面的篇章中，我们尝试了将FunASR的ONNX模型文件加载到Android应用中，实现手机本地不依赖服务器和网络的离线ASR语音识别。并将这个ASR能力应用到了手机麦克风、手机本地的历史通话录音、手机实时的SIM卡电话通话内容的解析上。在实践中，我们
鸟类识别与分类相关数据集 Bryan Ding 分类数据挖掘人工智能
随着深度学习技术的快速发展，其在图像识别、语音识别等领域取得了显著的成果。鸟类识别作为生态学研究的重要内容，对于物种多样性保护、生态环境监测等领域具有深远的影响。将深度学习技术应用于鸟类识别，有望提高识别的准确性和效率，为鸟类学研究提供有力支持。本文综述了近年来深度学习在鸟类识别中的应用进展，包括基于图像和声音的鸟类识别系统，分析了其技术框架、实现方法以及在实际应用中的效果。通过对相关文献的梳理，
AI技术通过多模态应用（即融合文本、图像、语音、视频、传感器数据等多维度信息）正在深刻重塑工作模式、行业生态和人类创造力边界。 zzywxc787 人工智能音视频大数据 java spring 开发语言
AI技术通过多模态应用（即融合文本、图像、语音、视频、传感器数据等多维度信息）正在深刻重塑工作模式、行业生态和人类创造力边界。以下从技术融合、行业变革、职业重构三个维度展开分析，并附具体案例：一、技术融合：多模态AI的核心突破跨模态理解引擎案例：Meta的AudiovisualNeuralNetwork（AV-Wav2Vec）实现语音-唇形-场景的联合建模，语音识别错误率降低40%技术指标：跨模态
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
QT的语音识别 heng6868 imx6ull 嵌入式项目 qt http java
难点：难点就是如何跟百度云的语音应用进行通信。首先，要获取应用的APIKey、SecretKey，并通过请求鉴权接口换取token。向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求（推荐使用POST），并在URL中带上以下参数：并在URL中带上以下参数：grant_type：必须参数，固定为client_credentials；client_i
19｜Whisper+ChatGPT：请AI代你听播客 _Rye_ AI大模型 whisper chatgpt
今天，我们的课程开始进入一个新的主题了，那就是语音识别。过去几周我们介绍的ChatGPT虽然很强大，但是只能接受文本的输入。而在现实生活中，很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版，所以这个时候，我们就需要一个能够将语音内容转换成文本的能力。作为目前AI界的领导者，OpenAI自然也不会放过这个需求。他们不仅发表了一个通用的语音识别模型Whisper，还把对应的代码开源了。在
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
智能家居-深耕10年原创合集(2025/06更新) CYP_2015 智能家居 xcode ios macos ide
2025-06更新篇章2025年广州光亚展参展记录智能插座：技术与应用演进之路语音识别技术：全链路技术栈解析6000字干货长文，深度解读智能家居7大派系，谁能真正统一“江湖”？最近参与某智能家居项目的早期调研，再次感慨用户对我们所说的“便捷”实则是“无感”。用户原话："你们总说'智能'，我就想要个不用记按钮、不用掏手机的家伙。"我们说的"便捷"，在用户那儿根本不是"多快多远"，而是"不用刻意"。现
隐马尔可夫模型：语音识别系统的时序解码引擎大千AI助手人工智能 Python #OTHER 语音识别人工智能机器学习概率马尔科夫链 HMM
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！1HMM与语音识别的理论基础隐马尔可夫模型（HMM）作为一种双重随机过程的统计模型，其核心在于描述一个包含隐含状态的马尔可夫链，以及这些状态生成可观测输出的概率分布。在语音识别领域，HMM的时序建模能力与语音信号的特性形成了完美契合：隐含状态：对应语音
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
Kimi Audio一个通用的音频基础模型处理各种任务如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话 skywalk8163 人工智能 xcode ide kaggle Kimi Audio
KimiAudio被设计为一个通用的音频基础模型，能够在一个统一的框架内处理各种音频处理任务。主要功能包括：通用功能：处理各种任务，如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话。最先进的性能：在众多音频基准测试中取得SOTA结果（见评估和技术报告）。大规模预训练：对超过1300万小时的各种音频数据
HarmonyOS开发：使用语音识别的步骤演示
引言在当下的生活与工作场景中，语音识别技术早已渗透到方方面面——从手机上的语音助手快速拨打电话、发送消息，到智能音箱根据语音指令播放音乐、查询天气，再到办公场景里通过语音转文字功能高效记录会议纪要，其应用的广泛性不言而喻。而HarmonyOS在语音识别领域展现出了强大的技术实力，为用户带来了全方位的支持。它不仅能够精准识别普通话，满足大多数用户的日常需求，还兼容多种方言以及外语，极大地拓宽了使用范
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST