伪_装

基于WEKWS模型的语音唤醒关键词识别

一、模型描述

1.1 论文解读

本文所使用的模型网络结构继承自论文《Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting》，文中研究了将低秩矩阵分解与传统FSMN相结合的紧凑型前馈顺序记忆网络（cFSMN）用于远场关键字检测任务。此外，文中还分析了其结构参数的影响，为了降低计算成本，将多帧预测（MFP）应用到 cFSMN中；为了进一步提高建模能力，尝试在输出层之前插入小 DNN 层，以实现高级 MFP。最后通过检测误差权衡（DET）曲线下面积（AUC）来衡量模型的性能。

论文中并没有使用 HMM 系统而是使用单词作为建模单元，这样就为预先定义的关键词指定了模型。然而，在论文中，除了主关键字外，系统还应具有添加新关键字的灵活性，因此，文中沿用了传统的关键词/背景 HMM 结构，并使用 Senones（绑定的麦克风状态）作为建模单元。解码图由关键词和背景路径组成，每个关键词路径由一个关键词的 HMM 序列组成，添加一个关键词需要在图中添加一个关键词路径。背景路径是为非关键词语音、噪音和静音建立的，解码图中的维特比搜索通过标记传递分别在竞争的关键词路径和背景路径上运行，一旦活动标记到达关键字路径的末端，就会提取假设语段的声音信息。当关键词和背景路径得分的正则化比率超过预设阈值时，系统就会触发。在搜索过程中，每一帧的得分都会由AM预测。AM 的输入是声学特征，输出是关键词和背景模型的 HMM 状态的后验分布。没有使用语言模型。[1]

图1 cFSMN示意图

论文中研究了将低秩矩阵分解与传统FSMN相结合的紧凑型前馈顺序记忆网络（cFSMN）用于远场关键字检测任务。其主体为4层cFSMN结构，如下图所示，参数量约750K，适用于移动端设备运行。

论文中实验表明，与需要相同延迟和两倍计算成本的经过良好调谐的长短期记忆（LSTM）相比，cFSMN 在安静和嘈杂环境下记录的测试集上分别实现了 18.11% 和 29.21% 的 AUC 相对下降。应用高级 MFP 后，系统在安静和嘈杂测试集上的 AUC 相对于传统 cFSMN 分别降低了 0.48% 和 20.04%，而计算成本则相对降低了 46.58%。

1.2 模型详解

本文模型采用达摩院语音唤醒预训练模型，模型输入采用Fbank特征，训练阶段使用CTC-loss计算损失并更新参数，输出为基于char建模的中文全集token预测，token数共2599个。测试工具根据每一帧的预测数据进行后处理得到输入音频的实时检测结果。

模型训练采用"basetrain + finetune"的模式，basetrain过程使用大量内部移动端数据，在此基础上，使用1万条设备端录制安静场景“小云小云”数据进行微调，得到最终面向业务的模型。由于采用了中文char全量token建模，并使用充分数据进行basetrain，本模型支持基本的唤醒词/命令词自定义功能，但具体性能无法评估。

目前最新ModelScope版本已支持用户在basetrain模型基础上，使用其他关键词数据进行微调，得到新的语音唤醒模型。

二、WEKWS[2]模型基础

2.1 本地环境配置

环境要求相关包的版本如下：

pyyaml>=5.1

tensorboard

tensorboardX

matplotlib

onnxruntime

flake8==3.8.2

flake8-bugbear

flake8-comprehensions

flake8-executable

flake8-pyi==20.5.0

mccabe

pycodestyle==2.6.0

pyflakes==2.2.0

lmdb

scipy

tqdm

2.2 项目目录

执行项目之前要重新从github仓库下载新的可执行文件，防止出现在运行过程中与上次运行产生的文件发生冲突问题，项目运行前目录为图2所示。

图2 wekws训练前目录

我们需要先根据上述2.1所述，对相关的依赖包进行安装，防止因未安装包，导致后期训练过于繁琐，conf是模型的参数文件，然后运行path.sh脚本，将环境变量写入当前系统，最后运行run.sh对模型进行训练，训练完成后，我们将得到如下图3目录。

图3 wekws训练后目录

训练将会持续一百轮，一轮将会训练510次，每隔10次打印一次模型结果，每隔一轮再打印一次结果。最终得到每轮的运行日志保存在exp目录下，data文件是训练集文件。

2.3 脚本说明

脚本关键部分和功能的摘要如下：

2.3.1 下载和数据准备：

下载和提取数据集local/data_download.sh

[ -f ./path.sh ] && . ./path.sh

dl_dir=./data/local

. tools/parse_options.sh || exit 1;
data_dir=$dl_dir
file_name=speech_commands_v0.01.tar.gz
speech_command_dir=$data_dir/speech_commands_v1
audio_dir=$data_dir/speech_commands_v1/audio
url=http://download.tensorflow.org/data/$file_name
mkdir -p $data_dir
if [ ! -f $data_dir/$file_name ]; then
    echo "downloading $url..."
    wget -O $data_dir/$file_name $url
else
    echo "$file_name exist in $data_dir, skip download it"
fi

if [ ! -f $speech_command_dir/.extracted ]; then
    mkdir -p $audio_dir
    tar -xzvf $data_dir/$file_name -C $audio_dir
    touch $speech_command_dir/.extracted
else
    echo "$speech_command_dir/.exatracted exist in $speech_command_dir, skip exatraction"
fi

exit 0

拆分数据集local/split_dataset.py

我们定义了一个名为move_files的函数，用于将指定文件夹中的文件根据给定的文件列表移动到目标文件夹中。首先打开给定的文件列表，并逐行读取文件路径，然后，通过使用os.path.dirname函数获取每个文件路径的目录，并使用os.path.join函数将目录与目标文件夹合并得到目标文件夹的路径。如果目标文件夹不存在，则使用os.mkdir函数创建目标文件夹。最后，使用shutil.move函数将源文件夹中的文件移动到目标文件夹中。在源代码的最后，还通过argparse模块解析命令行参数，并使用move_files函数将音频文件夹中的文件移动到测试文件夹和验证文件夹中，并将音频文件夹重命名为训练文件夹。

def move_files(src_folder, to_folder, list_file):
    with open(list_file) as f:
        for line in f.readlines():
            line = line.rstrip()
            dirname = os.path.dirname(line)
            dest = os.path.join(to_folder, dirname)
            if not os.path.exists(dest):
                os.mkdir(dest)
            shutil.move(os.path.join(src_folder, line), dest)


if __name__ == '__main__':
    '''Splits the google speech commands into train, validation and test set'''
    parser = argparse.ArgumentParser(
        description='Split google command dataset.')
    parser.add_argument(
        'root',
        type=str,
        help='the path to the root folder of the google commands dataset')
    args = parser.parse_args()

    audio_folder = os.path.join(args.root, 'audio')
    validation_path = os.path.join(audio_folder, 'validation_list.txt')
    test_path = os.path.join(audio_folder, 'testing_list.txt')

    valid_folder = os.path.join(args.root, 'valid')
    test_folder = os.path.join(args.root, 'test')
    train_folder = os.path.join(args.root, 'train')

    os.mkdir(valid_folder)
    os.mkdir(test_folder)

    move_files(audio_folder, test_folder, test_path)
    move_files(audio_folder, valid_folder, validation_path)
    os.rename(audio_folder, train_folder)

2.3.2 Kaldi 格式文件准备：

准备用于训练、测试和验证集的 Kaldi 格式文件准备Kaldi格式文件，包括创建目录、生成wav.scp和utt2spk文本文件，wav.scputt2spktext用于计算 CMVN 并格式化数据集：

if [ ${stage} -le -1 ] && [ ${stop_stage} -ge -1 ]; then
  echo "Download and extract all datasets"
  local/data_download.sh --dl_dir $download_dir
  python local/split_dataset.py $download_dir/speech_commands_v1
fi


if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
  echo "Start preparing Kaldi format files"
  for x in train test valid;
  do
    data=data/$x
    mkdir -p $data
    # make wav.scp utt2spk text file
    find $speech_command_dir/$x -name *.wav | grep -v "_background_noise_" > $data/wav.list
    python local/prepare_speech_command.py --wav_list=$data/wav.list --data_dir=$data
  done
fi

2.3.3 计算CMVN

如果stage小于等于1且stop_stage大于等于1，则执行计算CMVN和格式化数据集的脚本。该脚本使用compute_cmvn_stats.py计算训练数据集的CMVN统计信息，并将结果保存在data/train/global_cmvn中。然后，脚本使用tools/wav_to_duration.sh将数据集的音频文件转换为持续时间，并使用tools/make_list.py生成数据列表。

if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
  echo "Compute CMVN and Format datasets"
  tools/compute_cmvn_stats.py --num_workers 16 --train_config $config \
    --in_scp data/train/wav.scp \
    --out_cmvn data/train/global_cmvn

  for x in train valid test; do
    tools/wav_to_duration.sh --nj 8 data/$x/wav.scp data/$x/wav.dur
    tools/make_list.py data/$x/wav.scp data/$x/text \
      data/$x/wav.dur data/$x/data.list
  done
fi

2.3.4 训练关键字检测模型

使用torchrun执行wekws/bin/train.py脚本，传递以下参数： --gpus $gpus：使用哪些GPU进行训练 --config $config：配置文件的路径 --train_data data/train/data.list：训练数据的路径 --cv_data data/valid/data.list：验证数据的路径 --model_dir $dir：模型保存的目录 --num_workers 8：用于训练的数据并行性 --num_keywords $num_keywords：关键词的数量--min_duration 50：音频文件的最小持续时间（单位：毫秒） $cmvn_opts：包含CMVN选项的字符串 ${checkpoint:+--checkpoint $checkpoint}：可选的检查点路径参数最终结果是开始训练。

if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
  echo "Start training ..."
  mkdir -p $dir
  cmvn_opts=
  $norm_mean && cmvn_opts="--cmvn_file data/train/global_cmvn"
  $norm_var && cmvn_opts="$cmvn_opts --norm_var"
  num_gpus=$(echo $gpus | awk -F ',' '{print NF}')
  torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \
   wekws/bin/train.py --gpus $gpus \
    --config $config \
    --train_data data/train/data.list \
    --cv_data data/valid/data.list \
    --model_dir $dir \
    --num_workers 8 \
    --num_keywords $num_keywords \
    --min_duration 50 \
    $cmvn_opts \
    ${checkpoint:+--checkpoint $checkpoint}
fi

2.3.5 模型评估

调用average_model.py脚本将得分检查点、目录和平均数作为参数传递给它，并指定使用val_best作为源路径。然后，创建结果目录，调用compute_accuracy.py脚本进行测试。

if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; then
  # Do model average
  python wekws/bin/average_model.py \
    --dst_model $score_checkpoint \
    --src_path $dir  \
    --num ${num_average} \
    --val_best
  # Testing
  result_dir=$dir/test_$(basename $score_checkpoint)
  mkdir -p $result_dir
  python wekws/bin/compute_accuracy.py --gpu 3 \
    --config $dir/config.yaml \
    --test_data data/test/data.list \
    --batch_size 256 \
    --num_workers 8 \
    --checkpoint $score_checkpoint
fi

2.3.6 模型保存

执行以下操作：将score_checkpoint的后缀从".pt"替换为".zip"，并将结果赋给jit_model变量；将score_checkpoint的后缀从".pt"替换为".onnx"，并将结果赋给onnx_model变量。然后，调用export_jit.py脚本，传递相应的参数，将结果保存在dir/$jit_model文件中。接着，调用export_onnx.py脚本，传递相应的参数，将结果保存在dir/$onnx_model文件中。

if [ ${stage} -le 4 ] && [ ${stop_stage} -ge 4 ]; then
  jit_model=$(basename $score_checkpoint | sed -e 's:.pt$:.zip:g')
  onnx_model=$(basename $score_checkpoint | sed -e 's:.pt$:.onnx:g')
  python wekws/bin/export_jit.py \
    --config $dir/config.yaml \
    --checkpoint $score_checkpoint \
    --jit_model $dir/$jit_model

  python wekws/bin/export_onnx.py \
    --config $dir/config.yaml \
    --checkpoint $score_checkpoint \
    --onnx_model $dir/$onnx_model
fi

2.4 模型评价结果

我们通过绘制准确率和损失率曲线来进一步更加直观的观察模型的训练效果，得到第2轮的训练结果如下。

图4 准确率、损失率曲线

三、服务器环境配置

3.1 使用方式和范围

3.1.1运行环境

现阶段模型只能在Linux-x86_64系统上运行，不支持Mac和Windows系统，模型训练需要用户服务器配置GPU卡，CPU训练暂不支持，本文因本地GPU显存太小，将模型布置在服务器上进行训练。

3.1.2 工具介绍

本文使用附带的kwsbp工具(Linux-x86_64)集进行直接推理，分别测试正样本及负样本集合，综合选取最优工作点。

3.1.3使用范围

移动端设备，Android/iOS型号、版本均不限，使用环境不限，数据集采集音频为16K单通道。

3.2 依赖包安装

依次执行下述命令，在服务器上安装模型的依赖包，配置所需的环境。

!pip install modelscope 
!pip install SentencePiece
!pip install --upgrade pip
!sudo apt-get install build-essential
!sudo apt-get install build-essential
!sudo apt-get install libffi-dev
!sudo apt-get install python3-dev
!pip install tokenizers --no-build-isolation
!pip install --upgrade setuptools wheel
!sudo apt-get update
!pip install transformers
!pip install kwsbp -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
!sudo apt-get install kwsbp -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

四、模型测试与演示[3]

4.1 模型推理

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

kwsbp_16k_pipline = pipeline(
    task=Tasks.keyword_spotting,
    model='damo/speech_charctc_kws_phone-xiaoyun')

kws_result = kwsbp_16k_pipline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/KWS/pos_testset/kws_xiaoyunxiaoyun.wav')
print(kws_result)

上述代码运行结果如下：

{'kws_type': 'pcm', 'kws_list': [{'keyword': '小云小云', 'offset': 1.89, 'length': 0.51, 'confidence': 0.995018, 'type': 'wakeup'}], 'wav_count': 1}

2023-12-13 07:10:28,218 - modelscope - INFO - PyTorch version 2.1.0+cu118 Found.

2023-12-13 07:10:28,223 - modelscope - INFO - TensorFlow version 2.14.0 Found.

2023-12-13 07:10:28,225 - modelscope - INFO - Loading ast index from /root/.cache/modelscope/ast_indexer

2023-12-13 07:10:28,227 - modelscope - INFO - No valid ast index found from /root/.cache/modelscope/ast_indexer, generating ast index from prebuilt!

2023-12-13 07:10:28,294 - modelscope - INFO - Loading done! Current index file version is 1.10.0, with md5 26bcfc6fb89b2a0a03e3bb75a9f00e95 and a total number of 946 components indexed

2023-12-13 07:10:36,186 - modelscope - WARNING - Model revision not specified, use revision: v1.1.3

Downloading: 100%|██████████| 172k/172k [00:00<00:00, 906kB/s]

Downloading: 100%|██████████| 175k/175k [00:00<00:00, 903kB/s]

…

为了解释上述输出内容，对各参数的描述如下表：

参数	描述	数值
kws_type	录音格式	pcm
kws_list	关键词列表	{…}
keyword	关键词	小云小云
offset	偏移量	1.89
length	长度	0.51
confidence	置信度	0.995018
type	录音类型	wakeup
wav_count	音频数量	1

表1 各参数描述表

从上述得到的结果我们可以看到，关键词“小云小云”的置信度为0.995018，表示该识别结果非常可靠。

4.2 模型分词能力测试

为了测试此预训练模型的分词能力，我们使用下述语句“今天天气不错，适合出去游玩”对模型进行测试，测试代码如下：

from modelscope.pipelines import pipeline
word_segmentation = pipeline('word-segmentation',model='damo/nlp_structbert_word-segmentation_chinese-base')
word_segmentation('今天天气不错，适合出去游玩')

输出结果如下：

{'output': ['今天', '天气', '不错', '，', '适合', '出去', '游玩']}

根据上述分词结果，可以看出模型的分词能力比较准确，能够正确地将输入的文本分成一个个的词语，接下来本文将对预训练模型进行训练。

五、模型训练

5.1 训练环境配置

首先根据环境安装文档，新建conda环境并安装Python、深度学习框架以及modelscope语音领域依赖包：

$ conda create -n modelscope python=3.7
$ conda activate modelscope
$ pip install torch torchvision torchaudio
$ pip install "modelscope[audio]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
$ pip install tensorboardX
!pip install kaldiio
!pip install modelscope

5.2 加载数据集

5.1.2 kaldi列表

kaldi列表如下所示：

（1）音频列表为“索引+路径”，中间以Tab分隔。

（2）标注列表为“索引+标注”，中间以Tab分隔，标注是否分词均可。

应注意音频数据集要求采集音频为16K单通道，

音频与标注的索引顺序无关联，但集合应当一致，训练时会自动丢弃无法同时索引到路径和标注的数据，各个文件内容如下所示。

|--example_kws

|---wav             # 存放.wav格式音频数据集的文件夹

|---cv_wav.scp       # 存储测试集音频文件路径和标签的文本文件

|---merge_trans.txt    # 存储音频文件的文本转录结果的文本文件

|---merge_wav.scp    # 存储待合并音频文件路径的文本文件

|---test_wav.scp      # 存储测试集音频文件路径的文本文件

|---train_wav.scp     # 存储训练集音频文件路径的文本文件

部分脚本文件内容如下：

$ cat wav.scp

kws_pos_example1   /home/admin/data/test/audios/kws_pos_example1.wav

kws_pos_example2   /home/admin/data/test/audios/kws_pos_example2.wav

...

kws_neg_example1   /home/admin/data/test/audios/kws_neg_example1.wav

kws_neg_example2   /home/admin/data/test/audios/kws_neg_example2.wav

...

$ cat trans.txt

kws_pos_example1   小云小云

kws_pos_example2   小云小云

...

kws_neg_example1   帮我导航一下回临江路一百零八还要几个小时

kws_neg_example2   明天的天气怎么样

...

由于我们的建模方式及算法的局限性，需要中文的训练音频及全内容标注，与训练中文ASR模型应相同。训练数据需包含一定数量对应关键词和非关键词样本，我们建议关键词数据在25小时以上，混合负样本比例在1:2到1:10之间，实际性能与训练数据量、数据质量、场景匹配度、正负样本比例等诸多因素有关，需要具体分析和调整。

5.3 训练流程

1、手动创建一个本地工作目录，然后配置到work_dir，用于保存所有训练过程产生的文件

2、获取小云模型库中的配置文件，包含训练参数信息，模型ID确保为“damo/speech_charctc_kws_phone-xiaoyun”

3、初始化一个近场唤醒训练器，trainer tag为“speech_kws_fsmn_char_ctc_nearfield”

4、配置准备好的训练数据列表(kaldi风格)，音频列表分为train/cv，标注合为一个文件，然后启动训练。

5、配置唤醒词，多个请使用英文“,”分隔；配置测试目录和测试数据列表(kaldi风格)，然后启动测试，最终在测试目录生成测试结果文件——score.txt

5.4 模型训练

训练代码保存文件，如example_kws.py，通过命令行启动训练：

! PYTHONPATH=. torchrun --standalone --nnodes=1 --nproc_per_node=2 example_kws.py

# coding = utf-8

import os
from modelscope.utils.hub import read_config
from modelscope.utils.hub import snapshot_download
from modelscope.metainfo import Trainers
from modelscope.trainers import build_trainer

enable_training = True  # 是否启用训练
enable_testing = True  # 是否启用测试

enable_training = True  # 是否启用训练
enable_testing = True  # 是否启用测试

# s1
work_dir = './test_kws_training' # 工作目录

# s2
# 模型ID
model_id = 'damo/speech_charctc_kws_phone-xiaoyun'
# 下载模型快照到的工作目录
model_dir = snapshot_download(model_id)

# 读取模型元数据
configs = read_config(model_id)  # 读取配置文件
# 更新一些配置
configs.train.max_epochs = 10  # 训练的最大轮数
configs.preprocessor.batch_conf.batch_size = 256  # 批大小
configs.train.dataloader.workers_per_gpu = 4  # 每个GPU的训练数据加载器的工作进程数
configs.evaluation.dataloader.workers_per_gpu = 4  # 每个GPU的测试数据加载器的工作进程数

# 将配置保存到文件中
config_file = os.path.join(work_dir, 'config.json')  # 配置文件路径
configs.dump(config_file)  # 将配置保存到文件


# s3
# 构建训练器
kwargs = dict(
    model=model_id,  # 模型ID
    work_dir=work_dir,  # 工作目录
    cfg_file=config_file,  # 配置文件路径
    seed=666,  # 随机种子
)
trainer = build_trainer(
    Trainers.speech_kws_fsmn_char_ctc_nearfield, default_args=kwargs) # 构建训练器

# s4
# 训练数据路径
train_scp = '/content/drive/MyDrive/Colab_Notebooks/ModelScope/example_kws/train_wav.scp'
# 交叉验证数据路径
cv_scp = '/content/drive/MyDrive/Colab_Notebooks/ModelScope/example_kws/cv_wav.scp'
# 测试数据路径
test_scp = '/content/drive/MyDrive/Colab_Notebooks/ModelScope/example_kws/test_wav.scp'
# 标签文件路径
trans_file = '/content/drive/MyDrive/Colab_Notebooks/ModelScope/example_kws/merge_trans.txt'

# 训练检查点路径
train_checkpoint = ''
# 测试检查点路径
test_checkpoint = ''

if enable_training:  # 如果启用训练
    kwargs = dict(
        train_data=train_scp,  # 训练数据文件路径
        cv_data=cv_scp,  # 交叉验证数据文件路径
        trans_data=trans_file,  # 转录文件路径
        checkpoint=train_checkpoint,  # 检查点路径
        tensorboard_dir='tb_test',  # TensorBoard日志目录
        need_dump=True,  # 是否需要保存模型
    )

try:
    # 训练模型
    trainer.train(**kwargs) # 训练模型
except Exception as e:
    print(f"Error during training: {e}")

rank = int(os.environ['RANK']) # 进程排名
world_size = int(os.environ['WORLD_SIZE']) # 总进程数
if world_size > 1 and rank != 0:# 如果总进程数大于1且排名不为0
    enable_testing = False# 禁用测试

# s5
if enable_testing:# 如果启用测试
    # 关键词
    keywords = '小云小云'
    # 测试结果保存目录
    test_dir = os.path.join(work_dir, 'test_dir')

    # 测试配置
    kwargs = dict(
        test_dir=test_dir,  # 测试结果目录
        test_data=test_scp,  # 测试数据文件路径
        trans_data=trans_file,  # 转录文件路径
        average_num=10,  # 平均次数
        gpu=0,  # GPU ID
        keywords=keywords,  # 关键词
        batch_size=256,  # 批大小
    )
    # 评估模型
    #print(f"test_checkpoint: {test_checkpoint}")
    #print(f"kwargs: {kwargs}")
    trainer.evaluate(test_checkpoint, None, **kwargs)
    print(f"Test results are saved in {test_dir}/score.txt")

world_size = int(os.environ['WORLD_SIZE']) # 总进程数
if world_size > 1 and rank != 0:# 如果总进程数大于1且排名不为0
    enable_testing = False# 禁用测试

# s5
if enable_testing:# 如果启用测试
    # 关键词
    keywords = '小云小云'
    # 测试结果保存目录
    test_dir = os.path.join(work_dir, 'test_dir')

    # 测试配置
    kwargs = dict(
        test_dir=test_dir,  # 测试结果目录
        test_data=test_scp,  # 测试数据文件路径
        trans_data=trans_file,  # 转录文件路径
        average_num=10,  # 平均次数
        gpu=0,  # GPU ID
        keywords=keywords,  # 关键词
        batch_size=256,  # 批大小
    )
    # 评估模型
    #print(f"test_checkpoint: {test_checkpoint}")
    #print(f"kwargs: {kwargs}")
    trainer.evaluate(test_checkpoint, None, **kwargs)
print(f"Test results are saved in {test_dir}/score.txt")

5.5 模型评价

查看运行输出的日志文件score.txt文件如下：

20200707_spk57db_storenoise52db_40cm_xiaoyun_sox_50 detected 小云小云 0.935
20200707_spk57db_storenoise52db_40cm_xiaoyun_sox_38 detected 小云小云 0.992
fd59df10517f4a92ab9b1d31cd94c0b9_362d4ab870bf4722962fa4d087d8062f rejected
20200707_spk57db_storenoise52db_40cm_xiaoyun_sox_48 detected 小云小云 0.841
20200707_spk57db_storenoise52db_40cm_xiaoyun_sox_6 detected 小云小云 0.991
fd59df10517f4a92ab9b1d31cd94c0b9_ad1f518a7bdc4f57b355fb1aaddcd9c6 rejected
20200707_spk57db_storenoise52db_40cm_xiaoyun_sox_37 detected 小云小云 0.982
20200707_spk57db_storenoise52db_40cm_xiaoyun_sox_41 detected 小云小云 0.988
fd59df10517f4a92ab9b1d31cd94c0b9_e5c46479973a41a8b3ba04010a69d4c6 rejected
20200707_spk57db_storenoise52db_40cm_xiaoyun_sox_30 detected 小云小云 0.819
fd59df10517f4a92ab9b1d31cd94c0b9_0b448e3108604646a9828403fa722dc1 rejected

我们通过上述文件进一步统计并画出Det曲线如下图5。

图5 Det曲线

六、总结

综上所述，本文最终通过wekws模型和百度的预训练模型对论文Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting进行了复现，并且在其基础上尝试更换新的数据集的操作，最终根据开源数据集，basetrain使用内部移动端ASR数据5000+小时；finetune使用1万条众包安静场景"小云小云"数据以及约20万条移动端ASR数据进行训练。最终得到的结果为：模型在自建9个场景各50句的正样本集（共450条）测试，唤醒率为93.11%；在自建的移动端负样本集上测试，误唤醒为40小时0次。但是考虑到正负样本测试集覆盖场景不够全面，可能有特定场合/特定人群唤醒率偏低或误唤醒偏高问题。

参考文献：

[1]Chen, M., Zhang, S., Lei, M., Liu, Y., Yao, H., Gao, J. (2018) Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting. Proc. Interspeech 2018, 2663-2667.

[2]wenet-e2e/wekws: Production First and Production Ready End-to-End Keyword Spotting Toolkit (github.com)

[3]CTC语音唤醒-移动端-单麦-16k-小云小云 · 模型库 (modelscope.cn)

你可能感兴趣的:(语音识别,深度学习,人工智能,机器学习,深度学习,语音,语音识别,语音唤醒)

目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found