yutouwd

kaldi中的声纹识别

文章目录

kaldi中的声纹识别

kaldi的安装
运行aishell例程
使用TIMIT数据库进行声纹识别
kaldi中声纹识别的流程

我的博客：https://yutouwd.github.io/
前段时间一直到在使用kaldi来做声纹识别，算是可以把整个i-vector的例程可以跑下来，也可以根据例程来改写脚本，使用自己的数据来训练和测试。接下来可能要去做其他的项目了，所以要趁着还记得的时候赶紧写个总结，也算是对之前的工作也算是归纳一下。

kaldi的安装

kaldi在Linux下的安装总的来说还是比较简单的，首先是先进入tools中运行extras/check_dependenices.sh看下还有哪些依赖项没有安装，然后就可以按照他的提示来安装依赖项目。安装完依赖项之后就分别进入tools目录和src目录下执行命令make -j8，其中8时cpu可以同时运行的线程数量。这个过程还是需要一定时间的。在make完之后就可以运行一个小的例程来看下有没有成功地安装kaldi，我们进入到egs/yesno/s5目录下然后运行run.sh脚本，这是一个判断语音中说的是yes还是no的程序，他会自动下载数据并训练和测试，最终可以有0.0%的WER，这就代表kaldi安装成功啦✌️

运行aishell例程

首先我们来看下kaldi下的目录：

egs：保存了各种例程，均使用脚本编写，以使用的数据库的名字命名。在下一级目录中以s开头的文件是语音识别，以v开头的是声纹识别，一般v1就是使用i-vector的方法来进行声纹识别。
src：保存了kaldi的C++代码。
tools：包括了kaldi依赖的库和一些实用的脚本。
windows：包括了在Windows下安装需要的一些工具和配置文件

接下来我们就来跑一下aishell的声纹识别例程，在egs/aishell/v1中的run.sh就包括了整个声纹识别的流程，最好将run.sh中的命令复制到另外一个脚本中，一句一句地执行，这样就能及时发现错误然后修改。

data=/export/a05/xna/data
data_url=www.openslr.org/resources/33

. ./cmd.sh
. ./path.sh

set -e # exit on error

local/download_and_untar.sh $data $data_url data_aishell
local/download_and_untar.sh $data $data_url resource_aishell

# Data Preparation
local/aishell_data_prep.sh $data/data_aishell/wav $data/data_aishell/transcript

首先是数据准备阶段，如果没有下载数据，脚本也可以自动下载和解压；如果下载好了就要把data的路径改成自己存放数据的路径。之后的cmd.sh和path.sh分别是设置执行命令的方式和kaldi的路径。如果我们是在自己的电脑上运行，就需要进入到cmd.sh中，把queue.pl修改成run.pl。path.sh就是设置和kaldi相关的路径，如果是例程的话就不用修改了。配置好之后就开始下载和解压数据。
之后就是最关键的部分了，准备一些下面环节需要的文档，使用aishell_data_prep.sh这个脚本来生成。声纹识别需要用到的分别是utt2spk spk2utt wav.scp这三个文件。其中utt指的是utterance代表一个音频文件的文件名，spk代表speaker是说话人的ID，这里在下一节做详细的介绍。如果是做语音识别，还需要text文件，这里就不做介绍了。

# Now make MFCC  features.
# mfccdir should be some place with a largish disk where you
# want to store MFCC features.
mfccdir=mfcc
for x in train test; do
  steps/make_mfcc.sh --cmd "$train_cmd" --nj 10 data/$x exp/make_mfcc/$x $mfccdir
  sid/compute_vad_decision.sh --nj 10 --cmd "$train_cmd" data/$x exp/make_mfcc/$x $mfccdir
  utils/fix_data_dir.sh data/$x
done

在准备好数据之后就要开始提取mfcc特征了，进行端点检测（VAD），以及检查文件符不符合要求对文件进行排序（其实我也没有仔细看fix_data_dir.sh这个脚本到底做了什么?)

# train diag ubm
sid/train_diag_ubm.sh --nj 10 --cmd "$train_cmd" --num-threads 16 \
  data/train 1024 exp/diag_ubm_1024

#train full ubm
sid/train_full_ubm.sh --nj 10 --cmd "$train_cmd" data/train \
  exp/diag_ubm_1024 exp/full_ubm_1024

#train ivector
sid/train_ivector_extractor.sh --cmd "$train_cmd --mem 10G" \
  --num-iters 5 exp/full_ubm_1024/final.ubm data/train \
  exp/extractor_1024

再接下来就是训练UBM和ivector extractor了，这里需要注意的是训练ivector extractor的脚本会默认同时执行程序非常多，会占用很高的内存导致内存溢出。我们需要进入train_ivector_extractor.sh中修改一下。它默认同时执行的程序数量为nj*num_thread*num_processes,在16G内存下我把这三个参数都改为2才能跑通。这里也还有两个超参数可以修改，分别是UBM的维数和ivector的维数，UBM的维数就直接在run.sh中修改就行，train_diag_ubm.sh中data/train后面那个参数就是UBM的维数，默认为1024。要修改ivector的维数就同样需要进到train_ivector_extractor.sh中修改ivector_dim，默认为400。

#extract ivector
sid/extract_ivectors.sh --cmd "$train_cmd" --nj 10 \
  exp/extractor_1024 data/train exp/ivector_train_1024

#train plda
$train_cmd exp/ivector_train_1024/log/plda.log \
  ivector-compute-plda ark:data/train/spk2utt \
  'ark:ivector-normalize-length scp:exp/ivector_train_1024/ivector.scp  ark:- |' \
  exp/ivector_train_1024/plda

训练完ivector之后就要开始提取训练集的ivector了，然后用训练集的ivector来训练plda模型用于打分。

# split the test to enroll and eval
mkdir -p data/test/enroll data/test/eval
cp data/test/{spk2utt,feats.scp,vad.scp} data/test/enroll
cp data/test/{spk2utt,feats.scp,vad.scp} data/test/eval
local/split_data_enroll_eval.py data/test/utt2spk  data/test/enroll/utt2spk  data/test/eval/utt2spk
trials=data/test/aishell_speaker_ver.lst
local/produce_trials.py data/test/eval/utt2spk $trials
utils/fix_data_dir.sh data/test/enroll
utils/fix_data_dir.sh data/test/eval

之后就要将测试集分为注册集和验证集，这一步主要通过loacl/split_data_enroll_eval.py这个脚本来完成，我们先来看一下这个脚本：

# split_data_enroll_eval.py
import sys,random

dictutt = {}

for line in open(sys.argv[1]):
  line = line.rstrip('\r\t\n ')
  utt, spk = line.split(' ')
  if spk not in dictutt:
    dictutt[spk] = []
  dictutt[spk].append(utt)

fenroll = open(sys.argv[2], 'w')
feval = open(sys.argv[3], 'w')

for key in dictutt:
  utts = dictutt[key]
  random.shuffle(utts)
  for i in range(0, len(utts)):
    line = utts[i] + ' ' + key
    if(i < 3):
      fenroll.write(line + '\n')
    else:
      feval.write(line + '\n')

fenroll.close()
feval.close()

这个脚本首先先将每个spk和与其对应的utt存入dictutt中，然后再将spk的utt顺序随机打乱，重新分配到enroll（注册集）和eval（评估集）中。可以看到在程序的倒数第六行中，if(i<3):就将utt写入enroll中，否则就写入eval中。所以我们可以通过改这个值来改变注册集和评估集中的语音数。
在重新生成完utt2spk之后，就要生成trials了。trials通过loacl/product_trials.py来生成。trials是指需要进行打分的注册说话人和不同的语音的一个列表，它的格式为(举个例子?）：

uttID	spkID	target\|nontarget
spkA-utt1	spkA	target
spkA-utt2	spkB	nontarget
spkB-utt1	spkA	nontarget
spkB-utt1	spkB	target
…	…	…

#extract enroll ivector
sid/extract_ivectors.sh --cmd "$train_cmd" --nj 10 \
  exp/extractor_1024 data/test/enroll  exp/ivector_enroll_1024
#extract eval ivector
sid/extract_ivectors.sh --cmd "$train_cmd" --nj 10 \
  exp/extractor_1024 data/test/eval  exp/ivector_eval_1024

#compute plda score
$train_cmd exp/ivector_eval_1024/log/plda_score.log \
  ivector-plda-scoring --num-utts=ark:exp/ivector_enroll_1024/num_utts.ark \
  exp/ivector_train_1024/plda \
  ark:exp/ivector_enroll_1024/spk_ivector.ark \
  "ark:ivector-normalize-length scp:exp/ivector_eval_1024/ivector.scp ark:- |" \
  "cat '$trials' | awk '{print \\\$2, \\\$1}' |" exp/trials_out

#compute eer
awk '{print $3}' exp/trials_out | paste - $trials | awk '{print $1, $4}' | compute-eer -

在将测试集分成注册集和评估集之后，就开始分别提取注册集和评估集的ivector，然后按照生成的trials打分，最终打分结果输出在trials_out中,最终跑出来的结果为eer为0.183%。

使用TIMIT数据库进行声纹识别

      在了解了kaldi中整个声纹识别的流程后，我们就可以AISHELL的例程来改写使用自己数据的声纹识别系统，这里我使用TIMIT数据库。
      我们首先看下AISHELL和TIMIT数据库中的数据划分。AISHELL中一共有400人，默认分为train、dev和test集。其中train里面有340人；dev里面有40人；test里面有20人。在例程中，使用train作为训练集，test作为测试集，并没有使用dev。AISHELL里每个人大概有300多段语音，每段语音是一句话，每段语音大概在2~6s。在TIMIT数据库中一共有630人，分为train和test。训练集中有462人，测试集中有168人。每个人分别有10段语音，每段语音大概在2~4s。这里就直接使用TIMIT的原本的分配方式，用462人作为训练集，168人作为测试集。
      不过使用TIMIT数据库还有一个问题就是，TIMIT数据库中文件存放以及命名的方式和AISHELL不太一样。TIMIT数据库下文件存放的结构是，/TRAIN/DR*/SPEARKER_ID/UTTERANCE_ID.wav，train代表是训练集或者测试集，DR*（1～8）代表了说话人的方言类型，然后是说话人的ID文件夹，文件夹下存放了10段语音。TIMIT数据库中不同的人会说同一段话，说的话的内容是一样的话文件名就是一样的，我不知道如果有相同的文件名会不会引发错误，稳妥起见还是把每个文件都重新命名了。我写了个程序，将文件都重新命名为说话人的ID加上音频的序号，并且将其重新保存在/TRAIN/SPEAKER_ID这样的目录下，这样就在下面的程序就可以不用修改太多。
      在了解完两个数据库的区别和整个声纹识别的流程之后，我们就可以开始改写我们的程序了。其实整个过程中需要改的地方并不多，主要就是在准备数据阶段和生成trials的过程需要修改一下。首先是数据准备阶段，我们就可以根据哈aishell_data_prepare.sh这个脚本来改写自己的timit_data_prepare.sh了。数据准备阶段就要生成utt2spk spk2utt和wav.scp这三个文件。这三个文件的格式如下：

文件名	格式
utt2spk	[音频文件名] [说话人ID]
spk2utt	[说话人名] [音频文件名] [音频文件名] [音频文件名]
wav.scp	[音频文件名] [音频文件的具体路径]

. ./path.sh || exit 1;

if [ $# != 2 ]; then
  echo "Usage: $0  "
  echo " $0 /export/a05/xna/data/data_aishell/wav /export/a05/xna/data/data_aishell/transcript"
  exit 1;
fi

aishell_audio_dir=$1
aishell_text_dir=$2

train_dir=data/local/train
dev_dir=data/local/dev
test_dir=data/local/test

mkdir -p $train_dir
mkdir -p $dev_dir
mkdir -p $test_dir

# data directory check
if [ ! -d $aishell_audio_dir ] || [ ! -d $aishell_text_dir ]; then
  echo "Error: $0 requires two directory arguments"
  exit 1;
fi

# find wav audio file for train, dev and test resp.
find $aishell_audio_dir -iname "*.wav" | grep -i "wav/train" > $train_dir/wav.flist || exit 1;
find $aishell_audio_dir -iname "*.wav" | grep -i "wav/dev" > $dev_dir/wav.flist || exit 1;
find $aishell_audio_dir -iname "*.wav" | grep -i "wav/test" > $test_dir/wav.flist || exit 1;

前面首先是检查路径和创建用来存放文件的路径，由于在TIMIT中没有dev集，所以要把带有dev的都删掉。接下来脚本查找目录下的所有wav文件。

n=`cat $train_dir/wav.flist $dev_dir/wav.flist $test_dir/wav.flist | wc -l`
[ $n -ne 141925 ] && \
  echo Warning: expected 141925 data data files, found $n

# Transcriptions preparation
for dir in $train_dir $test_dir; do
  echo Preparing $dir transcriptions
  sed -e 's/\.wav//' $dir/wav.flist | awk -F '/' '{print $NF}' > $dir/utt.list
  sed -e 's/\.wav//' $dir/wav.flist | awk -F '/' '{i=NF-1;printf("%s %s\n",$NF,$i)}' > $dir/utt2spk_all
  paste -d' ' $dir/utt.list $dir/wav.flist > $dir/wav.scp_all
  utils/filter_scp.pl -f 1 $dir/utt.list $aishell_text_dir/*.txt > $dir/transcripts.txt
  awk '{print $1}' $dir/transcripts.txt | sort -u > $dir/utt.list
  utils/filter_scp.pl -f 1 $dir/utt.list $dir/utt2spk_all | sort -u > $dir/utt2spk
  utils/filter_scp.pl -f 1 $dir/utt.list $dir/wav.scp_all | sort -u > $dir/wav.scp
  sort -u $dir/transcripts.txt > $dir/text
  utils/utt2spk_to_spk2utt.pl $dir/utt2spk > $dir/spk2utt
done

mkdir -p data/train data/test
for f in spk2utt utt2spk wav.scp text; do
  cp $train_dir/$f data/train/$f || exit 1;
  cp $test_dir/$f data/test/$f || exit 1;
done

echo "$0: AISHELL data preparation succeeded"
exit 0;

      接下来就检查找到的wav文件加起来有没有141924个，然后就开始做wav.scp、utt2spk和spk2utt以及用于语音识别的transcripts.txt，这里我们就要找到脚本中和transcripts.txt相关的，然后删掉就可以了。
      再做完准备数据的阶段之后，我们就可以开始按照上面的流程来进行声纹识别了。还需要注意的一点是trials，如果一个人只有两三段语音的话，就需要修改分配enroll集和eval集的比例。不过由于TIMIT数据库每个人有10段语音，所以不用修改也是可以的。这里就用3段语音去注册，然后剩下的7段语音用于验证。
      最终跑出来的等错误率在4.5%左右，虽然是一个还可以接受的结果，但是和AISHELL的0.18%的等错误率相比还是差了很多的。分析一下原因：首先是用于训练的语音较少，虽然人数有462人，但是每个人只有10段语音，和AISHELL中340人用于训练，每个人300多段语音相比差了很多。同样的，TIMIT中测试集中一共有168人，相比于AISHELL中测试集只有40人多了很多。而且，AISHELL默认的训练的UBM阶数和ivector的维度都非常高，所以这两点可能导致了等错误率比较高。如果想进一步降低等错误率可以尝试降低训练的UBM和ivector的维度。我把UBM和ivector的维度都降低后，等错误率最终可以达到1.53%。

kaldi中声纹识别的流程

总结一下，kaldi中声纹的识别（ivector）的流程图如下：

首先，将数据集分为训练集和测试集。然后对先对训练集做处理，先提取训练集的mfcc特征，然后训练UBM和ivector extractor，接着提取训练集的ivector，并使用训练集的ivector去训练plda模型。之后就开始对测试集进行处理，先把测试集分为注册集和验证集，分别提取mfcc然后在提取ivector，在用plda进行打分。这就是整个kaldi中ivector声纹识别的流程了。

YeAudio音频工具的介绍和使用夜雨飘零1 语音音视频语音识别 python ffmpeg
夜雨飘零音频工具这款Python音频处理工具功能强大，支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作，还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。安装使用pip安装。pipinstallyeaudio-U-ihttps://pypi.tuna.tsinghua.edu.cn/simple（推荐）使用源码安装。gitclonehttps
音频播放器最美下雨天
验证的例子：打印ffmpeg支持的所有解码器，解码音视频、字幕image.pngimage.png在声纹识别中，为了满足对不同采样率的要求，常需要对语音进行重采样。重采样即将原始的采样频率变换为新的采样频率以适应不同采样率的要求。image.pngimage.pngJNI在加载的时候会自动调用这个方法image.png什么是重采样呢？就是我们要播放的音频数据的编码格式不一样，比如说采样率、采样位数
ABeam×StartUp丨ABeam旗下德硕管理咨询（深圳）新创部门拜访「声扬科技」，解密声音的秘密陵门检录科技
随着人工智能的快速发展，音频处理、语音分析、声纹识别等技术的应用也日益扩充至各个方面，这些技术不仅是前沿领域的高新科技，也与我们的生活息息相关。近日，ABeam旗下德硕管理咨询（深圳）有限公司（以下简称“ABeam-SZ”）新创部门一行拜访了深圳声扬科技有限公司（以下简称“声扬科技”），深入了解音频处理、语音分析和声纹识别技术的发展近况及在各行业的应用，在未来可行性等方面进行交流探讨，并结合ABe
2023年12月27日学习记录_加入噪声郭小儒每日学习总结学习 python 人工智能
目录1、今日计划学习内容2、今日学习内容1、addnoisetoaudioclipssignaltonoiseratio(SNR)加入additivewhitegaussiannoise(AWGN)加入realworldnoises2、使用kaggel上的一个小demo：CNN模型运行时出现的问题调整采样率时出现bug3、明确90dB下能否声纹识别4、流量预测3、实际完成的任务1、今日计划学习内容
声纹识别_加入噪声郭小儒声纹识别机器学习人工智能学习语音识别
目录1、addnoisetoaudioclipssignaltonoiseratio(SNR)2、加入additivewhitegaussiannoise(AWGN)1.howtogenerateAWGN2.AWGN的频率分析3.加入噪声3、加入realworldnoises1、addnoisetoaudioclips学习如何将噪声加入到audiodata中，后续可以将不同SNR的噪声加入原始信号
声纹识别资源汇总（不断更新）郭小儒声纹识别学习 pandas python 语音识别深度学习机器翻译
目录一、任务说明二、指标三、声纹识别研究现状四、数据集开源（1）VoxCeleb：（2）WSJandLibriSpeechCorpus（3）VOiCESDataset（4）EnglishMulti-speakerCorpusforVoiceCloning五、开源代码1、Alize2、MSRIdentityToolkit3、d-vector4、LSTMwithGE2Eloss5、y-vector调研
2023年12月20日学习总结郭小儒学习数据库
今日todolist：学习kaggle中storesales中的dartforcasting大概搜集一个声纹识别的报告（老师给的新项目）学习时不刷手机okkkkkkkkkkkkkk开始目录1.时间序列预测-acompleteguide（1）时序预测有三条规则：（2）时序数据timeseriesdata的组成（3）分析的流程1.importlibraries2.导入数据并且初步查看数据3.EDA：e
基于d-vector的声纹识别（作为初学者的小总结）郭小儒声纹识别 python 人工智能
基于d-vector的声纹识别（作为初学者的小总结）——2023年12月22日目录基于d-vector的声纹识别（作为初学者的小总结:wink:）——2023年12月22日0、简要介绍1、数据data2、数据预处理3、数据增强dataaugmentation（1）增加白噪声addingwhitenoise（2）更改音高changingpitch（3）增加背景噪声4、创建模型0、简要介绍目的是使用d
音频特效生成与算法 3 _Rye_ 音频技术音视频语音识别人工智能
15｜AI变声：音频AI技术的集大成者AI技术在音频领域发展十分迅速。除了之前介绍的降噪、回声消除以及丢包补偿等方向可以用AI模型来提升音质听感之外，AI模型还有很多有趣的应用。其中比较常见的有ASR（AutomaticSpeechRecognition）可以理解为语音转文字，TTS（TextToSpeech）文字转语音和VPR（VoicePrintRecognition）声纹识别等。在之前说的音
Speaker Verification，声纹验证详解——语音信号处理学习（九） LotusCL 声音信号处理学习信号处理学习语音识别人工智能
参考文献：SpeakerVerification哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记声纹识别-16-知乎(zhihu.com)(2)MetaLearning–Metric-based(1/3)-YouTube如何理解等错误率(EER,EqualErrorRate)？请不要只给定义-知乎(zhihu.com)本次省略所有引用论文目录一、Introduction模型的简
最强大脑第二场战平听音神童！百度大脑小度声纹识别技术解析付江百度人工智能
日前，继在江苏卫视《最强大脑》第四季“人机大战”首轮任务跨年龄人脸识别竞赛中击败人类顶级选手后，在上周五晚上，百度的小度机器人再次在声纹识别任务上迎战名人堂选手——11岁的“听音神童”孙亦廷，双方最终以1:1打成平手。被称为“鬼才之眼”的水哥（王昱珩）宣布再度出山，将在下周的第三轮比赛中与“小度”在图像识别方面一决高下。本轮题目规则为：从“千里眼”到“顺风耳”，节目组将第二场比赛范围划定在“听”的
2023CPEM电力人工智能大会，联丰迅声斩获“声纹识别技术创新奖” 科技赋能生活人工智能
没有什么能够阻挡人类对美好未来的向往。11月的贵阳，秋色宜人，天高水远。电力大咖齐聚美丽的林城，聚焦电力人工智能高质量发展之路，碰撞创新智慧，畅想绿色未来。2023年11月3日，第4届电力人工智能大会暨第2届电力行业数字化转型大会在贵州贵阳圆满落下帷幕。本届大会由CPEM全国电力设备管理网、国家能源智能电网(上海)研发中心、复杂能源系统智能计算教育部工程研究中心、中国电子劳动学会双碳和能源创新工作
说话人识别声纹识别CAM++，ECAPA-TDNN等算法 loong_XL 深度学习语音识别
参考：https://www.modelscope.cn/models?page=1&tasks=speaker-verification&type=audiohttps://github.com/alibaba-damo-academy/3D-Speaker/blob/main/requirements.txt单个声纹比较可以直接modelscope包运行frommodelscope.pipel
基于深度学习的语音识别系统构建周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发语音识别人工智能信号处理
加我微信hezkz17进数字音频系统研究开发交流答疑(课题组)项目内容：1.语音识别系统构建：负责基于kaldi的混合语音识别模型系统的构建，包括训练数据的搜集与处理，模型训练测试、rescore解码流程和上线部署等；2.声纹识别系统构建：使用cnn+aam-softmax的模型结构提取说话人声纹特征(embedding),然后在声纹库内进行声纹相似度的检索匹配；3.语种识别算法：使用类似声纹识别
多分类loss学习记录 weixin_43870390 分类学习数据挖掘
这里简单的记录在人脸识别/声纹识别中常用的分类loss。详细原理可以参考其他博客。扩展资料1扩展资料2L-softmaxA-softmaxAM-softmaxL-softmax：基于softmax加入了margin，Wx改写为||w||||x||cos(角度)，将角度变为了m角度A-softmax：a=Angular，归一化||w||为1，b=0，W*x变成了cos(theta)，只优化角度AM-
进阶课1——声纹识别 AI 智能服务 AI训练师人工智能语音识别深度学习人机交互搜索引擎
声纹识别是一种生物识别技术，也称为说话人识别，包括说话人辨认和说话人确认两种技术。该技术通过将声信号转换成电信号，再使用计算机进行识别，不同的任务和应用会使用不同的声纹识别技术，例如在缩小刑侦范围时可能需要辨认技术，而在银行交易时则需要确认技术。1.概述2.声纹识别原理声纹识别的技术原理可以分为两个主要步骤：特征提取和模式匹配（模式识别）。在特征提取阶段，声纹识别系统会提取并选择对说话人的声纹具有
声纹识别与声源定位（一） shadowismine 语音识别
针对目前智能计算机及大规模数据的发展，依据大脑处理语音、图像数据方法的deeplearning技术应运而生。deeplearning技术是应用于音频信号识别，模仿大脑的语音信号学习、识别的模式。在音频信号处理的过程中，运用deeplearning进行音频数据的特征提取和训练，将大幅度提高音频信号识别的准确性。首先看下Speakerrecognition声纹识别，声纹是由人类的“发音机理”所产生的，
声纹识别与声源定位（二） shadowismine 语音识别
一、引言什么是声源定位(SoundSourceLocalization，SSL)技术？声源定位技术是指利用多个麦克风在环境不同位置点对声信号进行测量，由于声信号到达各麦克风的时间有不同程度的延迟，利用算法对测量到的声信号进行处理，由此获得声源点相对于麦克风的到达方向（包括方位角、俯仰角）和距离等。当谈及到声源定位，我们很容易联想到人耳定位，人的单耳和双耳都具有定位的能力。在单耳定位中，耳廓各部位会
一种基于语音识别的防溺水系统的技术背景李姝瑶语音识别人工智能
基于语音识别的防溺水系统是利用语音识别技术来实现对水中人员溺水情况的检测和预警。语音识别技术是计算机科学中的一个分支，主要用于将人类语音转化为文本或命令，并进行计算机处理。在基于语音识别的防溺水系统中，通常会使用语音识别软件来实现对语音的识别和转化，并通过计算机算法分析语音特征，来判断水中人员是否有溺水的风险。为了提高系统的准确性，通常还会使用其他技术来帮助识别和分析水中人员的声音，比如声纹识别技
样本量极少如何机器学习？看看这篇Few-Shot Learning综述人工智能与算法学习 python 神经网络机器学习人工智能深度学习
1.样本量极少可以训练机器学习模型吗？在训练样本极少的情况下（几百个、几十个甚至几个样本），现有的机器学习和深度学习模型普遍无法取得良好的样本外表现，用小样本训练的模型很容易陷入对小样本的过拟合以及对目标任务的欠拟合。但基于小样本的模型训练又在工业界有着广泛的需求（单用户人脸和声纹识别、药物研发、推荐冷启动、欺诈识别等样本规模小或数据收集成本高的场景），Few-ShotLearning（小样本学习
机器学习同样数量样本和目标_样本量极少如何机器学习？Few-Shot Learning概述士节机器学习同样数量样本和目标
1.样本量极少可以训练机器学习模型吗？在训练样本极少的情况下（几百个、几十个甚至几个样本），现有的机器学习和深度学习模型普遍无法取得良好的样本外表现，用小样本训练的模型很容易陷入对小样本的过拟合以及对目标任务的欠拟合。但基于小样本的模型训练又在工业界有着广泛的需求（单用户人脸和声纹识别、药物研发、推荐冷启动、欺诈识别等样本规模小或数据收集成本高的场景），Few-ShotLearning（小样本学习
ICASSP 2023说话人识别方向论文合集语音之家智能语音人工智能
今年入选ICASSP2023的论文中，说话人识别（声纹识别）方向约有64篇，初步划分为SpeakerVerification（31篇）、SpeakerRecognition（9篇）、SpeakerDiarization（17篇）、Anti-Spoofing（4篇）、others（3篇）五种类型。本文是ICASSP2023说话人识别方向论文合集系列的最后一期，整理了SpeakerRecognitio
指纹、刷脸多灾多难，声纹识别能否崛起成为新主流？ Daffodil_51e5
姓名：李沂配19021210904转载自：http://baijiahao.baidu.com/s?id=1651976625619916831&wfr=spider&for=pc【嵌牛导读】：人们较为熟悉的识别技术就包括有指纹识别和人脸识别，它们广泛应用于手机解锁、移动支付、交通乘坐、安防门禁等场景之中，给人们带来了不少便利。不过，由于安全性方面的问题，当前两者的日子却并不好过。基于声纹识别独特
基于PaddlePaddle实现的声纹识别系统夜雨飘零1 语音 PaddlePaddle 深度学习 paddlepaddle 人工智能声纹识别深度学习
前言本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，不排除以后会支持更多模型，同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，使用了ArcFaceLoss，ArcFaceloss：AdditiveAngularMarginLoss（加性角度间隔损失函数），对应项目中的AAMLo
基于Pytorch实现的声纹识别系统夜雨飘零1 语音 Pytorch 深度学习 pytorch 人工智能 python 声纹识别深度学习
前言本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，不排除以后会支持更多模型，同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，使用了ArcFaceLoss，ArcFaceloss：AdditiveAngularMarginLoss（加性角度间隔损失函数），对应项目中的AAMLo
NeMo 声纹识别VPR-实战 wxl781227 ASR实战人工智能声纹识别声纹验证
声纹识别(VPR)，生物识别技术的一种，也称为说话人识别，是从说话人发出的语音信号中提取声纹信息，从应用上看，可分为：说话人辨认(SpeakerIdentification)：用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；说话人确认(SpeakerVerification)：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。本文主要是识别两个声音是否为同一个人。应用场景
怎样用声纹识别，提升智能硬件产品的用户体验？-转生活的探路者
一、背景当前智能硬件产品中，最耀眼的莫过于百箱大战的智能音箱、百“机”争鸣的智能机器人，这些智能语音产品已逐渐走进百姓的视线中。在智能音箱市场中，且不说国外的AmasonEcho和GoogleHome，仅在国内，去年双十一，天猫精灵99元跳楼价卖了一百万台，还有铺天盖地而来的小爱同学、叮咚音箱、小雅同学、出门问问等。今年，百度推出比天猫精灵还低10元的小度智能音箱，仅卖89元，烧钱大战一个比一个狠
使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别。 zhigongjz 神经网络 CNN卷积 Tensorflow Densenet 语谱图声纹识别
介绍本文介绍一种使用tensorflow框架和densenet神经网路实现声纹语谱图识别算法,即说话人识别。本文侧重一种解决方案的思路，仅做了小批量数据的简单验证，收敛效果良好，还没有做大量数据集的验证，后期会做一些实际的验证，请持续关注。如果乐意与我交流，文章后面有联系方式，随时欢迎。代码地址码云：https://gitee.com/lizhigong/VoiceprintRecognition
使用mondorescue将本机linux centos 7服务器制作成光盘 wuxianfeng1987 Linux
准备重新训练声纹识别，数据集增加了10来G，原来的4台设备完全不够用啊，然后就准备把公司淘汰的i3i5笔记本拿来加入集群，如何快速搭建环境呢，直接将配置好的备份成ios，然后安装，接下来记录下整个流程，感觉以后会用到。步骤：1、wgetftp://ftp.mondorescue.org/centos/7/x86_64/mondorescue.repo[注意要选择ftp下的centos，不然依赖包下
教你windows下配置java环境变量&idea配置maven库（标贝科技） DataBaker标贝科技常用工具 java 语音识别人工智能
配置java环境变量+idea配置maven库（标贝科技）前言配置环境变量是小伙伴们入坑的第一步，本文将一步一步详细介绍，保证大家都能够看懂！！！顺便介绍下：我们是一家致力于智能语音交互的AI公司，我们提供了语音识别、语音合成、声纹识别、声音复刻、声音转换等技术产品供小伙伴们测试调用，感兴趣的，第三部分有详细说明！！！！！一、配置java环境变量下载jdk地址：https://www.oracle
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

kaldi中的声纹识别

kaldi中的声纹识别

文章目录

kaldi的安装

运行aishell例程

使用TIMIT数据库进行声纹识别

kaldi中声纹识别的流程

你可能感兴趣的:(声纹识别)