JamesJuZhang

使用HTK语音工具包进行孤立词识别基础教程

1.前言

本教程主要介绍使用HTK工具包进行孤立词语音识别系统的搭建，主要参考书籍：HTK BOOK

2.孤立词识别系统

在本系统中我们将要实现三个词的识别系统，词汇集为：{brightness,channel,color}

2.1.搭建步骤

A：创建语料库，brightness,channel,color各录制5次。

B：声学分析，把wavform的声音文件转换为mfcc格式。

C：模型定义，为词典里面的每一个词建立一个HMM原型。

D：模型训练，HMM模型初始化和迭代。

E：问题定义，即语法定义。

F：对测试结合进行识别

G：评测

2.2.工作环境的搭建

创建如下目录结构：

(1) data/: 存储训练和测试数据（语音文件、语音标签、特征矢量文件）。

子目录：

data/train/lab

data/train/wav

data/train/mfcc

data/test/lab

data/test/wav

data/test/mfcc

(2) analysis/: 存储声学分析步骤的文件

(3) training/: 存储初始化和训练步骤的文件

(4) model/: 存储识别系统的模型(HMMs)的相关文件。子目录：model/proto

(5) def/: 存储任务定义的相关文件

(6) test:/ 存储测试相关文件

2.3.标准HTK工具选项

一些标准选项对于每个HTK工具都是通用的。

(1) -A: 显示命令行参数

(2) -D: 显示配置设置

(3) -T 1: 显示算法动作的相关信息

完整的选项列表请参见：HTK BOOK

3.语料库的准备

我们来录制{brightness,channel,color}这个三个词的读音。同时每个录音都要进行标注，也就是有一个文本文件与其对应描述它的内容。

3.1.1录音

我们将上述三个词各录制5次，保存为wav格式。

并存放在：

data/train/wav/brightness

data/train/wav/channel

3.2.标注

我们可以用相关的语音处理软件进行标注。

并把标注的文件放到:

data/train/lab/brightness

data/train/lab/channel

data/train/lab/color

标注.lab文件的格式如下：

4.声学分析

从原始的声音文件转换为特征矢量文件：

需要创建的文件：

(1) analysis.conf

创建目录：training/

说明：配置文件，说明了特征矢量的特性

内容：

注：参数意义详见：htkbook

(1) targetlist_train.txt

创建目录：training/

说明：列出源文件和目的的文件的位置，即声音文件和特征文件

内容：

指令：Hcopy -A -D -Ctraining/analysis.conf -S training/targetlist_train.txt

运行结果：

我们会看到：

5.定义HMM

需要创建的文件：

hmm_brightness

hmm_channel

hmm_color

hmm_silb

hmm_sile

创建目录：model/proto

说明：用来定义单词的HMM模型

内容：

hmm_channel:

~o 39

~h "channel"

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0

0.0 0.5 0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0

0.0 0.0 0.5 0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0

0.0 0.0 0.0 0.5 0.5 0.0 0.0 0.0 0.0 0.0 0.00.0

0.0 0.0 0.0 0.0 0.5 0.5 0.0 0.0 0.0 0.0 0.00.0

0.0 0.0 0.0 0.0 0.0 0.5 0.5 0.0 0.0 0.0 0.00.0

0.0 0.0 0.0 0.0 0.0 0.0 0.5 0.5 0.0 0.0 0.00.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.5 0.5 0.0 0.00.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.5 0.5 0.00.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.5 0.50.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.50.5

注：hmm_brightness hmm_color定义方法同channel类似，不过最上面的名字要分别换成channel和color同时状态数目根据每个音素分配2~3个状态，具体可参考：HTKBOOK

hmm_silb:

~o 39

~h "silb"

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.01.0 1.0

0.0 1.0 0.0

0.0 0.5 0.5

0.0 0.0 0.0

注：hmm_sile同hmm_silb，只修改名字就好。

6.HMM 训练

6.1.初始化

需要创建的文件：

(1) trainlist_brightness.txttrainlist_channel.txt trainlist_color.txt trainlist_silb.txt trainlist_sile.txt

创建目录：training/

说明：特征矢量文件路径

内容：

(2) hmm0目录

创建目录：model/

说明：初始化后的HMM模型存放的位置

指令：

Hinit -A -D -T 1 -S training/trainlist_brightness.txt -M model/hmm0 -Hmodel/proto/hmm_brightness -l brightness -L data/train/lab/brightnessbrightness

Hinit -A -D -T 1 -S training/trainlist_channel.txt -M model/hmm0 -Hmodel/proto/hmm_channel -l channel -L data/train/lab/channel channel

Hinit -A -D -T 1 -S training/trainlist_color.txt -M model/hmm0 -Hmodel/proto/hmm_color -l color -L data/train/lab/color color

Hinit -A -D -T 1 -S training/trainlist_silb.txt -M model/hmm0 -Hmodel/proto/hmm_silb -l silb -L data/train/lab/brightness silb

Hinit -A -D -T 1 -S training/trainlist_sile.txt -M model/hmm0 -Hmodel/proto/hmm_sile -l sile -L data/train/lab/brightness sile

初始化之后我们可以再hmm0文件夹中看到：

6.2.训练

需要创建的目录：

hmm1

hmm2

hmm3

创建位置： model/

每次，HRest迭代（即当前再估计迭代中的迭代）显示在屏幕上，通过change

量度标示收敛性。一旦这个量度值不再从一个HRest迭代到下个迭代减少（绝对值），过程就该停止了，迭代一般2-3次就可以了。

指令：

HRest -A -D -T 1 -S training/trainlist_brightness.txt -M model/hmm1 -Hmodel/hmm0/hmm_brightness -lbrightness -L data/train/lab/brightnessbrightness

HRest -A -D -T 1 -S training/trainlist_brightness.txt -M model/hmm2 -Hmodel/hmm1/hmm_brightness -lbrightness -L data/train/lab/brightnessbrightness

HRest -A -D -T 1 -S training/trainlist_brightness.txt -M model/hmm3 -Hmodel/hmm2/hmm_brightness -lbrightness -L data/train/lab/brightnessbrightness

HRest -A -D -T 1 -S training/trainlist_channel.txt -M model/hmm1 -Hmodel/hmm0/hmm_channel -l channel -L data/train/lab/channel channel

HRest -A -D -T 1 -S training/trainlist_channel.txt -M model/hmm2 -Hmodel/hmm1/hmm_channel -l channel -L data/train/lab/channel channel

HRest -A -D -T 1 -S training/trainlist_channel.txt -M model/hmm3 -Hmodel/hmm2/hmm_channel -l channel -L data/train/lab/channel channel

HRest -A -D -T 1 -S training/trainlist_color.txt -M model/hmm1 -Hmodel/hmm0/hmm_color -l color -L data/train/lab/color color

HRest -A -D -T 1 -S training/trainlist_color.txt -M model/hmm2 -Hmodel/hmm1/hmm_color -l color -L data/train/lab/color color

HRest -A -D -T 1 -S training/trainlist_color.txt -M model/hmm3 -Hmodel/hmm2/hmm_color -l color -L data/train/lab/color color

HRest -A -D -T 1 -S training/trainlist_silb.txt -M model/hmm1 -Hmodel/hmm0/hmm_silb -l silb -L data/train/lab/brightness silb

HRest -A -D -T 1 -S training/trainlist_silb.txt -M model/hmm2 -Hmodel/hmm1/hmm_silb -l silb -L data/train/lab/brightness silb

HRest -A -D -T 1 -S training/trainlist_silb.txt -M model/hmm3 -Hmodel/hmm2/hmm_silb -l silb -L data/train/lab/brightness silb

HRest -A -D -T 1 -S training/trainlist_sile.txt -M model/hmm1 -Hmodel/hmm0/hmm_sile -l sile -L data/train/lab/brightness sile

HRest -A -D -T 1 -S training/trainlist_sile.txt -M model/hmm2 -Hmodel/hmm1/hmm_sile -l sile -L data/train/lab/brightness sile

HRest -A -D -T 1 -S training/trainlist_sile.txt -M model/hmm3 -Hmodel/hmm2/hmm_sile -l sile -L data/train/lab/brightness sile

7.任务定义

7.1 建立语法规则和字典

需要创建的文件：

(1) gram.txt

创建的目录：def

说明：在使用我们的单词模型之前，要定义识别器的基本结构（任务语法）。我们首先定义最简单的语法：开始停顿、接着简单单词（这里指brightness,channel, color）、结束停顿。

内容：

注：用括号{}括住START_SIL和END_SIL表示其可不存在或者重复多次（允许在单词之前或之后长时间的停顿，或者根本没有停顿）。括号[]括住$WORD表示零个或一次出现（如果没有单词，可能只是识别停顿）。

(2) dict.txt

创建的目录：def

说明：系统要知道HMM模型与语法变量BRIGHTNESS、CHANNEL、COLOR、START_SIL和END_SIL的对应关系。这种信息存储在文本文件中，命名为任务字典。

内容：

7.2.网络

建立任务网络：

生成的文件：net.slf

命令：Hparse -A -D -T 1def/gram.txt def/net.slf

运行结果：

8.识别

8.1.准备测试数据

需要准备的文件：

(1) hmmlist.txt

创建的目录：test/

说明：列出了要使用的模型的名字(brightness,channel,color,silb,sile) ，每个一行，最后要加一个空行。

内容：

(2) targetlist_test.txt

创建的目录：test/

内容：

命令：

Hcopy -A -D -C test/analysis.conf -S test/targetlist_test.txt

8.2.识别

基本方法：

需要创建的文件：

(1) result文件夹

(2) reco.mlf

创建的目录：result/

初始内容：

#!MLF!#

(3) hmmsdef.mmf

创建的目录：test

命令等同于：

-H model/hmm3/hmm_brightness -H model/hmm3/hmm_channel -H model/hmm3/hmm_color -H model/hmm_silb -H model/hmm3/hmm_sile

内容：hmm3中的所有文件的内容一起粘贴。

注意：只保留一个"~O"

命令：

Hvite -A -D -T 1 -H test/hmmsdef.mmf -i result/reco.mlf -w def/net.slfdef/dict.txt test/hmmlist.txt data/test/mfcc/brightness/brightness1.mfcc

结果会在reco.mlf中显示：

交互方式：

需要创建的文件：

directin.conf

创建的目录：test

说明：是Hvite的配置文件，允许使用直接音频输入，为了允许从输入信号中直接提取声学系数，这个文件必须包含前面训练数据使用的声学分析配置参数。

内容：

指令：

Hvite -A -D -T 1 -C test/directin.conf -g -H test/hmmsdef.mmf -wdef/net.slf def/dict.txt test/hmmlist.txt

9.性能测试

9.1.主标签文件

在性能评测之前，我们需要创建两个文件，命名为主标签文件，扩展名是.mlf：

·第一个文件包含整个训练集的正确副本，即是通过手工标注的副本。把ref.mlf记作参考副本。

·第二个文件包含整个测试集的识别副本，即识别器产生的假设副本。把reco.mlf记为识别副本。

通过比较每项数据的参考副本和识别假设，进行性能评测。

内容：

ref.mlf

需要创建的文件：testlist.txt

说明：测试路径

内容：

命令：

Hvite -A -D -T 1 -S test/testlist.txt -H test/hmmsdef.mmf -iresult/reco.mlf -w def/net.slf def/dict.txt test/hmmlist.txt

运行之后会看到：

reco.mlf中：

9.2.错误率

需要创建的文件：

labellist.txt

说明：出现在副本文件中的标签列表

创建的目录：result

内容：

results.txt

创建的目录：result

说明：存放错误率结果

命令：

HResults -A -D -T 1 -e ??? sil -I result/ref.mlf result/labellist.txt result/reco.mlf > result/results.txt

最后显示结果为：

注：由于选取的数据集很小只有9个词，非常有限，所以识别率是100%。

第一行（SENT）给出句子的识别率（%Correct=100.00），第二行（WORD）给出的是单词的识别率（%Corr=100.00）。上图中，这两个比率是相同的，这是因为我们的任务语法仅使用一个单词（除了停顿之外）作为句子。这是孤立词识别任务。这里只要考虑第一行（SENT）就够了。H=9 给出的是测试数据被正确识别的数量，S=0，表示识别相反的数量。N=0表示测试数据总数。

10.总结

以上就是利用HTK来进行孤立词识别的搭建过程。希望能够对大家有所帮助，另外具体的各个细节还需要参考HTK BOOK仔细的斟酌和考虑。

你可能感兴趣的:(Speech,Recognition)

成功编译和运行roslaunch qbo_webi qbo_webi.launch(解决qbo_object_recognition之后的其他问题) 皮熊 ROS框架 opencv qbo robot
折腾一天的问题，SurfFeatureDetectortype-specifier问题解决了。需要在cv.h中添加includenonfree/features2d.hpp。fromposter.encodeimportmultipart_encodeImportError:Nomodulenamedposter.encodesudoapt-getinstallpython-postersudoa
使用vue3实现语音交互的前端页面张正栋交互前端
代码地址：https://github.com/ZZD3627/my-third-vue.git需求1.前端实现录音并将音频传到通过http请求将音频传递到后端2.基于后端识别的语音及后端返回的内容进行语音沟通实现1.使用MediaRecorder在前端使用录音功能2.使用SpeechSynthesis实现将后端传来的文字进行播放其中一个页面的代码：import{ref,onMounted}fro
使用vue3实现语音交互的前端页面 Rverdoser 交互前端
要在Vue3中实现语音交互的前端页面，你可以使用WebSpeechAPI。以下是一个简单的例子，展示了如何在Vue3组件中集成语音识别（speechrecognition）和语音合成（speechsynthesis）功能。首先，确保你的项目中安装了vue3。npminstallvue@next然后，创建一个Vue组件：开始录音开始播放import{ref}from'vue';constSpeech
微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)
不能否认，微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的，一如ChatGPT在NLP领域的随心所欲，予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术，其影响力由此可见一斑，仅有的白璧微瑕之处就是价格略高，虽然国内也可以使用科大讯飞语音合成进行平替，但我们只想要最好的那一个，本次我们使用免费的开源库edge-tts来实现文本转语
第八周的点滴记录 aefb1b6871b5
1.由于各种主客观原因，这周开了初一年级的第一次家长会，我们一班的家长来得不多，但是方便了一对一的沟通。在家长会开始前播放了皮克斯《包包包》给家长们看，引起部分家长的共鸣，差点泪目。2.在六班开始了dailyspeech，按照学号轮流每天课前三分钟内的英语演讲.我给孩子们提供了获取演讲灵感的途径，例如TED,Chinadaily，留学征途等。让我印象深刻的是汤义讲了最近高校流行的payforpra
VITS 源码解析2-模型概述迪三 #NN_Audio 音频人工智能
VITs是文本到语音(Text-to-Speech,TTS)任务中最流行的技术之一，其实现思路是将文本语音信息融合到了HiFiGAN潜空间内,通过文本控制HiFiGAN的生成器，输出含文本语义的声音。VITs主要以GAN的方式训练,其生成器G是SynthesizerTrn，判别器D是MPD。VITS的判别器几乎和HiFiGAN一样，生成器则融合了文本、时序、声音三大类模型1.文件概述模型部分包含三
Python中用于从图像中提取文本的8大OCR库 woshicver python ocr 开发语言
介绍你是否曾想过你的电脑如何能够从图像中读取文字？这都要归功于一种叫做光学字符识别（OpticalCharacterRecognition,OCR）的技术。在Python中，有一些非常酷的库可以帮助你的电脑理解图片中的文字。从谷歌强大的Tesseract到EasyOCR时髦的深度学习，这些库能够做一些非常了不起的事情。让我们来看看Python中的OCR库，了解这些库是如何将图像转换成可读文字的吧！
QT DAY4 _shenash qt 开发语言
作业：要求做一个闹钟clock.proQT+=coreguitexttospeechmain.cpp#include"widget.h"intmain(intargc,char*argv[]){QApplicationa(argc,argv);Widgetw;w.show();returna.exec();}widget.cpp#include"widget.h"Widget::Widget(QW
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.25-2024.08.01 小小帅AIGC VLM论文时报人工智能语言模型自然语言处理 VLM 大语言模型计算机视觉视觉语言模型
文章目录～1.PayingMoreAttentiontoImage:ATraining-FreeMethodforAlleviatingHallucinationinLVLMs2.MTA-CLIP:Language-GuidedSemanticSegmentationwithMask-TextAlignment3.MarvelOVD:MarryingObjectRecognitionandVisi
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
FunASR 语音识别系统概述瑞雪兆我心语音识别人工智能
FunASR（AFundamentalEnd-to-EndSpeechRecognitionToolkit）是一个基础的语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复（PR）、语言模型（LM）、说话人分离等。项目源地址1语音识别（ASR）参考语音交互：聊聊语音识别-ASR（万字长文）语音识别技术（AutomaticSpeechRecognition,ASR）
使用PyTorch实现的DeepSpeech模型: 强大的语音识别利器毕艾琳
使用PyTorch实现的DeepSpeech模型:强大的语音识别利器deepspeech.pytorchSpeechRecognitionusingDeepSpeech2.项目地址:https://gitcode.com/gh_mirrors/de/deepspeech.pytorch在今天的数字化世界中，语音识别技术已成为人机交互的关键组成部分。deepspeech.pytorch是一个由Sea
Peter Pan 33 Mr_Oldman
Therecametohimapresentimentofhisearlydissolution(death).ItwasasifPeter'sterribleoathhadboardedtheship.Hookfeltagloomydesiretomakehisdyingspeech,lestpresentlythereshouldbenotimeforit.{1}"BetterforHook,
MB-iSTFT-VITS 项目教程邱敬镇
MB-iSTFT-VITS项目教程MB-iSTFT-VITSLightweightandHigh-FidelityEnd-to-EndText-to-SpeechwithMulti-BandGenerationandInverseShort-TimeFourierTransform项目地址:https://gitcode.com/gh_mirrors/mb/MB-iSTFT-VITS项目介绍MB-
推荐项目：VITS2 Chinese - 轻松转化你的中文语音至文本傅尉艺Maggie
推荐项目：VITS2Chinese-轻松转化你的中文语音至文本VITS2-ChineseVITS2forChinesespeech|最新VITS2中文语音合成项目地址:https://gitcode.com/gh_mirrors/vi/VITS2-Chinese项目介绍VITS2Chinese是一个针对中文语音的自动转文字工具，它简化了传统语音识别的复杂流程，让用户只需上传音频文件，就能一键完成语
探索MB-iSTFT-VITS：一款高效的语音合成工具张姿桃Erwin
探索MB-iSTFT-VITS：一款高效的语音合成工具MB-iSTFT-VITSLightweightandHigh-FidelityEnd-to-EndText-to-SpeechwithMulti-BandGenerationandInverseShort-TimeFourierTransform项目地址:https://gitcode.com/gh_mirrors/mb/MB-iSTFT-V
亚马逊云科技大语言模型加速OCR应用场景发展热爱coding的星辰 ocr 自然语言处理人工智能 aws
大语言模型是一种基于神经网络的自然语言处理技术，它能够学习和预测自然语言文本中的规律和模式，可以理解和生成自然语言的人工智能程序。在大型语言模型中，神经网络模型可以通过学习大量的语言数据，自动提取自然语言文本中的特征和模式，以实现自然语言的理解和生成。OCR技术（OpticalCharacterRecognition）是一种广泛应用的人工智能技术，在大语言模型基础上，能够从文档或图像中提取文本、手
halcon深度学习4：深度学习在 OCR的用法-deep_ocr_workflow解析 mlxg99999 halcon深度学习自学
1.什么是OCR技术OCR，全称是OpticalCharacterRecognition,即光学字符识别，面向扫描文件。但是由于现在数字图像的普及，这里泛指文字检测和识别，包括扫描文档和自然场景的文字识别。2、deep_ocr_workflow在深度学习中，只有一篇例子关于OCR就是这一篇，文中介绍了深度OCR模型的建立与使用（如果使用过计量模型的可以较好理解，就是建立模型→设置参数→导入图片→进
中文车牌识别系统 `End-to-end-for-Chinese-Plate-Recognition` 教程皮静滢Annette
中文车牌识别系统End-to-end-for-Chinese-Plate-Recognition教程End-to-end-for-chinese-plate-recognition基于u-net，cv2以及cnn的中文车牌定位，矫正和端到端识别软件，其中unet和cv2用于车牌定位和矫正，cnn进行车牌识别，unet和cnn都是基于tensorflow的keras实现项目地址:https://gi
探索未来之声：GLaDOS 文本转语音引擎卓桢琳Blackbird
探索未来之声：GLaDOS文本转语音引擎项目地址:https://gitcode.com/R2D2FISH/glados-tts在科技的无垠领域中，有一项创新正悄然改变我们与机器交流的方式——GLaDOSText-to-speech(TTS)VoiceGenerator。想象一下，拥有一个如同游戏《传送门》中的智能助手般独特且富有表现力的声音，这不再仅仅是科幻梦想。GLaDOSTTS，基于神经网络
Keras-OCR：高效且易用的深度学习 OCR 库吕真想Harland
Keras-OCR：高效且易用的深度学习OCR库keras-ocrApackagedandflexibleversionoftheCRAFTtextdetectorandKerasCRNNrecognitionmodel.项目地址:https://gitcode.com/gh_mirrors/ke/keras-ocr是一个基于Python的开源库，它利用[Keras](https和TensorFl
AI语音机器人：通过 Azure Speech 实现类人类的交互全云在线allcloudonline 人工智能机器人 azure
语音对话的重要性在竞争日益激烈的客户互动领域，人工智能语音对话正成为重中之重。随着数字参与者的崛起，组织认识到语音机器人的强大力量，它是一种自然而直观的沟通方式，可以提供类似人类的体验，深度吸引用户，并让他们从竞争对手中脱颖而出。无缝客户服务、个性化协助和即时信息访问的需求推动了对高质量语音交互的需求不断增长。此外，随着公司努力保留和扩大收入，跨越语言障碍接触更多样化的客户群变得至关重要，这使得多
Python知识点：如何使用Python实现语音识别超哥同学 Python系列 python 语音识别 xcode 编程面试
要在Python中实现语音识别，你可以使用SpeechRecognition库，它是一个功能强大的库，能够识别音频中的语音并将其转换为文本。下面是一个简单的示例代码，展示如何使用这个库进行语音识别。步骤1：安装依赖库首先，你需要安装SpeechRecognition库和pyaudio库。你可以使用以下命令安装这些库：pipinstallSpeechRecognitionpipinstallpyau
开源语音转文本Speech-to-Text大模型实战之Wav2Vec篇码上飞扬 Wav2Vec 文本转语音人工智能 Speech-to-Text
前言近年来，语音转文本（Speech-to-Text,STT）技术取得了长足的进步，广泛应用于各种领域，如语音助手、自动字幕生成、智能客服等。本文将详细介绍如何利用开源语音转文本大模型进行实战，从模型选择、环境搭建、模型训练到实际应用，带您一步步实现语音转文本功能。一、模型选择目前，市面上有许多优秀的开源语音转文本模型可供选择，其中一些流行的模型包括：DeepSpeech：由Mozilla开源，基
逆水行舟，不进则退舒乔终身成长
昨天例会做了一篇speech，匆匆写稿，完全没有rehearsal。结果嘛，当然不尽人意。首先，noticeablenerviness。紧张偶尔会有，但都controllable，毕竟按我的马龄，也算是个老司机，可被人看出，也是头一遭。原因嘛，也不言而喻。最近半年，参会频率和发言频率都太低，练习太少，至今还未完全适应ZOOMmeeting。此外，昨天一天其实没有什么安排，可却拖延到下午四点来钟才开
AdventureCreator学习笔记13：脸部表情 AlpacasKing
BlendShape设置在模型上添加Shapeable脚本，可以添加表情组，然后在表情组里可以添加表情。BlendShape设置表情设置在NPC脚本上，还需要添加表情，名字与表情组相同。表情设置使用表情可以在ActionList中添加新的Action，也可以直接写在对话文本中。使用表情嘴型设置对话时根据内容嘴型可以相应变化。首先在ACGameEditor的Speech选项卡开启Lipsyncing
ITTS, VALL-E,soundstorm 0010000100 PyTorch 人工智能
ITTS,VALL-E,andSoundStormarealladvancedtechnologiesandmodelsrelatedtospeechandaudioprocessing.ITTS(InteractiveText-to-Speech):ITTSusuallyreferstoaText-to-Speech(TTS)systemthatallowsinteractivecontrolo
探索创新语音识别：IMS Toucan - 你的智能语音解决方案班歆韦Divine
探索创新语音识别：IMSToucan-你的智能语音解决方案IMS-ToucanText-to-SpeechToolkitoftheSpeechandLanguageTechnologiesGroupattheUniversityofStuttgart.Objectivesofthedevelopmentaresimplicity,modularity,controllabilityandmulti
再一次用RAlN 文迪蓉蓉
学正念时，应对困难情绪的一个方法是RAIN！RAIN分别指——识别（Recognition）、接受（Acceptance）、探究（Investigation）和非认同（Nonidentificaition）。我们知道情绪只是情绪，当我们不把情绪等同于我们自身的全部时，就会发现情绪不停地起起落落，升起又散去，既不是与生俱来的，也不是一成不变的。它产生于特定的状况，从外面进来，像一个突然造访的客人。运
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本