kaldi-语音识别第38页

NLP 自然语言处理之综述

文本朗读（Texttospeech）/语音合成（Speechsynthesis）语音识别（Speechre

ak18888·2023-01-31 09:10

kinect学习总结

2）语音识别——识别用户的语音命令，其算法分析来自麦克风阵列的数据。3）脸部追踪——识别用户脸上的特征点，其算法分

焦家生活圈·2023-01-31 09:12

audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等

语音识别

深圳十八子·2023-01-31 08:50

详解ASR语音标注场景下的VAD语音端点检测丨曼孚科技

20世纪50年代，人类开启了对机器语音识别的探索历程。60年后的2016年，在深度神经网络技术的帮助下，机器语音识别的准确率第一次达到了与人类相近的水准，智能语音产品进入大规模商业化应用阶段。

曼孚科技·2023-01-31 08:50

ASR识别（自动语音识别）

的实现可分为pipeline或者end2end思路，其中主要区别在于声学模型的识别单元上：词模型字发音模型半音节模型音素模型模型识别单元大小(词发音模型、字发音模型、半音节模型或音素模型)对语音训练数据量大小、语音识别率

编程大乐趣·2023-01-31 08:50

beam search（束搜索）与 vliterbi（维特比算法）；语音识别算法vad、asr、tts

vliterbi（维特比算法）动态规划维特比使用场景：前后状态结果间无关系，相互独立。因而使用在HMM，CRF这样的输出场景中。是全局最优解。beamsearch（束搜索）参考：https://zhuanlan.zhihu.com/p/82829880贪心算法beamSearch：结果之间有依赖关系。例如：翻译模型、transformer，因为输出依赖与上一个结果的输入。是局部最优解vad语音端点

loong_XL·2023-01-31 08:49

ASR项目实战-决策点

ASR项目实战-决策点针对语音识别的产品，分别记录设计、开发过程中的决策点。实时语音识别对于实时语音识别来说，客户端和服务端之间实时交换语音数据和识别的结果。

小南家的青蛙·2023-01-31 08:49

flac - 安装使用

运行kaldi-

伊织code·2023-01-31 07:35

语音交互流程

一、流程概述语音交互的完整流程大致为：唤醒→语音识别（ASR）→自然语音处理（NLP）→语音合成（TTS）可以类比为：打招呼→耳朵→大脑→嘴巴二、步骤详解1、唤醒（1）定义：将设备从休眠态变为工作态（2

西瓜古古丫·2023-01-30 23:31

因为 AI 所以爱

给谢霆锋的《因为爱所以爱》歌词添加注释不是为了什么回报，所以关怀#AI不求回报不是为了什么明天，所以期待#未来已来因为我是一个人，只能够对感觉坦白#灵魂（算法）即人，而非人形躯体只是为了你一句话，我全身摇摆#语音识别只是为了一个笑容

display3d·2023-01-30 19:10

基于卷积神经网络的多类别乳腺癌分类(IEEE会议)

卷积神经网络(CNN)是一种特殊类型的深度学习，在语音识别、图像识别和分类等领域取得了许多成就。在本文中，

despacito,·2023-01-30 18:26

TensorFlow中tf.Graph()函数

TensorFlow可被用于语音识别或图像识别等多项机器深度学习领

Never-Giveup·2023-01-30 17:09

vue2使用wangEditor

包括语音识别、机器翻译等从基础到实战都有，很详细，分享给大家。大家及时保存，说不定啥时候就没了。

Mr.Meng_95·2023-01-30 15:11

语音识别卷积神经网络,卷积神经网络图像识别

卷积神经网络有哪些改进的地方卷积神经网络的研究的最新进展引发了人们完善立体匹配重建热情。从概念看，基于学习算法能够捕获全局的语义信息，比如基于高光和反射的先验条件，便于得到更加稳健的匹配。目前已经探求一些两视图立体匹配，用神经网络替换手工设计的相似性度量或正则化方法。这些方法展现出更好的结果，并且逐步超过立体匹配领域的传统方法。事实上，立体匹配任务完全适合使用CNN，因为图像对是已经过修正过的，因

普通网友·2023-01-30 14:06

Kaldi入门：yesno项目

这个学期选了一门自然语言处理课，结果这门课主要的研究课题是自动语音识别（ASR）。既然入了这个坑。就先好好了解一下如何做ASR吧。老师TomKo要求使用Kaldi这个工具来做ASR。

陈闽ChenMin·2023-01-30 04:12

谷歌四次通过图灵测试，全是科技弥天大慌

实际上，谷歌的语音识别和语音合成技术的智能为零。通过图灵测试的最低标准为30%，计算机前沿国际会议:图灵测试测共15道题；只要谷歌能都答对一题，也就是标准降

Ubit·2023-01-29 20:35

9. 深度学习携手大数据引领第三次AI热潮——何为深度学习？

作者|Harper审核|gongyouliu编辑|auroral-L我们上次说到了语音识别。并且也说到语音识别系统在近年来突飞猛进，技术上的原因就是深度学习！

数据与智能·2023-01-29 10:24

崔岩的笔记——动态时间规整算法（Dynamic Time Warping，DTW）

举个例子：该算法最早的应用对象是语音识别，通过进行数据库语音特征和说话语音特征的相似度比较进行语音识别，但每个人说话的语速有所不同。

今天也是睡觉的一天·2023-01-29 09:31

使用OpenAI的Whisper 模型进行语音识别

语音识别是人工智能中的一个领域，它允许计算机理解人类语音并将其转换为文本。该技术用于Alexa和各种聊天机器人应用程序等设备。而我们最常见的就是语音转录，语音转录可以语音转换为文字记录或字幕。

deephub·2023-01-29 09:31

ARM64 指令集架构学习之二--ARM与RISC-V的向量扩展比较

因为自动驾驶、语音识别、图像识别都是基于机器学习，并且机器学习都是关于矩阵和向量的。但这不是唯一的原因。自从我们半官方地宣布摩尔定律结束以来，我们一直在拼命寻找更多的性能。

清钟沁桐·2023-01-29 07:45

ASR项目实战-架构设计

需求清单对于语音识别产品而言，需满足的需求，举例如下：功能需求文件转写。长文件转写，时长大于60秒，小于X小时，X可以指定为5。短文件转写，时长小于60秒。实时语音识别。

小南家的青蛙·2023-01-29 07:08

情感语音识别---特征提取

1、首先是读取语音：首先要知道语音信号常见的有：*.txt文本文件和*.wav语音文件；为什么会有*.txt文件？这个很好理解，对于*.wav可以理解为以为时间信号，经过采样之后就变成了离散的点，即为*.txt文件存放的一堆数字。接下来，看一下读取语音信号的两种方式：（注意这里使用的是MATLAB代码）Example1：（*.txt--即把采样点读取出来）fid=fopen('happy.txt'

夜幕下的光123·2023-01-29 07:06

语音情绪识别

语音识别系统得益于廉价的硬件设备，大多数的计算机都有声卡和麦克风，也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化，所以必须使用生物识别模板。

编程大乐趣·2023-01-29 07:05

语音识别的基本方法

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法[1]。

xiaoding133·2023-01-28 16:54

神经网络语音识别,神经网络语音合成

语音信号处理的应用极为广泛，其中的主要技术包括语音编码、语音合成、语音识别和语音增强等。本文选取语音识别作为重点讨论课题。语音识别就是让计算机听懂人的话，并做出正确的反应。

普通网友·2023-01-28 16:22

matlab实现mel频谱,基于MATLAB和Python实现MFCC特征参数提取

1、MFCC概述在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面，最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequencyCepstralCoefficients

nlua·2023-01-28 15:14

使用OpenAI的Whisper 模型进行语音识别

语音识别是人工智能中的一个领域，它允许计算机理解人类语音并将其转换为文本。该技术用于Alexa和各种聊天机器人应用程序等设备。而我们最常见的就是语音转录，语音转录可以语音转换为文字记录或字幕。

·2023-01-28 10:14

从Encoder-Decoder到Attention

参考大白话浅谈注意力机制64注意力机制【动手学深度学习v2】Attention机制详解（二）——Self-Attention与TransformerEncoder-Decoder架构文本处理和语音识别的

HDU-Dade·2023-01-28 08:29

【读书笔记】1. 机器学习入门（100个案例搞懂人工智能）

该领域的研究对象包括：机器人、语音识别、图像识别、自然语言处理、专家系统等。

卫亮·2023-01-28 06:32

大数据，人工智能背后的基石

如今人工智能的商业化正在快速发展，例如我们熟知的人像识别、图像识别、语音识别、自然语言处理、用户画像等等。对于未来而言，人工智能会在生活的方方面面发挥更多的作用。

科多剑小纯·2023-01-28 01:31

MFCC：Mel频率倒谱系数

应用：MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。

rmx4046·2023-01-27 10:40

语音识别ASR和NLP有什么区别？

最后背景语音识别中有两种技术分别是ASR和NLP，ASP是将语音识别转换成文本的技术，而NLP是自然语言，是理解和处理文本的过程，相当于解析器。ASR是什么？

逍遥壮士·2023-01-27 10:10

自然语言处理（NLP）和语音识别（ASR）的区别

一、两者的概念ASR：语音识别。通俗的来讲，就是将语音信号转化成文字文本，并加以输出（显示在屏幕上面）。这个过程，机器并不知道你说的是什么，可以说就是单单的实现了两种信号的转化。

头上化佛·2023-01-27 10:08

【NLP】自然语言处理学习笔记（一）语音识别

前言本笔记参考的课程是李宏毅老师的自然语言处理课程Link：https://aistudio.baidu.com/aistudio/education/lessonvideo/1000466TokenToken是模型的输出形式，以上图语音识别为例

zstar-_·2023-01-27 10:37

数据分析-深度学习 Pytorch Day8

另外你需要记住RNN的特点，RNN对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，利用了RNN的这种能力，使深度学习模型在解决语音识别、语

小浩码出未来！·2023-01-27 09:51

关于2022年chatGPT大火的思考

语音识别、自动翻译、苹果的Siri、微软的Cortana等都是NLP科技发展的具体方向和产品体现。在媒体的链式宣传下，社会面产生“颠覆性技术”的认知。

Memmat·2023-01-27 08:08

[ML] "Hey,Siri" --- Small-footprint Keyword Spotting语音唤醒技术

当然大的来说，这是个语音识别问题，但是完全按照NLP(Neuro-LinguisticProgramming)来处理，那未免在功耗和效率上都会产生极大的损耗和低效。

pingpong_龘·2023-01-27 07:58

语音识别遇到的一些问题总结

语音识别遇到的一些问题总结1，问题一（recognitionconnectionfailed:[WinError10060]）代码解决方案2，问题二（pygame.error:mpg123_seek:InvalidRVAmode

xiaiming0·2023-01-27 07:31

用ffmpeg提取知乎live中的音频数据

知乎live中的音频实际文件格式为mp4，我使用的是百度语音识别API，百度语音识别API只支持PCM，WAV以及AMR。因此想到用ffmpeg来做转换。

北冥Master·2023-01-26 20:13

递归神经网络LSTM详解：为什么用sigmoid，tanh不用relu？

递归神经网络因为具有一定的记忆功能，可以被用来解决很多问题，例如：语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。2.LSTM长时依赖是这样的一个问题，当预测点与依赖

nnnancyyy·2023-01-26 19:57

2020-07-09

大家好我们来看一下如何语音转文字也可以叫做录音转文字语音识别视频转文字就是把音频或者视频文件转换成文字然后生成一个文本文件我们来看一下怎么做首先打开这个网站极简字幕网址是yinzhuanwen.com电脑

趣味编程·2023-01-26 18:22

WAV2VEC：语音识别非监督预训练模型

在图像、NLP领域，预训练已大放异彩，而语音识别领域尚缺乏。本文提的WAV2VEC就是语音识别方面的非监督预训练模型，也如论文题目所说。

AI强仔·2023-01-26 17:23

2.FINE-TUNING WAV2VEC2 FOR SPEAKER RECOGNITION

摘要：本文探讨了将wav2vec2框架应用于说话人识别而不是语音识别。我们研究了预先训练的权重对说话人识别任务的有效性，以及如何将wav2vec2输出序列汇集到固定长度的说话人嵌入中。

一根藤～·2023-01-26 17:52

Audio-预训练模型-2019：wav2vec【利用自监督方式训练得到每一帧音频文件的表示（相对于机理特征的优势：可以融入上下文信息）；替换MFCC等通过机理得到的特征】

UnsupervisedPre-trainingforSpeechRecognition该模型非完整的ASR，而是一个将wav通过标记的、未标记的数据，通过无监督的方式进行训练，得到可以送入ASR中的向量；以提升ASR的准确率；一、介绍当前用于语音识别的最新模型需要大量标记好的音频数据才能获得良好的性能

u013250861·2023-01-26 17:22

WAV2VEC:针对语音识别的无监督预训练

WAV2VEC:UNSUPERVISEDPRE-TRAININGFORSPEECHRECOGNITION概要本文使用大量的无标签数据集去预训练wav2vec模型，从而提升声学模型效果。本文训练的模型在性能上超越了DeepSpeech2，在nov92测试集上，WER达到了2.43%。1简介预训练在深度学习算法中是一个很常用的方法，主要作用是能提升模型性能，即使是在当前带标签数据集的很少的情况下。主要

DataBaker标贝科技·2023-01-26 17:21

python图灵智能语音聊天机器人

实现目的：借助百度AI的语音识别和语音合成，以及图灵机器人来实现智能语音聊天机器人文章目录1.图灵机器人的创建2.录音功能的实现3.百度AI接口创建4.语音合成技术的实现5.如何将合成的语音在python

lifetruth123·2023-01-26 12:46

音频基础说明

目前由于语音识别技术的发展，人机语音交互也是语音的一个应用方向，很多大厂推出智能音箱、语音助手等。音乐主要用于欣赏和陶冶情操，如播放音乐。音频的基础概念主要包括采样、采样率、声道、音频编解码、码率等。

风间净琉璃·2023-01-26 10:18

语音识别智能家居控制设计

目录一、方案流程及技术规格书设计二、系统硬件电路设计三、软件编写及调试四、系统调试测试与分析前言随着科学技术的快速发展，人们对生活品质的要求也不断提高，开始追求更好更方便的生活方式。因此，智能家居系统应运而生。智能家居控制系统（smarthomecontrolsystems），是以智能家居系统为平台，对家居电器及家电设备自动控制。提升家居智能、安全、便利、舒适。传统的家居智能控制系统一般采用集中控

cc ²ᶜ·2023-01-26 10:47

「构建企业级推荐系统系列」深度学习在推荐系统中的应用

经过这几年的发展，深度学习技术已经在图像分类、语音识别、自然语言处理等领域取

数据与智能·2023-01-26 10:09

信号处理——梅尔滤波器（MFCC）

信号处理——梅尔滤波器（MFCC）一、概述在语音识别（SpeechRecognition）和话者识别（SpeakerRecognition）方面，最常用到的语音特征就是梅尔倒谱系数（Mel-scaleFrequencyCepstralCoefficients

Fred_27·2023-01-26 09:20

推荐频道

kaldi-语音识别

NLP 自然语言处理之综述

kinect学习总结

audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等

详解ASR语音标注场景下的VAD语音端点检测丨曼孚科技

ASR识别（自动语音识别）

beam search（束搜索）与 vliterbi（维特比算法）；语音识别算法vad、asr、tts

ASR项目实战-决策点

flac - 安装使用

语音交互流程

因为 AI 所以爱

基于卷积神经网络的多类别乳腺癌分类(IEEE会议)

TensorFlow中tf.Graph()函数

vue2使用wangEditor

语音识别 卷积神经网络,卷积神经网络 图像识别

Kaldi入门：yesno项目

谷歌四次通过图灵测试，全是科技弥天大慌

9. 深度学习携手大数据引领第三次AI热潮——何为深度学习？

崔岩的笔记——动态时间规整算法（Dynamic Time Warping，DTW）

使用OpenAI的Whisper 模型进行语音识别

ARM64 指令集架构学习之二--ARM与RISC-V的向量扩展比较

ASR项目实战-架构设计

情感语音识别---特征提取

语音情绪识别

语音识别的基本方法

神经网络 语音识别,神经网络语音合成

matlab实现mel频谱,基于MATLAB和Python实现MFCC特征参数提取

使用OpenAI的Whisper 模型进行语音识别

从Encoder-Decoder到Attention

【读书笔记】1. 机器学习入门（100个案例搞懂人工智能）

大数据，人工智能背后的基石

MFCC：Mel频率倒谱系数

语音识别ASR和NLP有什么区别？

自然语言处理（NLP）和语音识别（ASR）的区别

【NLP】自然语言处理学习笔记（一）语音识别

数据分析-深度学习 Pytorch Day8

关于2022年chatGPT大火的思考

[ML] "Hey,Siri" --- Small-footprint Keyword Spotting语音唤醒技术

语音识别遇到的一些问题总结

用ffmpeg提取知乎live中的音频数据

递归神经网络LSTM详解：为什么用sigmoid，tanh不用relu？

2020-07-09

WAV2VEC：语音识别非监督预训练模型

2.FINE-TUNING WAV2VEC2 FOR SPEAKER RECOGNITION

Audio-预训练模型-2019：wav2vec【利用自监督方式训练得到每一帧音频文件的表示（相对于机理特征的优势：可以融入上下文信息）；替换MFCC等通过机理得到的特征】

WAV2VEC:针对语音识别的无监督预训练

python图灵智能语音聊天机器人

音频基础说明

语音识别智能家居控制设计

「构建企业级推荐系统系列」深度学习在推荐系统中的应用

信号处理——梅尔滤波器（MFCC）

语音识别卷积神经网络,卷积神经网络图像识别

神经网络语音识别,神经网络语音合成