声学模型第4页

数据压缩（十三）——MPEG音频编码原理及编码器调试

文章目录一、MPEG音频编码原理1.1基本思想1.2心理声学模型（Psychoacousticmodel)1.2.1听觉阈值1.2.2频域掩蔽1.3临界频带（CriticalBand）1.4人耳听觉系统

weixin_41926958·2020-08-11 14:33

语音识别基础（一）——语音信号的产生和特性

由于重心放在声学模型、算法上，所以这些知识并没有很深入的介绍，都是为了理解确实可以用GMM-HMM或深度学习方法来进行语音识别而服务的。估计写两到三篇，如有不当之处，还请各位大佬指正。

既往不恋未来不迎·2020-08-09 02:46

kaldi解码流程

1.解码之前工作：首先训练好模型，用到4个文件：final.mdl（训练得到的声学模型文件）final.mat(用来特征转换)HCLG.fst（fst文件）words.txt（字典文件）此外还要提供带解码音频文件或路径

qq_14962179·2020-08-08 18:34

语音识别中的CTC算法的基本原理解释

https://blog.csdn.net/luodongri/article/details/80100297目前主流的语音识别都大致分为特征提取，声学模型，语音模型几个部分。

ghjk014·2020-08-08 15:16

基于深度学习方法的语音识别研究（三）

前些天在师兄的帮助下，在此感谢工大的薛师兄，实现了BLSTM的语音识别声学模型的搭建，由于实验室存在保密协议，只能提供部分代码，还望各位同学体谅，代码如下：#-*-coding:utf-8-*-#author

Xwei1226·2020-08-08 13:57

音声合成：音高、泛音、谐波、基频到底是什么概念？

Kaldi，虽然非常高效，表现也好，但是忒难用，不灵活，总得改C++代码；PyKaldi，虽然用上了机器学习界宠儿Python，但本质上跟Kaldi还是一回事嘛；PyTorch-Kaldi，虽然灵活了一些，声学模型也易于修改

缠禅可禅·2020-08-08 11:13

INTERSPEECH 2017系列 | 语音识别技术之声学模型

编者：今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开，众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品，而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始，阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会，旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。本期分享的主题是远场语

weixin_34259159·2020-07-30 20:23

[深度学习概念]·主流声学模型对比

主流声学模型对比目录概述基础概念语音帧语音识别系统主流声学建模技术HMMDNN-HMMFFDNNCNNRNN及LSTMCTC其他建模技术语言建模技术语音唤醒技术关于未来概述语音识别建模对语音识别来说是不可或缺的一部分

小宋是呢·2020-07-30 19:48

端到端语音识别（一）概况

DNNalignmentDNN的声学模型用来求输出状态对应的后验概率。需要用到G

xmucas·2020-07-30 05:47

语音识别_CMUSphinx入门(二)训练一个声学模型

本章是https://blog.csdn.net/xj853663557/article/details/84671223的跳转分支。本章原文出自https://cmusphinx.github.io/wiki/tutorialam/目录介绍什么时候你需要去训练什么时候你不需要去训练准备数据编译所需包建立训练脚本建立语料数据集的格式配置文件路径配置模型的类型和参数配置声音特征的参数配置并行工作以加

言午三吉·2020-07-30 05:09

当语音识别搭配AI之后，我的语音助手更懂我的心了

weixin_34353714·2020-07-30 03:09

语音识别基本原理学习

找到可能性最大的文字序列根据贝叶斯公式，可以得到公式2，分母P(Y)表示出现这条语音的概率，对于我们的求解目标来说是一个常数，所以求解时忽略，得到公式3公式3的P(Y|W)表示给定一个文字序列而出现这条音频的概率，成为声学模型

乐观的Zqq·2020-07-29 22:46

语音识别基本流程

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作

机器灵·2020-07-29 21:55

计算机语音识别过程

一个完整的语音识别系统可大致分为3部分：1、语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列2、声学模型与模式匹配：声学模型通常将获取的语音特征通过学习算法产生。

埃兰迪尔007·2020-07-29 17:41

超全面的语音交互知识总结：从原理、场景到趋势

声学模型可以理解为是对发

YHFHing·2020-07-29 14:11

MPEG音频编码实验报告

将PCM样本变换到32个子带的频域信号：如果输入的采样频率为48kHz，那么子带的频率宽度为48/（2*32）=0.75Hz该多相滤波器组为如下图：心理声学模型：计算信号中不可听觉感知的部分。

yee_0217·2020-07-29 13:56

【数据压缩】MPEG音频编码

音频编码器框架图多相滤波器组(PolyphaseFilterBank)：将PCM样本变换到32个子带的频域信号如果输入的采样频率为48kHz，那么子带的频率宽度为48/（2*32）=0.75Hz心理声学模型

yejia1280·2020-07-29 13:56

3.3 基于GMM-HMM的语音识别

解码时所用的两个信息源：声学模型：描述每个音素如何发音。语言模型：描述单词的组合规律。

梁小娘子·2020-07-29 12:07

数据压缩原理与应用 MPEG音频编码

一.实验原理mpeg的音频编码主要采用了心理声学模型1.MPEG-I心理声学模型通过子带分析滤波器组使信号具有高的时间分辨率，确保在短暂冲击信号情况下，编码的声音信号具有足够高的质量。

lanee_lee·2020-07-29 10:58

深度学习在语音识别中的应用

2009年GeoffreyHinton和DengLi把DNN用于声学模型建模，用于替代GMM，同时大家发现在训练数据足够的情况下Pretraining是不必要

环信·2020-07-29 10:26

【DKNN】Distilling the Knowledge in a Neural Network 第一次提出神经网络的知识蒸馏概念

对于Android语音搜索所用模型的一种深层声学模型，我们已经表明，通过训练一组深层神经网络实现的几乎所有改进都可以提炼成相同大

Joselyn·2020-07-29 09:00

语音识别—声学模型解码

声学模型解码（带状态转移概率）最近一直在学习哥伦比亚大学与爱丁堡大学语音识别课程，并且修正了哥伦比亚大学中基于HMM构建的语音识别系统存在问题终自己写了一套基于HMM的语音识别系统，前文一些博客简单对上述工程实现以及理论进行了介绍

Xwei1226·2020-07-29 09:43

实验六：MPG音频编码

它采用子带编码技术，根据心理声学模型获得不同子带的听觉掩蔽阈值，并对每个子带的取样值进行动态量化。1、音频压缩的可能性(1)声音信号中的“冗余”信息：频域：非均匀功率密度谱，低频能量高，高频能量低。

J_ennifer·2020-07-29 09:53

基于HMM的语音识别（二）

这种形式最大限度的减少单词间的区分信息的丢失，并且与声学模型的分布假设进行良好的匹配。比如，如果对角协方差高斯分布用于状态输出分布，那么这些特征应该被设计为高斯并且是不相关的。

爱国者002·2020-07-29 09:44

声学模型学习笔记（六） representation learning

featurerepresentation特征抽象DNN的前L-1层可以认为是特征提取部分，最后一层认为是简单的分类层。相比于人工设计的特征（比如MFCC），多层（每一层sigmoid都是一种非线性变换）连接起来具有很强的特征抽象能力。靠近输入层的表示low-level特征；靠近输出层的表示high-level的特征，high-level的特征更为抽象。如上图，一个特点是high-level的层包

xmucas·2020-07-29 00:28

beam search解码原理（斯坦福 2014 论文解读）

深度神经网络声学模型现在在基于HMM的语音识别系统中很普遍，但是构建

大数据AI笔记·2020-07-27 12:40

MPEG音频编码

同时经过心理声学模型计算以频率为自变量的噪声掩蔽阈值。量化和编码部分用信掩比SMR决定分配给自带信号的量化比特数，使量化噪声小于掩蔽阈值。

Shining_CC·2020-07-16 06:03

MPEG-1 Audio 编码器

2、心理声学模型(PsychoacousticModel)：计算信号中不可听觉感知的部分。计算噪声遮蔽效应。3、比特分配器(BitAllocator)：根据心理声学模型的计算

liushuang95·2020-07-16 02:06

汉字转拼音，文字转语音tts (语音技术、语音识别)，Asr/tts，变声

desaco·2020-07-15 18:29

基于WFST解码器

一、总述解码器是ASR重要的组件之一，在传统的基于GMM-HMM/DNN-HMM混合系统中，解码器架起语言模型、声学模型、发音词典等知识源的桥梁，得到最终的识别结果，如图1所示。

aflyingwolf_pomelo·2020-07-15 07:44

一个典型的语音识别系统

其关键技术包括选择识别单元、语音端点检测、特征参数提取、声学模型及语音模型的建立。语音识别技术目前在桌面系统、智能手机、导航设备等嵌入式领域均有一定程度的应用。其主要技术难题

裂缝中的阳光JDG·2020-07-15 01:57

语音信号处理第九章

文章目录语音识别系统识别系统的组成预处理和参数分析：语音识别部分DTW孤立词识别系统框图注：只包括考试内容语音识别系统识别系统的组成语音识别一般分为两个步骤：（1）“学习”或“训练”阶段——建立识别基本单元的声学模型以及进行文法分析的语言模型

jieyannnhereCREAM·2020-07-14 12:15

开源声码器WORLD在语音合成中的应用

语音合成(TTS)是语音AI平台的基础设施，而声码器则决定着其中的声学模型以及合成质量。

LiveVideoStack_·2020-07-13 16:14

音视频技术开发周刊 85期

架构开源声码器WORLD在语音合成中的应用语音合成(TTS)是语音AI平台的基础设施，而声码器则决定着其中的声学模型以及合成质量。

LiveVideoStack_·2020-07-12 22:43

[语音处理] 声谱图（spectrogram）FBank（Mel_spectrogram）MFCC(Mel倒谱)到底用哪个作为NN输入？

DNN做声学模型时，一般用fbank，不用mfcc，因为fbank信息更多(mfcc是由melfbank有损变换得到的）。mfcc一般是GMM做声学模型时用的，因为通常GMM假

ASR_THU·2020-07-12 20:45

ASR: DNN训练

本文通过简单kaldi源码，分析DNN训练声学模型时神经网络的输入与输出。

zqh_zy·2020-07-10 11:08

window下使用CMUSphinx实现中文识别(生成语言模型来定向识别)

https://blog.csdn.net/zxy13826134783/article/details/103645228实现的中文识别效果很不好，并不是我们想要的，我们可以自己利用训练工具训练语言模型和声学模型

zxy2847225301·2020-07-09 06:00

语音识别_CMUSphinx入门(二)

目录简介语音识别的基本概念CMUSphinx工具包概览在你开始之前基于sphinx4创建一个应用基于pocketsphinx创建一个应用在安卓上使用PocketSphinx创建一个字典创建一个语言模型基于现有声学模型调整训练一个声学模型微调性能简介上一篇学习了如何安装

言午三吉·2020-07-09 02:21

多媒体技术复习题

A.PAL、NTSCB.PAL、SECAMC.SECAM、NTSCD.PAL、YUV3.在以下音频编码方法和标准中，（b）属于混合编码方法，它从人的听觉系统出发，利用掩蔽效应，设计心理声学模型，从而实现更高效率的数字音频

三茶先生·2020-07-07 21:16

对于ASR流程的理解

训练声学模型(ＡＭ)的概念在钻研脚本之前,理解训练声学模型的基本过程很重要。考虑听众和本教程的目的，这部分主要关注处理的流程而不是计算。

Xwei1226·2020-07-07 01:21

DLM：微信大规模分布式n-gram语言模型系统

它可以对从发生器（例如声学模型）产生的候选单词序列进行排序。大型n-gr

AI科技大本营·2020-07-06 16:12

CTC算法概念

传统的语音识别的声学模型训练，对于每一帧的数据，需要知道对应的label才能进行有

河妖鱼鱼·2020-07-06 12:32

数据压缩实验六 MPEG音频编码实验

一、实验原理1、感知编码的基本思路（1）心理声学模型：听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就听不到。听觉阈值的大小随声音频率的改变而改变。

zgyggy·2020-07-06 12:18

语音识别框架

一、语音识别框架传统理论重点研究声学模型，发音字典不用关心，语言模型一般用n-gram预处理：1.首尾端的静音切除，降低对后续步骤造成的干扰，静音切除的操作一般称为VAD。

yang_daxia·2020-07-06 10:48

[20200614]MPEG音频编码

2、MPEG-I心理声学模型心理声学模型决定了各个子带中允许的最大

杜炆洁·2020-07-06 05:08

语音识别之PyTorch-Kaldi详细教程

如果要使用神经网络来梯度GMM的声学模型，就得自己用C++代码实现神经网络的训练与预测，这显然很难实现并且容易出错。我们更加习惯使用Tensorflow或者PyTorch来实现神经网络。

NLP之美·2020-07-05 09:50

ASRT中文语音识别系统

项目：ASRT_SpeechRecognition学习中…持续更新系统流程1.特征提取输入：语音.wav操作：分帧加窗等操作输出：语谱图(二维频谱图像信号)2.声学模型参考VGG的深度卷积神经网络-输入

绝版小哥·2020-07-05 06:39

Freeswitch之ASR（语音识别）总结大全

文章目录1、使用PocketSphinx进行英文语音识别2、PocketSphinx语音识别系统语言模型的训练和声学模型的改进3、PocketSphinx语音识别系统的编译、安装和使用4、FS之play_and_detect_speech

Magician~·2020-07-05 02:37

MPEG音频编码实验

一、MPEG-1AudioLayerII编码器原理二、MPEG-I心理声学模型通过子带分析滤波器组使信号具有高的时间分辨率，确保在短暂冲击信号情况下，编码的声音信号具有足够高的质量又可以使信号通过FFT

m0_37644417·2020-07-04 23:29

【Android FFMPEG 开发】音视频基础和 FFMPEG 编译 ( 音视频基础 | MPEG-4 标准 | Android 开发环境 | FFMPEG 交叉编译 | 安卓项目导入配置 )

本篇博客代码及资源下载:https://download.csdn.net/download/han1202012/10382762一.音视频基础1.音频基础(1)声音要素(2)心理声学模型2.音频信号处理

韩曙亮·2020-07-04 17:12

推荐频道

声学模型