声学模型第5页

数据压缩实验6-MPEG1音频编码

一、实验原理1.MPEG-1AudioLayerII编码器原理输入声音信号经过一个多相滤波器组，变换到32个子带，同时经过“心理声学模型”并计算以频率为自变量的噪声掩蔽阈值。

fang_na·2020-07-04 15:07

【数据压缩】MPEG音频编码实验

实验原理：本次实验对MEPG-1AudioLayerII的编码器原理进行分析：多相滤波器组：将PCM样本变换到32个子带的频域信号心理声学模型:计算信号中不可听觉感知的部分，计算出噪声的遮蔽效应，对这部分被掩蔽的听不见的信号不进行传输比特分配器

caidejun·2020-07-04 12:39

MPEG音频编码实验

一、实验原理mpeg的音频编码主要采用了心理声学模型1.MPEG-I心理声学模型通过子带分析滤波器组使信号具有高的时间分辨率，确保在短暂冲击信号情况下，编码的声音信号具有足够高的质量。

amy2020·2020-07-04 10:11

MPEG音频编码实验

文章目录MPEG音频编码实验MPEG-1AudioLayerII编码器原理多相滤波器组心理声学模型(PsychoacousticModel)计算步骤LayerI编码码率分配装帧(FrameCreation

Cross_Entropy·2020-07-04 05:56

MPEG音频编码

实验原理音频编码的核心：心理声学模型。子带编码：将原始信号分解为若干个子频带,对其分别进行编码处理后再合成为全频带信号。人的感知特性：掩蔽（强音会屏蔽旁音的听域）。

vacu_um·2020-07-04 02:43

开源中文语音识别项目介绍：ASRFrame

介绍项目链接：https://github.com/sailist/ASRFrame一个完整的语音识别框架，包括从数据清洗接口，数据读取接口到语音模型、声学模型、到最后的模型整合和UI的一整套流程目前声学部分拼音识别准确率已经比较高了

Sailist·2020-07-04 01:31

音视频知识基础

一：音频音频压缩技术：1：消除冗余数据2:哈夫曼无损编码消除冗余数据（心理声学模型）音频冗余信息包括：人耳听觉范围之外的音频信号被掩蔽掉的音频信号掩蔽效应：频域掩蔽：下面的纵轴是分贝数，横轴是声音的频率

goldfish3·2020-07-02 01:34

语音合成(三)：端到端的TTS深度学习模型tacotron

TACONTRON:AFullyEnd-to-EndText-To-SpeechSynthesisModel通常的TTS模型包含许多模块，例如文本分析，声学模型，音频合成等。

MiracleJQ·2020-07-01 18:13

Kaldi 使用 DFSMN 训练语音模型

DFSMN模型，是阿里巴巴的高效工业级实现，相对于传统的LSTM、BLSTM等声学模型，该模型具备训练速度更快、识别更高效、识别准确率更高和模型大小压缩等效果。

一尘在心·2020-06-30 13:47

端到端的TTS深度学习模型tacotron(中文语音合成)

TACONTRON:AFullyEnd-to-EndText-To-SpeechSynthesisModel通常的TTS模型包含许多模块，例如文本分析，声学模型，音频合成等。

SteveGao1991·2020-06-30 10:53

语音识别 --字典

语音识别中的字典也被称为发音字典，顾名思义就是用来描述各个词的发音或者说给出各个词和音素之间的关系；2.作用：语音识别系统中所有词的结果均出自于字典，也就是说他是识别系统处理词和音素的集合；通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系

一步两步三步ing·2020-06-30 07:32

深度 | 腾讯 AI Lab副主任俞栋：过去两年基于深度学习的声学模型进展

该论文回顾了过去两年声学模型方面的新进展。本文摘取该论文主干部分进行编译介绍，希望为读者提供相关进展的概括性了解。欲知相关技术方

腾讯AI实验室·2020-06-30 05:11

语音识别技术之声学模型

本公众号已经改版，推出了线上线下课程，并且推出免费2个月广告服务业界优质产品。编者：今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开，众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品，而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始，阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会，旨在为大家分享IN

52AI人工智能·2020-06-29 19:24

INTERSPEECH 2018 | 语音识别技术之说话人自适应技术

《Learningtoadapt:ameta-learningapproachforspeakeradaptation》这篇文章来自爱丁堡大学，以下是摘要：通过调整声学模型来补偿训练和测试条件之间的不匹配

www不是www·2020-06-29 18:54

传统声学模型之HMM和GMM

声学模型是指给定声学符号(音素)的情况下对音频特征建立的模型。数学表达用\(X\)表示音频特征向量(观察向量)，用\(S\)表示音素(隐藏/内部状态)，声学模型表示为\(P(X|S)\)。

10382·2020-06-28 21:00

深度学习第50讲：语音识别综述——从概念到技术（下）

在上一节中，笔者对语音识别系统的概述、信号处理和特征提取方法以及基于传统GMM和HMM的声学模型进行了简单的综述，详情可戳：本节，笔者继续对语音识别的剩余两个部分进行简单综述，以期对整个语音识别技术系统有一个相对全面的了解

louwill12·2020-06-28 20:54

详解卷积神经网络（CNN）在语音识别中的应用

2012年，微软邓力和俞栋老师将前馈神经网络FFDNN（FeedForwardDeepNeuralNetwork）引入到声学模型建模中，将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率

weixin_34114823·2020-06-28 11:18

阿里云智能语音交互技术实践干货分享

其中，他主要分享了阿里云使用的BLSTM&LFR声学模型的优化过程，并对基于深度学习的自然语言理解的不同场景进行了详细分享。以下内容根据直播视频整理而成。

weixin_33971205·2020-06-28 09:37

横评：五款免费开源的语音识别工具

直到几年之前，最先进的语音技术方案大多都是以语音为基础的（phonetic-based），包括发音模型（Pronunciationmodels），声学模型（AcousticModelling）和语言模型

weixin_33871366·2020-06-28 07:23

重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

声学模型、语言模型和解码器可以看作是现代语音识别系统最核心的三个组成部分。虽然最近有一些研究者尝试构建End2end的

weixin_33862188·2020-06-28 06:27

语音识别学习记录 [kaldi的chain model]

可以将它看作声学模型的一个创新点。使神经网络的输出的帧率缩小三倍，明显的缩小了测试时的计算量，使实时解码更加容易模型从一开始就用序列级目标函数（正确序列概率的对数）进行训练。

WePlayDirty·2020-06-27 07:00

语音识别框架原理简述

gmm-hmm简述基于kaldi工具箱使用kaldi提取特征，重点在于数据准备部分，但是语音识别的基本框架在于使用GMM-HMM进行识别使用kaldi进行语音识别的框架大约分为以下部分在进行语音识别的声学模型训练过程中

执刀人·2020-06-27 04:08

声学模型概述

这篇博客是关于声学模型的简单介绍。输出概率声学模型的输入是由特征提取模块提取的特征（比如mfcc特征）。一般来说，这些特征是多维的向量，并且其取值可以是离散或连续的。

Shmily_Young·2020-06-26 09:13

Kaldi声学模型训练

淘宝购买链接当当购买链接京东购买链接支持标准的基于ML训练的模型线性变换，如LDA，HLDA，MLLT/STC基于fMLLR，MLLR的说话人自适应支持混合系统支持SGMMs基于fMLLR的说话人识别模型代码，可以容易的修改扩展##声学模型训练过程

shichaog·2020-06-26 09:20

语音识别概述

一个基本的语音识别系统如下图，实现是正常工作流程，虚线是训练模式分类问题中的模板（这里就是声学模型，字典和语言模型）。图1语音识别系统组件关系图语音识别是把语音声波转换成文字。

shichaog·2020-06-26 09:19

北京-某机器智能公司-语音识别算法工程师职位

职位：语音识别算法工程师薪酬：50K参考岗位职责1.负责语音识别技术研究；2.负责声学模型、语言模型、解码器三个方向之一的相关工作。

尹青_653d·2020-06-26 07:45

语音识别中声学模型训练过程-GMM（一）

在上一章语音识别过程中提到的P(O|W)称做观测最大释然，由声学模型计算可得，本章就主要描述HMM+GMM来计算最大释然的过程。

quheDiegooo·2020-06-26 04:30

语音识别综述解析深度学习

一个完整的语音识别系统通常包括信息处理和特征提取、声学模型、语言模型和解码搜索四个模块。

靡荼归否·2020-06-25 18:35

基于tensorflow和deepspeech的中文语音识别模型，训练+部署

工业级中文语音识别系统，电子书，点我文章目录项目背景一、和百度deepspeech2的不同点1.框架选择2.声学模型结构3.其他调整项4.增加beamsearch和n-gram组合解码模块（这里是重点）

大数据AI笔记·2020-06-25 04:27

说话人识别matlab实现

1、GMM-UBM说话人识别这里主要分为4个步骤：1、训练UBM通用背景模型2、最大后验准则MAP从UBM通用背景模型里面训练每一个说话人的声学模型3、交叉得分4、计算最终的测试效果，这里用AUC和EER

我是个粉刷匠·2020-06-25 00:22

端到端多语言识别语言不变性瓶颈特征

LANGUAGE-INVARIANTBOTTLENECKFEATURESFROMADVERSARIALEND-TO-ENDACOUSTICMODELSFORLOWRESOURCESPEECHRECOGNITION针对低资源语音识别的端到端对抗性声学模型的语言不变瓶颈特性本文提出了一种针对低资源语言的端到端对抗性声学模型

qing101hua·2020-06-24 22:46

开源的语音交互平台简介及对比

CMU-SphinxCMU-Sphinx也简称为Sphinx（狮身人面像），是卡内基-梅隆大学（CarnegieMellonUniversity，CMU）开发的一款开源的语音识别系统，它包括一系列的语音识别器和声学模型训练工具

哦卖糕·2020-06-24 18:46

语音识别-语言模型

~~~~一句话，语音识别中语言模型的目的就是根据声学模型输出的结果，给出概率最大的文字序列！~~~2.n-gram语言模型1

机器灵·2020-06-24 18:07

语音识别-字典

所谓字典，就是发音字典的意思，中文中就是拼音与汉字的对应，英文中就是音标与单词的对应，其目的是根据声学模型识别出来的音素，来找到对应的汉字（词）或者单词，用来在声学模型和语言模型建立桥梁，将两者联系起来

机器灵·2020-06-24 18:34

语音识别之发音字典

1.概念发音字典(lexicon)包含了从单词(words)到音素(phones)之间的映射，作用是用来连接声学模型和语言模型的。

lujian1989·2020-06-24 09:30

语音识别面试题

基于CTC的声学模型和其他声学模型的lossfunction区别参考https://zhuanlan.zhihu.com/p/33464788语音识别有时候输入长度远大于输出长度，这是因为语音信号的非平稳性决定的

ferb2015·2020-06-23 06:51

MPEG音频编码实验（输出音频的采样率和目标码率；选择某个数据帧，输出）

MPEG-1AudioLayerII编码器原理MPEG-I心理声学模型◼通过子带分析滤波器组使信号具有高的时间分辨率，确保在短暂冲击信号情况下，编码的声音信号具有足够高的质量◼又可以使信号通过FFT运算具有高的频率分辨率

csy201710413030·2020-06-23 01:13

语音识别的技术路线学习笔记

这个过程可以通过电脑上的声卡来获取麦克风中输入的音频信号，或者直接读取电脑中已经存在的音频文件；2、音频信号特征提取——在得到音频信号之后，需要对音频信号进行预处理，然后对预处理之后的音频信号进程特征提取，MFCC是最常用的声学特征；3、声学模型处理

仰望星空的小狗·2020-06-22 18:59

语音识别关键技术公开，人机交互这么做就对了！

对于识别来说，首先要保障的是远场环境下的识别率，除了前面提到的麦克风阵列解决了前端声学的问题，还要有专门针对远场环境下，基于大量数据训练的声学模型，这样才能保证识别率满足交互需求。

CopperDong·2020-06-22 03:29

语音识别关键技术公开，人机交互这么做就对了！

www.edn-cn.com/news/article/201608241715对于识别来说，首先要保障的是远场环境下的识别率，除了前面提到的麦克风阵列解决了前端声学的问题，还要有专门针对远场环境下，基于大量数据训练的声学模型

sunfoot001·2020-06-21 07:05

开源自动语音识别系统wav2letter (附实现教程)

它将基于卷积网络的声学模型和图解码结合起来，通过转录的语音训

mazegong·2020-06-21 03:25

基于TPNN的儿童英语声学模型训练

前言TPNN作为学而思网校自主研发的深度学习平台，专门针对声学模型训练进行了架构优化，可以轻松帮助研发人员完成语音特征和解码器的无缝对接，同时在此框架下，我们也实现了主流的声学模型架构和高效的多卡训练技术

好未来技术团队·2020-05-27 17:56

ASR语音识别学习总结

两种方式的区别主要在于声学模型的不同，“传统”方式使用的声学模型是HMM（隐马尔可夫），“端到端”方式采用的声学模型为DNN（深度神经网络）。

做梦的小鱼·2020-04-12 06:10

CMU Sphinx 语音识别入门：利用Sphinx-4搭建应用

它提供了利用CMUSphinx声学模型进行快速和简单的语音识别的API。除了语音识别，Sphinx-4还可以用于识别发言人，更新模型，以及根据时间戳对音频进行转录等。

圈圈_Master·2020-04-07 08:04

人工智能-应用场景

其要点如下：语音处理可以分为语音识别和语音合成两类任务；语音合成过程包括文本分析、音韵生成、单元选择、波形串联等步骤；语音识别过程包括预处理、特征提取、声学模型，语言模型和字典解码等步骤；深度学习和迁移学习等技术都已经被应用在语音处理之中

iOSDevLog·2020-03-25 04:36

调整pocketsphinx中文声学模型

调整pocketsphinx中文声学模型以下操作基本都是按照wiki的步骤一步一步进行的，仅做记录。

Toplhyi·2020-03-17 13:27

《数学之美》

而贾里尼克把它当成通信问题，并用两个隐含马尔可夫模型（声学模型和语言模型）把语音识别概括得清清楚楚。这个框架结构对至今的语音和语言处理有着深远的影响，它从根本上使得语音识别有实用的可能。

英天·2020-03-13 18:25

Kaldi(A4)model文件分析

上一节提到了解码需要声学模型(final.mdl)和语言模型(HCLG.fst)，这节就来看一看这个model文件里是什么东西。

Seeker_zz·2020-02-22 02:16

音频水印

心理声学模型：利用类似于人耳频率感知特性的感知滤波器对要嵌入的水印序列进行滤波得到水印信号。音频水印系统常用算法量化索引调制：根据比特值为0或1对FFT之后的音频的每个步长进行不同的处理。盲检测、简单

yingtaomj·2020-02-15 02:11

腾讯-智聆口语评测接入

cloud.tencent.com/document/ap…腾讯云智聆口语评测（SmartOralEvaluation）英语口语评测服务，是基于英语口语类教育培训场景和腾讯云的语音处理技术，应用特征提取、声学模型和语音识

jucheng·2020-01-16 14:00

推荐频道

声学模型

数据压缩实验6-MPEG1音频编码

【数据压缩】MPEG音频编码实验

MPEG音频编码实验

MPEG音频编码实验

MPEG音频编码

开源中文语音识别项目介绍：ASRFrame

音视频知识基础

语音合成(三)：端到端的TTS深度学习模型tacotron

Kaldi 使用 DFSMN 训练语音模型

端到端的TTS深度学习模型tacotron(中文语音合成)

语音识别 --字典

深度 | 腾讯 AI Lab副主任俞栋：过去两年基于深度学习的声学模型进展

语音识别技术之声学模型

INTERSPEECH 2018 | 语音识别技术之说话人自适应技术

传统声学模型之HMM和GMM

深度学习第50讲：语音识别综述——从概念到技术（下）

详解卷积神经网络（CNN）在语音识别中的应用

阿里云智能语音交互技术实践干货分享

横评：五款免费开源的语音识别工具

重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

语音识别学习记录 [kaldi的chain model]

语音识别框架原理简述

声学模型概述

Kaldi声学模型训练

语音识别概述

北京-某机器智能公司-语音识别算法工程师职位

语音识别中声学模型训练过程-GMM（一）

语音识别综述解析深度学习

基于tensorflow和deepspeech的中文语音识别模型，训练+部署

说话人识别matlab实现

端到端多语言识别 语言不变性瓶颈特征

开源的语音交互平台简介及对比

语音识别-语言模型

语音识别-字典

语音识别之发音字典

语音识别面试题

MPEG音频编码实验（输出音频的采样率和目标码率；选择某个数据帧，输出）

语音识别的技术路线学习笔记

语音识别关键技术公开，人机交互这么做就对了！

语音识别关键技术公开，人机交互这么做就对了！

开源自动语音识别系统wav2letter (附实现教程)

基于TPNN的儿童英语声学模型训练

ASR语音识别学习总结

CMU Sphinx 语音识别入门：利用Sphinx-4搭建应用

人工智能-应用场景

调整pocketsphinx中文声学模型

《数学之美》

Kaldi(A4)model文件分析

音频水印

腾讯-智聆口语评测接入

端到端多语言识别语言不变性瓶颈特征