声学回声消除第13页

语音信号处理基础与MFCC

讲道理，想要处理语音这种时间信号，最适合RNN或者SNN这种神经网络来进行识别，传统的方法是基于GMM+HMM的方式进行声学模型以及语言模型的建模。

edward_zcl·2022-12-03 08:23

强大的端到端语音识别框架—RNN-T

前言：基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐，实际上已经初步具备了端到端的声学模型建模能力。

张博208·2022-12-03 06:26

LAS、CTC、RNN-T、NT、MoChA

输入声学特征向量，提取信息、消除噪声，输出向量。encoder可以是RNN也可以是CNN。

ctrlcvKing·2022-12-03 06:24

自适应滤波器更新算法-EP1

自适应滤波器更新算法-EP1 自适应滤波器是回声消除系统中非常重要的一个功能模块，而对于自适应滤波器来说，如果更新滤波器系数则是关键所在。

王小二_Leon·2022-12-03 06:22

语音论文阅读(用于SOTA语音识别的多流CNN和自专注SRU)

论文：ASAPP-ASR:MultistreamCNNandSelf-AttentiveSRUforSOTASpeechRecognition摘要：两种新颖的神经网络架构MultistreamCNN(声学模型

wudibaba21·2022-11-30 15:35

语音信号预处理大牛信息

他现在是丹麦奥尔堡大学电子系统系教授，声学信号处理研究中心的联合创始人和联合负责人。

倾城酱·2022-11-30 15:28

NCMMSC 2021丨希尔贝壳参加第十六届全国人机语音通讯学术会议

本次会议由中国中文信息学会和中国计算机学会（协商中）联合主办，中国声学学会语言、听觉和音乐声学分会，中国语言学会语音学分会以及中国电子学会信号

希尔贝壳AISHELL·2022-11-30 15:49

数字媒体声音设计第二章声学基础知识

文章目录1预备知识1.1机械波1.2机械波的传播过程1.3述机械波的物理量1.4声音的分类1.5乐音的起振、稳态、衰减三阶段2声音的产生和传播3声波的描述3.1描述声波的基本物理量3.2声音的物理量度3.2.1声压与声压级3.2.2声强与声强级3.2.3声功率与声功率级3.2.4频程和倍频程3.2.5响度级与响度4声波的传播特性4.1声波的叠加及干涉4.2声波的反射、折射4.3声波的散射与衍射5时

日天家的猫·2022-11-30 10:43

linux mic阵列通道丢数据,基于XMOS平台的USB麦克风阵列多声道采集装置

背景技术麦克风阵列(ArrayMicrophone)，是由2个以上数量的声学数字或模拟麦克风组成特定的阵列阵型，利用特定阵型的麦克风阵列技术可以实现更优质的拾音效果。

h灰尘往事·2022-11-30 01:07

自动语音识别（ASR）：研究综述【传统语音识别：基于贝叶斯公式，对联合概率P(X|W)·P(W)进行建模（语音识别结果=声学模型×语言模型）】【端到端语音识别：直接对条件概率 P(W|X)进行建模】

一、传统语音识别基本原理（基于贝叶斯公式）设一段语音信号经过特征提取得到特征向量序列为X=[x1,x2,…,xN],其中xi是一帧的特征向量,i=1,2,…,N,N为特征向量的数目.该段语音对应的文本序列设为W=[w1,w2,…,wM],其中wi为基本组成单元,如音素、单词、字符,i=1,2,…,M,M为文本序列的维度.从贝叶斯角度,语音识别的目标就是从所有可能产生特征向量X的文本序列中找到概率最

u013250861·2022-11-29 21:44

语音识别概述

英文解释就是：AutomaticSpeechRecognition(ASR)或者SpeechtoText(STT)就是将语音信号转换成文本，但是注意以下几点:只负责解决机器听清问题，不负责听懂的问题;是要处理声学和

Y~J~L·2022-11-29 21:43

易语言语音识别

2.语音识别系统（automaticspeechrecognition，asr）语音识别系统的典型组成包括五部分：前端处理、声学特征、声学模型（am）、语言模型（lm）和解

编程大乐趣·2022-11-29 21:12

CTC语音识别

目前主流的语音识别都大致分为特征提取，声学模型，语音模型几个部分。目前结合神经网络的端到端的声学模型训练方法主要CTC和基于Attention两种。

Xwei1226·2022-11-29 10:56

语音文字识别基本原理和经典综述

目录0引言1发展历程2基本原理3语言模型3.1n-gram3.2RNN4声学模型的传统模型5声学模型的深度学习模型5.1DNN5.2RNN和LSTM6声学模型的端到端模型6.1CTC6.2Seq2Seq0

千想·2022-11-29 10:24

Listen、Attention、Spell模型

输入声学特征向量，提取信息、消除噪声，输出向量。encoder可以是RNN也可以是CNN。

ctrlcvKing·2022-11-29 07:37

gmm ubm matlab,基于GMM-UBM的说话人识别算法

GMM-UBM作为概率统计模型，由于其能够很好地模拟说话人的声学特征分布，实现方法灵活有效，加上具有较高的鲁棒性，故提出后就迅速成为说话人识别中的重要建模方法。一、特征参数的提取对于

weixin_39613744·2022-11-29 06:10

麦克风阵列之声源定位

众所周知，麦克风的作用是将物理声学信号转化为计算机可以处理的数字信号，麦克风阵列是麦克风的集群，是有多个麦克风组成的集合。为什么要用多个麦克风呢，这样做有什么好处呢。

liuzh_1990·2022-11-28 23:02

基于时延法的麦克风阵列声源定位分析

计算时延四.基于时延差的声源定位法1.近场模型2.远场模型五.三维空间阵列的声源定位系统实现1.推导过程六.六元圆形麦克风阵列声源定位七.相关链接一.关于麦克风阵列麦克风阵列：麦克风阵列是由一定数目的声学传感器

冬瓜~·2022-11-28 23:29

WFST--学习笔记

Wsyoneself·2022-11-28 15:42

搞语音的有关音频的基础知识

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录前言一、声音的由来二、声学基础1.正弦波2.频谱图二、总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要

王月昊·2022-11-28 07:12

【开源】MagicData-RAMC :180小时中文对话式语音数据集正式发布

为了进一步丰富开源语音语料库，促进语音语言处理技术的发展，MagicData联合中科院声学研究所、上海交通大学和西北工业大学，在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC

Magic Data·2022-11-27 03:39

基于循环神经网络的藏语语音识别声学模型——阅读笔记

摘要探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模，实现端到端的模型训练。

我是小蔡呀～～～·2022-11-27 02:36

A Survey on Neural Speech Synthesis

通过文本规范化转化为口语词汇）分词（检测单词边界）词性标注(POS)韵律（语音的节奏、重音和语调，对应着音节时长、响度和音高的变化）预测和字素-音素转换[主要负责生成词汇表外单词的发音(英)/多音音消歧(汉)]声学模型声学模型从语言特征或直接从音素或字

liujiahui295·2022-11-26 21:38

人工智能Java SDK：语音识别（ASR）【长语音】

语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。sdk基于DeepSp

Calvin.AIAS·2022-11-25 16:47

使用MATLAB对语音信号进行采集以及读写的方法

一方面，对声学语音学统计模型的研究逐渐深入，鲁棒的语音识别、给予语音段的建模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点。

清泉_流响·2022-11-24 12:29

语音合成——声学模型概述

语音合成概述文章概述：本篇文章主要介绍了语音合成的基础概念、主流声学模型的优缺点，以及语音合成前沿技术的科普；通过本篇文章的学习，可以对语音合成技术的概念以及模型的选型有一定了解；语音合成流程音素：最小的语音单位

一个热爱学习的深度渣渣·2022-11-24 09:47

PPG & Phoneme Embedding & word Embedding总结

一句话概括就是：ASR的AM的输出，把声学特征转成发说话人无关的特征。PPG是一个时间对类别的矩阵，其表示对于一句话的每个特定时间帧，每个语音类别的后验概率。单个音素的后验概率作为时

BarbaraChow·2022-11-24 09:44

语音识别如何建模为HMM

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。其中声学模型通常被建模为HMM。

防搞活机·2022-11-24 02:58

谷歌探索人类科技边界再添里程碑？

MIT研究出通过声学观察和模拟环境的机器学习模型近来，MIT-IBM沃森人工智能实验室合作建立了一个机器学习的模型，主要利用空间声学来观察和模拟环境。

数字化信息化智能化解决方案·2022-11-23 20:59

【初识AI】(一)：ASR和NLP

1.2语音识别ASR过程建立声学模型第一步是建立声学模型。声学模型的主流系统大多采用隐马尔科夫模型进行建模。对于同一个词，由于每个人的发音、语调、语速等都各不

houxiaoni01·2022-11-23 14:43

声音/声学成像2021-4-13

声学照相机，又名声相（像）仪，是利用传声器阵列测量一定范围内的声场分布的专用设备。

噢耶·2022-11-23 07:15

语音增强二，麦克风阵列

用于声学的麦克风阵列，其实很多都借鉴于天线、雷达，用以实现信号检测、降噪、达波方向估计等，并且可以利用阵列中不同采样点接受到信号的相位

audioFrame·2022-11-23 07:13

Kaldi中DNN的实现

在kaldi训练过程中，DNN的训练是主要是依赖于GMM-HMM模型的，通过GMM-HMM模型得到DNN声学模型的输出结果(在get_egs.sh脚本中可以看到这一过程)。

m0_61474277·2022-11-23 03:34

内存池 - 原理分析（一）

充电站推荐一个零声学院免费公开课程，个人觉得老师讲得不错，

想当开心果哦·2022-11-23 01:05

android 声纹识别开源,声纹识别开源工具ASV-Subtools.pdf

ASV-Subtools厦门大学智能语音实验室2020.11纲要1.背景介绍2.开源工具ASV-Subtools3.算法改进4.实验结果5.总结与展望1.背景介绍—声纹识别框架FBankMFCCPLP注册语音声学特征说话人表征分声纹模型后端判别测试语音声学特征说话人表征数

本多敏行·2022-11-22 12:57

项目经验分享：基于昇思MindSpore，使用DFCNN和CTC损失函数的声学模型实现

本期分享来自MindSpore社区的龙泳旭同学带来的项目经验：基于MindSpore，使用DFCNN和CTC损失函数的声学模型实现。

昇思MindSpore·2022-11-22 06:55

双十一该买什么数码？盘点双十一最值得购买的数码好物

【蓝牙耳机】南卡小音舱双十一售价：199NANK南卡专注音频领域已经十多年，有着大量音频技术专利，独家的黑科技“南卡SupersoundOS声学系统”，也曾为国内外诸多名企提供专业的音频解决方案。

shu_mao·2022-11-21 21:19

双十一数码产品选什么好？双十一数码好物推荐

shu_mao·2022-11-21 21:19

基于DNN-HMM的语音识别技术

基于DNN-HMM的语音识别声学模型结构如下图所示，与传统的基于GMM-HMM的声学模型相比，唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。

a84222·2022-11-21 17:32

语音识别DNN-HMM

GMM-HMM建模能力有限，无法准确的表征语音内部复杂的结构，所以识别率低；用DNN代替GMM来进行观察状态概率的输出，实现DNN-HMM声学模型框架，大大提高了识别率。

zephyr_wang·2022-11-21 17:30

十沣科技自主研发仿真软件有效实现飞机起落噪声精细仿真

在对飞机的气动噪声的预测和分析中，结合十沣科技的通用CFD求解器QFLUX和FWH气动声学模型，可实现飞机起落架气动噪声精细仿真。集成的CFD和FW-H求

andy_haiying·2022-11-21 09:33

Magic Data 论文入选国际语音顶级大会 INTERSPEECH 2022

MagicData（北京爱数智慧科技有限公司）联合中科院声学研究所、上海交通大学和西北工业大学，基于语音识别、说话人日志和关键词检索的相关研究论文《OpenSourceMagicData-RAMC:ARichAnnotatedMandarinConversational

Magic Data·2022-11-21 06:29

Interspeech 2022 | 探索非自回归跨语言语音合成中的音色解耦问题

随着人工智能技术的发展，TTS的声学模型和声码器模型效果都在不断提高，单一语言在数据量足够的情况下已经可以合成较高品质的语音。

PaperWeekly·2022-11-21 05:16

说话人识别matlab实现

1、GMM-UBM说话人识别这里主要分为4个步骤：1、训练UBM通用背景模型2、最大后验准则MAP从UBM通用背景模型里面训练每一个说话人的声学模型3、交叉得分4、计算最终的测试效果，这

罗小黑嘛·2022-11-21 05:12

语音识别笔记

一、语音识别的基础概念1.什么是声学模型？声学模型其实就是可以识别单个音素的模型（音素a的模型可以判定一小段语音是否是a）；2.什么是语言模型？

zh515858237·2022-11-20 14:27

语音识别技术

涉及多种交叉学科，如声学、语音学、语言学、信息处理、模式识别、人工智能等。语音识别是十年来发展最快的技术之一，随着人工智能的快速发展，语音识别技术得到了质的飞跃，开始从实验室走向市场，并逐步走到人们

LIN卿琳·2022-11-20 14:22

快手团队长文解读：基于FPGA加速的自动语音识别在大规模直播和短视频场景的应用...

TDNN+LSTM作为一种主流的实时流式声学模型，可以实现低延迟、高并发。本文介绍了快手异构计算与MMU音频中心合作的针对TDNN+LSTM声学模型的全定

数据派THU·2022-11-20 14:20

想做好远场语音识别 (Farfield Voice Recognition) 的难点有哪些？

1、语音激活检测（voiceactivedetection，VAD）2、语音唤醒（voicetrigger，VT）3、回声消除（EchoCancelling）4、低信噪比（signaltonoiseratio

编程大乐趣·2022-11-20 14:45

INTERSPEECH 2022｜FS-CANet: 基于全带子带交叉注意力机制的语音增强

FS-CANet在降低了25％的参数量的情况下进一步提升了原有语音增强模型在复杂声学环境下的降噪性能，在无混响的

语音之家·2022-11-20 11:41

图像噪声学习总结

目录一、图像噪声1.1.图像噪声概念1.2.噪声来源—两个方面1.3.图像噪声的特征1.4.图像噪声的分类1.4.1常见的图像噪声主要有以下几种：1.4.2图像噪声模型（1）高斯噪声（2）脉冲噪声（椒盐噪声）二.常见图像去噪算法简介2.1空间域滤波2.2变换域滤波2.3偏微分方程2.4变分法2.5形态学噪声滤除器三.图像去噪算法3.1基于空间域下的滤波器3.2基于小波域的小波阈值去噪3.3基于PD

ballball~~·2022-11-20 06:23

推荐频道

声学回声消除