声学回声消除第23页

语音识别-解码过程

解码的过程就是在给定声学特征的情况下，找到最可能对应的词组的过程，再次看如下求解目的的公式：其中似然概率是在一系列给定声学frame情况下，计算每个对应的分类器得分，然后相乘得出的概率，使得其值变得很小

quheDiegooo·2020-07-29 23:30

语音识别基本原理学习

找到可能性最大的文字序列根据贝叶斯公式，可以得到公式2，分母P(Y)表示出现这条语音的概率，对于我们的求解目标来说是一个常数，所以求解时忽略，得到公式3公式3的P(Y|W)表示给定一个文字序列而出现这条音频的概率，成为声学模型

乐观的Zqq·2020-07-29 22:46

语音识别技术简史、基本原理、应用

下面我将介绍语音识别的发展历程，阐述语音识别基本概念、基本原理、声学建模方法等基本知识，并简要介绍语音识别技术在各领域的应用做简要介绍。

qq_22758367·2020-07-29 21:44

语音增强算法研究系列（四）：非平稳噪声消除

创建CSDN博客专栏的流程过于繁琐，为了节省时间，以系列文章的方式总结对语音增强算法的研究，主要包含语音降噪与回声消除算法。

audio_mqiu·2020-07-29 21:35

语音识别基本流程

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作

机器灵·2020-07-29 21:55

Linner聆耳NC50降噪耳机，全天聆听畅享真音乐

Linner聆耳专注于降噪声学产品研究、

聆耳LINNER·2020-07-29 19:34

计算机语音识别过程

一个完整的语音识别系统可大致分为3部分：1、语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列2、声学模型与模式匹配：声学模型通常将获取的语音特征通过学习算法产生。

埃兰迪尔007·2020-07-29 17:41

超全面的语音交互知识总结：从原理、场景到趋势

一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程：（1）ASR用于将声学语音进行分析，并得到对应的文字或拼音信息。

YHFHing·2020-07-29 14:11

MFCC 过程理解

语音识别中常用的特征提取方法：声学特征有线性预测编码（LinearPredictiveCoding，LPC），梅尔频率倒谱系数（Mel-frequencyCepstrumCoefficients，MFCC

jinmingz·2020-07-29 13:52

MPEG音频编码实验报告

将PCM样本变换到32个子带的频域信号：如果输入的采样频率为48kHz，那么子带的频率宽度为48/（2*32）=0.75Hz该多相滤波器组为如下图：心理声学模型：计算信号中不可听觉感知的部分。

yee_0217·2020-07-29 13:56

【数据压缩】MPEG音频编码

音频编码器框架图多相滤波器组(PolyphaseFilterBank)：将PCM样本变换到32个子带的频域信号如果输入的采样频率为48kHz，那么子带的频率宽度为48/（2*32）=0.75Hz心理声学模型

yejia1280·2020-07-29 13:56

声学特征 ivector

提取流程1.UBMuniversalbackgroundmodel[1]使用GMM建模，UBM的训练通过EM算法完成，有两种方法：-所有的数据训练出来一个UBM，需要保证训练数据的均衡-训练多个UBM，然后合在一起，比如根据性别分成两个，这样的话可以更有效的利用非均衡数据以及控制最后的UBM。2.supervector使用MAPadaptation对UBM的高斯进行线性插值，获得speaker相关

xmucas·2020-07-29 13:07

声学特征 PNCC

特点power-normalizedcepstralcoefficients相比于MFCC特征：-在噪声和混响场景下提升识别效果，尤其在训练语料是clean语音的时候-相比于MFCC，计算量提升34.6%使用pncc相比mfcc，噪声和口音测试集可以得到10-15%的相对提升细节和MFCC/PLP特征的整体对比如上图filterbank相比于MFCC的triangularfilters，PNCC使

xmucas·2020-07-29 13:07

声学特征变换 fMLLR

含义当测试数据Y和模型Λx不匹配的时候，可以通过变换的方式进行匹配[1]：-model-space也就是Λx转化为Λy-feature-space也就是Y转化为X其中model-space的变换又可以分为两种：-unconstrained:均值和方差无关-constrained:均值和方差变换是相同的形式对于constrainedmodel-spacetransformations，虽然出发点是对

xmucas·2020-07-29 13:07

声学特征（三） pitch

基本含义pitch跟声音的基频fundamentalfrequency（F0）有关，反应的是音高的信息，即声调。计算F0也被称为‘‘pitchdetectionalgorithms（PDA）。YIN算法sphinx使用的YIN算法提取pitch特征，相对简单而且进行了定点化。YIN来自于“阴阳”哲学，寓意在autocorrelation和cancellation之间的变换。YIN算法的演化流程：S

xmucas·2020-07-29 13:36

声学特征提取-python

声学特征提取-python代码在我的github上AcousticFeatureExtraction使用Librosa音频处理库和openSMILE工具包，进行简单的声学特征提取，包括韵律学特征（持续时间

听雨轩雨霖铃·2020-07-29 12:04

3.3 基于GMM-HMM的语音识别

解码时所用的两个信息源：声学模型：描述每个音素如何发音。语言模型：描述单词的组合规律。

梁小娘子·2020-07-29 12:07

如何正确发声

说话时，横在呼出气流通道上的两条声带，迅速地一开一闭，把稳定的气流切成一串串的喷流，进而转换成听得见的峰音，随着舌、唇、腭等器官的运动，不断改变声道的声学性质，将峰音变成能区别

weixin_34319640·2020-07-29 12:10

Bark域介绍和线性频率域转换到Bark域

摘要：Bark域是较早提出来的一种声音的心理声学尺度，本文介绍Bark域相关知识以及线性频率域转换到Bark域的方法。最后给出线性频域和Bark域的直观例子。

灯等等凳·2020-07-29 11:52

MFCC & PLP

##MFCC对于语音/说话人识别，最常用的声学特征是梅尔导谱系数（mel-scalefrequencycepstralcoefficient,MFCC）。

shichaog·2020-07-29 11:33

麦克风阵列入门（一）

为什么使用麦克风阵列：麦克风按照指定要求排列后，加上相应的算法（排列+算法）就可以解决很多房间声学问题，比如声源定位、去混响、语音增强、盲源分离等。【注】：在深入理解概

爱国者002·2020-07-29 10:43

Bark域介绍

Bark域介绍简介：Bark域是较早提出来的一种声音的心理学尺度临界频带临界频带是听觉学和心理声学的专业名词，它于19世纪40年代被HarveyFletcher提出。

lemon_and_coffee·2020-07-29 10:33

数据压缩原理与应用 MPEG音频编码

一.实验原理mpeg的音频编码主要采用了心理声学模型1.MPEG-I心理声学模型通过子带分析滤波器组使信号具有高的时间分辨率，确保在短暂冲击信号情况下，编码的声音信号具有足够高的质量。

lanee_lee·2020-07-29 10:58

CAV江苏常州体验中心试营业了！畅享极致智能影音体验

CAV常州体验中心CAV常州体验中心整合了全球先进影音理念和技术，服务范围包括视听产品、视听空间规划、声学环境设计，以及全球领先的音质管理系统。

CAV音响·2020-07-29 10:20

深度学习在语音识别中的应用

2009年GeoffreyHinton和DengLi把DNN用于声学模型建模，用于替代GMM，同时大家发现在训练数据足够的情况下Pretraining是不必要

环信·2020-07-29 10:26

【DKNN】Distilling the Knowledge in a Neural Network 第一次提出神经网络的知识蒸馏概念

对于Android语音搜索所用模型的一种深层声学模型，我们已经表明，通过训练一组深层神经网络实现的几乎所有改进都可以提炼成相同大

Joselyn·2020-07-29 09:00

Nature子刊：灵活的语音皮质编码可增强与任务相关的声学信息的神经处理

语音是我们日常生活中最重要的声音信号。它所传递的信息不仅可以用于人际交往，还可以用于识别个人的身份和情绪状态。最相关的信息类型取决于特定的环境和暂时的行为目标。因此，语音处理需要具有很强的自适应能力和效率。这种效率和适应性是通过早期听觉感觉区域的自下而上的物理输入处理和自上而下的听觉和非听觉(如额叶)区域驱动的自上而下的调节机制之间的积极相互作用实现的。因此，交互语音模型提出对输入进行初始自下向上

思影科技·2020-07-29 09:40

文本无关的声纹识别验证

文本无关的声纹识别验证ByDakeDake的专栏：www.glade.tk一、声纹识别简介声纹是指能惟一识别某人或某物的声音特征，是用电声学仪器显示的携带言语信息的声波频谱。

Dake423·2020-07-29 09:39

语音识别—声学模型解码

声学模型解码（带状态转移概率）最近一直在学习哥伦比亚大学与爱丁堡大学语音识别课程，并且修正了哥伦比亚大学中基于HMM构建的语音识别系统存在问题终自己写了一套基于HMM的语音识别系统，前文一些博客简单对上述工程实现以及理论进行了介绍

Xwei1226·2020-07-29 09:43

实验六：MPG音频编码

它采用子带编码技术，根据心理声学模型获得不同子带的听觉掩蔽阈值，并对每个子带的取样值进行动态量化。1、音频压缩的可能性(1)声音信号中的“冗余”信息：频域：非均匀功率密度谱，低频能量高，高频能量低。

J_ennifer·2020-07-29 09:53

声学特征 PLP

PLP的由来Linearprediction可以用来获得语音功率谱P(ω)的全极点模型A(ω)，也可以把LP看做获取P(ω)的频谱包络的手段，参考前面的文章由于LP对待所有频率一视同仁，它不符合人耳的听觉机理，比如人耳对于高于800Hz的感知会下降，对于中间频段更敏感。为了解决这个问题，Hermansky在进行LP之前修改语音的功率谱P(ω)，称为perceptuallinearpredictiv

xmucas·2020-07-29 09:37

基于HMM的语音识别（二）

这种形式最大限度的减少单词间的区分信息的丢失，并且与声学模型的分布假设进行良好的匹配。比如，如果对角协方差高斯分布用于状态输出分布，那么这些特征应该被设计为高斯并且是不相关的。

爱国者002·2020-07-29 09:44

临界带宽

临界频带临界频带是一个广泛应用于声学现象中的概念，它可以指在音调测量、响

LYLYC_3·2020-07-29 08:01

短剧大赛：校园文化“演”出地大人的精彩

（地大之声学生记者卢子蒙胡灵瑶曹姗姗）南望山下，有这样一场特殊的比赛。

浩浩呀·2020-07-29 03:30

声学模型学习笔记（六） representation learning

featurerepresentation特征抽象DNN的前L-1层可以认为是特征提取部分，最后一层认为是简单的分类层。相比于人工设计的特征（比如MFCC），多层（每一层sigmoid都是一种非线性变换）连接起来具有很强的特征抽象能力。靠近输入层的表示low-level特征；靠近输出层的表示high-level的特征，high-level的特征更为抽象。如上图，一个特点是high-level的层包

xmucas·2020-07-29 00:28

身轻如燕！灰色版小米蓝牙项圈耳机图赏：外观颜值让人过目难忘

据官方称，这款耳机采用了动圈+动铁声学架构和入耳式设计，可以给用户带来身临其境的听音感受。这款小米耳机支持蓝牙4.1，摆脱了有线连接的束缚后，搭配手机使用还是很方便的。小米蓝

雷科技·2020-07-28 23:43

魅族Flow圈铁耳机图赏：益励初心，重温旧业

其圈铁分频由中国科学院声学

ZAEKE知客·2020-07-28 21:53

清听声学捐赠“智慧舞场系统”，推动养老事业发展

“桑榆浓情，颐养高新”。10月27日下午（重阳节前夕），苏州高新区欢庆第三十个老年节颁奖典礼暨文艺汇演在科技大厦科技会堂隆重举行。区党工委副书记、统战部部长、西部生态城党工委书记宋长宝致辞，向老年朋友致以节日的祝贺和问候，并介绍了近几年高新区的老年事业发展的状况。活动现场，颁发了苏州高新区首届“养老服务之星”、“老有所为之星”以及“孝老爱亲之星”等三个奖项，鼓励区养老服务、养老意识的建设。这两年，

达达陈·2020-07-28 19:44

半导体芯片产业链公司大全

半导体设计）、大唐（金融卡）、中星微（安防图像）ASR翱捷科技（上海）有限公司RDA锐迪科存储芯片：长江存储、武汉新芯、兆易创新通信芯片：中兴微、大唐、东软载波、光迅科技智能电网：智芯微、南瑞股份电声：歌尔声学

weixin_33908217·2020-07-28 18:12

Speex 采样率对回声消除的影响

使用Speex的回声消除功能，frame_size:10ms的数据filter_length:100ms的数据。近端和远端用同一个pcm文件，如果成功消除，那么输出应该为一条直线。

FlyingPenguin·2020-07-28 08:49

魅族于京东超品日斩获销量佳绩，魅族POP火爆程度更是惊人

凌晨魅族配件还转发了杨颜连夜制作的销售战报，海报中数据显示，魅族声学配件新品魅族POP和魅族HALO，在429京东超级品牌日的首销战绩非常亮眼，告罄的速度非常快，尤其是魅族POP，仅仅9秒就销售一空。

小超超谈酷玩·2020-07-28 05:15

WebRTC回声消除技术

经过源代码分析,将AEC部分的代码单独摘取出来,并编译成动态链接库,通过jni技术使Java代码调用动态链接库,实现高质量回声消除。2WebRTC的AEC模块实现原理WebRTC的AEC模块采用

假_f89c·2020-07-28 02:03

潍坊vr全景正在渗透到潍坊生活的各个方面布局到潍坊城市的各个角落

以潍坊歌尔集团为例，歌尔从声学巨头到VR新贵，凭借其在VR领域的优势，依托

潍坊VR小哥·2020-07-27 23:29

kaggle使用笔记

因为参加了DCASE2018比赛的声学场景分类的子任务，这个比赛有个排行榜是用的kaggle来做的，所以在比赛中，用到过kaggleAPI，下面是关于kaggle的使用笔记。kaggle是什么？

客服小羊·2020-07-27 20:41

且学且成长

想到2009年毕业时那个朝气蓬勃的我，满怀信心踏上讲台，以为站在那里我就是老师，以为我不断的教授就是为师之道，然而，这十年，不断的碰壁，不断的受打击，不断的悄声学习，渐渐的明白，师，早已不是曾经授业解惑这样简单

轻雪带风斜·2020-07-27 17:56

这个寒冬不再冷成都大众朗逸改装德国黄金声学三分频汽车音响

大众严谨的造车理念，让大众汽车成为了世纪品牌。大众朗逸简约大气外观，家族式的前脸给人一种稳重安全感，坐上车内饰浓浓的大众风格，让人非常熟悉。宽敞的空间舒适的座椅居家旅行非常实用。不过让人略显遗憾的是，车载原车音响太差了，声音发闷，中频单薄，后门板居然还简配了高音头，非常的不地道。车主经过多方对比，最终选择了成都音悦汇汽车音响改装为爱车打造豪华音响。下面让我们来看看音悦汇的技师如何让这台朗逸的音响变

汽车音改·2020-07-27 14:22

Linner聆耳NC32运动耳机，智能降噪尽享跑步时刻

Linner聆耳专注于降噪声学产品研究、

聆耳LINNER·2020-07-27 13:25

beam search解码原理（斯坦福 2014 论文解读）

深度神经网络声学模型现在在基于HMM的语音识别系统中很普遍，但是构建

大数据AI笔记·2020-07-27 12:40

个性化的单芯片的回声消除(AEC)解决方案

概述这些年随着智能化产品的广泛应用，各种新型音频产品也层出不穷，在这个古老的领域，传统的回声消除方案一般是功耗高，成本非常高，集成性差。

虚生·2020-07-22 21:00

MPEG音频编码

同时经过心理声学模型计算以频率为自变量的噪声掩蔽阈值。量化和编码部分用信掩比SMR决定分配给自带信号的量化比特数，使量化噪声小于掩蔽阈值。

Shining_CC·2020-07-16 06:03

推荐频道

声学回声消除

语音识别-解码过程

语音识别基本原理学习

语音识别技术简史、基本原理、应用

语音增强算法研究系列（四）：非平稳噪声消除

语音识别基本流程

Linner聆耳NC50降噪耳机，全天聆听畅享真音乐

计算机语音识别过程

超全面的语音交互知识总结：从原理、场景到趋势

MFCC 过程理解

MPEG音频编码实验报告

【数据压缩】MPEG音频编码

声学特征 ivector

声学特征 PNCC

声学特征变换 fMLLR

声学特征（三） pitch

声学特征提取-python

3.3 基于GMM-HMM的语音识别

如何正确发声

Bark域介绍和线性频率域转换到Bark域

MFCC & PLP

麦克风阵列入门（一）

Bark域介绍

数据压缩原理与应用 MPEG音频编码

CAV江苏常州体验中心试营业了！畅享极致智能影音体验

深度学习在语音识别中的应用

【DKNN】Distilling the Knowledge in a Neural Network 第一次提出神经网络的知识蒸馏概念

Nature子刊：灵活的语音皮质编码可增强与任务相关的声学信息的神经处理

文本无关的声纹识别 验证

语音识别—声学模型解码

实验六：MPG音频编码

声学特征 PLP

基于HMM的语音识别（二）

临界带宽

短剧大赛：校园文化“演”出地大人的精彩

声学模型学习笔记（六） representation learning

身轻如燕！灰色版小米蓝牙项圈耳机图赏：外观颜值让人过目难忘

魅族Flow圈铁耳机图赏：益励初心，重温旧业

清听声学捐赠“智慧舞场系统”，推动养老事业发展

半导体芯片产业链公司大全

Speex 采样率对回声消除的影响

魅族于京东超品日斩获销量佳绩，魅族POP火爆程度更是惊人

WebRTC回声消除技术

潍坊vr全景正在渗透到潍坊生活的各个方面 布局到潍坊城市的各个角落

kaggle使用笔记

且学且成长

这个寒冬不再冷成都大众朗逸改装德国黄金声学三分频汽车音响

Linner聆耳NC32运动耳机，智能降噪尽享跑步时刻

beam search解码原理（斯坦福 2014 论文解读）

个性化的单芯片的回声消除(AEC)解决方案

MPEG音频编码

文本无关的声纹识别验证

潍坊vr全景正在渗透到潍坊生活的各个方面布局到潍坊城市的各个角落