王延凯的博客

MFCC算法讲解及实现（matlab）

史上最详细的MFCC算法实现（附测试数据）

1.matlab安装voicebox语音包
2.MFCC原理讲解
3.MFCC算法设计实现（matlab）

3.1 .wav格式语音文件提取【x(200000*1)】
3.2 预加重【x(200000*1)】
3.3 分帧{S(301*1103)}
3.4 加窗{C(301*1103)}
3.5 傅里叶变换
3.6 梅尔滤波器
3.7 离散余弦变换

4.总结
5.参考文献,资料

1.matlab安装voicebox语音包

这里该包的安装我直接附上我们师姐写过的一篇文章，里边的介绍很详细：
戳这里！！！跳转到文章链接地址

2.MFCC原理讲解

整个MFCC过程大致可以分为以下几步：

1.音频文件读取（最好是.wav文件）
2.预先加重
3.分帧
4.加窗
5.傅里叶变换（当是2的N次方时，可以使用FFT快速傅里叶变换）
6.梅尔滤波器组
7.离散余弦变换DCT

3.MFCC算法设计实现（matlab）

3.1 .wav格式语音文件提取【x(200000*1)】

$\qquad$ 在matlab中,使用函数audioread函数来读取本地wav文件，这里要注意的是，采样频率一般为8000Hz和16000Hz，采样频率需要大于真实信号最大频率的2倍，才不会导致频谱混叠。

clc;
clear;
[x,fs]=audioread('diguashao.wav');%读取wav文件

这里我们用于测试的数据的采样频率 $f_s$ 44100,这个是由 audioread函数默认决定的。

3.2 预加重【x(200000*1)】

$\qquad$ 为了避免在后边的FFT操作中出现数值问题，我们需要加强一下高频信息，因为一般高频能量比低频小。其预加重函数如下所示：
$y(n)=x(n)-\alpha \cdot x(n-1)$
其中 $\alpha$ 一般取值为 $0.97 、 0.95$

%预加重y=x(i)-0.97*x(i-1)
for i=2:200000
    x(i)=x(i)-0.97*x(i-1);
end
y=y';%对y取转置

然后我们再来对比一下原始文件和预加重后的数据差异

我们可以看到整个的数据其幅度范围是有所减小的，但是可以看得出来，高频部分的缩小倍数是小于低频部分的缩小倍数的。

3.3 分帧{S(301*1103)}

$\qquad$ 我们要对语音数据做傅里叶变换，将信息从时域转化为频域。但是如果对整段语音做FFT，就会损失时序信息。因此，我们假设在很短的一段时间t内的频率信息不变，对长度为t的帧做傅里叶变换，就能得到对语音数据的频域和时域信息的适当表达。例如我们这里的采样点数为200000个点，如果真的这样做的话，就很麻烦了，于是我们在语音分析中引入分帧的概念，将原始语音信号分成大小固定的N段语音信号，这里每一段语音信号都被称为一帧。
$\qquad$ 但是，如果我们这样分帧的话，帧与帧之间的连贯性就会变差，于是我们每一帧的前N个采样点数据与前一帧的后N个采样点数据一样。其原理图大致如下所示：

$\qquad$ 对于整个采样点数据可以分为多少帧以及帧与帧之间交叉的采样点个数N，不是随便分的，一般来说帧长设置为 $25 m s$ ,帧移设置为 $10 m s$ ,对于我这次的仿真，其帧数和帧长数值如下：
$\quad 帧数=f_s \cdot 0.025=44100 \cdot0.025=1103(帧)\\ \quad \\ \quad 帧移=f_s \cdot 0.001=44100 \cdot 0.01=441(采样点)$
$\qquad$ 在这里我们要调用matlab的enframe函数来进行分帧操作，要知道这个函数是包含在voicebox工具箱里边，首先确保其已经安装成功。

S=enframe(x,1103,662);%分帧,对x进行分帧，
%每帧长度为1103个采样点，每帧之间非重叠部分为662个采样点
%1103=44100*0.025,   441=44100*0.01    662=1103-441
%根据计算，我们可以将108721个数据根据公式662*301+1103=200365
%可以将其分为301帧

3.4 加窗{C(301*1103)}

$\qquad$ 将信号分帧后,我们将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续性（即谱泄露 spectral leakage）。常用的窗函数有方窗、汉明窗和汉宁窗等，根据窗函数的频域特性，常采用汉明窗（hamming window）。接下来我来讲解一下怎么加窗：我们需要做的就是为每一帧数据，也就是301帧数据都加入大小为1103的汉明窗。其汉明窗的表达公式如下所示：
$\cdot cos(2\cdot \pi \cdot n/N) \qquad 1 \leq n \leq N$
对于a的取值不同，将会产生不同的汉明窗，一般情况下， $a = 0.46$

%尝试一下汉明窗a=0.46,得到汉明窗W=(1-a)-a*cos(2*pi*n/N)
n=1:1103;
W=0.54-0.46*cos((2*pi.*n)/1103)
plot(W);title('汉明窗');grid on;
xlabel('取样点');ylabel('幅值')
%创建汉明窗矩阵C
C=zeros(301,1103);
for i=1:301
    C(i,:)=W;
end

$\qquad$ 由上边的公式我们可以得到汉明窗矩阵C,其大小为{301**1103}，由于汉明窗矩阵和分帧后的矩阵S具有相同大小，所以在matlab中使这两个矩阵的对应位置相乘，即可得到加窗后的矩阵SC，其大小为{301*1103}。接下来我将随便选取一帧数据来展示一下汉明窗、原始数据、加窗后的数据。其matlab代码如下所示：

SC=S.*C;
subplot(3,1,1);plot(C(7,:),'r');
title('汉明窗图像');grid on;%画出第7帧的汉明窗图像
subplot(3,1,2);plot(S(7,:),'g');
title('原始信号图像');grid on;%画出第7帧的原始信号图像
subplot(3,1,3);plot(SC(7,:),'m');
title('加了汉明窗的信号图像');grid on;%画出第7帧加了汉明窗的信号图像

$\qquad$ 在上边的图示中我们就可以看到，在每一帧的低频部分和高频部分都被汉明窗相乘后起了较大抑制作用，使其结果接近于0。

3.5 傅里叶变换

$\qquad$ 对于加窗后的矩阵SC,它是一个301*1103的矩阵，也就是说，它有301帧数据，且每一帧数据都有1103个采样点，那么我们接下来就要对这301帧的每一帧都要进行N=4096的FFT快速傅里叶变换,得到一个大小为301**4096大小的矩阵D,其帧数还是301帧，对每一帧的4096个数据点分别取模再取平方，然后除以4096；便得到能量谱密度E,其大小为301x4096,然后再对每一帧得到的能量进行相加，即得到一个301x1的矩阵F,其中的每个元素代表每一帧能量的总和。

%对SC的每一帧都进行N=4096的快速傅里叶变换,得到一个301*4096的矩阵
F=0;N=4096;
for i=1:301
    %对SC作N=4096的FFT变换
    D(i,:)=fft(SC(i,:),N);
    %以下循环实现求取能量谱密度E
    for j=1:N
        t=abs(D(i,j));
        E(i,j)=(t^2)/N;
    end
    %获取每一帧的能量总和F(i)
    F(i)=sum(D(i,:));
end

3.6 梅尔滤波器

$\qquad$ 首先我要讲一下什么是梅尔值，这是一个新的量度，相比于正常的频率机制，梅尔值更加接近于人耳的听觉机制，其在低频范围内增长速度很快，但在高频范围内，梅尔值的增长速度很慢。每一个频率值都对应着一个梅尔值，其对应关系如下
$\cdot log_{10}(1+\frac{f}{700})$
在matlab上画出其对应图像如下所示：

对于该函数图像的显示的matlab代码如下所示:

%梅尔频率转化函数图像
for i=1:200000
    mel(i)=2595*log10(1+i/700);
end
set(gcf,'position',[180,160,960,550]);%设置画图的大小
plot(mel,'linewidth',1.5);grid on;
title('梅尔频率转换');xlabel('频率');ylabel('梅尔频率');

但是如果我们要将梅尔频率m转换为频率f呢，我们对上式整理即可得到：
$\cdot (10^{m/2595}-1)$
$\qquad$ 好了介绍到这里，对于如何得到梅尔滤波器组我们还是无从下手，于是，我在这里描述了一下获得梅尔滤波器的几个简单步骤。然后接下来的操作我们也就将会按照这个步骤来实现。

其中过程1、2、3、4的实现代码如下所示：

fl=0;fh=fs/2;%定义频率范围，低频和高频
bl=2595*log10(1+fl/700);%得到梅尔刻度的最小值
bh=2595*log10(1+fh/700);%得到梅尔刻度的最大值
%梅尔坐标范围
p=26;%滤波器个数
B=bh-bl;%梅尔刻度长度
mm=linspace(0,B,p+2);%规划28个不同的梅尔刻度
fm=700*(10.^(mm/2595)-1);%将Mel频率转换为频率

上边几步都比较好理解，但是对于接下来谱线索引号k的定义，或许就需要一些理解了，其定义公式如下所示：
$k=\frac{(1+N)\cdot f_m}{f_s}$
$\qquad$ 其中 $N$ 为FFT点数， $f_s$ 为抽样频率， $f_m$ 为之前那28个梅尔刻度转化为频率后的值，最后我们得到的 $k$ 值为一个1*28的矩阵。且k值范围为 $0 - N / 2$ 。这个式子是把频率对应到频谱中2048个频率分量的某个。
以下则是k值得求解过程：

k=((N+1)*fm)/fs%计算28个不同的k值
hm=zeros(26,N);%创建hm矩阵
df=fs/N;
freq=(0:N-1)*df;%采样频率值

好了，现在我们只剩下最后一步了，创建Hm矩阵，这个矩阵得定义如下所示：
$H_m(k)=\begin{cases} 0& \text{k}Hm(k)=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧0(f(m+1)−f(m−1))(f(m)−f(m−1))2(k−f(m−1))(f(m+1)−f(m−1))(f(m)−f(m−1))2(f(m+1)−k)0k<f(m−1)f(m−1)≤k≤f(m)f(m)≤k≤f(m+1)k≥f(m+1)$

for i=2:27
    %取整，这里取得是28个k中的第2-27个，舍弃0和28
    n0=floor(k(i-1));
    n1=floor(k(i));
    n2=floor(k(i+1));
    %要知道k(i)分别代表的是每个梅尔值在新的范围内的映射，其取值范围为：0-N/2
    %以下实现公式--，求取三角滤波器的频率响应。
   for j=1:N
       if n0<=j & j<=n1
           hm(i-1,j)=2*(j-n0)/((n2-n0)*(n1-n0));
       elseif n1<=j & j<=n2
           hm(i-1,j)=2*(n2-j)/((n2-n0)*(n1-n0));
       end
   end
   %此处求取H1(k)结束。
end

接下来将要进行最后一步，输出Hm矩阵，并且将梅尔滤波器组画出来。

%绘图,且每条颜色显示不一样
c=colormap(lines(26));%定义26条不同颜色的线条
set(gcf,'position',[180,160,1020,550]);%设置画图的大小
for i=1:26
    plot(freq,hm(i,:),'--','color',c(i,:),'linewidth',2.5);%开始循环绘制每个梅尔滤波器
    hold on
end
 grid on;%显示方格
 axis([0 1500 0 0.2]);%设置显示范围

$\qquad$ 画出来之后，我们就会发现该梅尔滤波器，在频率很小的时候，滤波器宽度很窄，随着其频率的增大，滤波器的宽度也会逐渐增大，但其幅值也会逐渐减小。

3.7 离散余弦变换

$\qquad$ 在进行离散余弦变换之前，我们还需要做的就是把第3.5节得到的二维矩阵能量谱E(3014096)，乘以第3.6节得到的二维数组梅尔滤波器Hm(264096)的转置，矩阵的转置可得到301*26的矩阵，然后满足矩阵乘法定律，得到参数H,其定义如下：
$\cdot H_m^T$
此处的H其实是301x26的二维矩阵。
$\qquad$ 由于滤波器组得到的系数是相关性很高的，因此我们用离散余弦变换（Discrete Cosine Transform）来去相关并且降维。一般来说，在自动语音识别（Automatic Speech Recognition）领域，因为大部分信号数据一般集中在变换后的低频区，所以对每一帧只取前13个数据就好了。
好了接下来我们就要进行离散余弦变换了，但是在开始之前我感觉还是先讲解一下其具体的步骤流程吧。

根据mfcc的定义，我们需要对能量的对数作离散余弦变换，即可得到MFCC参数：
$mfcc(i,n)=\sum_{m=1}^{M}log[H(i,m)] \cdot cos[\frac{\pi \cdot n \cdot(2m-1)}{2M}]$
$\qquad$ 其中H为我们上边得到的矩阵H,M代表梅尔滤波器个数，i代表第几帧数据（取值为1-301），n代表第i帧的第n列(n取值范围为1-26)。那么根据上述公式我们可以写出求取mfcc的代码如下：

%对H作自然对数运算
 %因为人耳听到的声音与信号本身的大小是幂次方关系，所以要求个对数
 for i=1:301
     for j=1:26
         H(i,j)=log(H(i,j));%取对数运算
     end
 end
 %作离散余弦变换   
 for i=1:301
     for j=1:26
         %先求取每一帧的能量总和
         sum=0;
         %作离散余弦变换
         for p=1:26
             sum=sum+H(i,p)*cos((pi*j)*(2*p-1)/(2*26));
         end
         mfcc(i,j)=((2/26)^0.5)*sum;  
         %完成离散余弦变换
     end    
 end

$\qquad$ 接下来我们就要根据公式进行升倒谱的计算了，前边我们已经讲到了，因为大部分的信号数据一般集中在变换后的低频区，所以对每一帧只取前13个数据就好了。其公式表达如下：
$K(i)=1+(\frac{L}{2})\cdot sin(\frac{\pi \cdot i}{L}) \qquad i=1,2,3...,13$
$\qquad$ 其中L为升倒谱系数，一般取值为22，我们将其带入即可求得矩阵K,这是一个1x13大小的矩阵，这一部分的升倒谱的其实现代码如下：

J=mfcc(:,(1:13));
%默认升到普系数为22
 for i=1:13
     K(i)=1+(22/2)*sin(pi*i/22);
 end

接下来我们就要求取MFCC的三个参数了，首先我们先获取mfcc的第一组数据，根据公式：
$\cdot K(j)\\ \quad \\ \quad i=1,2,3,...,301; \quad j=1,2,...,13$
根据公式我们可以实现如下代码：

 %得到二维数组feat,这是mfcc的第一组数据，默认为三组
 for i=1:301
     for j=1:13
         L(i,j)=J(i,j)*K(j);
     end
 end
 feat=L;%将其值赋值到feat矩阵

$\qquad$ 接下来就是求取MFCC的第二组，第三组参数了。第二组参数其实就是在已有的基础参数下作一阶微分操作，第三组参数在第二组参数下作一阶微分操作。那么表达公式事什么样的呢，别急，等我慢慢道来：
$dtfeat[i][j]=feat[i+1][j]-feat[i-1][j]+2\cdot feat[i+2][j]-2 \cdot feat[i-2][j] \\ \quad \\ i=1，2，3，...,301 \quad; \quad j=1,2,3...,13$
按照上边的公式，我们可以使用代码实现一阶求导和二阶求导的计算

%接下来求取第二组（一阶差分系数）301x13 ，这也是mfcc参数的第二组参数
 dtfeat=0;
 dtfeat=zeros(size(L));%默认初始化
 for i=3:299
     dtfeat(i,:)=-2*feat(i-2,:)-feat(i-1,:)+feat(i+1,:)+2*feat(i+2,:); 
 end
 dtfeat=dtfeat/10;
%求取二阶差分系数,mfcc参数的第三组参数
%二阶差分系数就是对前面产生的一阶差分系数dtfeat再次进行操作。
 dttfeat=0;
 dttfeat=zeros(size(dtfeat));%默认初始化
 for i=3:299
     dttfeat(i,:)=-2*dtfeat(i-2,:)-dtfeat(i-1,:)+dtfeat(i+1,:)+2*dtfeat(i+2,:); 
 end
 dttfeat=dttfeat/10;
 %这里的10是根据数据确定的

$\qquad$ 好了到这里我们就完成了，MFCC三组参数的求解，我们现在就只需要将这三组数据拼接到一起形成一个301x39的矩阵即可。其实现代码如下：

%将得到的mfcc的三个参数feat、dtfeat、dttfeat拼接到一起
 %得到最后的mfcc系数301x39
 mfcc_final=0;
 mfcc_final=[feat,dtfeat,dttfeat];%拼接完成

$\qquad$ 前面导图中，我们也有讲到过，由于一阶求导和二阶求导的前两帧和后两帧数据都为0，于是我们就要对在mfcc_final中去除这四帧数据。而后我们再选取每一帧的mfcc系数的第一个数得到 $MFCC_0$ ,这是一个297x1的数据，对 $MFCC_0$ 来进行绘图，并与原始信号进行比对。

mfcc24=mfcc_final((3:299),:);
 %以下画图对比一下原始信号和提取出来的mfcc0
 set(gcf,'position',[180,160,960,550]);%设置画图的大小
 subplot(211)
 plot(x,'m');grid on;
 title('原始信号');
 axis([0 200000 -1 1]);%对数据，进行绘图
 mfcc0=mfcc24(:,1)%选取mfcc系数的第一个数，组成新的特征参数mfcc0
 subplot(212)
 mfcc00=(mfcc0-80)/2
 plot(mfcc00,'r','linewidth',2);
 title('MFCC_0');
 axis([0 300 -30 5]);grid  on

比对结果如下所示：

$\qquad$ 好了，到了这里我们就可以看到了，原始信号之前是20000个采样点的数据，而现在的 $MFCC_0$ 参数图形大致与原始信号一致，并且其点数只有297个点，这也就说明通过此方法 $MFCC_0$ ，我们可以提取出语音信号的特点以及走向趋势，也就是说在某个程度上我们可以用这297个点来代替 $\cdot 10^5$ 点的数据。

4.总结

本次训练是在参考了很多资料的前提下完成的，为了防止自己忘记，所以特此写了本篇文章。

5.参考文献,资料

1.基于谱熵梅尔积的语音端点检测方法
2.语音识别MFCC
3.语音特征参数MFCC提取过程详解
4.Mel滤波器组的设计与实现（基于MATLAB和Python）

python波形图librosa_librosa语音信号处理 weixin_39625468
librosa是一个非常强大的python语音信号处理的第三方库，本文参考的是librosa的官方文档，本文主要总结了一些重要，对我来说非常常用的功能。学会librosa后再也不用用python去实现那些复杂的算法了，只需要一句语句就能轻松实现。先总结一下本文中常用的专业名词：sr：采样率、hop_length：帧移、overlapping：连续帧之间的重叠部分、n_fft：窗口大小、spectr
信号与系统07-信号处理中的AI技术江畔柳前堤信号与系统信号处理人工智能深度学习 python pyqt 算法 java
第7课：信号处理中的AI技术1.AI在信号处理中的核心应用领域信号处理与人工智能的结合是当前科技发展的核心方向之一。以下三大应用场景展示了AI在信号处理中的典型应用：1.1语音信号的去噪与增强理论基础：语音信号处理是信号与系统课程中的经典课题。传统方法依赖傅里叶变换、小波变换等频域分析技术，而AI技术（如深度神经网络）则通过端到端的方式直接学习信号特征。AI技术应用：语音去噪：基于深度学习的语音去
华为HCIP-AI认证题库中的部分问题 2301_82241859 程序员华为人工智能
D：类间方差答案：D6、语音识别技术就是让机器通过识别和理解把文本转换为语音的技术。A：TrueB：False答案：B8、由于现代的语音处理技术都以数字计算为基础，因此也称其为数字语音信号处理。A：TrueB：False答案：A9、不属于语音声学特征的是？A：频率B：语义C：时长D：振幅答案：B10、属于语言学内容的是？A：文字B：语音C：词汇D：语法答案：A,B,C,D11、语音合成方法有哪些？
【人工智能语音识别】——深入详解人工智能语音信号处理：理解语音信号的特征提取与表示猿享天开人工智能数学基础专讲人工智能语音识别信号处理
深入详解人工智能语音识别之语音信号处理语音识别（SpeechRecognition）是人工智能领域中的一项关键技术，它使计算机能够“听懂”人类的语言并作出反应。语音信号处理是语音识别的核心部分，涉及将原始的声音波形转化为机器可理解的特征，并最终进行识别。为了实现这一目标，语音信号必须经过多步骤的处理，包括信号采集、预处理、特征提取和表示。本文将深入探讨语音信号处理的关键概念、原理、示例及其在语音识
音视频开发成长之路与音视频知识点总结 Linux服务器开发音视频开发 webrtc ffmpeg 音视频开发流媒体服务器开发 webrtc FFmpeg 嵌入式音视频开发
音视频涉及语音信号处理、数字图像处理、信息论、封装格式、编解码、流媒体协议、网络传输、渲染、算法等。在现实生活中，音视频发挥着越来越重要的作用，如视频会议、直播、短视频、播放器、语音聊天等。所以从事音视频开发是一件有意义的事情，机遇和挑战并存。本文将从：音视频开发基础、音视频高级成长、音视频工作方向、音视频开源库、音视频相关书籍，配套的学习资源等几个方面来进行介绍。那么我们该如何系统的学习音视频开
基于能量检测的语音信号端点检测 FPGA 实现鱼弦人工智能时代 fpga开发
基于能量检测的语音信号端点检测FPGA实现介绍语音信号端点检测（VoiceActivityDetection,VAD）是语音处理中的一个重要步骤，用于确定语音信号的起始和结束点。基于能量检测的方法通过计算语音信号的能量来识别活跃语音段。FPGA的并行处理能力使其非常适合用于实时的语音信号处理。应用使用场景语音识别系统：提高识别准确性，减少处理非语音片段。通信设备：降低带宽需求，通过仅传输语音部分节
机器学习笔记 - 将音频转换为图像进行分类的机器学习模型坐望云起深度学习从入门到精通机器学习深度学习语音识别光谱图 Whisper
一、简述语音识别技术是将音频信号转化为文本的过程。其基本原理如下：1.音频录制：首先需要对口语发音进行录制，并将其转化为数字形式的音频文件。2.预处理：对音频信号进行预处理，包括去除杂音干扰、增加音频的信噪比以及消除不必要的语音、噪声等。3.特征提取：特征提取是语音信号处理的一个重要部分，通过对音频数据进行分析，提取其中特有的频率、音调、幅度等数学特征，并转化成数字特征。4.模型训练：在特征提取完
Python librosa模块介绍骚火棍人生苦短我用Python librosa
librosa语音信号处理模块参考链接：https://www.cnblogs.com/LXP-Never/p/11561355.html
嵌入式人工智能实验方向周南音频科技教育学院(AI湖湘学派) AI深度学习理论与实践研究音频算法设计研究开发音频算法人工智能神经网络
加我微信hezkz17进嵌入式人工智能研究开发交流答疑群。1可在stm32，esp32，NXP，arduino，树莓派上部署人工智能模型，图像理解，图像分类。2采用BESSOC部署深度学习语音信号处理算法，降噪算法3根据公式用C语言实现卷积CNN，或者采用开源的嵌入式机器学习，嵌入式深度学习，嵌入式神经网络开源sdk，移植，部署到MCU或者SOC，
操作系统复习总结——文件管理是dream 操作系统操作系统文件管理
博客主页：是dream系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：但愿每次回忆，对生活都不感到负疚。感谢大家点赞收藏⭐指正✍️目录一、文件管理概述1、文件基本概念（1）定义（2）基本调度单位（3）文件结构2、文件控制块与索引节点（1）文件属性（2）文件控制块(FCB)（3）索引结点3、文件的操作（操作系统向上提供哪些功能？）4、文件保护（1）加以控制
频谱细化-----CZT算法介绍及MATLAB实现 YHCANDOU 频谱细化 matlab 算法开发语言
CZT变换采用FFT算法可以很快算出全部N点DFT值，即Z变换X(z)X\left(z\right)X(z)在Z平面单位圆上的全部等间隔取样值。实际中，也许不需要计算整个单位圆上Z变换的取样，如对于窄带信号，只需要对信号所在的一段频带进行分析，这时希望频谱的采样集中在这一频带内，以获得较高的分辨率，而频带以外的部分可不考虑，或者对其他围线上的Z变换取样感兴趣，例如语音信号处理中，需要知道Z变换的极
MATLAB环境下一种音频降噪优化方法—基于时频正则化重叠群收缩哥廷根数学学派信号处理小波分析图像处理语音识别人工智能
语音增强是语音信号处理领域中的一个重大分支，这一分支已经得到国内外学者的广泛研究。当今时代，随着近六十年来的不断发展，己经产生了许多有效的语音增强算法。根据语音增强过程中是否利用语音和噪声的先验信息，语音增强算法一般被归类为两类，一类是无先验信息的语音增强算法，另外一类则是具有先验信息的语音增强算法。在第一类无先验信息语音增强算法中，比较常用的语音增强算法有谱减算法、基于统计模型的算法、基于信号子
深度学习环境搭建——利用anaconda+pytorch搭建自己的深度学习环境（以YOLOv5环境搭建为例）2023.9.26最新是dream 深度学习环境搭建深度学习 pytorch YOLO
博客主页：是dream系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：要有最朴素的生活和最遥远的梦想，即使明天天寒地冻，山高水远，路远马亡。感谢大家点赞收藏⭐指正✍️前言相信大家在搭建自己的深度学习环境时总会遇到各种问题，特别是小白。记得第一次配置自己的深度学习环境时，什么anaconda、pytorch，我都不知道这些东西是干嘛的，就知道一个YOLO，
音视频开发成长之路与音视频知识总结徐福记456 音视频开发音视频开发基础音视频进阶成长音视频工作方向音视频开源库流媒体协议与音视频书籍
音视频涉及语音信号处理、数字图像处理、信息论、封装格式、编解码、流媒体协议、网络传输、渲染、算法等。在现实生活中，音视频扮演着越来越重要的角色，比如视频会议、直播、短视频、播放器、语音聊天等。因此，从事音视频是一件比较有意义的事情，机遇与挑战并存。本文将从几个维度进行介绍：音视频开发基础、音视频进阶成长、音视频工作方向、音视频开源库、流媒体协议与书籍。目录一、音视频开发基础1、音频基础2、通用基础
音频筑基：巴克谱和梅尔谱辨析来知晓语音处理音视频
音频筑基：巴克谱和梅尔谱辨析是什么深入了解相关参考在音频信号处理中，巴克谱和梅尔谱是我们经常遇到的概念，也是语音处理中常用到的频域特征，这里谈谈自己对它们的理解。是什么巴克谱又称BarkSpectrum，梅尔谱又称MelSpectrum，其中异同梳理如下：相同点：Bark谱和Mel谱都是将线性频谱映射到非线性谱上的表征，根据不同频带的感知能力来划分，但它们的核心思想不同。这两种谱都是语音信号处理中
基于sy3130光感入耳检测功能成功实现周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发算法
基于sy3130光感入耳检测功能成功实现是否需要申请加入数字音频系统研究开发交流答疑群(课题组)？可加我微信hezkz17,本群提供音频技术答疑服务，+群赠送语音信号处理降噪算法，蓝牙耳机音频，DSP音频项目核心开发资料,1芯片介绍2电路实现3寄存器列表
低信噪比环境下的语音端点检测 jUicE_g2R 经验模态分解EMD 语音识别语言信号处理低信噪比 matlab
端点检测技术是语音信号处理的关键技术之一为提高低信噪比环境下端点检测的准确率和稳健性，提出了一种非平稳噪声抑制和调制域谱减结合功率归一化倒谱距离的端点检测算法1端点检测1-1定义定义：在存在背景噪声的情况下检测出语音的起始点和结束点（这里的重点是噪声环境下语音信号的处理）1-2应用需求应用于语音信号处理：语音增强、语音识别、编码和传输需求是：人们希望在远场或者嘈杂的环境中也能用语音控制智能设备，因
【Matlab语音加密】语音信号加密解密（带面板）【含GUI源码 181期】 Matlab佛怒唐莲 Matlab完整代码 Matlab语音处理 matlab 语音识别开发语言
一、代码运行视频（哔哩哔哩）【Matlab语音加密】语音信号加密解密（带面板）【含GUI源码181期】二、matlab版本及参考文献1matlab版本2014a2参考文献[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.[3]李波,张晓力,石旭.基于Matlab的语音信号加密处理[J].信息
【Matlab语音处理】汉宁窗FIR陷波滤波器语音信号加噪去噪【含GUI源码 1711期】 Matlab佛怒唐莲 Matlab完整代码 Matlab语音处理 matlab 语音识别开发语言
一、代码运行视频（哔哩哔哩）【Matlab语音处理】汉宁窗FIR陷波滤波器语音信号加噪去噪【含GUI源码1711期】二、matlab版本及参考文献1matlab版本2014a2参考文献[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.[3]尹学爱,马国利,冯伟伟.基于MATLAB的声音信号频
语音信号处理共振峰 H_uer 语音信号处理基础
窄带语谱图和宽带语谱图首先，什么是语谱图。最通常的，就是语音短时傅里叶变换的幅度画出的2D图。之所以是通常的，是因为可以不是傅里叶变换。“窄带”，顾名思义，带宽小，则时宽大，则短时窗长，窄带语谱图就是长窗条件下画出的语谱图。“宽带”，正好相反。至于“横竖条纹”，窄带语谱图的带宽窄，那么在频率上就“分得开”，即能将语音各次谐波“看得很清楚”，即表现为“横线”。“横”就体现出了频率分辨率高。分辨率可以
语音信号处理-基本概念（二）：音频通道数、采样频率、采样位数、采样个数(样本数)、一帧音频的大小、每秒播放的音频字节大小、一帧的播放时长、音频重采样 u013250861 Audio 音视频语音识别人工智能
对于下面data和linesize的解释(参考下面3.4中的av_samples_alloc_array_and_samples函数说明)：data是通道的意思，例如双通道，data[0]代表左声道，data[1]代表右声道。linesize为采样个数的最大大小字节空间。例如aac，64位，双通道，则对于交错模式最大为：linesize=2x1024x8=16384。此时也是一个音频帧的大小。对于
用Matlab进行语音信号处理后端架构小白 matlab 信号处理语音识别
用Matlab进行语音信号处理语音信号处理是数字信号处理中的一个重要分支，主要涉及语音信号的采集、压缩、去噪、降噪等处理。Matlab是一个强大的数学计算工具，也是语音信号处理中常用的工具之一。本文将介绍如何使用Matlab对语音信号进行采集、去噪和压缩处理。语音信号采集语音信号采集需要使用麦克风或其他音频输入设备。在Matlab中，可以使用audiorecorder函数进行音频采集。下面的代码演
语音信号处理——噪声抑制 DEDSEC_Roger 信号处理音频
简介噪声抑制技术用于消除背景噪声，改善语音信号的信噪比和可懂度，让人和机器听的更清楚常见的噪声种类：人声噪声、街道噪声、汽车噪声噪声抑制方法的分类：按照输入通道数分：单通道降噪、多通道降噪按照噪声统计特性分：平稳噪声抑制、非平稳噪声抑制按照降噪方法分：被动降噪、主动降噪下面介绍的方法用于单通道的、被动的、平稳噪声抑制MinimaControlledRecursiveAveraging（MCRA）传
语音信号处理：librosa 智慧医疗探索者 AI数字人技术音视频处理信号处理语音识别 librosa
1librosa介绍Librosa是一个用于音频和音乐分析的Python库，专为音乐信息检索（MusicInformationRetrieval，MIR）社区设计。自从2015年首次发布以来，Librosa已成为音频分析和处理领域中最受欢迎的工具之一。它提供了一套清晰、高效的函数来处理音频信号，并提取音乐和音频中的信息。Librosa在音乐和音频分析方面提供了强大而灵活的工具，适用于从基础研究到实
如何理解短时傅里叶变换(Short Time Fourier Transform, STFT) 林深迷了鹿语音信号处理语音识别机器学习人工智能
因为最近一直在学习语音信号的处理，看了HaythamFayek的一篇博客后关于什么是傅里叶变换感到很迷惑，所以就专门写下一篇文章，整理一下我从网页上搜集的内容。短时傅里叶变换(ShortTimeFourierTransform,STFT)是一个用于语音信号处理的通用工具.它定义了一个非常有用的时间和频率分布类,其指定了任意信号随时间和频率变化的复数幅度.实际上,计算短时傅里叶变换的过程是把一个较长
HMM（Hidden Markov Model）详解——语音信号处理学习（三）（选修一） LotusCL 声音信号处理学习信号处理学习语音识别人工智能
参考文献：SpeechRecognition(Option)-HMM哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记HMM-6-知乎(zhihu.com)隐马尔可夫（HMM)的解码问题+维特比算法-知乎(zhihu.com)本次省略所有引用论文目录一、介绍二、建模单位StatesState由来转移概率与发射概率三、Alignment四、深度学习下的HMM方法一：Tandem方法
RNN-T Training，RNN-T模型训练详解——语音信号处理学习（三）（选修三） LotusCL 声音信号处理学习 rnn 信号处理学习人工智能语音识别
参考文献：SpeechRecognition(option)-RNN-TTraining哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记AlignmentTrain-8-知乎(zhihu.com)本次省略所有引用论文目录一、如何将Alignment概率加和对齐方式概率如何计算概率加和计算原理概率加和计算方式二、RNN-T的模型训练模型训练思路偏微分计算-1-展开变形偏微分计算-
Alignment of HMM, CTC and RNN-T，对齐方式详解——语音信号处理学习（三）（选修二） LotusCL 声音信号处理学习 rnn 信号处理学习人工智能语音识别
参考文献：SpeechRecognition(option)-AlignmentofHMM,CTCandRNN-T哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记Alignment-7-知乎(zhihu.com)本次省略所有引用论文目录一、E2E模型和CTC、RNN-T的区别E2E模型的思路CTC、RNN-T模型的思路二、待解决的问题三、对齐方式介绍四、穷举方式穷举HMM穷举C
数字图像处理（1）：灰度直方图、直方图均衡化处理（入门必看）是dream 数字图像处理图像处理
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：闲看花开，静待花落，冷暖自知，干净如始。感谢大家点赞收藏⭐指正✍️前言：本文详细介绍了如何使用python对图像进行基本的操作，包括对图像的读取、显示、修改和保存，通过Matplotlib对图像进行绘制、显示和保存，最后详细讲解了如何绘制直方图，并对直方图进行均衡化处理。欢迎大家参考和学
快速调用百度AI开放平台的API，以OCR通用文字识别为例（封装函数进行连续调用）是dream 项目开发百度人工智能百度云 python
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：眼里有不朽的光芒心里有永恒的希望。感谢大家点赞收藏⭐指正✍️前言百度开放平台允许开发者访问和利用百度的各种服务和功能，包括语音识别、人脸识别、文字识别、自然语言处理等等。这些API能够满足我们绝大部分需求，来供我们学习和使用。本文就OCR文字识别为例，详细介绍新手小白如何调用百度开放平台
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &