weixin_42163337

利用DTW算法对声音信号的MFCC特征矢量矩阵进行模式匹配

该部分主要阐述了完整的语音信号处理的算法内容，其中包括语音信号预处理（信号分帧），端点检测，预加重，加窗，计算MFCC矩阵以及进行声音的识别匹配的DTW算法。接下来将按处理的流程进行阐释：

一、预处理

预处理的内容包括：

1、对于声音信号，人为的设定每一帧的帧时长fram_time（一般为20ms~40ms，本程序中设定为20ms）以及帧移系数fram_mov_rito（即相邻帧之间重叠的时长，本程序中设定帧移系数为0.5即10ms）。既定的声音信号的采样率fs（由录音设备决定，算法中初始定义为8000HZ）将决定每一帧应该包含多少个采样点。根据帧长与帧移可知，信号总点数L有L=K*1-fram_mov_rito*fram_time*fs=80*K

即总点数应该是80个采样点的整数倍。

然而由于读取的声音信号长度不为整，因此需要对长度进行修剪修剪为最接近80的整数倍的值。考虑到声音可能在结束的时候未停止，即包含的尾音，因此从声音信号的起始点进行剪裁。代码处理如下：

fscanf_s(fp, "%d", &voice_end);

useless= fgetc(fp);

for (con = 0;con

{

fscanf_s(fp, "%lf", (y+ con));

useless = fgetc(fp);

}

//声音信号结束点为voice_end

for (voice_length = voice_end;voice_length % 160 != 0;voice_length--);

voice_start = voice_end - voice_length;

//声音信号长度为voice_length起始点为voice_start

y1 = y + voice_start - 1; //将声音起始指针指向起始点

2、录制的声音信号都不可避免的会有噪音干扰。为了能够不让噪声影响声音信号的端点检测以及特征向量的提取，必须在处理信号之前进行降噪处理。由于在无录音人人身时的背景噪音基本属于高斯白噪声，因此可以对噪声段进行时域均值滤波即可达到不不错的降噪效果。在这，本算法的改动在于，这里的“降噪”并不是真正意义上的将噪声降为0，而是通过对噪声的幅值计算均值（并不是信号的算术均值），并且将信号区分正负后加上（或减去）幅值的均值，可以通过Matlab的plot输出发现，噪声都被强行拉至一个相对平稳的水平，这对于之后的端点检测有很大帮助。另外，本算法设定取10帧即200ms的语音时长为噪声段，在提取噪声的时候从第2480个采样点开始计算，刻意规避了在录音设备刚启动时带来的噪声。代码处理如下

效果图：

可以清晰的看见在非语音段出现了一个明显的水平线（上为原信号下为处理信号）

代码部分

for (con = 2480;con < 4080;con++) //默认噪声帧数为10帧

{

sum = sum + fabs(*(y + con));

}

sum = sum / 1600.0;

for (con = 0;con < voice_length;con++)

{

if (*(y + con) > 0)

*(p_voice + con) = *(y + con) - sum;

else

*(p_voice + con) = *(y + con) + sum;

*(n_voice + con) = *(p_voice + con);

}

二、端点检测

端点检测为本算法包括所有语音信号处理过程中极为重要的一部分，端点检测的准确程度直接影响声音识别效果的好坏，因为准确的端点检测才能避免在对语音帧进行傅里叶变换的过程中不会受到太多无效信号段的影响。端点检测算法目前普遍使用的是短时过零率和短时幅度值的双阈值法。

1、双阈值判断

短时过零率即计算一帧语音中过零采样点的比例，当该比例大于一定值时认为该帧为有声帧。在本算法中，“过零”并非真正意义的越过0值极为过零。由于有噪声的存在不简单的认为过零值的信号为有声信号。在这里我们选择的是10帧噪声帧每一帧最大值的均值。之所以这样选择是因为在经过预处理后噪声基本在同一水平，在该水平下的信号一律认为是噪声或者清音（由于清音一定配合浊音，此处的判别会在后面提及），只有超过该水平的声音才认为是有效声音。在本算法中，为了进一步提升抗噪性能，在做了均值处理后，大于均值2倍的信号认为是有效信号值。

短时幅度值即计算一帧语音中幅度值的均值，当均值大于一定阈值时认为该帧为有声帧。在本算法中，对于该阈值的选择。经过测试，选在在噪声幅值最大值均值的50%。即一帧语音中有50%的信号的赋值都超过了门限值，则可认为这一帧是有效语音帧。

代码处理：

con = noise_start; //噪声段的起始点采用了与预处理相同的2480

temp = noise_start;

n_thl_ratio=2; s_thl_ratio=0.5;

for (con2 = 1;con2 <= noise_num;con2++)

//默认噪声帧数为10帧，来计算幅度阈值

{

for (con = temp;con < temp + noise_len-1;con++)

{

if (fabs(*(n_voice + con)) > noise_max)

noise_max = fabs(*(n_voice + con));

}

n_max_mean = n_max_mean + noise_max;

noise_max = 0.0;

temp = con;

}

n_max_mean = n_max_mean / (double)noise_num;

noise_thl = n_max_mean*n_thl_ratio;

s_thl = ((double)frame_len)*noise_thl*s_thl_ratio;

//printf("端点检测短时幅度值检测完成\n");

temp = (voice_length - frame_len) / (frame_len - frame_mov) + 1;

S = (double *)malloc(temp * sizeof(double));

Z = (double *)malloc(temp * sizeof(double));

//用于保存短时过零率和短时幅度值

for (temp = temp - 1;temp >= 0;temp--)

{

*(S + temp) = 0;

*(Z + temp) = 0;

}

frame = (double *)malloc((frame_len ) * sizeof(double));

frame_con = -1;

for (con2 = 0;con2 <= (voice_length - frame_len);con2 = con2 + (frame_len - frame_mov))

{

frame_con = frame_con + 1;

for (temp = con2, con = 0;temp <= con2 + frame_len - 1;temp++, con++)

*(frame + con) = *(n_voice + temp);

for (con = 0;con < frame_len;con++)

*(S + frame_con) = *(S + frame_con) + fabs(*(frame + con));

for (con = 0;con < frame_len - 1;con++)

{

if (*(frame + con) >= noise_thl)

last_sig = 1;

else if (*(frame + con) < (0.0 - noise_thl))

last_sig = -1;

if (last_sig == -1)

{

if (*(frame + con + 1) >= noise_thl)

*(Z + frame_con) = *(Z + frame_con) + 1;

}

else if (last_sig == 1)

{

if (*(frame + con + 1) < (0.0 - noise_thl))

*(Z + frame_con) = *(Z + frame_con) + 1;

}

//printf("完成短时过零率和短时幅度值\n");

}

效果图：

2、状态转换检验

刚刚提到在语音中出现清音时有可能出现无法满足双阈值的情况。同时，语音中出现的脉冲噪声则有可能恰恰相反，出现了满足双阈值之一的可能。如果仅仅在当前帧中对双阈值进行判断就判断是否为语音帧，则以上两种情况都有可能发生误判。因此选择使用状态转换判决，给声音设置4个状态：0——无声段 1——前端过渡段 2——有声段 3——后端过渡段。流程如下（初始状态为0——无声段）：

（1）判断当前语音帧是否满足双阈值其一，如果满足进入（2）-（5），如果不满足（）

（2）如果当前（即上一帧）状态为2—有声段，则保持不变。

（3）如果当前（即上一帧）状态为0—无声段，则状态变为1—前端过渡段，且前端过渡帧数加一，回到（1）。

（4）如果当前（即上一帧）状态为1—前端过渡段，如果前端过渡段帧数到达了最大帧数，则状态变为2—有声段，否则前端过渡帧数加一，回到（1）。

（5）如果当前（即上一帧）状态为3—后端过渡段，即在声音消失的时候又检测到有声音，认为是中间极短暂停顿，状态变为2—有声段，后端过渡帧数置0，回到（1）

（6）如果当前（即上一帧）状态为0—无声段，则保持不变，回到（1）。

（7）如果当前（即上一帧）状态为2—有声段，则状态变为3—后端过渡段，且后端过渡帧数加一，回到（1）。

（8）如果当前（即上一帧）状态为3—后端过渡段，如果后端过渡段帧数到达了最大帧数，则状态变为0—无声段，否则后端过渡帧数加一，回到（1）。

（9）如果当前（即上一帧）状态为1—前端过渡段，即在无声的时候又检测到有声音，认为是中间极短暂脉冲噪声，状态变为0—无声段，前端过渡段帧数置0，回到（1）。

代码处理：

for (con2 = 0;con2 <= (voice_length - frame_len);con2 = con2 + (frame_len - frame_mov))

{

frame_con = frame_con + 1;

if (*(S + frame_con) > s_thl || *(Z + frame_con) > z_thl)

{

if (cur_stus == 2)

;

else if (cur_stus == 0)

{

cur_stus = 1;

font_duration = 1;

}

else if (cur_stus == 1)

{

font_duration = font_duration + 1;

if (font_duration >= v_durmin_f)

{

cur_stus = 2;

valid_con = valid_con + 1;

//printf("第%d段语音", valid_con+1);

valid_start[valid_con] =( frame_con - v_durmin_f + 1);

//printf("当前帧为%d,起始帧为%d ", frame_con,(frame_con - v_durmin_f - 1));

font_duration = 0;

}

else if (cur_stus == 3)

{

back_duration = 0;

cur_stus = 2;

}

else

{

if (cur_stus == 0)

;

else if (cur_stus == 2)

{

cur_stus = 3;

back_duration = 1;

}

else if (cur_stus == 3)

{

back_duration = back_duration + 1;

if (back_duration >= s_durmax_f)

{

cur_stus = 0;

valid_end[valid_con] = (frame_con - s_durmax_f + 1);

back_duration = 0;

}

else if (cur_stus == 1)

{

font_duration = 0;

cur_stus = 0;

}

//printf("端点检测完成并保存\n");

for (con = 0;con <= 19;con++)

{

valid_start[con] = valid_start[con] * (frame_len - frame_mov)+80.0;

valid_end[con] = valid_end[con] * (frame_len - frame_mov)+80.0;

}

if (cur_stus == 2|| back_duration!=0)

valid_end[valid_con] = voice_length;

//结尾处理：防止文件结束时声音未结束而程序错误

效果图：

图中可以看出端点检测效果良好。（上为原信号下为提取信号）。

三、预加重与加窗处理

对于语音信号，一般都会进行预加重以及加窗处理。

1、语音信号的预加重，目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。一般通过传递函数为一阶FIR高通数字滤波器来实现预加重，其中a为预加重系数，0.9

代码处理：

void pre_emphasis(double *p_voice, int *valid_start, int *valid_end, int n, double *hf_voice)

{

int i,j;

double u = 0.95;//预加重系数

for (j = 0, i = valid_start[n - 1];i <= valid_end[n - 1] - 1;i++, j++)

{

*(hf_voice + j) = *(p_voice + i);

}

//printf("预加重语音段初始化完成\n");

for (i = 1;i <= (valid_end[n - 1] - valid_start[n - 1] - 2);i++)

*(hf_voice + i - 1) = *(hf_voice + i) - u*(*(hf_voice + i - 1));

*(hf_voice + i ) = 0;

*(hf_voice + i + 1) = 0;}

2、加窗。为了便于后续语音处理，需对分帧后的信号加窗。加窗可以选择矩形窗、汉明窗汉宁窗等，这些窗函数的频率响应都具有低通特性，但不同的窗函数形状将影响分帧后短时特征的特性。在相同的时域点数下汉明窗的带宽大约是同样宽度矩形窗带宽的两倍。同时，在通带外汉明窗的衰减比矩形窗大得多。矩形窗的主瓣较小，旁瓣较高；而汉明窗具有最宽的主瓣宽度和最低的旁瓣高度。对语音信号分析来说，窗函数的形状是非常重要的，矩形窗的谱平滑性较好，但波形细节易丢失，并且矩形窗会产生泄露现象。而汉明窗可以有效地克服泄露现象，应用范围也最为广泛。基于以上论述，本设计选用汉明窗作为窗函数。如图：

在本程序中，考虑到最终该程序需要在c语言环境下运行，一方面考虑到C语言进行相关与卷积的操作都非常不便，因此在matlab中进行1024点dft变换后将频域的系数保存在文件中，在C程序中直接读文件的形式进行频域逐项相乘。代码处理如下：

%%%%%%%%%%%% 汉明窗 %%%%%%%%%%%%

w(n)=0.54-0.46*cos[2*pi*n/(N-1)], 0<=n<=(N-1)

%移植到语言时上时应先计算好窗函数在每一点的取值然后存储于程序中程序运行时直接取用

ham_top=10000;

hamm=zeros(frame_len,1);

for i=1:frame_len

hamm(i)=0.54-0.46*cos(2*pi*(i-1)/(frame_len-1));

end

hamm=int32(hamm*ham_top);

hamm=double(hamm);

plot(hamm);

csvwrite('hamm.c',hamm');

C语言中参数文件的读取将在后面与三角滤波器的设计一起展示。

四、语音帧的MFCC特征矢量系数矩阵的提取

在语音识别系统中，时域下的数字信号难以进行分析与识别。通常的做法是对时域信号进行变换，提取其中某种特定的参数，通过一些更加能反映语音本质特征的参数来进行语音识别。特征提取是识别过程中一个非常重要的环节，选取的特征直接影响到识别的结果。目前语音特征的提取方法主要有以下三类：
1.基于线性预测分析的提取方法。这一类的典型代表是线性预测倒谱系数 LPCC。
2.基于频谱分析的提取方法。这一类的典型代表是 Mel 频率倒谱系数 MFCC。
3.基于其它数字信号处理技术的特征分析方法。如小波分析、时频分析、人工神经网络分析等。

Mel 频率滤波器组模拟人的耳蜗声道模型，将声道分为24个三角滤波器的叠加。Mel 频率可以用如下公式表示：

fMel=2595×log1+f700

利用Matlab画出关系如图：

对频率轴的不均匀划分是 MFCC 特征区别于普通倒谱特征的最重要特点。将频率按照变换到 Mel 域后，Mel 带通滤波器组的中心频率是按照 Mel 频率刻度均匀排列的。在本设计中，MFCC 倒谱系数的计算过程如下述。
（1）对预处理后的语音信号进行1024点傅里叶变换，得出频谱。

（2）取频谱平方，得能量谱。并用 24 个 Mel 三角带通滤波器进行滤波；将每个滤波器频带内的能量进行叠加，输出 Mel 功率谱。

（3）对每个滤波器的输出值取对数，得到相应频带的对数功率谱。然后对 24 个对数功率进行反离散余弦变换得到 12 个 MFCC 系数，即对于一帧语音，都会得到一个1×24的能量值矢量，并得到一个1×12的MFCC特征系数矢量。

对于一段有效语音帧对应的MFCC系数矩阵，每一行系数矢量对应一帧语音。为了节省运算时间，降低代码复杂度，对于C语言所不擅长的数学运算，我们采用在Matlab中预先计算好三角滤波器系数及中心频率，由于对于三角滤波器，在做频域乘积的时候会涉及到奇偶项的问题，因此按中心频率次序分为奇项系数与偶项系数分别保存。另外，为了便于识别，另将模板的mfcc矩阵也进行了保存。

代码处理：

%%%%%%%%%%%%% MFCC %%%%%%%%%%%%%%

f_max=fs/2; % 最大频率分量

mel_max=2595*log10(1+f_max/700); % 最大mel频率

tri_num=24; % Mel三角滤波器个数。必须是偶数

% 减小会导致MFCC系数分辨率下降

% FFT点数不变，此数增加会因为整形数舍入导致误差增大

mfcc_num=12; % MFCC阶数

t_max=2000; % 语音最长时间单位ms

frm_max=t_max/(frame_time*(1-frame_mov_rtio));% 最大帧数

mfcc=zeros(frm_max,mfcc_num); % mfcc系数

pow_spct=zeros(frm_max,tri_num); % 经三角滤波器输出的对数功率谱

mel_step=mel_max/(tri_num+1); % Mel三角滤波器中心频率间隔

mel_thl=1000; % Mel变换线性对数临界点

fft_point=1024; % FFT点数

tri_cen=zeros(tri_num,1); % 三角滤波器中心频率

tri_top=1000; % 三角滤波器顶点值过大会导致溢出过小会导致三角滤波器输出精度下降

tri_odd=zeros(fft_point/2,1); % 奇数三角滤波器首尾相连的折线

tri_even=zeros(fft_point/2,1); % 偶数三角滤波器首尾相连的折线

for i=1:tri_num

if i<(mel_thl/mel_step) % 小于1000Hz线性尺度

tri_cen(i)=mel_step*i;

else % 大于1000Hz对数尺度

tri_cen(i)=(exp(log(10)*(mel_step*i)/2595)-1)*700; % Mel运算逆运算

end

tri_cen=int32(tri_cen/(f_max/(fft_point/2)));

%plot(tri_cen);

csvwrite('tri_cen.c',tri_cen');

tri_cen=double(tri_cen);

for j=1:tri_cen(1)

tri_odd(j)=tri_top*j/tri_cen(1);

end

for j=tri_cen(1)+1:tri_cen(2)

tri_odd(j)=tri_top*(tri_cen(2)-j)/(tri_cen(2)-tri_cen(1));

end

for h=3:2:tri_num

for j=tri_cen(h-1):tri_cen(h)

tri_odd(j)=tri_top*(j-tri_cen(h-1))/(tri_cen(h)-tri_cen(h-1));

end

for j=(tri_cen(h)+1):tri_cen(h+1)

tri_odd(j)=tri_top*(tri_cen(h+1)-j)/(tri_cen(h+1)-tri_cen(h));

end

for h=2:2:tri_num-2

for j=tri_cen(h-1):tri_cen(h)

tri_even(j)=tri_top*(j-tri_cen(h-1))/(tri_cen(h)-tri_cen(h-1));

end

for j=(tri_cen(h)+1):tri_cen(h+1)

tri_even(j)=tri_top*(tri_cen(h+1)-j)/(tri_cen(h+1)-tri_cen(h));

end

for j=tri_cen(tri_num-1):tri_cen(tri_num)

tri_even(j)=tri_top*(j-tri_cen(tri_num-1))/(tri_cen(tri_num)-tri_cen(tri_num-1));

end

for j=(tri_cen(tri_num)+1):fft_point/2

tri_even(j)=tri_top*(fft_point/2-j)/(fft_point/2-tri_cen(tri_num));

end

tri_even=int32(tri_even);

tri_odd=int32(tri_odd);

csvwrite('tri_even.c',tri_even');

csvwrite('tri_odd.c',tri_odd');

tri_even=double(tri_even);

tri_odd=double(tri_odd);

x=1:fft_point/2;

plot(x,tri_even,x,tri_odd);

计算得到的三角滤波器组如图所示：

对于保存好的三角滤波器组的系数，对于语音帧计算MFCC系数的时候，在对当前帧的语音进行1024点dft计算之后，将1024个频点分别于各个滤波器系数相乘，最后求幅值叠加得到MFCC系数矩阵。

double ** mfcc_coefficient(double tri_cen[24], double tri_odd[512],

double tri_even[512], double hamm[160], double *hf_voice, int valid_frm_num)

{

double f_max = 4000, mel_max, mel_step = 85.8440,PI;

int tri_num = 24, mfcc_num = 12, t_max = 2000, frm_max = 200, mel_th1 = 1000,

fft_point = 1024, tri_top = 1000, frame_len = 160, frame_mov = 80,

ham_top = 10000;

double pow_spct[200][24], valid_frm[160], **mfcc;

int con, j, i, h;

complex_s *x;

double *frq_spct;

PI = atan(1) * 4;

x = (complex_s *)malloc(sizeof(complex_s) * fft_point);

frq_spct = (double *)malloc(sizeof(double) * fft_point);

mfcc = (double **)malloc(200 * sizeof(double *));

代码处理如下:

for (con = 0;con < 200;con++)

{

*(mfcc + con) = (double *)malloc(12 * sizeof(double));

}

//printf("内存分配完成\n");

mel_max = 2595.0 * log10(1.0 + f_max / 700.0);

//for (con = 0;con < valid_frm_num;con++)

//*(hf_voice + con) = *(hf_voice + con) * 2048.0;

for (i = 0;i < valid_frm_num;i++)

{

for (h = 0;h < fft_point;h++)

{

if (h < 160)

{

*(valid_frm + h) = *(hf_voice + ((i*(frame_len - frame_mov) + h)));

*(valid_frm + h) = *(valid_frm + h) *(*(hamm + h)) / ham_top;

(*(x + h)).real = *(valid_frm + h);

(*(x + h)).img = 0.0;

}

else

{

(*(x + h)).real = 0.0;

(*(x + h)).img = 0.0;

}

//printf("x保存了一维的第%d帧声音信号并进行了补零补为1024点长信号\n", i);

//x[N]保存了一维的一帧声音信号并进行了补零补为1024点长

//initW(&*W, frame_len);

fft(fft_point, &*x);

for (con = 0;con < fft_point;con++)

{

if (con < fft_point / 2)

(*(frq_spct + con)) = ((*(x + con)).real*(*(x + con)).real + (*(x + con)).img*(*(x + con)).img);

else

(*(frq_spct + con)) = sqrt((*(x + con)).real*(*(x + con)).real + (*(x + con)).img*(*(x + con)).img);

}

//得到了声音信号的频谱frq_spct[1024]

//printf("得到了声音信号的频谱frq_spct\n");

pow_spct[i][0] = 0;

for (j = 0;j < tri_cen[1];j++)

pow_spct[i][0] = pow_spct[i][0] + (*(frq_spct + j))*tri_odd[j];

//printf("计算完第一个三角滤波器输出\n");

for (h = 2;h <= tri_num - 2;h = h + 2)

{

pow_spct[i][h] = 0;

for (j = *(tri_cen + h-1)-1;j <= *(tri_cen + h+1)-1;j++)

pow_spct[i][h] = pow_spct[i][h] + (*(frq_spct + j))*tri_odd[j];

}

//printf("计算完奇数三角滤波器输出\n");

for (h = 1;h <= tri_num - 3;h = h + 2)

{

for (j = *(tri_cen + h-1)-1;j <= *(tri_cen + h+1)-1;j++)

pow_spct[i][h] = pow_spct[i][h] + (*(frq_spct + j))*tri_even[j];

}

//printf("计算完偶数三角滤波器输出\n");

pow_spct[i][tri_num - 1] = 0.0;

for (j = tri_cen[tri_num - 2]-1;j < 512;j++)

pow_spct[i][tri_num - 1] = pow_spct[i][tri_num - 1] + (*(frq_spct + j))*tri_even[j];

//printf("计算完最后一个三角滤波器输出\n");

for (h = 1;h <= tri_num;h++)

pow_spct[i][h - 1] = log(pow_spct[i][h - 1]);

//printf("计算完三角滤波器输出取对数\n");

for (h = 1;h <= mfcc_num;h++)

{

mfcc[i][h - 1] = 0;

for (j = 1;j <= tri_num;j++)

{

mfcc[i][h - 1] = mfcc[i][h - 1] + cos((double)h*PI*((double)j - 0.5) / (double)tri_num)*pow_spct[i][j - 1];

//printf("计算完第%d帧语音的第%d个mfcc系数\n", i + 1, h + 1);

}

//printf("%.3f ", mfcc[i][h - 1]);

}

//printf("\n完成第%d帧的mfcc特征系数\n", i);

}

//建立mfcc矩阵

//printf("完成建立mfcc矩阵\n");

//outputmfcc(mfcc, valid_frm_num);

return mfcc;

}

五、特征匹配算法选择

在本方案中，如果使用HMM或其他需要训练匹配模型的的语音识别算法都需要经过大量样本的模型训练，在训练阶段需要提供大量的语音数据，通过反复计算才能得到模型参数，这显然对于硬件是一个挑战，同时对应于我们需要完成的孤立词语音的识别功能，这个性能上并没有巨大的优势，而耗费了更多的资源，因此我们采用了更加快捷的识别方式—— 动态时间规整DTW算法。

在时间序列中，需要比较相似性的两段时间序列的长度可能并不相等，在语音识别领域表现为不同人的语速不同。因为语音信号具有相当大的随机性，在这些复杂情况下，使用传统的欧几里得距离无法有效地求的两个时间序列之间的距离（或者相似性）。

也就是说，大部分情况下，两个序列整体上具有非常相似的形状，但是这些形状在x轴上并不是对齐的。所以我们在比较他们的相似度之前，需要通过DTW把时间序列进行延伸和缩短，来计算两个时间序列性之间的相似性。

动态时间规整DTW是一个典型的优化问题，它用满足一定条件的的时间规整函数W(n)描述测试模板和参考模板的时间对应关系，求解两模板匹配时累计距离最小所对应的规整函数。

我们有两个时间序列Q和C，他们的长度分别是n和m，一个序列为参考模板，一个序列为测试模板，序列中的每个点的值为语音序列中每一帧的特征矢量。语音序列Q第i帧的特征向量是qi

Q = q1, q2,…,qi,…, qn

C = c1, c2,…, cj,…, cm

为了对齐这两个序列，我们构造一个n x m的矩阵网格，矩阵元素(i, j)表示qi和cj两个点的欧式距离，d(qi, cj)= (qi-cj)2。每一个矩阵元素(i, j)表示点qi和cj的对齐。再寻找一条通过此网格中若干格点的路径，路径通过的格点即为两个序列进行计算的对齐的点。

我们把这条路径定义为规整路径，并用W来表示， W的第k个元素定义为wk=(i,j)k，定义了序列Q和C的映射。这样我们有：

W=w1,w2,…,wk,…,wK; maxm,n≤K

首先，这条路径不是随意选择的，需要满足以下几个约束：

1）边界条件：w1=(1, 1)和wK=(m, n)。所选的路径必定是从左下角出发，在右上角结束。

2）连续性：DTW不可能跨过某个点去匹配，只能和自己相邻的点对齐。

3）单调性： W上面的点必须是随着时间单调进行的。以保证图B中的虚线不会相交。

         结合连续性和单调性约束，每一个格点的路径就只有三个方向了。例如如果路径已经通过了格点(i, j)，那么下一个通过的格点只可能是下列三种情况之一：(i+1, j)，(i, j+1)或者(i+1, j+1)。



      满足上面这些约束条件的路径可以有指数个，然后我们感兴趣的是使得下面的规整代价最小的路径：



分母中的K主要是用来对不同的长度的规整路径做补偿。这个最短的距离也就是这两个时间序列的最后的距离度量。

我们定义一个累加距离矩阵。从(0, 0)点开始匹配这两个序列Q和C，每到一个点，之前所有的点计算的距离都会累加。到达终点(n, m)后，这个累积距离就是我们上面说的最后的总的距离，也就是序列Q和C的相似度。

累积距离γ(i,j)可以按下面的方式表示，累积距离γ(i,j)为当前格点距离d(i,j)，也就是点qi和cj的欧式距离（相似性）与可以到达该点的最小的邻近元素的累积距离之和：



即最后得到的γ(m,n)即为最小距离。

代码处理：

double dtw(double **mfcc_modle,double **mfcc_in,int n,int m)

//n为模板帧数，根据模板是已知的；m为输入特征向量系数矩阵帧数，需要计算

//返回值为当前模板与当前输入的匹配值

{

         double **d,**D;

         int i,j;

         double d1, D1, D2, D3, Dmin,dist=0.0;

         d = (double **)malloc(n * sizeof(double *));

         for (i = 0;i < n;i++)

         {

                  *(d + i) = (double *)malloc(m * sizeof(double));

         }



         D = (double **)malloc(n * sizeof(double *));

         for (i = 0;i < n;i++)

         {

                  *(D + i) = (double *)malloc(m * sizeof(double));

         }

         //printf("成功创建DTW矩阵\n");

         for (i = 0;i < n;i++)

         {

                  for (j = 0;j < m;j++)

                  {

                          d[i][j] = 0.0;

                          //printf("计算模板第%d帧和输入第%d帧的欧式距离", i, j);

                          //printf("%f\n", vdistance(mfcc_modle[i], mfcc_in[j]));

                          d[i][j] = vdistance(mfcc_modle[i], mfcc_in[j]);

                  }

         }

         //printf("计算完成\n");

         D[0][0] = 2 * d[0][0];

         for (j = 1;j < m;j++)

                  D[0][j] = d[0][j] + D[0][j - 1];

         //printf("第1行累计距离计算完成\n");

         for (i = 1;i < n;i++)

         {

                  for (j = 0;j < m;j++)

                  {

                          d1 = d[i][j];

                          D1 = D[i - 1][j] + d1;

                          if (j > 0)

                          {

                                   D2 = D[i - 1][j - 1] + 2 * d1;

                                   D3 = D[i][j - 1] + d1;

                          }

                          Dmin = D1;

                          if (D2 <= Dmin)

                                   Dmin = D2;

                          else

                                   ;

                          if (D3 <= Dmin)

                                   Dmin = D3;

                          else

                                   ;

                          D[i][j] = Dmin;

                  }

                  //printf("第%d行累计距离计算完成\n", i + 1);

         }

         dist = D[n-1][m-1];

         return dist;

}

六、检验效果

在VisualStudio2015中运行C语言控制台程序，对算法程序进行检测测试。经过测试，本算法识别率相当高，只要在录音中能完整的录入语音，不会出现语音发音缺失的情况，都可以正常的识别出预设的三个词。若想进一步提高精确度也可再添加更多模板即可。

在测试中，对同班6位同学进行了测试，测试结果均为通过

（1）较大噪声干扰与较差的录音效果

（2）音量较小的录音效果：

（3）有较严重的尾音拖尾

（4）中间段有较强的脉冲噪声

其余测试案例将保存在Sample文档中

另附一张对于测试用例test2.txt的程序运行输出截图以及matlab检验



七、心得体会

本次给我最大的感受还是自己动手去编写，调整测试一个算法的困难。虽然本次算法中两个核心的部分VAD端点识别和MFCC特征系数提取都是早期的成果，网上也有不少代码可以参考。但是要真正的落到实处化为己用还是存在着很多很多的困难。VAD中各种不同的阈值参数的调整，通过状态转换的方式来改进端点检测的性能，选取合适的噪声段和降噪方式，选取合适的阈值判断条件这些等等，有前人之智的部分，也有不少靠着自己的冥思苦想才得以解决。MFCC特征系数中，考虑到硬件的条件选择采用文件的方式进行计算，在各个频点对齐的计算上也花了不少的功夫。

给自己印象最为深刻的还是C语言程序的编写，由于限定了硬件平台，没法再使用MATLAB这么“轻松”的工具，没法用自然语言和直观的数据空间来检查自己编写的正误与算法的正确性。转而到C语言上，在C语言上对矩阵进行操作实在苦不堪言，本身调用的困难程度，还有C语言对于内存空间和调用种种严格的限制一度然我进度缓慢。但不得不说经过了课设的锻炼，C语言的能力有得到了再一次的提升。

八、参考资料

1、《语音信号处理》，2009年06月机械工业出版社出版，赵力

2、语音信号处理之（一）动态时间规整（DTW）https://blog.csdn.net/zouxy09/article/details/9140207

3、语音信号处理之（四）梅尔频率倒谱系数（MFCC）https://blog.csdn.net/zouxy09/article/details/9156785

4、用c语言实现的FFT https://blog.csdn.net/tf18269639242/article/details/53024276

九、附录

附C语言完整代码：

#include      #include #include #include #include #include #include #define N 1000 typedef struct complex_s {    double real;    double img; }complex_s; void vad_dispose(double *y, double sum, int voice_length, double *p_voice, int *valid_start, int *valid_end) {    //做完后检查for的循环区间    //数据初始化，将可使用局部变量的数值不用设置为参数    int fs = 8000, data_max = 2048, frame_time = 20;    double frame_mov, frame_mov_rtio = 0.5;    int frame_len, con, con2, temp;    //局部变量    int noise_val = 0, n_thl_ratio = 2, noise_time = 20, noise_len,             noise_num = 10, noise_start = 2480, valid_con = -1, cur_stus = 0,             font_duration = 0, back_duration = 0, v_durmin_t = 110,             v_durmin_f, s_durmax_t = 70, s_durmax_f, frame_con;    double n_max_mean = 0.0, noise_max = 0.0, s_thl_ratio = 0.5,             z_thl_ratio = 2.0 / 160.0, noise_thl, z_thl, last_sig = 0.0, s_thl = 0.0;    double *n_voice, *S, *Z, *frame;    char a;    frame_len = frame_time*fs / 1000;    frame_mov = frame_len*frame_mov_rtio;    noise_len = noise_time*fs / 1000;    v_durmin_f = v_durmin_t / (frame_time*(1 - frame_mov_rtio));    s_durmax_f = s_durmax_t / (frame_time*(1 - frame_mov_rtio));    z_thl = (double)frame_len*z_thl_ratio / (double)n_thl_ratio;    n_voice = (double*)malloc(50000 * sizeof(double));    //printf("端点检测数据初始化完成\n");    for (con = 0;con < voice_length;con++)    {             //printf("%.6f ", *(y + con));             if (*(y + con) > 0)                     //*(n_voice + con) = *(y + con) - sum;                     *(p_voice + con) = *(y + con) - sum;             else                     *(p_voice + con) = *(y + con) + sum;             //*(p_voice + con) = *(n_voice + con) / (double)data_max;             *(n_voice + con) = *(p_voice + con);    }    //printf("纯净语音段创建成功\n");    //n_voice = (double*)malloc(16000 * sizeof(double));    //n_voice = y;    con = noise_start;    temp = noise_start;    for (con2 = 1;con2 <= noise_num;con2++) //默认噪声帧数为10帧，来计算幅度阈值，可加长    {             for (con = temp;con < temp + noise_len-1;con++)             {                     if (fabs(*(n_voice + con)) > noise_max)                              noise_max = fabs(*(n_voice + con));             }             n_max_mean = n_max_mean + noise_max;             noise_max = 0.0;             temp = con;    }    n_max_mean = n_max_mean / (double)noise_num;    noise_thl = n_max_mean*n_thl_ratio;    s_thl = ((double)frame_len)*noise_thl*s_thl_ratio;    //printf("端点检测短时幅度值检测完成\n");    temp = (voice_length - frame_len) / (frame_len - frame_mov) + 1;    S = (double *)malloc(temp * sizeof(double));    Z = (double *)malloc(temp * sizeof(double));    for (temp = temp - 1;temp >= 0;temp--)    {             *(S + temp) = 0;             *(Z + temp) = 0;    }    frame = (double *)malloc((frame_len ) * sizeof(double));    frame_con = -1;    for (con2 = 0;con2 <= (voice_length - frame_len);con2 = con2 + (frame_len - frame_mov))    {             frame_con = frame_con + 1;             for (temp = con2, con = 0;temp <= con2 + frame_len - 1;temp++, con++)                     *(frame + con) = *(n_voice + temp);                         for (con = 0;con < frame_len;con++)                     *(S + frame_con) = *(S + frame_con) + fabs(*(frame + con));             for (con = 0;con < frame_len - 1;con++)             {                     if (*(frame + con) >= noise_thl)                              last_sig = 1;                     else if (*(frame + con) < (0.0 - noise_thl))                              last_sig = -1;                     if (last_sig == -1)                     {                              if (*(frame + con + 1) >= noise_thl)                                       *(Z + frame_con) = *(Z + frame_con) + 1;                     }                     else if (last_sig == 1)                     {                              if (*(frame + con + 1) < (0.0 - noise_thl))                                       *(Z + frame_con) = *(Z + frame_con) + 1;                     }             }             //printf("完成短时过零率和短时幅度值\n");             if (*(S + frame_con) > s_thl || *(Z + frame_con) > z_thl)             {                     if (cur_stus == 2)                              ;                     else if (cur_stus == 0)                     {                              cur_stus = 1;                              font_duration = 1;                     }                     else if (cur_stus == 1)                     {                              font_duration = font_duration + 1;                              if (font_duration >= v_durmin_f)                              {                                       cur_stus = 2;                                       valid_con = valid_con + 1;                                       //printf("第%d段语音", valid_con+1);                                       valid_start[valid_con] =( frame_con - v_durmin_f + 1);                                       //printf("当前帧为%d,起始帧为%d ", frame_con,(frame_con - v_durmin_f - 1));                                       font_duration = 0;                              }                     }                     else if (cur_stus == 3)                     {                              back_duration = 0;                              cur_stus = 2;                     }             }             else             {                     if (cur_stus == 0)                              ;                     else if (cur_stus == 2)                     {                              cur_stus = 3;                              back_duration = 1;                     }                     else if (cur_stus == 3)                     {                              back_duration = back_duration + 1;                              if (back_duration >= s_durmax_f)                              {                                       cur_stus = 0;                                       valid_end[valid_con] = (frame_con - s_durmax_f + 1);                                       back_duration = 0;                              }                     }                     else if (cur_stus == 1)                     {                              font_duration = 0;                              cur_stus = 0;                     }             }    }    //printf("端点检测完成并保存\n");    for (con = 0;con <= 19;con++)    {             valid_start[con] = valid_start[con] * (frame_len - frame_mov)+80.0;             valid_end[con] = valid_end[con] * (frame_len - frame_mov)+80.0;    }    if (cur_stus == 2|| back_duration!=0)             valid_end[valid_con] = voice_length; } void pre_emphasis(double *p_voice, int *valid_start, int *valid_end, int n, double *hf_voice) {    int i,j;    double u = 0.95;//预加重系数    for (j = 0, i = valid_start[n - 1];i <= valid_end[n - 1] - 1;i++, j++)    {             *(hf_voice + j) = *(p_voice + i);    }    //printf("预加重语音段初始化完成\n");    for (i = 1;i <= (valid_end[n - 1] - valid_start[n - 1] - 2);i++)             *(hf_voice + i - 1) = *(hf_voice + i) - u*(*(hf_voice + i - 1));    *(hf_voice + i ) = 0;    *(hf_voice + i + 1) = 0; } void readcoefficient(double* hamm, double* tri_odd, double*tri_even, double * tri_cen) {    errno_t err1,err2,err3,err4;    FILE *f_hamm, *f_tri_odd, *f_tri_even, *f_tri_cen;//FILE *f_hamm = fopen( "hamm.txt", "r");                                                      //FILE *f_tri_odd= fopen("tri_odd.txt", "r");                                                                                                             //FILE *f_tri_even= fopen("tri_even.txt", "r");                                                       //FILE *f_tri_cen= fopen("tri_cen.txt", "r");    int con;    char useless;    err1 = fopen_s(&f_hamm, "hamm.txt", "r");                err2 = fopen_s(&f_tri_odd, "tri_odd.txt", "r");          err3 = fopen_s(&f_tri_even, "tri_even.txt", "r");        err4 = fopen_s(&f_tri_cen, "tri_cen.txt", "r");          for (con = 0;con < 160;con++)    {             fscanf_s(f_hamm, "%lf", (hamm + con));             useless = fgetc(f_hamm);    }    for (con = 0;con < 512;con++)    {             fscanf_s(f_tri_odd, "%lf", (tri_odd + con));             useless = fgetc(f_tri_odd);    }    for (con = 0;con < 512;con++)    {             fscanf_s(f_tri_even, "%lf", (tri_even + con));             useless = fgetc(f_tri_even);    }    for (con = 0;con < 24;con++)    {             fscanf_s(f_tri_cen, "%lf", (tri_cen + con));             useless = fgetc(f_tri_cen);    }    fclose(f_hamm);    fclose(f_tri_odd);    fclose(f_tri_even);    fclose(f_tri_cen); } void add(complex_s a, complex_s b, complex_s *c) //复数加法的定义 {    c->real = a.real + b.real;    c->img = a.img + b.img; } void mul(complex_s a, complex_s b, complex_s *c) //复数乘法的定义 {    c->real = a.real*b.real - a.img*b.img;    c->img = a.real*b.img + a.img*b.real; } void sub(complex_s a, complex_s b, complex_s *c) //复数减法的定义 {    c->real = a.real - b.real;    c->img = a.img - b.img; } /*快速傅里叶变换*/ void fft(int size_x, complex_s *x) {    //size_x为1024    int i = 0, j = 0, k = 0, l = 0;    complex_s up, down, product;    complex_s temp1;    unsigned short i1 = 0, j1 = 0, k1 = 0;    double t1;    int i2;    double PI;    complex_s *W;    W = (complex_s *)malloc(sizeof(complex_s) * size_x); //生成变换核    //计算1024点变换核    PI = atan(1) * 4;    for (i2 = 0;i20)    //利用按位与以及循环实现码位颠倒             {                     j1 = j1 << 1;                     j1 |= (k1 & 1);                     k1 = k1 >> 1;             }             if (j1>i1)    //将x(n)的码位互换             {                     temp1 = x[i1];                     x[i1] = x[j1];                     x[j1] = temp1;             }    }    for (i = 0;i< log(size_x) / log(2);i++)        /*一级蝶形运算 stage */    {             l = 1 << i;             for (j = 0;j 0)                     {                              D2 = D[i - 1][j - 1] + 2 * d1;                              D3 = D[i][j - 1] + d1;                     }                     Dmin = D1;                     if (D2 <= Dmin)                              Dmin = D2;                     else                              ;                     if (D3 <= Dmin)                              Dmin = D3;                     else                              ;                     D[i][j] = Dmin;             }             //printf("第%d行累计距离计算完成\n", i + 1);    }    dist = D[n-1][m-1];    return dist; } double minimum_3(double a, double b, double c) {    double minimum;    minimum = a;    if (b < minimum)             minimum = b;    if (c < minimum)             minimum = c;    return minimum; } void main() {    double *y,*y1, *p_voice, *hf_voice, *hamm, *tri_odd, *tri_even, *tri_cen, **mfcc;    double **mfcc_start_1, **mfcc_pause_1, **mfcc_end_1,**mfcc_end_2,**mfcc_start_2, **mfcc_pause_2;    FILE *fp; //FILE *fp =fopen("STM32 123.txt", "r");    errno_t err1;//编译时删除    int con,n=1;       double dist1,dist2,dist3,dist4,dist5,dist6,minimum;    double data_max = 2048, fs = 8000, frame_time = 20, frame_mov_rtio = 0.5, frame_len, frame_mov, frame_con = 0;    int voice_length, voice_end , valid_frm_num, voice_start;    double sum=0.0;    char useless;    char filename[20] = { "黄俊_结束.txt" };    int valid_start[20] = { 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 },                valid_end[20] = { 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 };    //voice_end = voice_length;    //printf("端点检测、预加重、汉明窗、MFCC特征系数\n");    //printf("读入文件……\n");    //Sleep(1000);    err1 = fopen_s(&fp, filename, "r");    printf("判断语音:%s\n", filename);                y = (double *)malloc(50000 * sizeof(double));    p_voice = (double *)malloc(50000 * sizeof(double));    fscanf_s(fp, "%d", &voice_end);    useless= fgetc(fp);    for (con = 0;con

iPhone升级iOS 16后Siri无法正常工作怎么办？3种解决办法丰科软件 ios iphone xcode
最近，部分iPhone用户反馈升级到iOS16后，Siri和键盘听写功能无法正常工作。如果你的iPhone在更新到iOS16后也遇到了Siri无法使用的问题，可以尝试以下3种解决办法。一、更改Siri的声音打开iPhone的【设置】，向下滚动并点击【Siri与搜索】，轻点【Siri语音】，将Siri的声音更改为不同的变体或声音。二、将Siri使用的语言更改为不同的语言如果更改Siri的声音不起作用
掌握 Postman：高级 GET 请求技术与响应分析
欢迎阅读本指南，它将详细介绍如何在Postman中发送GET请求并理解API响应。对于希望提升API测试和开发能力的开发者来说，这是不可或缺的技能。Postman对开发者的重要性Postman是API开发和测试中不可或缺的工具。它不仅简化了发送请求和分析响应的过程，还提供了一个有组织的环境来管理多个API版本和团队协作项目。在Postman中发送GET请求第1步：创建一个集合（Collection
中小微企业PLM实施策略：3万元预算构建基础功能的路径程序员
中小微企业在数字化转型的浪潮中，产品生命周期管理（PLM）系统的实施对于提升企业竞争力至关重要。然而，中小微企业往往面临预算有限的困境。如何在3万元预算内构建PLM基础功能，成为众多企业关注的焦点。本文将深入探讨这一路径，为中小微企业提供切实可行的实施策略。明确PLM基础功能需求首先要清晰界定中小微企业在不同发展阶段对PLM基础功能的需求。对于中小微企业而言，核心需求通常围绕产品数据管理、流程管理
一文（加代码示例）说透在线客服系统技术难点
我在业余时间开发了一款自己的独立产品：升讯威在线客服与营销系统。陆陆续续开发了几年，从一开始的偶有用户尝试，到如今线上环境和私有化部署均有了越来越多的稳定用户，时常有同行询问在线客服系统开发中的一些技术问题，在这篇文章中，我将从多个角度探讨在线客服系统的技术难点，并结合实际代码示例，帮助你更好地理解和应对这些挑战。无论你是正在开发在线客服系统，还是想深入了解相关技术，这篇文章都能为你提供有价值的参
C++ 的内存管理有哪些改进？ c++
C++20引入了对协程的官方支持，这是C++语言发展的一个重要里程碑。协程为异步编程、并发任务处理以及复杂的控制流提供了一种更高效、更简洁的解决方案。以下是C++20中协程支持的主要优势：一、简化异步编程在传统的异步编程中，开发者通常需要使用回调函数、std::future和std::promise等机制来处理异步任务。这些方法虽然有效，但代码往往难以阅读和维护，且容易出错。C++20的协程提供了
富途证券C++面试题及参考答案大模型大数据攻城狮 c++java 后端面试大厂面试 Epoll 智能指针数据库索引
C++中堆和栈的区别在C++中，堆和栈是两种不同的内存区域，它们有许多区别。从内存分配方式来看，栈是由编译器自动分配和释放的内存区域。当一个函数被调用时，函数内的局部变量、函数参数等会被压入栈中，这些变量的内存空间在函数执行结束后会自动被释放。例如，在下面的函数中：voidfunc(){inta=5;//这里的变量a存储在栈中，当func函数结束后，a所占用的栈空间会自动释放}而堆是由程序员手动分
腾讯面经，有点难度~ 后端go
今天分享组织内的朋友在腾讯安全的实习面经。内容涵盖了QPS测试方法、SQL聚合查询、Linux进程管理、Redis数据结构与持久化、NAT原理、Docker隔离机制、Go语言GMP调度模型、协程控制、系统调用流程、变量逃逸分析及map操作等等知识点。下面是我整理的面经详解：面经详解一个表，里面有数据列，id，name,class，查学生最喜欢的前10个课程，sql语句实现SELECTclass,C
win32汇编环境,网络编程入门之十一品人家 win32汇编网络编程入门教程汇编
;让我们继续上一教程的内容，上一教程里主要是应用WinHTTP的函数的基本应用;在这一教程里，我们将这些乱码就成可识的,同时研究一下如何读大容量的网页，比如超过1万字节的网页;win32汇编环境,网络编程入门之十;让我们继续上一教程的内容，上一教程里主要是应用WinHTTP的函数的基本应用;在这一教程里，我们将这些乱码就成可识的,同时研究一下如何读大容量的网页，比如超过1万字节的网页;>>>>>>
200.HarmonyOS NEXT系列教程之图案锁按钮交互详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之图案锁按钮交互详解效果预览1.按钮布局设计Row({space:20}){Button($r('app.string.pattern_lock_button_1')).onClick(()=>{//重置功能实现})Button
技术书籍推荐(001):电子书免费下载 c++
[0000]CodeLikeaProinRust(英文版)免费电子书PDF下载下载地址：http://t-book.sunlogging.com/2025/03/19/book/book_0000/书籍简介：本书是一本面向中高级Rust开发者的进阶指南，旨在帮助读者快速掌握Rust语言的核心工具、数据结构、内存管理、测试策略、异步编程及优化技巧。全书分为五个部分：ProRust基础涵盖Rust项目
183.HarmonyOS NEXT系列教程之列表交换组件布局设计详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表交换组件布局设计详解效果演示1.整体布局结构1.1布局层次Column(){//最外层容器Row(){//标题栏Text()//左侧文本Blank()//中间空白Text()//右侧文本}ListExchange({//列
Pydantic字段级校验：解锁@validator的12种应用
title:Pydantic字段级校验：解锁@validator的12种应用date:2025/3/23updated:2025/3/23author:cmdragonexcerpt:Pydantic校验系统支持通过pre验证器实现原始数据预处理，在类型转换前完成字符清洗等操作。格式验证涵盖正则表达式匹配与枚举值约束，确保护照编号等字段符合规范。动态校验机制处理跨字段依赖关系及环境感知验证，根据运
「战友」变「对手」：Pump.fun 与 Raydium 正式打响争夺 Solana Memecoin 市场的战役比特币区块链web3
作者：Techub热点速递撰文：Yangz，TechubNews在关于Pump.fun将开发自家AMM的传闻发酵近一个月后，这一Solana生态龙头Memecoin发行平台今日正式宣布推出原生DEX——PumpSwap。加上本周早些时候Blockworks爆料的Raydium也将推出原生Memecoin发行平台LaunchLab的消息，曾经的「战友」已然变成了「对手」，争夺SolanaMemeco
Java有哪些编程技巧？ java
Java编程技巧：提升效率与质量的实用指南在Java编程中，掌握一些高效的编程技巧不仅可以提高开发效率，还能提升代码的可读性、可维护性和性能。以下是一些实用的Java编程技巧，供开发者参考和应用。一、代码优化技巧（一）合理使用数据类型选择合适的数据类型：根据实际需求选择合适的数据类型。例如，如果只需要存储整数，且数值范围较小，可以使用int而不是long，以节省内存。使用包装类时需谨慎：Java的
DunTrust IP SSL证书——支持多端口验证 https
市面上99%的证书品牌的IPSSL证书在签发过程中会涉及默认80或者443端口开放问题，但是也有少数服务商也支持其他端口验证。一、IPSSL证书概述IPSSL证书是一种用于保护IP地址安全的SSL证书，它能够对IP地址进行HTTPS加密，确保传输数据的安全性和完整性。IPSSL证书通常用于没有域名或需要直接使用IP地址进行访问的场景。二、多端口验证的支持情况市面上99%的证书品牌的IPSSL证书在
跟着外贸高手学跟单！分享6大实用跟单技巧
在外贸行业中，订单的成交95%依赖于高效的跟单技巧。无论是分析客户行为，还是灵活运用价格策略，每一步都可能成为促成交易的关键。本文将结合外贸实战经验，分享6大核心跟单技巧，并介绍如何通过ZohoBooks的智能化外贸管理工具提升跟单效率与成功率。技巧1：深度分析客户，精准锁定需求核心方法：通过海关数据、社交媒体（如领英、脸书）及搜索引擎（谷歌）挖掘客户的采购历史、合作供应商、竞争对手等关键信息，并
unique_ptr 和 shared_ptr 有什么区别？
std::unique_ptr和std::shared_ptr是C++中两种主要的智能指针类型，它们都用于自动管理动态分配的内存，但在所有权模型、使用场景和性能上有显著的区别。以下是它们的详细对比：一、所有权模型std::unique_ptr独占所有权：std::unique_ptr表示对资源的独占所有权。一个资源在同一时间只能被一个std::unique_ptr所拥有。禁止复制：std::uni
内网IP地址SSL证书申请指南安全
SSL/TLS证书是保障网站和服务安全的重要工具，能够加密数据传输并验证服务器身份。然而，对于局域网/内网IP地址而言，申请SSL证书的过程具有一定的特殊性，以下是一份详细的攻略：一、了解局域网/内网IP地址的特殊性唯一性问题：局域网/内网IP地址在内部网络中可能具有唯一性，但在整个互联网中并不唯一。访问限制：局域网/内网IP地址通常只能在内部网络中访问，无法从外部网络直接访问。二、选择证书颁发机
leetcode_位运算 67.二进制求和 MiyamiKK57 leetcode 算法 python
67.二进制求和给你两个二进制字符串a和b，以二进制字符串的形式返回它们的和。1.内置函数classSolution(object):defaddBinary(self,a,b):""":typea:str:typeb:str:rtype:str"""res=int(a,2)+int(b,2)returnbin(res)[2:]时间复杂度分析：int(a,2)和int(b,2)：这两步将二进制字符
leetcode_双指针 557. 反转字符串中的单词 III MiyamiKK57 leetcode 算法职场和发展
557.反转字符串中的单词III给定一个字符串s，你需要反转字符串中每个单词的字符顺序，同时仍保留空格和单词的初始顺序。思路:1.首先用split()切割字符串中用空格分隔的单词2.用切片法反转每个单词3.用join()把反转后的单词用空格连接classSolution(object):defreverseWords(self,s):""":types:str:rtype:str"""#使用spl
视频格式批量转换工具-FFGO 屠屠在干嘛 FFGO 格式工厂视频
由于毕设需要webm来展示动画而搜索引擎所有的webm转换工具都是在线且限制转换大小的就算大小刚好也容易报错甚至转换不出来绞尽脑汁干脆自己写了一个视频格式转换工具基本上视频格式都能够支持，如果后续有什么无法支持的格式我会后续继续更新所以暂且命名他为FF-GO吧也挺好听的，下面是软件的截图和下载链接下载直链：https://tuwp.cc:999/d/LOVETU/%E5%AE%9E%E7%94%A
医疗器械企业出海，如何应对序列号跟踪、批次管理难题？
全球医疗器械市场规模持续扩大，越来越多的中国医疗器械企业选择走出国门，参与全球竞争。在出海过程中，欧盟、美国等国家均要求企业建立完整的追溯体系，这给国内医疗企业带来了新的挑战。这该如何破局？ZohoBooks以智能库存管理、全球化合规支持和多系统集成能力，可以成为医疗器械企业出海的“数字化护航者”。一、医疗器械出海的三大管理痛点1、序列号跟踪：从生产到终端的全链条追溯难题医疗器械的序列号需贯穿生产
oracle12c 监控表状态，类似触发器，获取表名称乱码问题 YiWait Java java oracle
1、类似触发器原理，实时监听2、解决获取表名称乱码问题进入调试模式查看源码里面这个类，oracletableName的编码模式：主体代码如下：搞了两天终于发现问题所在，tablename开始出来是???这种乱码。确定是字符集编码的问题，在网上找了类似问题。需要引入oracle的语言包。@Slf4jpublicclassMyTest{publicstaticvoidmain(String[]args
币圈不设防第三期回顾：中东资本入场，加密市场格局将如何重塑比特币web3区块链
3月14日晚，由TechubNews主办的《币圈不设防》第三期Space活动圆满落幕。本期以“中东资本入股币安背后的逻辑与行业影响”为核心议题，特邀LYSLab投研分析师Veigar、RITDLabs联合创始人Benny、TechubNews运营负责人Sam等嘉宾，共同探讨中东资本的入局对加密行业的深远意义。以下是本期活动的深度总结。一、中东资本为何选择币安？战略布局浮出水面近期，阿布扎比主权基金
使用PHP对接StockTV全球金融市场数据API实战指南 php股票接口
关键词：PHPAPI开发、金融市场数据、WebSocket实时数据、cURL实战一、项目概述StockTV作为全球领先的金融数据平台，提供覆盖股票、外汇、期货和加密货币的实时行情服务。本文将手把手教你使用PHP实现以下核心功能：✅RESTAPI调用：获取历史行情数据✅WebSocket订阅：实时价格推送✅生产级特性：异常重试、速率控制、数据缓存✅高性能优化：连接池、异步处理二、环境准备1.运行环境
STM32最小系统板详解 QoyOle stm32 单片机嵌入式硬件
STM32最小系统板是一款基于STMicroelectronics的STM32微控制器的开发板，它提供了一个简化的硬件平台，用于快速原型设计和开发嵌入式系统。本文将详细介绍STM32最小系统板的特点、组成部分以及如何使用它进行开发。一、特点简化的硬件设计：STM32最小系统板采用了最小化的硬件设计，仅包含了必要的元件，如STM32微控制器、晶振、电源管理电路等。这使得开发者可以专注于软件开发，而无
CCF编程能力等级认证GESP—C++1级—20250322 青岛少儿编程-王老师 #C++-1级 c++java 算法
CCF编程能力等级认证GESP—C++1级—20250322单选题（每题2分，共30分）判断题（每题2分，共20分）编程题(每题25分，共50分)图书馆里的老鼠四舍五入单选题（每题2分，共30分）1、2025年春节有两件轰动全球的事件，一个是DeepSeek横空出世，另一个是贺岁片《哪吒2》票房惊人，入了全球票房榜。下面关于DeepSeek与《哪吒2》的描述成立的是()。A.《哪吒2》是一款新型操
Spring 事务管理全解析：原理、源码与实战工一木子 SpringFramework 笔记 spring 数据库 java
Spring事务管理全解析：原理、源码与实战事务（Transaction）是保证数据一致性的重要机制，Spring通过声明式事务和编程式事务提供强大的事务管理能力。本篇文章将深入剖析Spring事务的底层原理、传播机制、源码解析，并通过代码实战讲解如何正确使用Spring事务。1.什么是事务？（What）事务是数据库操作的最小执行单元，必须具备ACID（原子性、一致性、隔离性、持久性）特性。Spr
SQL中体会多对多 PlumCarefree sql 数据库
我们可以根据学生与课程多对多关系的数据库模型，给出实际的表数据以及对应的查询结果示例，会用到JOIN``LEFTJOIN两种连接1.学生表（students）student_idstudent_name1张三2李四3王五2.课程表（courses）course_idcourse_name1数学2英语3物理3.选课表（student_courses）idstudent_idcourse_id1112
0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS 百度云大模型gpu
01什么是大模型推理引擎大模型推理引擎是生成式语言模型运转的发动机，是接受客户输入prompt和生成返回response的枢纽，也是拉起异构硬件，将物理电能转换为人类知识的变形金刚。大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。和人类大脑处理语言的机制类似，大模型首
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

利用DTW算法对声音信号的MFCC特征矢量矩阵进行模式匹配

利用DTW算法对声音信号的MFCC特征矢量矩阵进行模式匹配

一、预处理

二、端点检测

1、双阈值判断

2、状态转换检验

三、预加重与加窗处理

四、语音帧的MFCC特征矢量系数矩阵的提取

五、 特征匹配算法选择

六、检验效果

七、心得体会

八、参考资料

九、附录

你可能感兴趣的:(利用DTW算法对声音信号的MFCC特征矢量矩阵进行模式匹配)

五、特征匹配算法选择