语音特征之基音周期估计（Pitch Detection）

一、概述

1.1 定义

人在发音时，根据声带振动情况将语音信号分为浊音和清音。浊音又称有声语言，包含声音中大部分的能量，浊音在时域上会呈现出明显的周期性；而清音类似于白噪声，没有明显的周期性。发浊音时，气流通过声门使声带产生张弛震荡式振动，产生准周期的激励脉冲。这种声带振动的频率称为基音频率，相应的周期就成为基音周期。

通常，基音频率与声带的长短、薄厚、韧性、劲度和发音习惯等有关系，在很大程度上反应了个人特征。此外，基音频率还跟随着人的性别、年龄不同而有所不同。一般来说，男性说话者的基音频率较低，而女性说话者和小孩的基音频率相对较高。
基音周期的估计称谓基音检测，基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线。

基音周期作为语音信号处理中描述激励源的重要参数之一，在语音合成、语音压缩编码、语音识别和说话人确认等领域都有着广泛而重要的问题，尤其对汉语更是如此。汉语是一种有调语言，而基因周期的变化称为声调，声调对于汉语语音的理解极为重要。因为在汉语的相互交谈中，不但要凭借不同的元音、辅音来辨别这些字词的意义，还需要从不同的声调来区别它，也就是说声调具有辨义作用；另外，汉语中存在着多音字现象，同一个字的不同的语气或不同的词义下具有不同的声调。因此准确可靠地进行基音检测对汉语语音信号的处理显得尤为重要。

1.2 方法

1）时域估计法，直接由语音波形来估计基音周期，常见的有：自相关法、并行处理法、平均幅度差法、数据减少法等；
2）变换法，它是一种将语音信号变换到频域或者时域来估计基音周期的方法，首先利用同态分析方法将声道的影响消除，得到属于激励部分的信息，然后求取基音周期，最常用的就是倒谱法，这种方法的缺点就是算法比较复杂，但是基音估计的效果却很好；
3）混合法，先提取信号声道模型参数，然后利用它对信号进行滤波，得到音源序列，最后再利用自相关法或者平均幅度差法求得基因音周期。

1.3 难点

1.语音信号并不是一个完全周期的序列。
2.声道共振峰有时会严重影响激励信号的谐波结构。
3.语音信号是准周期的，受共振峰结构、噪声的影响。
4.基音周期变化范围大。

二、基于自相关的基音周期检测

2.1、自相关函数

信号x(n)的短时自相关函数定义为：
$R(m)=\sum_{n=-\infty}^{n=+\infty} x(n) x(n+m)$
此公式表示一个信号和延迟m点后的该信号本身的相似性。如果信号x(n)具有周期性，那么它的自相关函数也具有周期性，而且周期与信号x(n)的周期性相同。自相关函数提供了一种获取周期信号周期的方法。在周期信号周期的整数倍上，它的自相关函数可以达到最大值，因此可以不考虑起始时间，而从自相关函数的第一个最大值的位置估计出信号的基音周期，这使自相关函数成为信号基音周期估计的一种工具。
语音信号是非稳态信号它的特征是随时间变化的，但在一个很短的时间段内可以认为具有相对稳定的特征即短时平稳性。因此语音具有短时自相关性。这个时间段约5ms-50ms。为其统计特性和频谱特性都是对短时段而言的。这使得要对语音信号作数字处理必须先按短时段对语音信号分帧。这样每一帧信号都具有短时平稳性从而进行短时相关分析。
能量有限的语音信号s(n)的短时自相关函数定义为：
$R_{n}(\tau)=\sum_{m=0}^{N-1-\tau}[s(n+m) w(m)][s(n+m+\tau) w(m+\tau)]$
因为基音周期可以低至40Hz（低男音）或高达600Hz（高女音或儿童音），一般要求一帧至少包含2个以上的周期。基音周期可以是第二个极值点或者50Hz~500Hz（fs/500-fs/50，即fs=16K，2ms-20ms）之间的极值点（推荐）。

3.2、matlab代码

%% 分帧基音求取
function [F0, T, R] = spPitchTrackCorr(x, fs, frame_length, frame_overlap, maxlag, show)
 % Initialization
 N = length(x);
 if ~exist('frame_length', 'var') || isempty(frame_length)
     frame_length = 30;
 end
 if ~exist('frame_overlap', 'var') || isempty(frame_overlap)
     frame_overlap = 20;
 end
 if ~exist('maxlag', 'var')
     maxlag = [];
 end
 if ~exist('show', 'var') || isempty(show)
     show = 0;
 end 
 nsample = round(frame_length  * fs / 1000); % convert ms to points
 noverlap = round(frame_overlap * fs / 1000); % convert ms to points
 % Pitch detection for each frame
 pos = 1; i = 1;
 while (pos+nsample < N)
     frame = x(pos:pos+nsample-1);
     frame = frame - mean(frame); % mean subtraction
     R(:,i) = spCorr(frame, fs);
     F0(i) = spPitchCorr(R(:,i), fs);
     pos = pos + (nsample - noverlap);
     i = i + 1;
 end
 T = (round(nsample/2):(nsample-noverlap):N-1-round(nsample/2))/fs;

if show 
    % plot waveform
    subplot(2,1,1);
    t = (0:N-1)/fs;
    plot(t, x);
    legend('Waveform');
    xlabel('Time (s)');
    ylabel('Amplitude');
    xlim([t(1) t(end)]);

    % plot F0 track
    subplot(2,1,2);
    plot(T,F0);
    legend('pitch track');
    xlabel('Time (s)');
    ylabel('Frequency (Hz)');
    xlim([t(1) t(end)]);
end
end
%% 基音搜索,第二个极值点或者50Hz~500Hz之间的极值点
function [f0] = spPitchCorr(r, fs)
 % search for maximum  between 2ms (=500Hz) and 20ms (=50Hz)
 ms2=floor(fs/500); % 2ms
 ms20=floor(fs/50); % 20ms
 % half is just mirror for real signal
 r = r(floor(length(r)/2):end);
 [maxi,idx]=max(r(ms2:ms20));
 f0 = fs/(ms2+idx-1);
end
% 自相关
function [r] = spCorr(x, fs, maxlag)
 %% Initialization
 if ~exist('maxlag', 'var') || isempty(maxlag)
     maxlag = fs/50; % F0 is greater than 50Hz => 20ms maxlag
 end
 if ~exist('show', 'var') || isempty(show)
     show = 0;
 end

 % Auto-correlation
 r = xcorr(x, maxlag, 'coeff');
end

从结果来看，基音频率为100-120Hz之间。

三、基于倒谱法的基音周期检测

3.1、倒谱法

声音信号是将声带激励序列 $e [n]$ 与声道离散脉冲响应 $θ [n]$ 卷积的结果。通过频域变换可以把卷积变为乘法。然后，利用对数函数 $l o g A B = l o g A + l o g B$ 的性质，可以将乘法关系转换为加法关系。最后，将信号 $s [n] = e [n] * θ [n]$ 的真实倒谱定义为:
$\frac{1}{{2\pi }}\int_{ - \pi }^\pi {\log } |S(w)|{e^{jnw}}dw$
故：
$\sum\limits_{n = - \inf }^{{\rm{inf}}} s [n]{e^{ - jwn}}$
即，倒谱是信号的对数幅度频谱的傅立叶分析。如果对数振幅频谱包含许多规则间隔的谐波，则频谱的傅立叶分析将显示一个与谐波之间的间隔相对应的峰值：即基频。实际上，将信号频谱视为目标，然后在频谱中寻找周期性。
倒频谱是将频谱从内到外翻转，倒谱的X轴具有单位的频率，倒频谱中的峰值（与频谱的周期性有关）被称为倒谐波。为了从倒谱中获得基本频率的估计值，在频率区域中寻找一个与典型语音基音频率相对应的峰值（1 /频率）。

3.2、matlab代码

%% 分帧基音求取
function [F0, T, C] = spPitchTrackCepstrum(x, fs, frame_length, frame_overlap, window, show)
 % Initialization
 N = length(x);
 if ~exist('frame_length', 'var') || isempty(frame_length)
     frame_length = 30;
 end
 if ~exist('frame_overlap', 'var') || isempty(frame_overlap)
     frame_overlap = 20;
 end
 if ~exist('window', 'var') || isempty(window)
     window = 'hamming';
 end
 if ~exist('show', 'var') || isempty(show)
     show = 0;
 end
 nsample = round(frame_length  * fs / 1000); % convert ms to points
 noverlap = round(frame_overlap * fs / 1000); % convert ms to points
 if ischar(window)
     window   = eval(sprintf('%s(nsample)', window)); % e.g., hamming(nfft)
 end

 % Pitch detection for each frame
 pos = 1; i = 1;
 while (pos+nsample < N)
     frame = x(pos:pos+nsample-1);
     C(:,i) = spCepstrum(frame, fs, window);
     F0(i) = spPitchCepstrum(C(:,i), fs);
     pos = pos + (nsample - noverlap);
     i = i + 1;
 end
 T = (round(nsample/2):(nsample-noverlap):N-1-round(nsample/2))/fs;

if show 
    % plot waveform
    subplot(2,1,1);
    t = (0:N-1)/fs;
    plot(t, x);
    legend('Waveform');
    xlabel('Time (s)');
    ylabel('Amplitude');
    xlim([t(1) t(end)]);

    % plot F0 track
    subplot(2,1,2);
    plot(T,F0);
    legend('pitch track');
    xlabel('Time (s)');
    ylabel('Frequency (Hz)');
    xlim([t(1) t(end)]);
end
end

%% 基于倒谱法的基音检测
function [f0] = spPitchCepstrum(c, fs)
 % search for maximum  between 2ms (=500Hz) and 20ms (=50Hz)
 ms2=floor(fs*0.002); % 2ms
 ms20=floor(fs*0.02); % 20ms
 [maxi,idx]=max(abs(c(ms2:ms20)));
 f0 = fs/(ms2+idx-1);
end

%% 倒谱法
function [c, y] = spCepstrum(x, fs, window, show)
 % Initialization
 N = length(x);
 x = x(:); % assure column vector
 if ~exist('show', 'var') || isempty(show)
     show = 0;
 end
 if ~exist('window', 'var') || isempty(window)
     window = 'rectwin';
 end
 if ischar(window);
     window = eval(sprintf('%s(N)', window)); % hamming(N)
 end
 % do fourier transform of a windowed signal
 x = x(:) .* window(:);
 y = fft(x, N);
 % Cepstrum is IDFT (or DFT) of log spectrum
 c = ifft(log(abs(y)+eps));
end

效果不明显，问题在哪里还需要查找。

四、基于LPC的基音周期检测

4.1、线性预测编码（LPC）

语音分析的一种非常强大的方法是基于线性预测编码（LPC），也称为自回归（AR）建模。由于该方法快速，简单，但却是估计语音信号主要参数的有效方法，因此被广泛使用。
具有足够数量的极点的全极点滤波器是语音信号的良好近似。因此，我们可以将滤波器H（z）建模为
$\frac{{X(z)}}{{E(z)}} = \frac{1}{{1 - \sum\limits_{k = 1}^p {{a_k}} {z^{ - k}}}} = \frac{1}{{A(z)}}$
其中p是LPC分析的顺序。在式中取反z变换。结果：
$\sum\limits_{k = 1}^p {{a_k}} x[n - k] + e[n]$
线性预测编码之所以得名，是因为它预测当前样本是其过去p个样本的线性组合。如果绘制 $H（ej^w）$ ，我们期望在分母的根部看到峰值。基于这个事实，我们将能够检测共振峰频率。

4.2、matlab

%% 分帧共振峰检测
function [F, T] = spFormantsTrackLpc(x, fs, ncoef, frame_length, frame_overlap, window, show)
 % Initialization
 N = length(x);
 if ~exist('frame_length', 'var') || isempty(frame_length)
     frame_length = 30;
 end
 if ~exist('frame_overlap', 'var') || isempty(frame_overlap)
     frame_overlap = 20;
 end
 if ~exist('window', 'var') || isempty(window)
     window = 'hamming';
 end
 if ~exist('show', 'var') || isempty(show)
     show = 0;
 end
 if ~exist('ncoef', 'var')
     ncoef = [];
 end
 nsample = round(frame_length  * fs / 1000); % convert ms to points
 noverlap = round(frame_overlap * fs / 1000); % convert ms to points
 window   = eval(sprintf('%s(nsample)', window)); % e.g., hamming(nfft)

 pos = 1; t = 1;
 F = []; % formants
 T = []; % time (s) at the frame
 mid = round(nsample/2);
 while (pos+nsample <= N)
     frame = x(pos:pos+nsample-1);
     frame = frame - mean(frame);
     a = spLpc(frame, fs, ncoef);
     fm = spFormantsLpc(a, fs);
     for i=1:length(fm)
        F = [F fm(i)]; % number of formants are not same for each frame
        T = [T (pos+mid)/fs];
     end
     pos = pos + (nsample - noverlap);
     t = t + 1;
 end

 if show
     % plot waveform
     t=(0:N-1)/fs;
     subplot(2,1,1);
     plot(t,x);
     legend('Waveform');
     xlabel('Time (s)');
     ylabel('Amplitude');
     xlim([t(1) t(end)]);

     % plot formants trace
     subplot(2,1,2);
     plot(T, F, '.');
     hold off;
     legend('Formants');
     xlabel('Time (s)');
     ylabel('Frequency (Hz)');
     xlim([t(1) t(end)]);
 end
end

%% 共振峰检测
function [F] = spFormantsLpc(a, fs)
 r = roots(a);
 r = r(imag(r)>0.01);
 F = sort(atan2(imag(r),real(r))*fs/(2*pi));
end

%% 基于LPC方法检测共振峰
function [a P e] = spLpc(x, fs, ncoef)
 if ~exist('ncoef', 'var') || isempty(ncoef)
     ncoef = 2 + round(fs / 1000); % rule of thumb for human speech
 end
 [a P] = lpc(x, ncoef);
 if nargout > 2,
    est_x = filter([0 -a(2:end)],1,x);    % Estimated signal
    e = x - est_x;                        % Residual signal
 end 
end

从图来看，含语音的共振峰明显在不同频段具有不同特征。

参考文献

https://blog.csdn.net/S20091103372/article/details/39225615
https://blog.csdn.net/zouxy09/article/details/9141875/
http://note.sonots.com/SciSoftware/Pitch.html

你可能感兴趣的:(语音信号处理)

Python librosa模块介绍骚火棍人生苦短我用Python librosa
librosa语音信号处理模块参考链接：https://www.cnblogs.com/LXP-Never/p/11561355.html
嵌入式人工智能实验方向周南音频科技教育学院(AI湖湘学派) AI深度学习理论与实践研究音频算法设计研究开发音频算法人工智能神经网络
加我微信hezkz17进嵌入式人工智能研究开发交流答疑群。1可在stm32，esp32，NXP，arduino，树莓派上部署人工智能模型，图像理解，图像分类。2采用BESSOC部署深度学习语音信号处理算法，降噪算法3根据公式用C语言实现卷积CNN，或者采用开源的嵌入式机器学习，嵌入式深度学习，嵌入式神经网络开源sdk，移植，部署到MCU或者SOC，
操作系统复习总结——文件管理是dream 操作系统操作系统文件管理
博客主页：是dream系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：但愿每次回忆，对生活都不感到负疚。感谢大家点赞收藏⭐指正✍️目录一、文件管理概述1、文件基本概念（1）定义（2）基本调度单位（3）文件结构2、文件控制块与索引节点（1）文件属性（2）文件控制块(FCB)（3）索引结点3、文件的操作（操作系统向上提供哪些功能？）4、文件保护（1）加以控制
频谱细化-----CZT算法介绍及MATLAB实现 YHCANDOU 频谱细化 matlab 算法开发语言
CZT变换采用FFT算法可以很快算出全部N点DFT值，即Z变换X(z)X\left(z\right)X(z)在Z平面单位圆上的全部等间隔取样值。实际中，也许不需要计算整个单位圆上Z变换的取样，如对于窄带信号，只需要对信号所在的一段频带进行分析，这时希望频谱的采样集中在这一频带内，以获得较高的分辨率，而频带以外的部分可不考虑，或者对其他围线上的Z变换取样感兴趣，例如语音信号处理中，需要知道Z变换的极
MATLAB环境下一种音频降噪优化方法—基于时频正则化重叠群收缩哥廷根数学学派信号处理小波分析图像处理语音识别人工智能
语音增强是语音信号处理领域中的一个重大分支，这一分支已经得到国内外学者的广泛研究。当今时代，随着近六十年来的不断发展，己经产生了许多有效的语音增强算法。根据语音增强过程中是否利用语音和噪声的先验信息，语音增强算法一般被归类为两类，一类是无先验信息的语音增强算法，另外一类则是具有先验信息的语音增强算法。在第一类无先验信息语音增强算法中，比较常用的语音增强算法有谱减算法、基于统计模型的算法、基于信号子
深度学习环境搭建——利用anaconda+pytorch搭建自己的深度学习环境（以YOLOv5环境搭建为例）2023.9.26最新是dream 深度学习环境搭建深度学习 pytorch YOLO
博客主页：是dream系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：要有最朴素的生活和最遥远的梦想，即使明天天寒地冻，山高水远，路远马亡。感谢大家点赞收藏⭐指正✍️前言相信大家在搭建自己的深度学习环境时总会遇到各种问题，特别是小白。记得第一次配置自己的深度学习环境时，什么anaconda、pytorch，我都不知道这些东西是干嘛的，就知道一个YOLO，
音视频开发成长之路与音视频知识总结徐福记456 音视频开发音视频开发基础音视频进阶成长音视频工作方向音视频开源库流媒体协议与音视频书籍
音视频涉及语音信号处理、数字图像处理、信息论、封装格式、编解码、流媒体协议、网络传输、渲染、算法等。在现实生活中，音视频扮演着越来越重要的角色，比如视频会议、直播、短视频、播放器、语音聊天等。因此，从事音视频是一件比较有意义的事情，机遇与挑战并存。本文将从几个维度进行介绍：音视频开发基础、音视频进阶成长、音视频工作方向、音视频开源库、流媒体协议与书籍。目录一、音视频开发基础1、音频基础2、通用基础
音频筑基：巴克谱和梅尔谱辨析来知晓语音处理音视频
音频筑基：巴克谱和梅尔谱辨析是什么深入了解相关参考在音频信号处理中，巴克谱和梅尔谱是我们经常遇到的概念，也是语音处理中常用到的频域特征，这里谈谈自己对它们的理解。是什么巴克谱又称BarkSpectrum，梅尔谱又称MelSpectrum，其中异同梳理如下：相同点：Bark谱和Mel谱都是将线性频谱映射到非线性谱上的表征，根据不同频带的感知能力来划分，但它们的核心思想不同。这两种谱都是语音信号处理中
基于sy3130光感入耳检测功能成功实现周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发算法
基于sy3130光感入耳检测功能成功实现是否需要申请加入数字音频系统研究开发交流答疑群(课题组)？可加我微信hezkz17,本群提供音频技术答疑服务，+群赠送语音信号处理降噪算法，蓝牙耳机音频，DSP音频项目核心开发资料,1芯片介绍2电路实现3寄存器列表
低信噪比环境下的语音端点检测 jUicE_g2R 经验模态分解EMD 语音识别语言信号处理低信噪比 matlab
端点检测技术是语音信号处理的关键技术之一为提高低信噪比环境下端点检测的准确率和稳健性，提出了一种非平稳噪声抑制和调制域谱减结合功率归一化倒谱距离的端点检测算法1端点检测1-1定义定义：在存在背景噪声的情况下检测出语音的起始点和结束点（这里的重点是噪声环境下语音信号的处理）1-2应用需求应用于语音信号处理：语音增强、语音识别、编码和传输需求是：人们希望在远场或者嘈杂的环境中也能用语音控制智能设备，因
【Matlab语音加密】语音信号加密解密（带面板）【含GUI源码 181期】 Matlab佛怒唐莲 Matlab完整代码 Matlab语音处理 matlab 语音识别开发语言
一、代码运行视频（哔哩哔哩）【Matlab语音加密】语音信号加密解密（带面板）【含GUI源码181期】二、matlab版本及参考文献1matlab版本2014a2参考文献[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.[3]李波,张晓力,石旭.基于Matlab的语音信号加密处理[J].信息
【Matlab语音处理】汉宁窗FIR陷波滤波器语音信号加噪去噪【含GUI源码 1711期】 Matlab佛怒唐莲 Matlab完整代码 Matlab语音处理 matlab 语音识别开发语言
一、代码运行视频（哔哩哔哩）【Matlab语音处理】汉宁窗FIR陷波滤波器语音信号加噪去噪【含GUI源码1711期】二、matlab版本及参考文献1matlab版本2014a2参考文献[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.[3]尹学爱,马国利,冯伟伟.基于MATLAB的声音信号频
语音信号处理共振峰 H_uer 语音信号处理基础
窄带语谱图和宽带语谱图首先，什么是语谱图。最通常的，就是语音短时傅里叶变换的幅度画出的2D图。之所以是通常的，是因为可以不是傅里叶变换。“窄带”，顾名思义，带宽小，则时宽大，则短时窗长，窄带语谱图就是长窗条件下画出的语谱图。“宽带”，正好相反。至于“横竖条纹”，窄带语谱图的带宽窄，那么在频率上就“分得开”，即能将语音各次谐波“看得很清楚”，即表现为“横线”。“横”就体现出了频率分辨率高。分辨率可以
语音信号处理-基本概念（二）：音频通道数、采样频率、采样位数、采样个数(样本数)、一帧音频的大小、每秒播放的音频字节大小、一帧的播放时长、音频重采样 u013250861 Audio 音视频语音识别人工智能
对于下面data和linesize的解释(参考下面3.4中的av_samples_alloc_array_and_samples函数说明)：data是通道的意思，例如双通道，data[0]代表左声道，data[1]代表右声道。linesize为采样个数的最大大小字节空间。例如aac，64位，双通道，则对于交错模式最大为：linesize=2x1024x8=16384。此时也是一个音频帧的大小。对于
用Matlab进行语音信号处理后端架构小白 matlab 信号处理语音识别
用Matlab进行语音信号处理语音信号处理是数字信号处理中的一个重要分支，主要涉及语音信号的采集、压缩、去噪、降噪等处理。Matlab是一个强大的数学计算工具，也是语音信号处理中常用的工具之一。本文将介绍如何使用Matlab对语音信号进行采集、去噪和压缩处理。语音信号采集语音信号采集需要使用麦克风或其他音频输入设备。在Matlab中，可以使用audiorecorder函数进行音频采集。下面的代码演
语音信号处理——噪声抑制 DEDSEC_Roger 信号处理音频
简介噪声抑制技术用于消除背景噪声，改善语音信号的信噪比和可懂度，让人和机器听的更清楚常见的噪声种类：人声噪声、街道噪声、汽车噪声噪声抑制方法的分类：按照输入通道数分：单通道降噪、多通道降噪按照噪声统计特性分：平稳噪声抑制、非平稳噪声抑制按照降噪方法分：被动降噪、主动降噪下面介绍的方法用于单通道的、被动的、平稳噪声抑制MinimaControlledRecursiveAveraging（MCRA）传
语音信号处理：librosa 智慧医疗探索者 AI数字人技术音视频处理信号处理语音识别 librosa
1librosa介绍Librosa是一个用于音频和音乐分析的Python库，专为音乐信息检索（MusicInformationRetrieval，MIR）社区设计。自从2015年首次发布以来，Librosa已成为音频分析和处理领域中最受欢迎的工具之一。它提供了一套清晰、高效的函数来处理音频信号，并提取音乐和音频中的信息。Librosa在音乐和音频分析方面提供了强大而灵活的工具，适用于从基础研究到实
如何理解短时傅里叶变换(Short Time Fourier Transform, STFT) 林深迷了鹿语音信号处理语音识别机器学习人工智能
因为最近一直在学习语音信号的处理，看了HaythamFayek的一篇博客后关于什么是傅里叶变换感到很迷惑，所以就专门写下一篇文章，整理一下我从网页上搜集的内容。短时傅里叶变换(ShortTimeFourierTransform,STFT)是一个用于语音信号处理的通用工具.它定义了一个非常有用的时间和频率分布类,其指定了任意信号随时间和频率变化的复数幅度.实际上,计算短时傅里叶变换的过程是把一个较长
HMM（Hidden Markov Model）详解——语音信号处理学习（三）（选修一） LotusCL 声音信号处理学习信号处理学习语音识别人工智能
参考文献：SpeechRecognition(Option)-HMM哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记HMM-6-知乎(zhihu.com)隐马尔可夫（HMM)的解码问题+维特比算法-知乎(zhihu.com)本次省略所有引用论文目录一、介绍二、建模单位StatesState由来转移概率与发射概率三、Alignment四、深度学习下的HMM方法一：Tandem方法
RNN-T Training，RNN-T模型训练详解——语音信号处理学习（三）（选修三） LotusCL 声音信号处理学习 rnn 信号处理学习人工智能语音识别
参考文献：SpeechRecognition(option)-RNN-TTraining哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记AlignmentTrain-8-知乎(zhihu.com)本次省略所有引用论文目录一、如何将Alignment概率加和对齐方式概率如何计算概率加和计算原理概率加和计算方式二、RNN-T的模型训练模型训练思路偏微分计算-1-展开变形偏微分计算-
Alignment of HMM, CTC and RNN-T，对齐方式详解——语音信号处理学习（三）（选修二） LotusCL 声音信号处理学习 rnn 信号处理学习人工智能语音识别
参考文献：SpeechRecognition(option)-AlignmentofHMM,CTCandRNN-T哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记Alignment-7-知乎(zhihu.com)本次省略所有引用论文目录一、E2E模型和CTC、RNN-T的区别E2E模型的思路CTC、RNN-T模型的思路二、待解决的问题三、对齐方式介绍四、穷举方式穷举HMM穷举C
数字图像处理（1）：灰度直方图、直方图均衡化处理（入门必看）是dream 数字图像处理图像处理
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：闲看花开，静待花落，冷暖自知，干净如始。感谢大家点赞收藏⭐指正✍️前言：本文详细介绍了如何使用python对图像进行基本的操作，包括对图像的读取、显示、修改和保存，通过Matplotlib对图像进行绘制、显示和保存，最后详细讲解了如何绘制直方图，并对直方图进行均衡化处理。欢迎大家参考和学
快速调用百度AI开放平台的API，以OCR通用文字识别为例（封装函数进行连续调用）是dream 项目开发百度人工智能百度云 python
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：眼里有不朽的光芒心里有永恒的希望。感谢大家点赞收藏⭐指正✍️前言百度开放平台允许开发者访问和利用百度的各种服务和功能，包括语音识别、人脸识别、文字识别、自然语言处理等等。这些API能够满足我们绝大部分需求，来供我们学习和使用。本文就OCR文字识别为例，详细介绍新手小白如何调用百度开放平台
NLP自然语言处理——关键词提取之 TF-IDF 算法（五分钟带你深刻领悟TF-IDF算法的精髓）是dream 自然语言处理 tf-idf 人工智能
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：要有最朴素的生活和最遥远的梦想，即使明天天寒地冻，山高水远，路远马亡。感谢大家点赞收藏⭐指证✍️前言关键词提取是将文本中的关键信息、核心概念或重要主题抽取出来的过程。这些关键词可以帮助人们快速理解文本的主题，构建文本摘要，提高搜索引擎的效率，甚至用于文本分类和信息检索等应用领域。因此，关
NLP自然语言处理——关键词提取之 TextRank 算法（五分钟带你深刻领悟TextRank算法的精髓）保姆级教程是dream 自然语言处理人工智能 nlp
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：你要做冲出的黑马而不是坠落的星星。感谢大家点赞收藏⭐指正✍️前言关键词提取是将文本中的关键信息、核心概念或重要主题抽取出来的过程。这些关键词可以帮助人们快速理解文本的主题，构建文本摘要，提高搜索引擎的效率，甚至用于文本分类和信息检索等应用领域。因此，关键词提取在文本分析和自然语言处理中具
操作系统之经典同步问题（司机售票员、文件打印、多个生产者消费者、放水果吃水果、读者优先、写者优先、哲学家死锁问题）是dream 操作系统算法
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：闲看花开，静待花落，冷暖自知，干净如始。感谢大家点赞收藏⭐指正✍️目录一、司机与售票员进程同步问题二、PA、PB、PC合作解决文件打印问题三、多个生产者和多个消费者问题四、放水果吃水果问题五、读者写者问题六、哲学家吃饭问题一、司机与售票员进程同步问题问题描述：在公共汽车上，司机和售票员的
如何快速搭建一个大模型？简单的UI实现是dream 项目开发星火大模型对话框UI设计
博客主页：真的睡不醒系列专栏：深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发每日语录：相信自己，一路风景一路歌，人生之美，正在于此。感谢大家点赞收藏⭐指正✍️前言：本文章纯属是自己无聊，调用了星火认知大模型的接口，并封装成一个脚本。但测试感觉星火认知大模型也不算太智能，但奈何人家提供了免费的token，当然，也可以根据自己的需要，去调用国内的一些大模型。目录一、申请免费的
A2B master配置32通道传输数据超带宽了,如何解决？周南音频科技教育学院(AI湖湘学派) 车载DSP音频系统研究开发网络服务器运维
是否需要申请加入数字音频系统研究开发交流答疑群(课题组)？可加我微信hezkz17,本群提供音频技术答疑服务，+群赠送语音信号处理降噪算法，蓝牙耳机音频，DSP音频项目核心开发资料,A2Bmaster配置32通道，超带宽了,如何解决？如果A2BMaster配置了32个通道，并且超过了带宽限制，你可以尝试以下几种解决方案：减少通道数量：将通道数量从32个减少到适当的数量，以确保不超过系统的带宽限制。
基于DSP/SOC音乐灯效系统设计方法周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发信号处理音频人工智能算法
音乐灯效系统设计方法是否需要申请加入数字音频系统研究开发交流答疑群(课题组)？可加我微信hezkz17,本群提供音频技术答疑服务，+群赠送语音信号处理降噪算法，蓝牙耳机音频，DSP音频项目核心开发资料,三种方法：（1）MIC采集音乐信号变化，（2）直接获取SPK模拟音频信号处理
基于低通滤波器的语音信号加噪与去噪（附带Matlab源码）代码创造之旅 matlab 语音识别人工智能 Matlab
基于低通滤波器的语音信号加噪与去噪（附带Matlab源码）在语音信号处理中，噪声是一个常见的问题，它会降低语音信号的质量和可理解性。为了提高语音信号的清晰度和减少噪声的影响，可以使用低通滤波器进行信号的加噪与去噪处理。本文将介绍基于低通滤波器的语音信号加噪与去噪的原理，并提供相应的Matlab源码。加噪处理在语音信号加噪处理中，我们可以使用低通滤波器来滤除高频噪声成分，从而提高信号的质量。以下是基
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他