sunny_chenxi

基于MATLAB的说话人识别系统

一、课题介绍

说话是人类相互沟通交流最方便、最快捷的一种方式，世界上每一个说话人都拥有自己特定的语音，正如每个人的指纹一样，都是绝无仅有的。说话人识别应用广泛，现已应用到通信、消费电子产品等各个领域。本文将把语音进行数字化传输、存储、然后进行识别等。说话人识别系统主要包括预处理、特征提取、训练和识别四个模块。其中预处理和特征提取尤为重要。有许多的预处理方法，对语音信号的采样和量化是第一，然后预加重和加窗。特征提取是指提取语音信号的重要特征的过程。信号的时域分析包括信号的短时平均能量和短时过零率等。频域分析可以采用LPC倒谱系数法和Mel倒谱系数法。为了训练得到模版语音信号，可以利用矢量量化（VQ）、隐马尔可夫模型（HMM）、BP神经网络（ANN）等对说话人的语音信号进行训练识别。

说话人识别实现过程中的算法是多种多样的。本文将运用MATLAB仿真工具强大的编程、图形开发功能和数学计算能力。本文将把BP神经网络作为训练识别的方法，利用MFCC(MEL频率倒谱系数)产生的语音信号特征向量，最后运用十字交叉法，建立起一个说话人识别系统。结合MATLAB平台中的GUI设计预处理、特征提取、训练等几个模板，最后利用神经网络的模式识别，真正实现说话人的识别。

二、研究背景及意义

说话人识别技术也被称之为声纹识别技术，它属于一种生物的识别技术。说话人识别技术拥有方便，经济，准确等特点，广受世人瞩目。

最早的语言研究被称为“口耳之学”。因为当时没有可供研究的仪器，只能通过耳听口模仿来进行研究。

最早的语音信号处理研究起源于1876年，电话的发明者贝尔首次使用声电、电声转换技术实现了语音的远距离传输

。

语音信号经过语音合成，语音编码和语音识别三个发展过程。语音识别的实验追溯到20世纪50年代贝尔实验室的Audry系统，此系统仅仅只能识别10个英文数字。又经过很长时间的研究发展，现在我们已经完全进入语音识别时代。

三说话人识别的基本原理

3.1 语音识别基本过程

说话人识别即提取说话人语音中特征，然后将此特征作为确定说话人身份的过程。因此，需要找出每一个已知说话人发音中存在的差异，这些差异包括声道差异，发音习惯差异等等。

对于如何找出这些差异，确定说话人的身份，需要解决以下问题

：

（1）对说话人的语音进行预处理；

（2）提取说话人语音中的特征；

（3）用提取出的这些特征为指定说话人建立一个只属于此说话人的语音特征库；

（4）用一段未知语音与新建立的语料库进行对比，从而得出结论：此未知语音是否属于已知说话人。

为了解决以上问题，说话人识别系统一般进行以下四个模块的过程：预处理模块、特征提取模块，训练模块与识别模块。

3.2 预处理模块

3.2.1 采样

为了对语音数据进行数字处理，首先必须对模拟信号数字化。在数学上，声波可以表达为变量t（时间）的连续函数，用

表示。对模拟信号

进行周期采样，得到数字信号序列

，

就是离散信号或称之为数字信号。

对于这样的采样过程，最令人关注的问题就是采样之后的数字信号知否能准确的表示原始模拟信号，并且是全是模拟信号的唯一表示。经过调查研究，只要满足采样定理，就能保证已知模拟信号的准确性。

采样定理

：如果信号

的傅里叶变换

是带宽受限，即当

(

是奈奎斯特频率)时，

，则当抽样周期

时，用等间隔的抽样序列

能够唯一地恢复出原始信号

。

3.2.2 量化

在上节采样的过程当中，语音信号必定会产生一系列的振幅片段。为了把语音进行完整传输，存储等，必需把这些振幅片段进行量化，然后组成一个有限的振幅片段集。

量化过程只需两步

：首先必须产生量化幅度

的量化级，其次是用码字

表示每个量化后采样值的码化级。量化过程一般有两种实现方法：有些包含了过量的带宽，可以使用非线性量化加以缩减；在量化之前先压缩或扩张信号，然后均匀量化。这两种方法可以有效地实现减少码字，并且可以表示声音振幅的影响。

量化的过程中误差的产生是不可避免的

。量化之后的信号值和原始的信号值之间的差被称为量化误差，也可称为量化噪声。信号的量化信噪比是指信号与量化噪声之间的功率比。量化信噪比可表示为：

（2.5）

其中，

代表输入语音信号的方差，

代表信号的峰值，B代表量化分辨率，

代表噪声的方差。

3.2.3 预加重

由于发生过程中声门的激励与鼻辐射会产生能量的损耗，语音信号的平均功率谱受到影响。这使得在低频和中频的语音信号能量比在高频率处高得多。这样的现象不利于语音信号的分析和处理，所以预加重的目的在于增强信号的高频部分。

据了解，能量的损耗存在以下特点：当语音信号的频率加大2倍时，它的功率谱

约下降

。因此，我们可以采用

（一阶）来增强高频部分，以实现预加重的目的。语音信号预加重后，高频部分的能量的振幅和频率与低中频部分基本一致。

3.2.4 加窗

语音信号拥有短时平稳性，所以在短时段内（20~30ms的时间段内），语音信号的频域特征和少许物理特征基本保持稳定。为语音信号加窗就是利用它的这一重要特性。加窗即是对语音信号进行分帧。通常使用一个长度固定的窗函数来选取语音信号的某一段，每一段称为一个帧。

目前常用的窗函数有两种：

1．矩形窗，窗函数如下：

（2.6）

2．哈明窗(Hamming窗)，窗函数如下：

（2.7）

3．汉宁窗（Hanning窗），窗函数如下：

（2.8）

帧的长度表示为N（单位是ms），一般帧长取10~20ms。分帧既可重叠，也可连续。在分割语音信号时，前一帧和后一帧重叠的部分叫作帧移。为了尽可能的使语音信号在变化的过程中存在信息丢失，在滑动窗函数分帧时必须交叠，一般交叠部分为帧长的一半，所以帧移与帧长的比值通常取

。

3.3 特征提取模块

特征提取是将通过加窗后获得的语音分析帧进行时频域的变化，用一些特定的参数来表示。说话人语音信号的特征采用每一帧语音所特有的参数所构成的参数集合来表示。所以对于说话人的识别，特征向量的提取是至关重要的。

经过不断的实验研究，能够表示时域特征的参数有：短时平均能量、短时平均幅度和短时过零率等。语音信号的特征不仅表现在时域上，还表现在频域上。频域上的特征有：线性预测系数（LPC）、LP倒谱系数（LPCC）、Mel频率倒谱系数（MFCC）等。下面将对这些特征参数进行一一说明。

3.3.1 短时平均能量分析

对于一个语音信号，它的能量随时间的变化。所以，一个已知语音信号在时刻

的短时平均能量

表达式如下

：

（2.9）

其中，N表示窗长，

表示输入语音信号，

表示窗函数，

特殊地，当窗函数为矩形窗时，

表示如下：

（2.10）

从另一个角度来解释，令：

（2.11）

是与

有关的滤波器，则

还可以表示为：

（2.12）

上式可以理解为：已知语音信号的平方值，经过一个冲激函数为

的滤波器，最后输出得到由短时能量构成的时间序列，如下图表示

：

图2.2 短时平均能量流程图

所以，冲激函数

的选取，也可以说窗函数的选取直接关系着短时平均能量的计算。窗长N的选择则成为重点。N不能选得过大，也不能选的过小。选得过大，则平滑作用很大，使得短时平均能量大致没有变化，没法反应语音信号的时域变化特征；选得过小，平滑力度又不够，以至于语音振幅时变的很多小特点被保存了下来，因此看不出振幅包络的改变情况。一般N的选择与语音信号的基因周期有关系。通常语音信号的基因频率在50~500Hz的范围内，从而确定了帧长（一般去10~20ms）。

短时平均能量能够作为区别清音与浊音的特征参数，因为试验研究表明，清音的短时平均能量明显低于浊音。还可以利用短时平均能量区分一段语音信号的有声段和无声段等。

3.3.2 短时平均幅度分析

对于短时平均能量，由于其需要计算语音信号的平方，这不仅使计算变得复杂还使得高信号和低信号之间的差距增大。因此将采用短时平均幅度

来衡量语音能量幅度的变化：

（2.13）

上式可以理解为：语音信号的各个样点值的绝对值，通过一个

的线性滤波器，最后输出得到由短时平均幅度构成的时间序列。

所以短时平均幅度继承了短时平均能量的所有优点和用途。

3.3.3 短时过零率分析

短时平均过零率作为语音信号在时域研究中的一种重要特性参数。它指每一帧内语音信号经过零值的次数。单位时间内经过零值的次数称为过零率。某段时间内过零率的平均值称为平均过零率。语音信号不是简单的正弦信号，所以平均过零率的表示方法就不那么简单。但由于语音信号是一种短时平稳信号，利用短时平均过零率能在某种程度上反应语音信号的频谱特性。短时平均过零率

表示如下：

（2.14）

其中，

为窗函数，

为符号函数，其公式如下：

（2.15）

短时平均过零率同样能够应用于清音与浊音的辨别，也能应用在语音信号的端点检测。但是仅仅使用过零率进行端点检测有一定难度，往往将短时平均能量与其结合起来进行检测使用。

3.3.4 短时自相关分析

自相关函数的功能在于权衡语音信号本身时间函数的相似性。由于浊音和清音的发音机理不同，因此二者在短时平均能量，短时平均幅度，短时平均过零率上都存在显著差异。这些差异使得它们在时间波形上也有很大不同。清音的时间波形杂乱无章，没有规律，并且波形间的相似性较差；浊音则恰好相反，它的时间波形表现出规律的周期性，波形间的相似性较好。所以能够利用短时自相关函数来分辨浊音和清音。语音信号的短时自相关函数

表示如下：

（2.16）

其中

。

式（2.16）表示，语音信号的自相关函数

可由信号

通过一个冲激函数

的滤波器组成。

通过实验，可知浊音与清音的短时自相关函数存在以下特征：

（1）浊音信号的短时自相关函数具有一定的周期性；

（2）清音信号的短时自相关函数杂乱无章，不存在周期性，其性质与噪声信号类似；

（3）窗函数影响着自相关函数，窗长直接影响自相关函数。

3.3.5 LPC倒谱系数（LPCC）

倒谱系数是指语音信号

变换的对数模函数的逆

变换。通常先求信号的傅里叶变换，然后区模的对数，再求傅里叶逆变换。

使已知语音的采样值与线性预测采样值之间达到最小均方差误差，便可得出线性预测系数LPC。LPC是一种参数谱估计方法，并且它的函数的频率响应

反应了声道的频率响应和被分析语音信号的频谱包络。因此，可对

做傅里叶变换得到倒谱系数。，这样的倒谱系数是一种良好的表述信号的参数。

LPC倒谱系数的优点在于：比较完整地去除了语音信号产生的激励信息，LPCC系数的计算量较小，易实现，表述元音的能力强。往往只需几个倒谱系数就可以准确的表述语音信号的共振峰特性。弊端有：表述辅音的能力不好，抗噪声性能也不好。LPCC也继承了LPC的缺点，LPC中包含语音信号高频部分的大部分噪声特征，这会影响系统的性能。

3.3.6 Mel频率倒谱系数（MFCC）

MFCC倒谱系数数拥有良好的辨别能力和抗噪声能力，但它的计算量很大，计算精度要求很高。Mel频率倒谱系数是频率轴的信号频谱转换为Mel尺度变换的倒谱域，然后获得倒谱系数。

由于人类对约1000Hz以上的声响频率范围的感知不遵循线性关系，而是遵循在对数频率坐标上的近似线性关系。所以， Mel频率的计算公式可以表示为：

（2.17）

MFCC参数的计算过程如下：

（1）对计算已知语音信号的傅里叶变换获得其频谱；

（2）对频谱的幅度求平方，得到能量谱；

（3）使用一组三角滤波器对（2）中得到的能量谱进行带通滤波，滤波器的数量一般和临界带数一致。假设滤波器的个数为

,滤波后得到的输出为

，其中

；

（4）对滤波后的输出取对数，然后做

点的傅里叶逆变换，并进行反离散余弦变换，得到的值即为MFCC：

（2.18）

其中，MFCC系数的个数L一般取12～16左右。

3.4 训练和识别模块

语音识别中的训练模块是把语音信号中提取的特征参数组成一个模型库，这个模型库的形成过程就是训练。而一个模型库的形成则需要几十甚至上百个特征参数。

语音识别的基本原理：将未知语音与训练获得模板集合进行对比，找出模板集合和未知语音匹配最优的集合。通过此模板识别出位置语音。

一般来说语音识别有以下几种方法：基于声道模型与语音知识的方法、模式匹配法、统计模型法与人工神经网络法。其中后三种方法使用比较广泛，其中实现模式匹配的方法有：矢量量化（VQ）和动态时间规整（DTW）；实现统计模型法最常用的方法是隐马尔科夫模型（HMM）；常用的人工神经网络法有：反向传播（BP）网络、径向基函数网络（RBF）和小波网络。

3.4.1 矢量量化模型(VQ)

在语音识别研究中，矢量量化(Vector Quantization，VQ)是一种极其重要的语音信号压缩和识别算法，其具有良好模型训练和模式匹配性能。矢量量化的关键在于是否设计了一个好码本，任何一个说话人的语音特征在特征空间中都会形成一个具体的量化码书。识别说话人时只需要求得说话人特征与量化码本之间的距离，以最小距离作为说话人识别的准则。所以量化码本的设计直接关系着量化质量。目前最常用最直接的生成码本的算法是LGB算法。LGB算法是一个递推的过程，其具体步骤如下：

（1）设置量化码本与迭代所需要的参数：假定存储量化码本所需的全部输入矢量参数X的集合为S；设定码本的大小为M；设定最大迭代次数是L；设定畸变改进阈值为δ；

（2）设置M个码字的初始化值：

;设置畸变初值

；设置迭代初值：

；

（3）根据最邻近规则将S划分为了M个集合

，当

时，有下列不等式成立：

（2.19）

其中，

，

表示X与Y之间的欧氏距离。

（4）计算总畸变

：

（2.20）

（5）计算畸变改进量

的相对值

：

（2.21）

（6）计算新码字

：

（2.22）

（7）判定

成立与否：若成立则运行（8）；否则运行（9）；

（8）停止迭代，输出训练码本的码字

和总畸变量

；

（9）判断m

3.4.2 隐马尔可夫模型（HMM）

隐马尔可夫模型是目前使用最普遍的一种模型。每个说话人的语音特征是关于时间的函数，用改变状态间的转换来描述声音的特征，这是隐马尔可夫模型。建立一个隐马尔可夫模型具体步骤如下：

（1）设置总状态数N；

（2）设置从状态

到状态

的转移概率为

。则用

矩阵

表示HMM中状态之间的转移，称为状态转移矩阵；

（3）设

是状态j时的特征向量x的概率密度，则有：

（2.23）

其中

是p维特征向量的特征空间；

(4)特征在状态i的初始值设为

，

，称之为初始概率向量，则有：

；各个状态时的概率密度函数可由一组

的参数B确定。

上述的HMM称为连续HMM模型。如果用矢量量化的方式对特征参数进行量化，特征向量只能用码本中固定的码字来表示。对于无状态j时特征的概率密度，只有状态j时特征为码本中的第k个码字的概率

，有下式成立：

（2.24）

其中参数B是一个

的矩阵,

，这样的HMM称为离散HMM模型。

离散HMM中最关键的问题是训练问题，解决这个问题最有效的方法是Baum-Welch算法和Viterbi算法。Viterbi算法和Baum-Welch算法的思想是一致的，但Viterbi算法是Baum-Welch算法的改进。

经过

时刻，用状态

到状态

的几率来表示训练得到信号的特性，输出时从状态

到状态

的转移发生次数的期望值，由此可以估计

，

。Viterbi算法的公式可以表示如下：

（2.25）

3.4.3 人工神经网络模型（ANN）

ANN的具体内容是模仿人类大脑的模型，将听觉体系中人类神经机制的信息处理系统引用到机器的研究中，因此具有学习和理解的能力。ANN在语音识别中的应用十分广泛，如分类区分、共振峰检测等。其中用的最多的是利用神经网络的分类区分能力。人工神经网络可以分辨浊音和清音，鼻音、摩擦音和爆破音。长期的实验证明了人工神经网络强大的分类区分能力。

将神经网络之所以能应用到语音识别中，是经过大量研究和训练而建立的，是语音特征在系统中的一种映射。它与传统的识别方法完全不同的地方是：单个权值与识别基元之间没有十分明确的对应关系，只存在整个权值构成的系统参数与整个识别空间之间的对应关系。从处理信息方面来看：一组信息存储在人工神经网络内部是乱中有序的，在存储信息过程中ANN对信息进行了大量的处理，而不是单纯的把信心孤立地存在内部。存储和处理信息是密不可分的。但用人工神经网络识别语音有个很大的缺陷：时序性很差，没有解决时间一致的问题。人工神经网络的具体模型如下：

当神经元j有多个输入

与一个输出

时，输入与输出的关系可表示成以下关系式:

（2.26）

其中

表示阈值，

表示从神经元i到神经元j的连接权重因子，

表示激励函数。上式也可简化为：

（2.27）

其中，

，

。

激励函数

可选择线性函数，也可选择非线性函数。常见的有：

（1）阶跃函数：

；

（2）S型函数：

；

（3）双曲正切函数：

；

（4）高斯函数：

。

最为常见、最具典型性且最简的人工神经网络是BP神经网络。BP神经网络是采用误差的反向传播算法的多层感应器神经网络，是一种单向传输的多层前向网络，网络不仅有输入与输出节点，又有单层或多层隐层的节点，同层节点中没有任何祸合。输入的语音信号首先从输入节点挨个传送到每个隐层的节点，然后传输至输出节点，每一隐层节点的输出只关系着下一隐层节点的输出。

3.4.4 HMM和ANN的混合模型

隐马尔可夫模型（HMM）和人工神经网络模型（ANN）的混合模型完整的使用了ANN的以下优点，成功掩盖了HMM的大部分缺点与不足，主要有以下三个：

(1)混合模型可以很好地适应语音数据无规律的变化。这可以不必刻意选取特殊的语音特征参数输入模型库进行训练和识别。

(2)把人类的听觉模型也融入人工神经网络中，在人工神经网络的开始端可以在同一时刻输入邻近帧的语音特征参数矢量，因此它与语音信号的真实形态更加一致。

(3)ANN的结束端可以和任何形式的概率分布函数达到一致，不仅可以很好地掌控训练模型库中的概率分布的特性，还可以很真实地描述语音信号的概率分布曲线。

四基于Matlab的说话人识别

4.1 说话人识别系统平台介绍

对于说话人识别系统平台的搭建十分简单，只需用到一台电脑，麦克风，matlab软件。

Matlab是一款强大仿真、编程软件。自1984年问世以来，经过时间的凝练，已经成为广大学者、师生最常用和最信赖的仿真软件。Matlab对人们强大的影响表现在两个方面：传统的分析设计方法在Matlab平台上运用十分方便快捷，准确度也很可靠；而新的分析设计方法也在Matlab上不断发展。基于matlab的说话人识别会用到matlab的编程功能和GUI仿真功能。

麦克风的主要作用是采集说话人语音。

本系统对于电脑的要求不高，只需安装matlab软件。以上这些平台的基础准备好了，一个说话人识别系统平台就搭建起来了。这样搭建起来的说话人识别系统不仅方面快捷，而且价格便宜。

4.2 语音采集模板(Speech Recording Plane)

语音采集模板的主要目的便是采集说话人的声音，为后来的语音处理、识别做好准备。图4.1为语音采集模块：

图4.1 语音采集模板

图4.1是利用matlab的GUI制作的。它包含了说话人的信息，如：姓名、年龄和性别。这些信息需要预先设置。对于语音的采集，设置了三个采集的下拉框：频率、时间和通道，和三个按键采集、显示语音和回放。语音信号的采集频率是指采样模块在1s内对声音信号的采集次数，采样频率越高，语音复原后就更接近实际情况。图4.1中设置了四种采集频率，

下拉框中可以选择11.025

、22.050

、44.100

和88.200

。语音采集的时间的长短也是可变的，Times(s)下拉框中设置了5s、10s、15s、30s、60s和120s六种不同的采集时间。上图实现了语音的采集(Record)、显示语音(Display)和回放(Play)，并且存储采集到的语音信号，这里采集的语音信号将被命名为“西瓜.mat”而存储下来。

4.3 预处理模板(Voice Preprocessing Plane)

预处理就是将语音进行一些基本的处理，使语音更有利于识别。前面已经介绍过预处理的方法和过程。这个模块的主要作用是截取语音有声音的部分，舍弃没有声音的时间段，然后将有声音的部分拼接在一起。同样利用matlab的GUI做了一个预处理模块，如图4.2：

图4.2 预处理模板

图4.2中设置的第一个按钮是Load Voice，即载入语音。这里载入的语音是图4.1采集的语音。点击Load Voice按钮，将出现图4.3的画面。

图4.3 载入语音

图4.2可以计算所采集语音的平均能量(mean energy)和过零率(zero cross rate)。对于平均能量，可以设置其阈值（如图4.4）并且画出平均能量的波形图。过零率同样可以设置阈值（如图4.5）并画出其波形。

图4.4 平均能量阈值图4.5 过零率阈值

图4.2中的最后还设置了两个按钮：plot cut（切割波形）、save this data（保存语音）

4.4 特征提取模板(Feature Extraction Plane)

特征提取模板的作用是提取经过预处理的语音信息的特征。图3.6描述了特征提取的过程。

图4.6特征提取模板

在特征提取过程中，首先对语音信号进行加窗。在window name下拉框中有四种窗口可供选择：hamming window（哈明窗）、hanning window（汉宁窗）和rectangular window(矩形窗)。不仅可以设置这些窗口的窗长（从128到4096），还可将不同窗口、不同窗长的窗画出来。

Extracting静态窗是语音的分帧过程。分帧分为两部分，一是帧重叠的多少；二是分帧的方法。分帧的方法采用短时傅里叶变换（STFT）。

在cepstral analysis（倒谱分析）这个大的静态框中，选择用MFCC系数的方法提取特征。因为倒谱的频率越高，其计算的准确度就越低，所以在选择倒谱的频率时往往选择低频。关于倒谱的频率，和采集频率一样，有四种（11.025

、22.050

、44.100

和88.200

）可供选择。

4.5 训练识别模板(Speech Recognition Plane)

训练识别模块采用的是MATLAB中自带的神经网络。它可以实现对语音特征的训练和识别，使用起来非常的方便，而且快捷。运行main程序，程序的最后一条指令为nnstart。这样就会弹出神经网络模板，如下图：

图4.7 神经网络识别模式

进入图4.7画面之后，点击pattern recognition tool（模式识别）进入matlab自带的神经网络模式识别工具，见图4.8。

图4.8 识别模式介绍

由图4.8可以看到关于神经网络模式识别工具的简介和模型图。人后单击next进入下一画面，如下图3.9：

图4.9 训练数据选择

图4.9中将设置输入值（inputs）和目标值（targets），这两个值将用于特征向量的训练和识别。继续点击next，知道出现图4.10的画面：

图4.10 设置神经元个数

图4.10中的number of hidden neurons（神经元的个数）可以根据自己的需要进行设置。继续点击next出现如图4.11画面：

图4.11 训练模板

图4.11将实现语音的训练过程。点击train就开始了语音的训练，训练的次数是无限的。在results框中可以看到训练结果的误差有多大。继续点击next，知道出现图4.12画面：

图4.12 保存训练结果

图4.12是语音信号训练识别的最后一步。点击save results（保存数据）实现对训练识别数据的保存。

Mian程序中编写了可以看到前20个语音信号的频谱的程序，如图4.13：

图4.13 20个语音的频谱

运行完main程序，经过神经网络的模式识别保存好数据之后。运行start程序，得到识别结果。哪一说话人的识别有错误，被误识别为哪个说话人，识别的准确率都可以表示在MATLAB的指令窗，如下图4.14：

图4.14 识别准确率

其中Q表示识别率。

四、参考代码

Main函数：

load_wav;%(1)载入数据，数据在矩阵Y中，每列一个说话人

%(2)预处理及特征提取

w=512;%窗口大小

P=0.5;%能量大小

N=size(Y,2);

fs=8000;

YY=[];%装载所有说话人向量，行向量

for i=1:N

V=preprocessing1(Y(:,i),w,P,fs);

[M1,N1]=size(V);

T=ones(M1,1)*i;

YY=[YY;[V,T]];

end

%构造ANN的多类分类数据

X=YY(:,1:end-1);

Y=YY(:,end);

clear YY;

N=size(X,1);

%识别小规模分类问题

SN=[1:10];

indx=[];

for i=1:length(SN)

indx1=find(Y(:,1)==SN(i));%

indx=[indx;indx1];

end

X1=X(indx,:);

Y1=Y(indx,:);

N1=size(X1,1);

YY=zeros(N1,length(SN));

for i=1:N1

YY(i,Y1(i,1))=1;

end

X1=X1';

YY=YY';

save XY2.mat X1 YY Y1;

clear all;

load XY2.mat;

pause(1);

nnstart

Load_wav函数：

clear;clc;

cd dataset20

N=6;%the number of sec.

Y=[];

for i=2:21

if i<10

eval(['[y,fs,Nbits,Opts]=wavread(''000' num2str(i) '-cell-A.wav'');']) ;

else

eval(['[y,fs,Nbits,Opts]=wavread(''00' num2str(i) '-cell-A.wav'');']) ;

end

Y(:,i)=y(fs:fs*N);

end

Y(:,1)=[];

cd ..

L=size(Y,1);

for i=1:20

subplot(4,5,i)

plot([1:L]/fs,Y(:,i));

axis tight;

end

preprocessing1函数：

function V_feature=preprocessing1(Y,w,P,Fs)

y=Y;

w=300;

N=length(y);

N_w=length(y)/w;

mean_y=mean(abs(y));

y_new=[];

for i=1:N_w-1

y_mean_eng(i)=mean(abs(y(((i-1)*w+1):(i+1)*w)));

if y_mean_eng(i)>=P*mean_y

y_new=[y_new;y(((i-1)*w+1):i*w)];

end

End

y_new=y_new';

WS=1024;

Over_size=0.1;

N_Banks=36;

V_feature=extraction(y_new,Fs,WS,Over_size,N_Banks);

Start函数：

[a,b]=max(output);

Y2B=[Y1(:,1),b']

Q=length(find(Y1(:,1)==b'))/length(Y1(:,1))*100

N=max(Y1);

A=[N,Q];

eval(['save A.mat'])

plot(N,Q,'O')

title('人数--识别率')

xlabel('人数')

ylabel('识别率')

你可能感兴趣的:(神经网络,算法,机器学习,人工智能,深度学习)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

基于MATLAB的说话人识别系统

一、课题介绍

二、 研究背景及意义

三 说话人识别的基本原理

3.1 语音识别基本过程

3.2 预处理模块

3.2.1 采样

3.2.2 量化

3.2.3 预加重

3.2.4 加窗

3.3 特征提取模块

3.3.1 短时平均能量分析

3.3.2 短时平均幅度分析

3.3.3 短时过零率分析

3.3.4 短时自相关分析

3.3.5 LPC倒谱系数（LPCC）

3.3.6 Mel频率倒谱系数（MFCC）

3.4 训练和识别模块

3.4.1 矢量量化模型(VQ)

3.4.2 隐马尔可夫模型（HMM）

3.4.3 人工神经网络模型（ANN）

3.4.4 HMM和ANN的混合模型

四 基于Matlab的说话人识别

4.1 说话人识别系统平台介绍

4.2 语音采集模板(Speech Recording Plane)

4.3 预处理模板(Voice Preprocessing Plane)

4.4 特征提取模板(Feature Extraction Plane)

4.5 训练识别模板(Speech Recognition Plane)

四、参考代码

你可能感兴趣的:(神经网络,算法,机器学习,人工智能,深度学习)

二、研究背景及意义

三说话人识别的基本原理

四基于Matlab的说话人识别