Convolutional Neural Networks for Speech Recognition///2014

论文地址:https://www.microsoft.com/en-us/research/publication/convolutional-neural-networks-for-speech-recognition-2/

提取Audio特征用

(在每个卷积层,数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起,其中每一个称为一个feature map。在输入层,如果是灰度图片,那就只有一个feature map;如果是彩色图片,一般就是3个feature map(红绿蓝)。层与层之间会有若干个卷积核(kernel),上一层和每个feature map跟每个卷积核做卷积,都会产生下一层的一个feature map。)

摘要:最近,hvbrid深层神经网络(DNN)隐马尔可夫模型(HMM)已经被证明可以显著提高传统高斯混合模型(GMM)的语音识别性能。性能的提高部分是由于DNN在语音功能中对复杂的相关性进行建模的能力。在此基础上,我们可以通过使用卷积神经网络(CNNs)来获得进一步的误差率。我们首先对基本的CNN做一个简明的描述,并解释它如何被用于语音识别。我们进一步提出了一种有限的权重共享机制(limited-weight-sharing ,LWS)来更好地模拟语音功能的方案。这种特殊的结构,如局部连通性、权重共享、以及CNNs的pooling,都显示了在频率轴上的速度变化的微小变化,这对于处理扬声器和环境变化是很重要的。实验结果表明,CNNs的错误率比在TIMIT电话识别和语音搜索大词汇语音识别任务中降低了6%-10%。指数erms-Convolution。

简介:

自动语音识别的目的是吧人类语音转为口语化的文字。种种语言信号的不同造成完成这个很难。

三、CNN和CNN在ASR中的应用

      卷积神经网络(CNN)可以被看作是标准神经网络的一种变体。CNN没有像前一节所描述的那样使用完全连接的隐藏层,而是引入了一个特殊的网络结构,它由交替的卷积和池化层组成。

A.输入到CNN的数据的组织

       在使用CNN进行模式识别的过程中,输入数据需要被组织成大量的feature maps,以输入到CNN。这是一个从图像处理应用程序中借来的术语,在这个术语中,将输入组织为一个二维(2-D)的数组,是x和y(水平和垂直)坐标索引的像素值用于彩色图像。RGB的值可以被看作是三个不同的2Dfeature maps。在train和test时,CNNs在输入图像上滑动一个窗口,这样通过这个窗口的网络的权重可以从输入数据的各种特征中学习,而不管它们在输入中的绝对位置。Weight sharing,或者更精确地说,fiull weight sharing指的是在滑动窗口的每一个位置使用相同的权重。CNNs也经常被认为是loca的,因为在窗口的特定位置计算的单个单元依赖于窗口当前所看到的图像的局部区域的特征。

       在本节中,我们将讨论如何将语音特征向量组织到适合于CNN处理的feature map中。输入的“图像”可以粗略地看作是一个光谱图, static,delta and delta-delta特征(即,一阶和二阶时间导数)作为红色,绿色和蓝色,如下所述,对于如何精确地将它们bundle到feature map中,有不止一种选择。

       为了与这个比喻相一致,我们需要使用在频率和时间轴上预先提供位置的输入。time从locality的角度来看,没有直接的问题。就像其他的语音信息在DNNs中一样,CNN的一个输入窗口将包含大量的context(9-15帧)。至于频率,传统的MEFCCs技术确实存在一个主要问题,因为离散的余弦变换将频谱能量转化为一个新的basis,而这可能不会保持它的locality。在本文中,我们将使用从mel-frequency光谱系数(即,没有DCT)直接计算出来的log-energy来表示MFSC特征。这些将被用来表示每一个语音帧,以及它们的deltas and delta-deltas ,以描述不同频率波段的声能量分布。

Convolutional Neural Networks for Speech Recognition///2014_第1张图片

        FIG1两种不同的方法可以被用来组织输入一个CNN的语音特征。上面的例子假定有40个MFSC特征加上   

每个语音帧的15帧context窗口的一阶和二阶导数(什么什么什么?)

 

       有几种不同的选择来组织这些MFSC feature。首先,如图1(b)所示,它们可以被安排为3个2-Dfeature map,每一个都代表了在两个频率(使用频率波段索引)和时间(使用每个context窗口中的帧数)分布的MFSC feature(static、delta和delta-delta)。在这种情况下,执行一个二维的卷积(如下所述),以同时使频率和时间变化正常化。或者,我们可能只考虑标准化频率变化。在本例中,这些特性是由一维(1-D)特性映射(沿着频带索引)组成的,如图1(c)所示。例如,如果context窗口包含15帧和40个作用在每个帧上的滤波器组,wewill构造45(即15乘以3)个一维feature map ,每个map有40个维度,如图1(c)所示。在本文中,我们只关注图1(c)中在频率上的一维卷积。

       一旦形成了输入feature map ,卷积层和池化层就会应用各自的操作来生成这些层中单元的激活,如图2所示。与输入层类似,卷积层和池化层的单元也可以被organize到map中。在CNN的术语中,在图2中连续的一对卷积层和池化层通常被称为一个CNN“层”。因此,一个深度的CNN由两个或两个以上连续的一对层组成。为了避免混淆。我们将分别把卷积和池化层称为卷积和池化plies。(ply n.板层,褶)

B. Convolution ply

        如图二,每一个输入的feature map (假设I是总数),

 

C.Pooling ply

      它的feature map数量与它的卷积层中feature map的数量相同,但每map都比较小。共享层的目的是减少功能图的分辨率。这意味着,这个ply的units将作为对低卷积层的特征的概括。这个减少是通过将一个池函数应用到一个大小的局部区域中的几个单元来实现的,这个区域的大小由一个称为pooling size的参数决定。它通常是一个简单的函数,如最大化或平均。将池函数独立地应用于每个卷积feature map。当使用max-pooling函数时,the pooling ply is defined as:

 

 

你可能感兴趣的:(Convolutional Neural Networks for Speech Recognition///2014)