A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition(第一部分翻译)

尽管隐含马尔可夫模型(或者成为马尔可夫源)的统计方法是在二十世纪六十年代末七十年代初被介绍和研究的,但是在最近几年才变得越来月流行。它变得流行有两个原因。第一,它的数学结构是非常强大的(rich),因此可以形成它在大范围应用中使用的理论基础。第二个原因是,当被合理使用时,它在几个重要应用中表现良好。在这篇论文中,我们将回顾这个统计模型的理论方面,以及它是如何被应用在语音识别方面的。
1. 介绍
真实世界的过程通常产生可观察的输出,这些输出可能是离散的(比如来源有限字母表的字符),也可能是连续的(比如温度测量)。信号源可能是静止的(也就是说,它的统计特征不随时间变化),也可能是动态的(也就是说,它的信号特征随时间变化)。信号可能是干净的(也就是说,信号只来自一个信号源),也可能被其它信号破坏(比如,噪音),或者被扭曲变换,反射变换等。
一个基本的兴趣点是通过信号模型来秒速现实世界的信号。人们喜欢应用信号模型有三个原因。首先,一个信号可以为一个信号处理系统的理论描述提供基础,这个信号处理系统可以处理信号来提供希望得到的输出。例如,如果我们想增强被噪音和扭曲变换破坏的信号,我们可以利用信号模型设计一个系统,这个系统可以很好的移除噪音和撤销扭曲变换。为什么信号模型很重要的第二个原因是,它能让我们了解到信号源(真实世界产生信号的过程)的很多东西,即使我们并不能获得信号源。当从一个实际的信号源获得获得信号的代价很高时,这个特征就显得尤为重要。在这种情况下,只要拥有好的信号模型,我们可以模拟信号源并通过模拟尽可能多的学习。最后,信号是重要的的最重要的原因是,它们在实际中工作得非常好,使我们可以以一种有效的方式实现一个重要的实际的系统,比如,预测系统,识别系统等。
对于用哪种类型的信号模型来描述给定的信号,这里有几种选择。对于信号模型的类型,有一种广泛使用的分类方法,就是把信号模型二分为确定性模型和统计模型。确定模型通常利用信号的一些已知特定的特征,比如,这个信号是正弦波,或者指数和等。在这种情况下,信号模型的特殊性是直截了当的。所有需要确定的仅仅是信号模型的参数值,(例如,余弦波的振幅,频率,相位)。统计模型尝试刻画一个信号的统计特征。统计模型的例子包括高斯过程,泊松过程,马尔科夫过程,隐含马尔科夫过程,等等。统计模型的底层假设是,信号可以被当作一个可参数化的随机过程被很好的刻画,而且,随机过程的参数可以一种精确的、定义良好的方式确定。
对于在语音处理上的应用,确定模型和统计模型都取得了很大的成功。在这篇论文中,我们将关注统计模型的一种,隐含马尔可夫模型。我们首先将回归马尔科夫链的理论,然后通过几个简单的例子将它扩展为隐含马尔可夫模型。接下来,我们将把注意力聚焦到隐含马尔可夫模型的三个基本问题上,这三个问题是:对于一个给定的隐含马尔可夫模型,一个观察序列可能性的评估;最好的模型状态序列的确定;模型参数的调整,以便最好的解释观察信号。我们将看到,一旦这三个基本问题被解决,我们能把隐含马尔可夫模型应用在语音识别上。
通过解决隐含马尔可夫模型的三个基本问题的方式来介绍隐含马尔科夫模型的理论的观点应归功于IDA (Institute for Defense Analysis)的Jack Ferguson,他在他的演讲和作品中介绍的这种方式。
隐含马尔可夫模型的理论和它在语音识别上的应用都不是新的。基本的理论在二十世纪六十年代末七十年代于在Baum和他的同事的一系列经典论文中被发表,并在七十年代被CMU的Bakery,IBM的Jelinek和他的同事实现用于语音处理应用。然而,广泛的理解并被应用于语音处理方面仅仅是最近几年的事儿。出现这种状况的原因有几个。首先,隐含马尔可夫模型的基本理论被发表在数学杂志上,这些杂志没有广泛被致力于语音处理方面的工程师阅读。第二个原因是,原来语音处理理论的应用没有提供足够的资料给大部分读者去理解这个理论并能够把理论应用在自己的严重中。结果是,几个手册性的论文被写来为一些研究实验室提供足够的细节来帮助他们使用隐含马尔可夫模型开始他们在语音处理方面的应用。这个手册打算提供隐含马尔可夫模型的基本理论的一个概览,理论实现方法的实践细节,以及在语音识别的几个问题上的应用。这篇论文组合来自一些原始源的结果,希望能够为想要深入这个研究领域的人提供完整的背景知识。
这篇论文的组织结构如下。在第二部分,我们回顾离散马尔科夫链的理论,讲解隐含状态以及观察是状态的可能性函数是如何被有效地应用的。我们用两个简单的例子展示这个理论,这两个例子分别是,掷硬币和经典的balls-in-urns系统(这个词让我搜索到原来之前已经有人翻译该论文的这部分内容了)。第三部分,我们讨论隐含马尔可夫模型的三个基本问题,并给出几个解决这些问题的技术。在第四部分,我们讨论已经被研究的不同类型的隐含马尔可夫模型(包含ergodic as well as left-right models)。在这部分,不同的模型特征,包括观察密度函数的形式,状态持续密度,选择最好的隐含马尔可夫模型参数值的优化标准。在第五部分,我们讨论在实现隐含马尔可夫模型过程中产生的问题,包含扩展性,初始化参数估计,模型大小,模型形式(model form),丢失的数据,多观察序列。在第六部分,我们秒速词语音识别器,用隐含马尔可夫模型实现,并展示,与其它实现相比,它是如何工作的。在第七部分,我们将扩展第六部分的观点,通过连接词汇表中每个词的单独的隐含马尔科夫模型来识别一串词的问题。在第八部分,我们将简要的概括隐含马尔可夫模型是如何被应用在词汇表识别器上的,在第九部分,我们将总结这篇论文讨论的观点。
(当这部分快翻译完的时候,我在查询论文中一个奇特的短语时发现了另一个人之前已经翻译过这一部分了,这里附上链接:
http://www.lxway.com/4409941026.htm
本以为我不用继续翻译了,但遗憾的是,那个网站也就只有这一部分。)

你可能感兴趣的:(隐含马尔可夫模型)