自然语言处理的最大熵方法 之1

A Maximum Entropy Approach to Natural Language Processing

(自然语言处理的最大熵方法 )

        最大熵的方法可以追溯到圣经时期(Biblical times)。但是,到了目前计算机已经变得足够的强大,在现实世界中的实际问题,比如统计估计、模式识别等问题可以用到最大熵的概念来处理。在本文,我们介绍一个基于最大熵的统计方法。展示了一个用最大似然方法来来构造的最大熵模型,以及描述了怎么样使这个方法更加有效,以上的例子是自然语言处理中的几个问题。

简介

       统计模型是用来解决构造预测随机过程行为(the behavior of a random process)的随机模型(stochastic model)的问题。在构造这个随机模型中,经常会得到一个行为产生的结果样本知识。给定了这个样本,它是随机行为的不完整的知识状态,建模问题是把这些知识变成行为的表现。然后,我们可以利用这些表现知识来预测未来的过程的行为。

棒球经理采用平均击球次数,这些数据从以前的有效击球中收集到,来计算一个球员在下一场比赛胜利的概率。因为,相应的可以知道他们操纵了那些首发阵容。华尔街的投机者(他们是报酬最高的统计建模师)通过对以往的股票走势建模,来预测明天的波动情况。利用预测到的未来走势,以此来改变他们的投资组合。自然语言研究者设计了语言和声学模型,用在语音识别系统和相关的应用上。

        在过去的几十年中,人们目睹了自然语言统计模型的预测能力的显著进步。以语言模型为例Bahl et al. (1989)用决策树模型,Della Pietra et al. (1994)用自动推断链接语法(automatically inferred link grammars)来对语言中的长距离联系(long range correlations)进行建模。在句法分析上,Black et al. (1992)描述了如何自动从标注的文本中抽取语法规则,并把这些规则用在语法统计模型上。在语音识别上,Lucassen and Mercer (1984)介绍了自动发现单词发音中单词拼写转换相关特征的技术。

       虽然在变动中,但是所有的统计模型都面临两两个基本的任务。第一是决定一组统计数据来捕捉随机过程的行为。给定了一组数据,第二个任务是建立这些过程的准确模型,这些模型能够预测未来过程的结果。第一个任务称为特征选择;第二个任务称为模型选择。在后面我们用最大熵的概念来统一的表示这两个任务。


你可能感兴趣的:(自然语言处理,语言,任务)