从频率到意义:语义向量空间模型(1)(From Frequency to Meaning: Vector Space Models of Semantics)

作者:Peter D. Turney、Patrick Pantel

翻译:华南师范大学-吴玺煜


摘要:
       计算机很难理解人类语言的意思。这严重限制了我们给计算机传达指令,限制了计算机向我们解释它们的行动,也限制了计算机分析和处理文本的能力。语义的向量空间模型(VSMs)是处理这些局限性的开端。这篇文章探究了VSMs对于语义文本处理的作用。我们按照在VSM里矩阵的结构,组织关于VSMs的文本。包括了三种广泛类型的VSMs,基于项-文档(term-document),基于词-上下文(word-context)和基于对-模式(pair-pattern)的矩阵,也产生了三类应用。我们探究了这三类别的广泛的应用,我们也介绍了每个类里的开源项目。在这篇文章中,我们的目的是展示VSMs对于语义的广阔的应用,为那些已经熟悉这个领域的人提供一个关于VSMs的新视角,也为那些对这个领域不熟的人导航。


1、简介
       充分利用电脑能力的一个很大的障碍是现在它们很难理解人类语言的意思。搜索引擎的最新进展只能抓住人类语言的表层,但还是对社会经济的影响已经是巨大的。这暗示更深层的语义技术将会引起巨大的变革。向量空间模型(VSMs),这篇文章探究的内容,很可能是这些新语义技术的一部分。
       在这篇文章,我们使用一般意义上的词语"语义"(semantics),意思是一个单词(word)、一个词组(phrase)、一个句子(sentence)、或者是人类语言任何文本的意思、这项研究的意义。我们不考虑"语义"狭义的定义,比如语义网或者基于形式逻辑的语义。我们探究了VSMs它们作为一个表示自然语言语义某一方面的方法和分布假设(distributional hypothesis)之间的联系。
        VSM被Gerard Salton和他的同事(Salton, Wong, & Yang, 1975)在SMART信息检索系统所发展(Salton, 1971)。SMART开创了很多概念,至今仍被用于现代搜索引擎(Manning, Raghavan, & Schutze, 2008)。VSM的思想是把集合里的每个文档表示(represent)为空间里的一个点(向量空间里的一个向量)。空间里的点越接近,语义相似性就越想相似;空间里的点越远,语义上就越遥远。用户的一个查询被表示为同一空间里的一个点作为一篇文档(这个查询被称为伪文档(pseudo-document))。文档按照和该查询的距离递增排序,然后展现给用户。
        VSM用在信息检索上的成功,激发了研究者拓展VSM在自然语言处理上的其他语义任务(tasks),取得了令人惊讶的结果。例如,Rapp (2003)使用基于向量的词义表示,在英语作为外语测试(TOEFL)的同义词多选题取得了92.5%的分数,然而一个人的平均得分只有64.5%。Turney (2006)使用一个基于向量的语义关系表示,在SAT大学入学测试的类比多选题得到了56%,相比于一个人57%的平均得分。
       在这篇文章,我们将过去的VSMs组织成这几个类型,包括:项-文档(term-document),词-上下文(word-context)和对-模式(pair-pattern)。我们相信有的特定类型矩阵会比其他矩阵更基础,比如在特定的语言过程或者数学过程。尽管这三种矩阵类型覆盖了大部分工作,但没有理由相信这三种排尽了所有的可能性。我们期望未来的工作将会提出新的矩阵类型或者高阶张量。

你可能感兴趣的:(搜索引擎,计算机,自然语言处理,语义,向量空间模型)