从频率到意义:语义向量空间模型(3)(From Frequency to Meaning: Vector Space Models of Semantics)

作者:Peter D. Turney、Patrick Pantel

翻译:华南师范大学-吴玺煜


1.3这次研究的动机

       这篇论文是对语义向量空间模型的一次研究。目前对这领域还没有全面、最新的研究。正如我们研究的结果表明,向量空间模型是一个对于语义很成功的方法,有着广泛的潜能和实际应用。最近在这领域有不断地进展。
这篇论文自然会吸引那些做自然语言的AI研究者,尤其是对语义有兴趣的研究者。这份研究将作为一个对这个领域的一般介绍,它将提供一个框架——一个统一的观点——用于梳理各种各样这个主题的文章。通过指出开放性问题和未来的研究方向,可以鼓励这领域的新研究者。
这项调查做出以下贡献:
新的框架:我们提供一个新的框架用于梳理文章:项-文档、词-上下文、对-模式矩阵(见第二章)。这一框架彰显了矩阵结构对确定潜在应用的重要性(对行和列的选择),很可能激励研究者去探究新的结构(不同类型的行和列,或者高阶张量代替矩阵)。
新的进展:我们很关注对-模式矩阵。对-模式的应用很新颖,值得更多研究。这些矩阵解决了一些针对词-上下文的批评,批评词-上下文模型缺乏对词序的敏感性。
方法和应用的范围:至今没有研究展示了语义VSMs的实际应用和可能性程度。存在的一些总结却漏了对-模式矩阵(Landauer et al., 2007)。
集中于NLP和CL:我们这次研究集中于自然语言处理和计算语言学的执行实际任务的系统。存在的综述集中于认知心理学(Landauer et al., 2007)。

成功的案例:我们被一个事实所吸引:VSMs可以说是最成功的语义方法,到目前为止。


1.4目标读者
       我们写作的目的是研究语义向量空间模型的最高水平(state of the art),介绍给刚接触这个领域的新人,和给对这领域已经熟悉的人一个新视角。
       我们假定读者已经理解了向量、矩阵和线性代数,比如那些已经从一个介绍性的课程或者从一本书里(Golub & Van Loan, 1996)学会线性代数的读者。向量和矩阵的概念比它们的数学细节更加重要。Widdows(2004)给了一个从语义的角度对向量进行了平和的介绍。
       我们还假定读者已经熟悉计算语言学和信息检索。Manning et al. (2008)提供了信息检索的好导论。对于计算语言学,我们推荐Manning and Schutze’s (1999)的文章。

       如果读者熟悉线性代数和计算语言学,那么对他来说没有理解的障碍。超过这个背景,不需要熟悉VSMs,尽管被用于信息检索、自然语言处理和计算语言学。当然,如果读者想要进一步获取背景阅读,我们推荐Landauer et al.’s (2007)。


1.5亮点和写作大纲
       本文的结构如下。第二章阐释了我们可以用于梳理VSMs的框架,按照下面几种类型的矩阵:项-文档、单词-上下文和对-模式。在这一章,我们展示了VSMs的概况,但没给出矩阵是如何从语料库的文本生成的具体细节。
在框架介绍后,第三四章探究了包括生成矩阵的具体步骤。第三章谈了语言学处理,第四章综述了数学处理。这是大多数VSM系统处理语料库的过程。(先是语言学处理,然后数学处理)
       当VSMs被用于语义,模型的输入通常是纯文本。一些VSMs直接使用原始文本,但大多数首先对文本进行语言学处理,比如说词干提取(stemming),词性标注(part-of-speech tagging),词义标注(word sense tagging),或者语法分析(parsing)。第三章扫掠了用于语义VSM的语言学工具。
       在一些简单的VSM,比如说一个简单的项-文档VSM,它文档向量的值是一个相关词汇出现在它里面的次数,但大多数VSMs对原始频率值做了一些数学处理。第四章展现了主要数学操作:对元素进行加权、平滑矩阵和比较向量(comparing the vectors)。这一章也描述了比较向量的优化策略,比如说分布稀疏矩阵乘法和随机化技术。
       在第四章的最后,读者对语义向量空间模型的生成会有一些概念。我们然后会在第五章谈论三种VSM系统的细节。在项-文档VSMs的概述后,我们展现了Lucene信息检索库。对于词-上下文VSMs,我们探究了用Lucene构建的语义向量包。在对-模式VSMs的概述后,我们叙述了S-Space包里的潜在关系分析(Latent Relational Analysis)模块,同样是用Lucene构建的。三个系统的源代码都是可用的(使用open source licensing开放源码许可)。
       我们在第六章转向研究语义VSMs广阔的应用。这一章也视作语义VSMs的历史,从6.1节的信息检索开始。我们在这里的目的是给读者展现VSMs广阔的应用,同时,如果读者想要深入研究这些应用的细节,这里也是一个指南导论。
       在项-文档矩阵,行是项、列是文档(6.1节)。一个文档提供了理解一个项的上下文。如果我们将文档的概念推广到任意长度的文字块(词组、句子、段落、章节、书、合集),结果就成了一个词-上下文矩阵,它把项-文档当作是一个特例。6.2节谈论了词-上下文的应用。6.3节考虑了对-模式矩阵,它的行是项的对(pairs of terms),列是对出现的模式(the patterns in which the pairs  occur)。
       第七章,我们讨论语义VSMs的多样性。第八章考虑VSMs的未来,提出关于它们的能力和限制。我们在第九章进行总结。

你可能感兴趣的:(Lucene,机器学习,自然语言处理,计算语言学,向量空间模型)