从频率到意义:语义向量空间模型(2)(From Frequency to Meaning: Vector Space Models of Semantics)

作者:Peter D. Turney、Patrick Pantel

翻译:华南师范大学-吴玺煜


1.1向量空间模型的动机
       VSMs有好几个吸引人的特性。VSMs从给出的语料库里自动抽取知识,因此它们比其他语义的方法需要更少的劳动力,比如手工编辑知识库(knowledge bases)和本体论(译者注:这个说法有失公允,知识库和本体论都有自动抽取的方法)。例如,用于计算英语国家语料库(BNC)的词汇相似性的VSM系统(Rapp,2003)的主要来源,对比用于用于计算词典(比如WordNet或者Roget's Thesaurus)的词汇相似性的非VSM系统(Hirst & St-Onge,,1998; Leacock & Chodrow, 1998; Jarmasz & Szpakowicz,2003)。收集新语言的语料库比建立一个词典更加简单,建立一个词典也经常涉及到收集一个语料库,比如SemCor之于WordNet (Miller, Leacock, Tengi, & Bunker, 1993)。
       VSMs在很多领域都表现良好,包括:测量词汇、词组和文章之间的语义相似性。大量搜索引擎使用VSMs去测量查询和文档的相似性(Manning et al., 2008)。测量语义相关性(semantic relatedness)的主要算法用的是VSMs(Pantel & Lin, 2002a; Rapp, 2003; Turney, Littman, Bigham, & Shnayder, 2003)。测量语义关系(semantic relations)的主要算法用的也是VSMs(Lin & Pantel, 2001; Turney, 2006; Nakov & Hearst, 2008)。(2.4节谈论3种类型相似性的不同)
       我们对VSMs的兴趣在于它们和分布假设(distributional hypothesis)、相关假设(distributional hypothesis)之间存在暧昧的关系(见2.7节)。分布假设意思是一个词汇出现在相似的上下文里,倾向于拥有相似的意思(Wittgenstein, 1953; Harris, 1954; Weaver, 1955; Firth, 1957; Deerwester, Dumais, Landauer, Furnas, & Harshman, 1990)(译者注:维特根斯坦在《哲学研究》里说过,一个词的意义就是它的用法)。将这个抽象的假设应用到测量意义的相似性时,往往会产生向量、矩阵和高阶张量。VSMs和分布假设之间亲密的关系是我们研究VSMs的强烈动机。
       不是所有使用向量和矩阵的算法都能算作向量空间模型。为了我们这次研究,我们把以下内容定义为VSMs的一个属性:在一个VSM里的元素值,必须来源于事件的频率,比如说在给定的文本里某一词汇出现的次数(见2.6节)。举个例子,一个词典或者说一个知识库,往往被看作是一个图,然后这个图很可能被表示成一个邻接矩阵的形式,但这不能说明一个词典是一个VSM,因为,一般而言,邻接矩阵的值不是来源于事件的频率。特意强调事件频率,让多样的VSM统一起来,并明确将VSM和分布假设联系在一起;而且,这排除了其他用矩阵表示的算法的麻烦事。


1.2在AI和认知科学里的向量
       向量经常用于AI和认知科学;它们比向量空间模型还要早Salton et al. (1975)。VSM的新奇之处在于使用语料库文本的频率作为发现语义信息的线索。
       在机器学习里,一个典型的问题是对已经表征成特征向量(feature vectors) (Mitchell, 1997; Witten & Frank, 2005)的项集(a set of items)进行分类或者聚类。一般来说,这些特征不是来源于事件频率,尽管它们是概率(见4.6节)。举个例子,一个机器学习算法可以用于分类或者聚类文档(Sebastiani, 2002)
协同过滤和推荐系统也使用了向量(Resnick, Iacovou, Suchak, Bergstrom, & Riedl, 1994; Breese, Heckerman, & Kadie, 1998; Linden, Smith, & York, 2003)。在一个典型的推荐系统里,我们有一个人-项(person-item)矩阵,行相当于人(顾客,消费者),列相当于项(产品,卖家),值是人给项的评价(不好,合理,太好)。许多用于项-文档矩阵(见第4章)很好的数学工具,也可以用于人-项矩阵,尽管评价不是来源于事件频率。
       在认知科学里,原型理论经常使用了向量。原型理论主要思想是类的某些成员比其他成员更中心(Rosch & Lloyd, 1978; Lakoff, 1987)。例如,robin是鸟类(分类级别)的中心成员(原型的),相比于企鹅是外围的。概念有不同的类别程度(分类级别)。顺理成章,一种把它们形式化的想法就是将概念表示成向量和类是向量的集合(Nosofsky, 1986; Smith, Osherson, Rips, & Keane, 1988)。然而,这些向量是基于数值分数,通过询问人类受试者获得的分数;它们不是基于事件频率。
       在其他领域,心理学使用大量的向量用于心理测量,研究心理能力和特征(psychological abilities and traits)的测量方法。通常的实验手段是测试或者问卷,比如说人格测试(personality test)。测试的结果往往被表示成一个对象-项(subject-item)矩阵,行被表示成实验对象(人),列被表示成测试(问卷)里的项(问题)。矩阵的值是相关对象对于相关项的答案(answer)。很多用于向量分析的技术都是从心理测量学里提出来的,比如因子分析(Spearman, 1904)。
       在认知科学,潜在语义分析(LSA)(Deerwester et al., 1990; Landauer & Dumais, 1997),语言的多维空间类比(HAL)(Lund, Burgess, & Atchley, 1995; Lund & Burgess, 1996),还有一些最近的研究(Landauer, McNamara, Dennis, & Kintsch, 2007)可以完全归进VSMs的范围里,正如上面的定义,因为这些研究使用了向量空间模型,值是来源于事件频率,比如说在给定的文本里某个词汇出现的次数。认知科学家认为从经验和理论上,都可以相信VSMs,比如LSA和HAL,是人类认知某部分的合理建模(Landauer et al., 2007)。虽然在AI,计算语言学和信息检索,这种合理性不是必要的,但显示了VSMs是一个未来可以研究的方向。

你可能感兴趣的:(机器学习,人工智能,自然语言处理,语义,向量空间模型)