基于向量空间模型的余弦相似度算法

基于向量空间模型的余弦相似度算法###

向 量 空 间 模 型 VSM ( vector space model ) 是 由 Salton 在 1975 年 的Communications of the ACM 上提出的。

它的基本思想是:

在自然界中任何事物都可以用一些最基本的元素加以表示,这些最基本的元素作为基础单元,类似于坐标系中坐标轴,通过这种假设与推理,每一个构成事物的基本元素都对应着n维空间中某个坐标系,则事物可通过各个基本元素表示为坐标系向量的形式.

那么,两个向量之间的夹角越小,则两个向量所代表的事物就越相似。

基本概念和定义

文本(document):通常是文本中具有一定规模的片断,如句子、句群、段落段落组直至整篇文本。


项/特征项(term/feature term):特征项是文本表示中最基本的元素,正是由于特征项之间的不同组合构成了文本,同时特征项作为基本元素构成了表示文本的向量形式。 文本被看作为项的集合 Document = (t1,t2,t3...tn).


项的权重(term weight): Document = (t1,t2,t3...tn)表示文档中包含 n 个关键词(特征项),在文本向量中每一个维度上的特征项tk都依据一定的原则被赋予一个特征项权重wk表示它们在文档中的重要程度.权值的计算方法有几种:基于词频(TF)的关键词权值,基于文档频率(DF)的关键词权值,基于文档频率的关键词权值,基于信息增益的关键词权值,基于卡方分布的关键词权值,基于互信息的关键词权值

我们可以(t1,t2,t3..tn)看成是一个n维坐标系。坐标系的每一个维度对应一个特征项,权重对应在坐标轴上的值。 一个文本就是坐标系中的一个向量。

D = (w1,w2,w3..wn)就是文本的向量表示

如何计算相似度

设文档 D1和D2表示向量空间模型中的两个向量
D1 = (w11,w12,w13..w1n)
D2 = (w21,w22,w23..w2n)
那么两个文本的相似度计算公式如下:

捕获.PNG

你可能感兴趣的:(基于向量空间模型的余弦相似度算法)