隐性语义索引(LSI)

1.Introduction

在向量模型中,将查询和文档均表示成同一空间下的向量,可以使用余弦相似度进行评分计算。但是,向量空间表示方法没有能力处理自然语言理解中的两个经典问题:一词多义(polysemy)和一义多词(synonymy)。使用LSI可以利用词项的共现情况,将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

2.SVD分解

文档集可以转换成词项-文档矩阵,每一行代表一个词项,每一列代表一个文档,矩阵元素(t,d)代表词项t在文档d中出现的次数。将词项-文档矩阵进行SVD分解,可以得到:

其中,r是WW^T的秩,Σ是W矩阵的奇异值(按降序排列),T的每一列都是WW^T的正交特征向量,D的每一列都是W^TW的正交特征向量,W^T代表W的转置。

接着,我们将低秩逼近应用到词项-文档矩阵的逼近问题上来。对于Σ,把对角线上r-k个最小奇异值置为0,从而得到Σ’,从新计算W’可以作为W的逼近。

3.LSI在检索应用

从原始的词项-文档矩阵W, 我们计算得到它的近似W’。在W’ 中,依然是每行对应一个词项,每列对应一个文档,区别是文档在新的空间,它的维度 k << r。

比较两个词项:

比较两个文档:

LSI检索:

对于新的查询或者文档,可以将之映射到LSI的空间中。对于q,映射到LSI空间后表示为q’,(q为列向量):

 (注:由于T是正交归一化矩阵,因此T^-1 = T^T)

得到LSI空间中的q’后,则可以通过计算D及q’的cosine值得到查询与每个文档的距离。

4.总结

使用SVD分解以及低秩逼近,可以通过文档的上下文信息来部分解决一义多词的问题。如果减低k值,召回率将提高,当d取几百之内的数目时,某些查询的正确率实际上也会得到提高。但LSI仍然延续了向量空间检索的两个缺点:无法表示否定查询及无法完成布尔条件查询,并且LSI的计算开销很大。

5.参考文献

Indexing by Latent Semantic Analysis

你可能感兴趣的:(隐性语义索引(LSI))