4种协同过滤中的相似度计算方法

相似度计算对象是向量,或者叫做高维空间下的坐标,那表示这个向量的数值就有两种:
实数值;

布尔值,也就是0或者1。
这几种不同计算方法适用于不同的数据种类。

1欧氏距离


欧氏距离,是一个欧式空间下度量距离的方法,不适合布尔向量之间。

2余弦相似度


余弦相似度,度量的是两个向量之间的夹角,其实就是用夹角的余弦值来度量,所以名字叫余弦相似度。
余弦相似度在度量文本相似度、用户相似度、物品相似度的时候都较为常用。它与向量的长度无关。因为余弦相似度计算需要对向量长度做归一化:

3皮尔逊相关度


皮尔逊相关度,实际上也是一种余弦相似度,不过先对向量做了中心化,向量p和q各自减去向量的均值后,再计算余弦相似度。

4杰卡德(Jaccard)相似度

杰卡德相似度,是两个集合的交集元素个数在并集中所占的比例。由于集合非常适用于布尔向量表示,所以杰卡德相似度适用于布尔值向量。

你可能感兴趣的:(4种协同过滤中的相似度计算方法)