欧氏距离和余弦相似度

欧氏距离和余弦相似度
前者是看成坐标系中两个 点 ,来计算两点之间的 距离 ;
后者是看成坐标系中两个 向量 ,来计算两向量之间的 夹角 。
前者因为是 点 ,所以一般指 位置 上的差别,即 距离 ;
后者因为是 向量 ,所以一般指 方向 上的差别,即所成 夹角 。
本质是一样,但没有归一化的情况下,余弦距离是计算相似程度,而欧氏距离计算的是相同程度。


欧氏距离和余弦相似度的区别是什么?
直观来说,欧式距离衡量空间点的直线距离,余弦距离衡量点在空间的方向差异。
都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。


对于稀疏向量(文本向量显然是稀疏的),一般用cosine比较好
当两用户评分趋势一致时,但是评分值差距很大,余弦相似度倾向给出更优解。举个极端的例子,两用户只对两件商品评分,向量分别为(3,3)和(5,5),这两位用户的认知其实是一样的,但是欧式距离给出的解显然没有余弦值合理。


余弦相似度只在[0,1]之间,有准则,而马氏距离在[0,无穷)之间,无判别准则.余弦相似度为0(即直交)就可以说他们很不相似,就算他们之间距离小,但是他们方向完全不一致。而马氏距离就需要另找判别准则来定义怎么算大,怎么算小。

你可能感兴趣的:(欧氏距离和余弦相似度)