欧式距离和余弦相似度

欧式距离(L2)

        欧氏距离就是平时说的距离,如果平面中有两点A(x1,y1)和B(x2,y2), 那么A与B之间的欧式距离为\sqrt{(x_{1} - x_{2})^{}2 +(y_{1} - y_{2})^{}2};若在三维空间中两点A(x1,y1,z1)和B(x2,y2,z2),那么A和B之间的欧式距离为\sqrt{(x_{1} - x_{2})^{}2 +(y_{1} - y_{2})^{}2 +(z_{1} - z_{2})^{}2 },高维空间,公式依次类推。

余弦相似度

        余弦相似度用向量空间中两个向量夹角余弦值作为衡量两个个体间差异的大小;相比于距离度量,余弦相似度更加注重两向量在两方向上的差异,而非距离或长度上。下图可形象说明一下两概念的差异

欧式距离和余弦相似度_第1张图片

从上图可以看出,欧氏距离衡量的是空间各点的绝对距离,跟各个点所在的位置坐标直接相关;而余弦距离衡量的是空间向量的夹角,更加体现在方向上的差异,而不是位置。如果保持 A 点位置不变,B 点朝原方向远离坐标轴原点,那么这个时候余弦距离是保持不变的(因为夹角没有发生变化),而 A 与 B 两点的距离显然在发生变化,这就是欧式距离与余弦相似度的不同之处。

举例:歌手大赛,三个评委给三个歌手打分,第一个评委的打分(10,8,9), 第二个评委的打分(4,2,3),第三个评委的打分(8,10,9),如果采用余弦相似度来看每个评委的差异,虽然每个评委对同一个选手的评分不一样,但第一、第二两个评委对这三位歌手实力的排序是一样的,只是第二个评委对满分有更高的评判标准,说明第一、第二个评委对音乐的品味上是一致的。  因此,用余弦相似度来看,第一、第二个评委为一类人,第三个评委为另外一类。  如果采用欧氏距离, 第一和第三个评委的欧氏距离更近,就分成一类人了,但其实不太合理,因为他们对于三位选手的排名都是完全颠倒的。

各自的使用模型

根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:

欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异;

余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,多用于以用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)。

余弦相似度可能存在的不足---减均值

在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜欢这2个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。

reference:

定义及解释 https://blog.csdn.net/u011089523/article/details/80154642

           不足 https://blog.csdn.net/baoyan2015/article/details/53432009

 

你可能感兴趣的:(卷积神经网络)