欧氏距离和余弦相似度的区别是什么?

原文:https://www.cnblogs.com/Jack-Lee/p/3654209.html

 

概述

  两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;

  空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。

2)计算公式

  欧氏距离(也叫欧几里得距离)公式:

欧氏距离和余弦相似度的区别是什么?_第1张图片

      余弦相似度的计算公式如下:

欧氏距离和余弦相似度的区别是什么?_第2张图片

 

3)归一化

一般来说,为了比较的方便,都会对得到的结果进行归一化处理:

1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:

  sim = 1 / (1 + dist(X,Y))

2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:

  sim = 0.5 + 0.5 * cosθ

经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。

4)相似度度量的选择

  选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:https://www.zhihu.com/question/19640394

这个也是具体情况具体分析的,看你关注的是绝对距离还是相对距离啦。 
归根结底是个相异度的问题,也就是说你说一个大的照片和一个小的照片相异么?虽然照片的内容一样。你要用欧氏距离,那差别就大了,要是用余弦夹角就小啦

这句话可以看出:欧式距离注重的是数值上的变化,而余弦相似度注重的是方向上是否是的统一(“喜欢”、“很棒” 的余弦相似度的夹角可能很小在方向上属于一致的,都是属于“好”的一类)。

 

 

 

 

你可能感兴趣的:(欧氏距离和余弦相似度的区别是什么?)