余弦相似度与正规化的欧氏距离的某种等价性

给一个集合, V={x|xRn} V = { x | x ∈ R n } , 和一个点 uRn u ∈ R n , 依次计算 u u V V 中各个点的距离, 然后按照从近到远排序, 就可以得到一个序列 A=<x1,x2,...> A =< x 1 , x 2 , . . . > .
距离函数可以取

  • cosine similarity
    值域 [1,1] [ − 1 , 1 ] ,越大表示越相近.
  • Euclidean distance
    值域 [0,+] [ 0 , + ∞ ] , 越小表示越近.

在二维空间中, 余弦距离是夹角, 欧氏距离是远近. 很明显二者各自得出的序列 A A 是不同的.
但要是对 u u V V 中的点作归一化呢? 得到的两个 A A 是否就相同了呢? 因为在二维空间中容易得到直观的这个推测.

真是的答案是 Yes!
cosine similarity is identical to l2-normalized euclidean distance someway.

For 2 ℓ 2 -normalized vectors x,y x , y ,

||x||2=||y||2=1, | | x | | 2 = | | y | | 2 = 1 ,

we have that the squared Euclidean distance is proportional to the cosine distance,
||xy||22=(xy)(xy)=xx2xy+yy=22xy=22cos(x,y)(9)(10)(11)(12)(1) (1) (9) | | x − y | | 2 2 = ( x − y ) ⊤ ( x − y ) (10) = x ⊤ x − 2 x ⊤ y + y ⊤ y (11) = 2 − 2 x ⊤ y (12) = 2 − 2 cos ⁡ ∠ ( x , y )

从式(1)中可以看出, 夹角越大, 欧氏距离的平方就越大, 这就是想要的证明!

参考

  1. stack-exchange, is-cosine-similarity-identical-to-l2-normalized-euclidean-distance

你可能感兴趣的:(数学,概率,统计,最优化)