百面机器学习3余弦距离---笔记

问题:在该篇文章中,对于余弦距离的理解存在问题,主要是对范数的理解不够全面,下为解答

1.什么是余弦距离?

对于两个向量A和B,其余弦相似度定义为 cos ⁡ ( A , B ) = A ⋅ B ∥ A ∥ 2 ∥ B ∥ 2 \cos (A, B)=\frac{A \cdot B}{\|A\|_{2}\|B\|_{2}} cos(A,B)=A2B2AB,即两个向量 夹角的余弦,关注的是向量之间的角度关系,并不关心它们的绝对大小,其取值 范围是[−1,1]。当一对文本相似度的长度差距很大、但内容相近时,如果使用词频 或词向量作为特征,它们在特征空间中的的欧氏距离通常很大;而如果使用余弦 相似度的话,它们之间的夹角可能很小,因而相似度高。此外,在文本、图像、 视频等领域,研究的对象的特征维度往往很高,余弦相似度在高维情况下依然保 持“相同时为1,正交时为0,相反时为−1”的性质,而欧氏距离的数值则受维度的 影响,范围不固定,并且含义也比较模糊。

2.余弦距离分母该如何理解?

在该问题中如果不理解,主要原因在于没有了解什么为范数:

范数定义了向量空间里的距离。它的出现使得向量之间的比较成为了可能。
百面机器学习3余弦距离---笔记_第1张图片

定义

如果向量 x ∈ R n x \in \mathbb{R}^{n} xRn的某个实值函数 f ( x ) = ∥ x ∥ \mathbf{f}(\mathbf{x})=\|x\| f(x)=x满足:
1.正定性 ∥ x ∥ ≥ 0 \|x\| \geq 0 x0,且 ∥ x ∥ = 0 \|x\|=0 x=0当且仅当 x = 0 x=0 x=0
2.齐次性:对任意实数 α \alpha α,都有 ∥ α x ∥ = ∣ > α ∣ ∥ x ∥ \|\alpha x\|=|>\alpha|\|x\| αx=>αx
3.三角不等式:对任意 x , y ∈ R n x, y \in \mathbb{R}^{n} x,yRn,都有 ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \|x+y\| \leq\|x\|+\|y\| x+yx+y则称 ∥ x ∥ \|x\| x R n \mathbb{R}^{n} Rn.上的一个向量范数.

常用的范数有L1范数,也叫曼哈顿距离:
∥ x ∥ 1 = ∑ i ∣ x i ∣ \|x\|_{1}=\sum_{i}\left|x_{i}\right| x1=ixi

是一个向量中所有元素的绝对值之和。

L2范数,也叫欧几里得范数:
∥ x ∥ 2 = ∑ i x i 2 \|x\|_{2}=\sqrt{\sum_{i} x_{i}^{2}} x2=ixi2
对一个向量中所有元素取平方和,然后再开方。

误区

||为高中时期学习的向量的模,而在机器学习领域中更多的使用的是范数,同样表示距离,且分为两类距离,在学习中应当有所区别

你可能感兴趣的:(人工智能)