定义在两个向量(两个点)上:点 x x 和点 y y 的欧氏距离为:
Minkowski distance, 两个向量(点)的 p p 阶距离:
当 p=1 p = 1 时就是曼哈顿距离,当 p=2 p = 2 时就是欧氏距离。
定义在两个向量(两个点)上,这两个点在同一个分布里。点 x x 和点 y y 的马氏距离为:
其中, Σ Σ 是这个分布的协方差。
当 Σ=I Σ = I 时,马氏距离退化为欧氏距离。
定义在两个概率分布 X,Y X , Y 上, x∈X,y∈Y x ∈ X , y ∈ Y .它们的互信息为:
衡量两个向量的相关性(夹角的余弦)。向量 x,y x , y 的余弦相似度为:
理解:向量的内积除以向量的数量积。
衡量两个随机变量的相关性。随机变量 X,Y X , Y 的Pearson相关系数为:
理解:协方差矩阵除以标准差之积。
范围:[-1,1],绝对值越大表示(正/负)相关性越大。
对两个集合 X,Y X , Y ,判断他们的相关性,借用集合的手段:
理解:两个集合的交集除以并集。
扩展:Jaccard距离= 1−J 1 − J 。
Kullback–Leibler divergence,相对熵,衡量两个概率分布 P(x),Q(x) P ( x ) , Q ( x ) 的距离:
非对称距离: DKL(P||Q)≠DKL(Q||P) D K L ( P | | Q ) ≠ D K L ( Q | | P ) .
Jensen–Shannon divergence,基于KL散度发展而来,是对称度量:
其中 M=12(P+Q) M = 1 2 ( P + Q ) 。是对称度量。
Maximum mean discrepancy,度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法。两个随机变量的距离为:
其中 ϕ(⋅) ϕ ( ⋅ ) 是映射,用于把原变量映射到高维空间中。
理解:就是求两堆数据在高维空间中的均值的距离。
也是将两个分布映射到高维空间(格拉斯曼流形)中,在流形中两堆数据就可以看成两个点。Principal angle是求这两堆数据的对应维度的夹角之和。对于两个矩阵 X,Y X , Y ,计算方法:首先正交化两个矩阵,然后:
其中 m,n m , n 分别是两个矩阵的维度, θi θ i 是两个矩阵第 i i 个维度的夹角, Θ={θ1,θ2,⋯,θt} Θ = { θ 1 , θ 2 , ⋯ , θ t } 是两个矩阵SVD后的角度:
希尔伯特-施密特独立性系数,Hilbert-Schmidt Independence Criterion,用来检验两组数据的独立性:
其中 X,Y X , Y 是两堆数据的kernel形式。
推土机距离,度量两个分布之间的距离,又叫Wasserstein distance。以最优运输的观点来看,就是分布 X X 能够变换成分布 Y Y 所需要的最小代价:
一个二分图上的流问题,最小代价就是最小流,用匈牙利算法可以解决。
约束条件为
[1] http://blog.csdn.net/pipisorry/article/details/45651315
[2] http://chaofan.io/archives/earth-movers-distance-%E6%8E%A8%E5%9C%9F%E6%9C%BA%E8%B7%9D%E7%A6%BB