【相似度衡量】加权欧氏距离与马氏距离

观察到的问题描述

在算法demo里观察到,对数据不同维度特征进行聚类之前,会有一个归一化的过程(详细说明及其参考网页),其作用是不让某些数值远大于其他特征的特征对结果产生决定性作用。

但是在实际应用中发现,这种归一化的效果并不理想,于是我用了一些项目的先验知识对max-min归一化结果进行加权,最后取得了比较理想的结果。

在后来的学习过程中,发现了这种做法是为了解决量纲对样本影响,同时发现,马氏距离这样的度量方法也是为了解决这样的问题,于是有了这一篇学习记录。

先验知识

关于协方差和相关系数的关系,可以参考这篇文章,讲的比较通俗:

https://www.zhihu.com/question/20852004

其大致逻辑为:

协方差和相关系数的关系思维导图


马氏距离与欧氏距离

参考资料:

马氏距离与欧氏距离详解

多种度量方式小结

小结:基于欧氏距离的各种归一化方法是为了弥补不同特征量纲不同造成的影响,而马氏距离还考虑了样本不同特征之间的关系,即,一般的归一化方法,包括加权欧氏距离是建立在不同特征独立同分布的情况下,而马氏距离适用于特征之间不满足独立同分布的条件。

但是如果不同特征在不同情况下相关性不同该怎么解决?以后有新想法了再来更新。

(更新于2021.11.9,如果有更新的认知,再来更新)

P.S. L1 norm是绝对值相加,又称曼哈顿距离;L2 norm就是欧几里德距离。

你可能感兴趣的:(【相似度衡量】加权欧氏距离与马氏距离)