聚类算法介绍(欧氏距离和余弦距离)

1.聚类就是将数据集划分为若干相似对象组成的多个组或簇的过程,使得同一个组或簇相似度最大化,不同簇间相似度最小化。(有时候聚类可以评价相似性)

2.聚类的本质是分组,属于无监督机器学习(只需要特征X,不需要标签y)。

3.在聚类分析中,样本之间相似性通常采用样本之间的距离来表示,距离越大表示两个样本越不相似,差异性越大。距离越小,样本差异性越大,距离为零表示两个样本完全一样,无差异。

4.连续型数值计量方法

 

最常用的是欧氏距离(l2范数,两点之间直线距离)

曼哈顿距离(l1范数,两点之间台阶式距离)

5.如果数据是连续性的数据,我们要计算距离,就要对数据做归一化处理,防止不同维度的数据对距离计算造成影响。

6.计算空间中点的距离的时候评价远近可以用欧式距离或者余弦距离。不同的距离测度会得出不同的聚类结果。

余弦距离:假设空间中有两点,我们计算这两个点与原点连成的直线的夹角的余弦是多少度,取值范文是[-1,+1]如果越趋近于1代表越相似,越趋近于-1代表方向相反,0代表正交。

夹角越大就说明两点越不相似,夹角越小说明越相似。(简单来说,欧氏距离就是看两点之间的直线距离,余弦距离就是直接比较两点之间的夹角)

聚类算法介绍(欧氏距离和余弦距离)_第1张图片聚类算法介绍(欧氏距离和余弦距离)_第2张图片

7.如果两个向量长度相等且方向相同,那么就说这两个向量欧氏距离和余弦距离相同 

余弦距离测度效率比欧氏距离测度高

你可能感兴趣的:(K-means,分类算法,聚类,kmeans)