聚类及其相似性度量

大家一定迷糊聚类和分类到底有什么区别,这里就离不开监督学习与无监督学习,下面一一为大家介绍。

一、监督学习与无监督学习

我是以最简单的方式来区分监督学习和无监督学习的。如果数据集是{x(n), y(n)}的样子,就是监督学习;如果是{x(n)}的样子就是无监督学习。

1、监督学习

        有输入输出。最直观的就是在监督学习中常听到训练集、验证集。在监督学习中一般是从给定的数据集中学习到一个模型函数,并且在给定一个新的输入数据的情况下,可以根据模型函数预测其结果。包括回归和分类,其中回归对应的输出y是连续的,分类对应的y是离散的(相对而言)。

2、无监督学习

        只有输入。输入数据没有被标记,也没有确定的结果。不从包含目标的训练样本中学习到有价值的信息。包括聚类和降维

二、聚类和分类

聚类与分类的最大的不同在于,聚类需要被划分的类别是未知的

1、分类

        分类的场景:给定一些输入数据X,一个函数y=f(x),给定输出类别Y。在这里Y是事先被指定好的(比较常见的是有两个输出,十个输出等)。因此分类的局限在于,必须提前知道要分几个类别和各个类别的信息。并且要求所有的输入,在通过函数或者网络后,能有属于自己的一个分类。

2、聚类

        聚类不会提前约定好分成几类,而是通过算法划分为未知的若干类,我们更关心的是是否把相似的目标分类到一起了。

三、数据间相似性度量(以距离表示)

聚类及其相似性度量_第1张图片

1、闵可夫斯基距离

        准确的来说闵科夫斯基距离是一组距离的定义,是对多个距离度量公式的概括性的表述。随着次数的增加,向量分量中的大值对距离的贡献会越大,极端下切比雪夫距离只考虑最大的那个分量。一般常用欧式距离。

聚类及其相似性度量_第2张图片

公式中的p≥1。当p=1时,称为曼哈顿距离;当p=2时,是欧氏距离;当p=∞时,是切比雪夫距离。

2、曼哈顿距离

        表示的是两个坐标之间在坐标轴上的各个方向上的距离总和。曼哈顿距离我们最能联想到到的就是城市街道,从一个点到另一个点,一般都是顺着街道走,而不是两点之间的直线距离。

聚类及其相似性度量_第3张图片

        当n=2时,表示的是二维坐标系,曼哈顿距离=x轴之间的距离+y轴之间的距离,下图中绿色线条表示的是二维空间点的曼哈顿距离;红色线表示的是二维空间点之间的欧氏距离。

聚类及其相似性度量_第4张图片

3、欧式距离

又称为欧几里得距离,表示的是空间中两点之间的直线距离。

 4、切比雪夫距离

取各个坐标数值差的绝对值的最大值。在切比雪夫距离中,一个点可以走到八个格中的任意一格。

聚类及其相似性度量_第5张图片

你可能感兴趣的:(聚类,机器学习,算法)