分类: 分类解决的问题是从特定的数据集中挖掘模式,并作出判断的过程。
分类学习的主要过程:
(1) 给定训练数据集,数据集中存在一个类似标记作用的标记号,依据标记号来判断这个数据集是对于需要起积极作用的数据集(正向数据集)还是对需要起抑制作用的数据集(负向数据集),例如需要是分类水果是否是葡萄,那么都是葡萄的数据集就是正向数据集,非葡萄的数据集就是负向数据集。
(2)构建训练的模型,并使用数据集进行学习训练。
(3)通过训练的模型对预测数据集进行预测,并计算其结果的性能。
聚类: 一个聚类就是一些数据实例的集合,其中处于相同聚类中的数据元素彼此相似,但是处于不同聚类中的元素彼此不同,顾名思义,聚类就是将数据集中在某些方面相似的数据成员放在一起。聚类样本间的属性分为有序属性(例如浓度0.45、0.89)和无序属性(好瓜、坏瓜)两种。
由于在聚类中那些表示数据类别的分类或分组信息是没有的,即这些数据是没有标签的,所以聚类通常被归为无监督学习(Unsupervised Learning)。
分类与聚类任务的不同:
常见聚类算法:
原型聚类算法即一类假设聚类结构可以通过一组原型(样本空间中具有代表性的点)刻画的算法。是一类在现实任务中极为常见的算法。
简介: *K-Means聚类是最常用的聚类算法,最初起源于信号处理,其目标是将数据点划分为K个类簇。该算法的最大优点是简单、便于理解,运算速度较快,缺点是要在聚类前指定聚集的类簇数。
k-means算法是一种原型聚类算法。
K-Means聚类算法流程
算法举例:
数据集:
第一轮: 设定K为2,即我们要将数据集分为两类,随机选择两个点作为质心,这里选择P1 P2,那么计算每个点到质心的距离,例如P3到P1的距离为 10 = 3.16 \sqrt{10} = 3.16 10=3.16,计算P3到P2的距离为 ( 3 − 1 ) 2 + ( 1 − 2 ) 2 = 2.24 \sqrt{(3-1)^2+(1-2)^2}=2.24 (3−1)2+(1−2)2=2.24,P3离P2更近,故而P3加入P2的簇,其他点的计算同理。
一轮计算后的结果为
组1:P1 组2:P2、P3、P4、P5、P6
*第二轮:*由于组1只有一个点,无需处理,直接选择P1为质心,组2中将所有组2中的点的x、y坐标求均值后构造一个新的不存在的点作为新质心(本身不划分到某分组,只用作质心作用),构造Q( 1 + 3 + 8 + 9 + 10 5 \frac{1+3+8+9+10}{5} 51+3+8+9+10, 2 + 1 + 8 + 10 + 7 5 \frac{2+1+8+10+7}{5} 52+1+8+10+7)也即Q(6.2,5.6)和P1(0,0)作为新质心,重新计算每个点到质心的距离进行划分。
一轮计算后的结果为
组1:P1、P2、P3 组2:P4、P5、P6
*第三轮:*仍然按照上面的方法计算,略过过程,新质心R(1.33,1)、T(9,8.33)。
三轮计算后的结果为
组1:P1、P2、P3 组2:P4、P5、P6
对比发现与上一轮的结果相同,说明结果收敛,结束聚类算法。
K-Means聚类算法的优点:
K-Means聚类算法的缺点:
K-Means算法的应用举例:
我们通过K-Means可以将这些像素点聚类成K个簇,然后使用每个簇内的质心点来替换簇内所有
的像素点,这样就能实现在不改变分辨率的情况下量化压缩图像颜色,实现图像颜色层级分割。
方法: 首先对所有的样本进行样本间的距离计算,每次将距离最近的点合并到同一个类。优点类似哈夫曼树的构造,分类结束后,计算类与类之间的距离,将距离最近的类再合并成为一个大类。循环往复直到合并成为一个大类。
类与类之间的距离计算方法:最短距离法、最长距离法、中间距离法、类平均法等。
种类: 层次聚类算法根据层次分解的顺序分为:自下而上(bottom-up)和自上而下(top-down),也分别称为凝聚的(agglomerative)层次聚类算法>和分裂的(divisive)层次聚类算法。>
凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对
象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间
相似度的定义上有所不同。
上图中的计算过程矩阵为:
[ 选 中 合 并 类 别 A 选 中 合 并 类 别 B 类 间 最 小 距 离 新 类 中 元 素 个 数 0 3 0 2 4 5 1.15470054 3 1 2 2.23606798 2 6 7 4.00832467 5 ] \left[ \begin{matrix} 选中合并类别A&选中合并类别B&类间最小距离&新类中元素个数\\ 0&3&0&2\\ 4&5&1.15470054&3\\ 1&2&2.23606798&2\\ 6&7&4.00832467&5 \end{matrix} \right] ⎣⎢⎢⎢⎢⎡选中合并类别A0416选中合并类别B3527类间最小距离01.154700542.236067984.00832467新类中元素个数2325⎦⎥⎥⎥⎥⎤
注意:0和3合并后的新类用5编号,原类中号为0~4,其他遵循此规律。
树状图分类判断: 上面的聚类过程,所聚集的类别按不同的阶段有不同的组合,所以如何进行类别判断,现实任务中往往要给定将数据集分为几类。
想分为两类时,就从上往下数有两根竖线时进行切割,那么所对应的竖线下面所连接的为一类
想分三类时,就从上往下数有三根竖线时进行切割,那么所对应的竖线下面所连接的为一类
优点:
缺点:
密度聚类(DBSCAN)
需要两个参数:ε (eps) 和形成高密度区域所需要的最少点数 (minPts)
优点:
缺点:
简单抽象谱聚类过程,主要有两步:
个人学习笔记,仅交流学习,转载请注明出处!