机器学习之聚类

衡量聚类距离的方式有很多,常用的方式有欧式距离和曼哈顿距离两种。对于两个n维数据Xi,Xj,以下是两种距离的计算公式,
机器学习之聚类_第1张图片
上图中的k代表的是维度数,最高是n维,而不是幂次数
图片裁剪的像素尺度不好,导致图片只能倒放,造成的不便还请多多包涵!

原型聚类:K-means
聚类算法有很多种,常用的聚方法包括原型聚类,密度聚类,层次聚类几种。
原型聚类是指聚类结构能通过一组原型刻画的聚类,原型是指样本空间中具有代表性的点。通常情况下,算法对原型进行初始化,然后对原型进行迭代更新求解。
k-means 算法,又称为k-均值算法(其实就是直接翻译)是原型聚类的一种,也是最常用的聚类算法。它以最小化“平均误差准则函数J”为目标,迭代地将所有数据样本划分为不同的类别,使得生成 的每个类(又称簇)内紧凑,类间独立。(其实我一直觉得,这很像分层抽样的要求)。
k-means算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相识度就越大,就越紧凑,距离越远,相识度越小,彼此之间就越独立。
k-means聚类的基本原理。
数据集:(x1,x2,…,xn),并且每个xi为d维的向量
目的:在给定分类组数k(k<=n)值的条件下,将原始的数据分成k类,分类后的数据集为S={S1,S2,…SK}
这个过程的目标是,是平均误差准则函数J值最小
机器学习之聚类_第2张图片
n为数据集样本数;k为类数,rnk为布尔值,用于判断第n个样本是否属于第k类,如果是rnk=1,否则rnk=0,uk表示的是第k个中心点。

密度聚类:DBSCAN
与原型聚类k-means算法不同,基于密度的聚类是寻找密度相连的点的集合,其主要思想是寻找被低密度区域分离的高密度区域,即将密度大的“一团”数据看成一个类,朋友的朋友还是朋友(画圆,被圈住的是一个类)
密度聚类中的两个重要参数:
1)epsilon邻域:对于一个数据集总的样本点来说,与其距离不大于epsilon点的集合为该点的epsilon邻域。
下面给出密度聚类算法中的一些基本概念。
1)密度:半径epsilon内的个数。
2)核心对象:如果一个对象的epsilon邻域至少包含最小数目MinPts个对象,则称该对象为核心对象。
3)边界点:如果一个对象是非核心对象,但它的林宇中有核心对象,则称该对象为边界对象点。
4)噪声点:除核心对象和边界点之外的点是噪声点。
5)密度可达。
6)密度相连。

层次聚类
层次聚类,顾名思义就是要一层一层地进行聚类。层次聚类几可以从下而上地吧小的cluster合并聚类,也可以是从上而下地将大的cluster进行分割。所谓从下而上地合并cluster,具体而言,就是每次找到距离最短的两个cluster,然后进行合并称一个大的cluster,知道全部合并为一个 cluster,整个过程像是建立一个数结构。
注意,层次聚类使用的是贪心算法,得到的显然只是局部最优,不一定就是全局最优。



聚类
两种中心聚类的方法:(定位中心的方式)也就是找中心点,绝对距离聚类
1,k均值 k-mean
这种聚类是根据几何中的欧式距离远近来分的类型
根据事先给定的聚类数,为每个聚类随机分配中心,计算所有样本与各个中心的距离,
将每个样本分配到域与其距离最近的中心,所在的聚类中,计算每个聚类的几何中心,
用该几何中心作为新的聚类中心,重新划分聚类,直到计算出的几何中心与上一次聚
类使用的聚类中心重合或者足够接近位置。
聚类数必须事先已知:从业务中找,选择最优化指标
聚类结果会受样本比例的影响。
聚类中心的初始位置会影响聚类结果。和梯度下降的原理很像似

彩色图变为灰度图,但是亮度等级依旧有256个,能不能压缩等级呢,把他变化为非0即1的
聚类,可以吧亮度等级将为两个维度特征
无人驾驶,前面的障碍物,无论是什么,维度越低反应速度越快,等等性能才能够更好的体验出来
图像化

2,均值漂移
自动识别聚类数,这是基于统计的方法来自动确定的
这个比较k-mean可以自动的识别聚类数,利用了概率的模式进行匹配
拟合的用的正太分布可以调整相应的均值和方差,让样本尽可能的聚类到最优化

把训练样本看成服从某种概率密度函数规则的随机分布,
在不断迭代的过程中试图寻找最佳的模式匹配,该密度函数的峰值点就是
聚类的中心,为该密度函数所覆盖的样本,即隶属于该聚类。
不需要实现给定聚类数,算法本身具有发现聚类数量的能力

没有中心的聚类方法:相对距离聚类
3,凝聚层次法:
凝聚层次聚类可以是自下而上(聚),也可以是自上而下(分)
在自下而上的算法中,每个训练样本都被看作是一个单独的集群
根据样本之间的相似度,将其不断合并,直到集群数达到事先
指定的聚类数为止,在自上而下的算法中,所有的训练样本被看作
一个大的聚类,根据样本之间的差异度,将其不断拆分,直到
集群数达到事先指定的聚类数为止。

凝聚层次算法,不同于其他基于中心的聚类算法,用它对一些在空间上具有
明显连续性,但彼此间的距离未必最近的样本,可以优先聚集,这样所构成
的聚类划分就能表现出较强的连续性

4,基于密度的噪声应用空间聚类
DBSCAN– Density-Based Spatial Clustering of Applications with Noise
基于密度的噪声应用空间聚类
朋友的朋友也是朋友
从任何一个训练样本出发,以一个事先给定的半径做圆(球),凡是不在此
圆(球)之外的样本都与圆心样本同类,再以这些同类样本为中心做圆重复以
上过程,直到没有新的同类样本加入该聚类为止,以此类推,获得样本空间中
的所有聚类,那些不属于任何聚类的样本,被称为偏离样本,位于聚类边缘的样本
,则成为外周样本,其余统一成为核心样本。

你可能感兴趣的:(AI-机器学习,概率数理统计,人工智能,计算机算法,聚类,cluster,machinelearning)