机器学习进阶-聚类

聚类

聚类通过样本之间的相似性

理解相似度度量

聚类就是对大量位置标注的数据集,按照数据的内在相似性将数据集划分为多个类别,使类内部相似度最大。

闵可夫斯基距离/欧氏距离

杰卡德相似系数

预先相似度

聚类基本思想:对于给定的类别数目k 首先给出初始划粉,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好。

K-means 算法也被称为k均值,算法步骤 机器学习进阶-聚类_第1张图片

kmeans本身对噪声很敏感,不能过滤噪声

算法对初值很敏感,找到初值作为簇中心,簇中心选取时选择各中心之间的距离比较大,概率化的选择

高维时先用PCA降维,先过滤噪声 然后再将数据喂给算法 

将噪声看做小类,将正常数据看做大类,将噪声剔除问题转换成不平衡数据的分类问题

kmeans也存在梯度下降时类似问题可能会震荡,损失值反复横跳

损失函数、代价函数

聚类的衡量指标 均一性:一个簇中只包含一个类别的样本,则满足均一性

                               完整性:同类别样本被归类到相同簇中,则满足完整性

                                V-measure 均一性和完整性加权平均

轮廓系数 计算样本到同簇其他像本的平均距离,距离越小,说明样本越应该被聚类到该簇,将该距离成为样本的簇内不相似度。

到其他簇的所有样本的平均距离,称为簇间不相似度。距离越大说明样本越不属于其他簇。

轮廓系数为 簇间不相似度和簇内不相似度之间的公式  轮廓系数越接近1,则说明样本聚类合理,接近-1说明样本更应该分到其他簇

层次聚类 层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止

凝聚的层次聚类:AGNES  一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足

分裂的层次聚类 DIANA 采用自定乡下的策略,他首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件 (之间复杂度较高,一般不用)

密度聚类 DB SCAN  密度聚类方法指导思想是只要样本点的密度大于某个阈值,则将该样本添加到最近的簇中

DBSCAN 将簇定义为密度项链的点的最大集合。

核心对象:对于指定的数目M,如果一个对象的邻域至少包含M个对象,则成该对象为核心对象。

直接密度可达:给定一个对象集合D,如果p是在q的ε-邻域内,而q是一个核心对象,我们说对象p从对象q出发是密度可达的

密度可达,直接密度可达的传递

簇 最大的密度相连的对象的集合

噪声 不包含在任何簇中的对象

算法流程:如果一点p的ε-邻域包含多于M个对象,则创建一个p为核心对象的新簇;寻找并合并核心对象直接密度可达的对象,没有新点可以更新簇时,算法结束。

不需要树,用并查集来做

去除噪声 方差分析  把噪声分为一个类别

SpectralClustering

你可能感兴趣的:(机器学习,机器学习)